DeepSeek-R2尚未問世,微軟小模型撿漏稱王? 6000樣本煉出「數學作弊器」!


微軟一口氣推出了Phi-4推理模型系列:Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning。參數最多隻有14B,能在本地高效能筆記型電腦上流暢運作。而3.8B的Phi-4-mini-reasoning甚至超越8B參數的DeepSeek-R1蒸餾模型,釋放了小模型的推理能力!

現在AI流行推理模型。

可惜,4月沒有等來DeepSeek的第二代推理模型DeepSeek-R2。

但微軟,最近上新了Phi-4的推理模型,包括Phi-4-mini-reasoning,Phi-4-reasoning和Phi-4-reasoning-plus。

專案連結:https://huggingface.co/collections/microsoft/phi-4-677e9380e514feb5577a40e4

在數學推理上表現超越DeepSeek-R1蒸餾模型,但Phi-4-Mini-Reasoning參數規模較小。

微軟AI Frontiers實驗室的合作研究經理( Partner Research Manager)Ahmed Awadallah介紹了Phi-4-reasoning,總結了新模型的特點。

這個模型結合了監督微調(使用精心挑選的推理範例資料集)和強化學習進行訓練。

  • 在推理類基準測試中表現出色,可媲美DeepSeek R1等更大規模的頂級模型
  • 在新測試上依然表現強勁(如AIME 2025、HMMT)
  • 推理能力具有很強的遷移性/泛化能力,即便只經過監督微調,也能適應全新任務(如k-SAT、數學方程式求解、日程規劃等)
  • 保留並大幅提升通用能力(例如指令理解與執行)

他表示Phi-4還有不少方面需要改進,特別是在上下文長度、編碼能力和工具整合方面。

除了模型本身,微軟也分享了一份詳盡的技術報告,深入解析模型的訓練與評估流程。

論文連結:https://www.microsoft.com/en-us/research/wp-content/uploads/2025/04/phi_4_reasoning.pdf

在X上,微軟研究院AI Frontiers實驗室的主任研究員(Principal Researcher),兼威斯康辛大學副教授Dimitris Papailiopoulos介紹了關於Phi-4推理模型更多情況。

他認為Phi-4-reasoning完全達到了研究生水平,而且可以在本地PC上運作。

這超出他對AI發展的預期。

新模型參數雖少,性能強,是「小怪獸」。

性能“小怪獸”

儘管它的參數規模不大,但在諸如AIME、HMMT和OmniMath等數學基準測試中,它的表現優於或媲美更大規模的開放權重模型(如QwQ-32B、R1-70B、R1)及封閉模型(如o1-mini、sonnet 3.7)。

先來聊聊它的「整體得分」: 這個模型的規模精巧,適合在高效能筆記型電腦上流暢運作。

但同時能力出眾,能破解許多謎題──這些謎題連更大型的非推理模型,甚至某些推理模型都束手無策。

它還順利通過了DimitrisEval測試!

令人驚訝的是,推理似乎是一種真正可遷移的「元技能」,甚至只透過監督微調SFT就能學會!

證據一:即使沒有在非推理類任務上進行專門訓練,研究者在IFEval、FlenQA以及內部的PhiBench 上依然觀察到了顯著的性能提升(提升超過10分!)。

另外,在SFT階段,編碼相關的資料也非常少(RL階段則完全沒有涉及),但模型在這方面依然表現不俗,例如在LCB和Codeforces上的得分大致與o1-mini相當。

此外,Dimitris Papailiopoulos透露,程式設計是後續版本的重點方向。

證據二:在完全沒有對一些特定問題進行明確訓練(無論是SFT還是RL階段)的情況下,例如旅行商問題、迷宮求解、k-SAT、受限規劃等,模型在這些任務上的表現依然非常出色!

而Phi-4(甚至GPT-4)在這些任務上都無法做到這一點。

這充分說明了推理能力確實可以作為一種技能遷移

光是一輪很短的強化學習(只花了6000個樣本,相較之下SFT用了140萬個例子),模型的推理機制就像是被「鎖定」了一樣。

這讓Dimitris Papailiopoulos特別震撼。

他感覺這好像強化學習讓模型學會了用「自己的語言」去推理,在AIME和HMMT上的準確率提高了約10%,而在難題中的平均回答長度也增加了50%。

強化學習真的有效! !

這次發現這種推理機制被「鎖定」的現象,通常會讓模型的輸出分佈更集中,準確率也更高。

強化學習能夠顯著提升模型的能力,這點也在微軟先前的研究中也有所體現。

論文連結:https://arxiv.org/abs/2412.01951

在強化學習階段,新模型甚至沒有對數據進行特別優化:6000個問題只是從一個更大的精選數據集中隨機抽取的。

那麼,為什麼微軟沒有進行更多密集的學習訓練呢?

因為模型產生了超出32k 上下文長度(模型未訓練過的長度)的問題答案,他們只能對其進行截斷。

另外,借助平行推理計算(例如Maj@N),新的推理模型幾乎已經在AIME 2025上達到了效能上限,甚至超越了它的老師模型(o3-mini)的pass@1表現。

而且在2025年2月之前完成了所有資料的收集,HMMT也是如此。

在其他任務中,研究者也觀察到了「青出於藍」的現象,例如OmniMath和日程規劃(Calendar Planning)任務。

SFT階段的提示詞設計,加上後續的強化學習流程,似乎讓模型具備了「自我提升」的能力,超越了教師模型提供的知識範圍。

下圖洋紅色代表o3-mini,綠色代表Phi。

一個有趣的現像是:回應長度處於前25%的長文字,往往與錯誤答案強烈相關

但另一方面,在大多數評估中,整體的平均回答長度越長,準確率反而越高

也就是說,測試時加大運算資源確實有幫助,但模型在「卡住」時也容易「囉嗦」。

關於模型的侷限性,也有一些需要注意的地方:

  • 目前還沒有對超過32k上下文長度的處理能力進行充分擴展或測試。
  • 模型在處理簡單問題時容易「想太多」,而在自我評估上可能顯得過於冗長。
  • 對多輪對話的能力還沒有進行廣泛測試。

當然還有更多「盲點」有待發現,但整體來看,研究團隊感覺自己走在正確的道路上!

雙重驚喜

微軟研究院的主任研究經理(Principal Research Manager)Suriya Gunasekar,隸屬於負責開發Phi系列模型的「AGI物理學」團隊,則重點介紹了工作的核心原理。

這次微軟的Phi團隊將精力集中在後訓練階段,推出了Phi-4-reasoning(只用了SFT)和Phi-4-reasoning-plus(SFT+少量RL)。

這兩款都是14B的模型,在推理和通用任務基準測試上都展現了強大的實力,雖體積小但威力不減。

這項工作的核心在於提示選擇和針對可遷移、自我提升推理技能的實驗探索。

訓練過程中有兩大驚喜發現:

其一,只要少數領域訓練長鍊式推理(CoT)軌跡,Phi-4 就在日程規劃、迷宮求解(無需視覺輸入)、IFEva、FlenQA、KITAB(基於尋找的問答)及內部PhiBench 等多項任務中,性能實現大幅提升;

其二,即使只用6000個數學範例做最小程度的RL訓練,模型在部分基準測試中的表現也顯著提高,最高提升幅度達10%(不過token使用量增加了約1.5 倍),同時在RL階段也觀察到技能的跨領域遷移現象。

也就是說,與OpenAI和Google等主要競爭對手相比,微軟Phi-4推理系列展示了新的可能性:利用高品質資料和精細的訓練策略,小模型可以在特定任務中媲美甚至超越大型模型

核心方法

推理模型Phi-4-reasoning,擁有140 億參數,在複雜推理任務中表現強勁。

該模型基於Phi-4 進行監督微調訓練,使用的是一組精心挑選的「可傳授」(teachable)提示詞,這些提示兼具適當的複雜度與多樣性;訓練過程中使用o3-mini 生成的推理示例作為參考。

Phi-4-reasoning能夠產生詳細的推理鏈,充分利用推理過程中的計算資源。

在此基礎上,微軟進一步開發了Phi-4-reasoning-plus。

它在原始模型的基礎上通過一小階段基於結果的強化學習進行了增強,生成的推理鏈更長,性能也更強。

研究表明,精心設計的SFT資料集對於推理語言模型的效果有顯著提升作用,而強化學習(RL)則能在此基礎上進一步放大這種提升。

在SFT實驗中,即使在這種相對簡單的生成設定下,對種子問題的精挑細選與嚴格過濾依然是模型成功的關鍵。

他們將整套訓練數據都經過了嚴格去污染處理流程,確保不包含與廣泛使用的推理或通用基準測試題高度重合的數據,包括一些未在本報告中提到的基準。

被去污染處理的完整基準測試清單如下:

  • 數學與推理類:AIME-2024、MATH、GPQA、OmniMATH、GSM8k
  • 程式設計類別:LiveCodeBench、Codeforces、HumanEval、MBPP
  • 問答與通識類:SimpleQA、DROP、AGIEval、ARC-Challenge、ARC-Easy、CommonsenseQA、OpenBookQA、PIQA、WinoGrande
  • 其他評估任務:SWE-Bench Verified、ArenaHard、MT-Bench、PhiBench

透過對擁有140 億參數的Phi-4 模型進行監督微調(Supervised Finetuning, SFT),研究人員得到了Phi-4-reasoning,在此之前沒有進行任何強化學習。

SFT目標是提煉基礎模型中蘊含的結構化推理能力。

Phi-4-reasoning 的架構與Phi-4模型相同,但有兩個關鍵的修改:

  • 推理token (Reasoning tokens):基礎模型中的兩個佔位符token被重新用作 <think> 和 </think> token,分別用於token一段推理(「思考」)過程的開始和結束。
  • 增加的token長度(Increased Token Length):基礎模型(Phi-4) 最初支援的最大token長度為16K。為了容納額外的推理token,RoPE的基礎頻率增加了一倍,並且模型在最大32Ktoken長度下進行了訓練。

他們使用了合成方法產生的大量思維鏈(chain-of-thought) 推理過程範例。

使用的SFT資料集包含超過140萬個提示-回復對,總計83億個獨特的token,涵蓋了數學、程式設計等推理領域,以及用於安全和負責任AI 的對齊資料(alignment data)。

圖4a展示了關鍵指標在整個SFT迭代過程中的變化。

在訓練的早期,模型就開始使用明確的「思考」token,這表明模型很快就學會了這種淺層的結構化格式。

然而,如圖4a所示,思維鏈模組的有效性和模型的推理能力在整個訓練過程中都在提高,這表明模型不僅僅是在複製格式,而是在實際學習推理這項技能。

有趣的是,與強化學習不同,在SFT過程中,研究者並沒有看到回覆長度的增加。

事實上,如圖4b所示,平均回覆長度略有下降。

這表明隨著訓練的進行,模型正在學習更有效地利用其token預算。

為了有系統地評估不同的訓練策略,他們使用了固定的基準測試——AIME 2024 和GPQA diamond——作為進展指標。

總的來說,實驗方法可以分為兩個階段:探索(exploration) 和擴展(scaling)。

在探索階段,研究人員使用較短的訓練周期和有限的資料來源和領域來快速迭代並提取穩健的訓練方法。

在隨後的擴展階段,研究人員匯總了早期風險降低實驗的結果,並最終確定了SFT設定。

圖5總結了這個進展,重點介紹了幾個關鍵設計選擇的消融實驗(ablations)。

圖5:Phi-4-reasoning SFT實驗周期的高層次概述

圖5展示了Phi-4-reasoning監督微調(SFT)實驗周期的高層次概述,包括探索和擴展階段,使用了一部分範例實驗來表示。每個點簇代表特定訓練設計選擇的實驗結果。

圖7展示了Phi-4-reasoning-plus模型在GRPO訓練過程中的關鍵發現。

從監督微調(SFT)基礎模式Phi-4-reasoning出發,僅進行90步驟GRPO訓練就將AIME效能提升超10%(圖7a)。

繼續增加訓練步數並未帶來額外收益,這表明強SFT模型的潛力已接近性能天花板。要注意的是,GRPO訓練中輸出被限制在31k token以內,客觀上限制了GRPO的最佳化空間。

如圖7c所示,反應時間與AIME表現呈現強相關性,而獎勵分數與AIME得分的關聯較弱。這種反應長度成長效應正是GRPO訓練的預期效果-模型透過增加「思考時長」來提升推理能力。

圖7d進一步揭示:由於獎勵模型的設計,錯誤答案的生成長度成長率顯著高於正確答案(當模型目前回答錯誤時,系統會激勵其進行更長時間的思考)。

事實上,僅基於反應長度(尤其是顯著超過中位數的長響應)進行拒絕採樣就可能進一步提升GRPO效果。

如圖7d所示,訓練過程中較短反應(長度位於底部25%分位)的成長趨勢與正確答案平均長度相似,而錯誤答案長度更接近整體反應長度的75%分位。

這種分化現象表明,基於長度的拒絕採樣可透過抑制過長的錯誤輸出來提升模型效率。

(新智元)