DeepSeekMath-V2炸場!普特南競賽接近滿分,IMO 2025金牌,專攻“自驗證”推理

DeepSeek王者歸來!剛剛發佈了DeepSeekMath-V2

在IMO 2025和 CMO(中國數學奧林匹克) 2024 中,DeepSeekMath-V2均達到了金牌水平

在 Putnam(普特南數學競賽。地位:北美地區「美國和加拿大」最頂尖、最負盛名的大學本科生數學競賽) 2024 競賽中,更是隨著測試時計算量(test-time compute)的擴展,拿下了 118/120 的幾近滿分成績。

這一成果表明,自驗證數學推理(Self-Verifiable Mathematical Reasoning)是一條可行的研究路徑

核心要點如下

為什麼需要自驗證?

過去一年,大語言模型通過基於最終答案正確性的強化學習,在AIME和HMMT等定量推理競賽中取得了長足進步,甚至達到飽和

但這種方法面臨根本性侷限:

答案對  推理對:追求更高的答案精準率,並不能解決推理過程中的核心問題。

非數值任務失效:許多數學任務(如定理證明)需要嚴謹的逐步推導,而非簡單的數值答案,無法應用基於最終答案的獎勵機制

為了突破深度推理的極限,驗證數學推理的全面性和嚴謹性至關重要。

特別是對於沒有已知解決方案的開放性問題,自驗證是擴展測試時計算量(scaling test-time compute)的關鍵

DeepSeekMath-V2 是怎麼做的?

DeepSeek團隊通過以下步驟實現自驗證數學推理:

1.訓練驗證器:訓練一個精準且忠實的大模型驗證器(Verifier),專門用於定理證明。

2.訓練生成器:將上述驗證器作為獎勵模型(Reward Model)來訓練證明生成器

3.自我糾錯:激勵生成器在最終定稿前,主動識別並解決自身證明中的問題

4.動態進化:為了在生成器變強時保持“生成-驗證”的差距,通過擴展驗證計算來自動標註難以驗證的新證明,生成訓練資料以進一步提升驗證器

評測結果

DeepSeekMath-V2在IMO-ProofBench(由DeepThink IMO-Gold背後的GoogleDeepMind團隊開發)展現了強大的定理證明能力:

IMO 2025:達到金牌水平
CMO 2024:達到金牌水平。
Putnam 2024:取得118/120的超高分

快速上手

DeepSeekMath-V2建立在 DeepSeek-V3.2-Exp-Base 之上。

如需推理支援,可參考 DeepSeek-V3.2-Exp 的 GitHub 倉庫 (AI寒武紀)