萬萬沒想到,DeepSeek五一假期間有了新動作。
4月30日晚,AI開源社群Hugging Face突然湧入百萬流量。中國AI公司DeepSeek悄悄上線的DeepSeek-Prover-V2模型。這款參數規模達6710億的數學推理大模型,不僅以「核彈級」參數量刷新開源領域紀錄,更在數學定理證明任務中交出驚人成績單:MiniF2F測試通過率88.9%,遠超同類模型,甚至解決Putnam數學競賽中49道高難度題目378。
更令開發者興奮的是,DeepSeek此次同步開源了7B和671B兩個版本。其中,671B版本基於DeepSeek-V3-Base架構打造,支援16.38萬tokens超長上下文,可處理複雜數學證明鏈條;而7B版本則擴展至32K tokens上下文長度,兼顧推理效率與性能246。
DeepSeek R1帶來了「啊哈時刻」,Prover-V2也有令人意想不到的能力。具體來說,在普特南測試中,參數量較小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解決了13個671B模型未能解決的問題。
這一組合拳下來,直接將數學推理大模型的戰場推向新維度。
DeepSeek-Prover-V2到底是什麼?一句話總結就是:一款專為「數學AI程式語言」Lean4打造的開源大語言模型,專注於形式化定理證明。
Prover-V2透過融合非形式化推理與形式化證明,推動AI從「內容生成」向「邏輯驗證」跨越,被視為通往通用人工智慧(AGI)的重要進展。
重點君剛到Hugging Face看完了文章原文,跟大家總結一下:
1 、DeepSeek-Prover-V2
DeepSeek-Prover-V2 671B版本是前代7B車型的近百倍升級版。該模型專注於形式化數學推理,支援產生符合Lean 4等證明助手的嚴謹邏輯程式碼,旨在解決從初等數學到高等數學的複雜定理證明問題。
2 、核心技術亮點
混合專家架構(MoE):基於DeepSeek-V3架構,每層包含256個路由專家和1個共享專家,每個輸入token僅啟動8個專家,顯著提升運算效率。支援FP8、BF16、F32等計算精度,最佳化訓練和推理資源消耗。
遞迴+強化學習訓練策略:冷啟動資料合成:利用DeepSeek-V3拆解複雜定理為子目標,由7B模型產生子目標的Lean 4證明,再組合為完整證明鏈。強化學習最佳化:透過GRPO演算法從32種候選方案中擇優,結合「正確/錯誤」回饋提升推理泛化能力。
超長上下文處理:支援最長163840 tokens的輸入窗口,適配多步驟、長邏輯鏈的數學證明任務。
3 、具體性能表現
MiniF2F-test :通過率達88.9%,解決PutnamBench中49道高難度題目。
形式化證明能力:在Lean、Isabelle、Coq等系統中表現優異,如Lean4基準測試通過率89.2%,遠超通用模型(如GPT-4o的63.4%)。
ProverBench資料集:包含325題目,涵蓋AIME競賽題(15題)及初等代數、微積分等教材題(310題),系統性評估模型推理能力。
4 、應用場景
數學研究與教育:輔助數學家驗證猜想、產生詳細證明步驟,或作為教學工具分解複雜定理。
形式化驗證:應用於軟體正確性驗證、密碼學協議安全證明及硬體設計規範驗證。
工程與科學計算:支援物理模型數學基礎驗證與演算法正確性證明。
如果需要更多技術細節,大家可以點選原文連結,一鍵傳送:
DeepSeek-Prover-V2-7B 連結:
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B
DeepSeek-Prover-V2-671B 連結:
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B
另外,一直備受關注的DeepSeek R2也傳出最新消息。
根據媒體通報,R2大模型將採用更先進的混合專家模型(MoE),總參數量較前代R1提升約1倍,預計達1.2兆(R1總參數量為6710億),單位推理成本較GPT-4大減97.4%。
R2規模與ChatGPT的GPT-4 Turbo以及Google的Gemini 2.0 Pro相當,也將結合更智慧的門控網路層(Gating Network ),進而最佳化高負載推理任務的效能。
消息指出,R2將徹底擺脫NVIDIA晶片,訓練全程均未使用NVIDIA顯示卡,全部基於升騰910B(Ascend910B)晶片叢集平台,在FP16精度下,計算性能達到512 PetaFLOPS,晶片利用率高達82% ,整體性能約為NVIDIA上一代A100叢集A100 。
市場預期,這可望降低中國對海外高階AI晶片的依賴,華為全新的升騰910C晶片也開始進入大規模量產階段。 (劃重點KeyPoints)