在 LLM 能力迅猛擴展的今天,語言模型在對話、程式碼、文字生成中已展現出驚人的表現。然而,“能說”並不等於“能證”。尤其在數學這個對邏輯鏈條嚴絲合縫要求極高的領域,AI 是否具備真正的“思考能力”,依然是未解之問。
近日,DeepSeek 團隊發佈了其全新模型 DeepSeek-Prover-V2,向這個問題給出了一個具有里程碑意義的答案。這是一款專門為 形式化數學證明(Formal Theorem Proving)而設計的大模型,支援 Lean 4 系統的嚴謹語法,借助 DeepSeek-V3 強大的自然語言推理能力,實現了“自然語言 + 形式證明”的聯動,首次在複雜推理任務中達到了接近人類解題者的水平。
一場關於AI 數學家的冷啟動實驗
傳統的大模型在處理數學問題時面臨兩個困境:
生成式 AI 的最大瓶頸之一,不再是畫得好不好,而是畫得對不對。這背後,本質是 AI 圖像生成模型“缺乏空間理解能力”,無法基於使用者意圖精準地構圖和佈局。
形式化數學與語言模型的鴻溝
為什麼數學難?數學問題的難點不在於知識本身,而在於它對邏輯的嚴謹性提出了極高要求。傳統大模型可以“模糊應答”,但在 Lean 等形式化語言系統中,每一步推理都必須滿足:
換句話說,僅靠語言建模能力,並不能實現有效的自動數學證明。
從子目標分解到強化學習的全流程範式
DeepSeek-Prover-V2 的成功,歸功於其極具創新性的技術架構,引入了 “子目標分解 + 強化學習” 的新範式,整體流程如下:
1)冷啟動資料建構:融合自然語言與形式邏輯
目標:建構可用於訓練的高品質推理樣本
這一階段最大貢獻是:首次系統性地建構出語言-邏輯對應的高品質數學資料集。最終,整個流程構成了一條新穎的“遞迴式數學證明生成管線”,既保留了大模型的推理靈活性,又建構了形式語言的邏輯嚴謹性。
2)強化學習階段:從“能模仿”走向“能思考”
目標:最佳化模型的綜合推理能力,提升生成證明的完整性
在建構完冷啟動資料後,DeepSeek-Prover-V2 進入第二階段:強化學習訓練。
這一階段的關鍵在於:
最終產出的DeepSeek-Prover-V2-671B同時具備語言理解能力和形式推理能力。
👉快速嘗試示例:
性能要求不低,但本地運行無壓力
在數學推理最具代表性的兩個測試集上,DeepSeek-Prover-V2 交出了亮眼答卷:
PutnamBench 是從美國著名數學競賽 Putnam Exam 中抽取的高難度題目,代表著大學數學的上限挑戰。能解決其中的近 50 題,標誌著模型已具備攻克非套路性數學難題的能力。此外,模型還在高階數學科目上展現了跨學科遷移能力,包括抽象代數、泛函分析、實變函數、機率論等。
ProverBench:首個“競賽 + 教材”雙源 Lean 評測集
為更系統地評估模型的泛化能力,團隊還同步發佈了 ProverBench 資料集,包含 325 道數學題目,覆蓋高中競賽與本科課程:
這標誌著 Lean 語言首次擁有兼具教學性與挑戰性的公開測試集,為下一階段的AI 數學能力排名打下基礎。
開放生態:模型、資料與 API 全部開放
此外,模型所用程式碼全部開源,適合二次研究與跨場景遷移(如程式碼形式驗證、合約安全等)。
從數學到自動程式設計的通路是否已開啟?
DeepSeek-Prover-V2 的發佈,揭示出一種 未來 AI 推理的新範式:
這意味著,在教育領域,它可用於打造新一代 AI 數學助教;在科研領域,它為複雜定理驗證提供自動化工具;在工程實踐中,它的框架可遷移至自動程式設計、合約驗證等高邏輯場景。潛在應用包括:
DeepSeek-Prover-V2 是中國團隊在基礎模型領域的一次重大突破,也是對“AI 是否能真正理解數學”的有力回應。在大模型“模仿語言”的時代逐漸過渡到“建構邏輯”的新紀元,DeepSeek 給出的答案,是用推理和形式語言架起橋樑。 (Frank的神經網路)