開源最強!“拳打GPT 5”,“腳踢Gemini-3.0”,DeepSeek V3.2為何提升這麼多?

V3.2在工具呼叫能力上達到當前開源模型最高水平,大幅縮小了開源模型與閉源模型的差距。作為DeepSeek首個將思考融入工具使用的模型,V3.2在“思考模式”下仍然支援工具呼叫。公司通過大規模Agent訓練資料合成方法,構造了1800多個環境、85000多條複雜指令的強化學習任務,大幅提升了模型在智能體評測中的表現。

在大模型賽道逐漸從“參數競賽”走向“能力競賽”的當下,一個顯著的變化正在發生:開源模型開始在越來越多關鍵能力維度上逼近、甚至衝擊頂級閉源模型。

12月1日,DeepSeek同步發佈兩款正式版模型——DeepSeek-V3.2 與 DeepSeek-V3.2-Speciale,前者在推理測試中達到GPT-5水平,僅略低於Gemini-3.0-Pro,而後者在IMO 2025等四項國際頂級競賽中斬獲金牌。

V3.2在工具呼叫能力上達到當前開源模型最高水平,大幅縮小了開源模型與閉源模型的差距。

據官方介紹,V3.2是DeepSeek首個將思考融入工具使用的模型,在“思考模式”下仍然支援工具呼叫。該公司通過大規模Agent訓練資料合成方法,構造了1800多個環境、85000多條複雜指令的強化學習任務,大幅提升了模型在智能體評測中的表現。

V3.2證明了一件事:通過正確的架構+資料策略+工具融合設計,開源模型完全有能力成為世界級選手。Deepseek研究員苟志斌在社交平台X上發帖稱:

如果說Gemini-3證明了持續擴大預訓練規模依然有效,那麼DeepSeek-V3.2-Speciale則證明了在超大上下文下進行強化學習擴展是可行的

我們花了一年時間把DeepSeek-V3推到極限。得到的經驗是:後訓練的瓶頸,是靠最佳化方法和資料而不是靠等待一個更強的基礎模型來解決的

DSA突破性能瓶頸,“思考+工具呼叫”策略帶來質的飛躍

這次的核心飛躍,來自兩大底層創新。

第一個是DeepSeek Sparse Attention(DSA)稀疏注意力機制,DeepSeek兩個月前在實驗版(V3.2-Exp)中引入的一項關鍵結構。

該稀疏注意力機制有效解決了傳統注意力機制在長序列處理中的效率瓶頸,將注意力複雜度從O(L²)降低至O(Lk),同時保持模型性能。

在架構層面,DSA採用閃電索引器和細粒度Token選擇機制兩大元件。閃電索引器計算查詢Token與歷史Token之間的索引分數,決定那些Token被選中;細粒度Token選擇機制則基於索引分數檢索對應的鍵值條目。該機制基於MLA的MQA模式實現,確保計算效率的同時維持模型表現。

在大量使用者對比測試中發現:V3.2-Exp 在任何場景中都沒有明顯弱於 V3.1,稀疏注意力不僅沒有損失能力,反而大幅提升了效率和響應質量。這意味著,模型可以:看得更“遠”、想得更“深”、卻用更少的計算資源。

第二,DeepSeek-V3.2提升顯著的關鍵在於訓練策略的根本性改變。以往版本採用"直接調工具"的簡單模式,而V3.2創新性地實現了"思考+調工具"(Thinking in Tool-use)的融合機制。

DeepSeek-V3.2 成為首個在“思考模式”下仍然支援工具呼叫的模型。也就是說,它不再是一看到問題馬上用工具,而是變成:先分析、再規劃、再呼叫工具、再驗證、再修正。

這種表現更接近人類的“思考-行動-反思”閉環,為複雜任務(如搜尋、寫程式碼、修 Bug、規劃項目)帶來了指數級的能力上升。

資料策略的改變:1800+環境+8.5萬條複雜指令

至於模型為什麼突然變強這麼多?本質上,是訓練策略徹底升級了。

DeepSeek搭建了一條全新的大規模資料合成流水線,生成1800多個環境和85000多條高難度指令,專門用於強化學習。

這種“冷啟動+大規模合成資料RL”的訓練方法,讓模型在複雜任務如程式碼修復、搜尋等場景中的泛化能力大幅提升。通過構造“難解答、易驗證”的強化學習任務,模型學會了在推理過程中有機融合工具呼叫。

這種方式的核心價值在於:不再依賴真實人類標註,而是構造“極限題庫”錘煉模型能力。

結果也非常清晰:在程式碼修復、搜尋路徑規劃、多步驟任務中,V3.2 的泛化能力大幅領先過往版本,甚至接近閉源商業模型。

在思考上下文管理方面,V3.2採用專門針對工具呼叫場景的最佳化策略。歷史推理內容僅在新使用者消息引入時被丟棄,而在工具相關消息(如工具輸出)加入時保持推理內容,避免了模型為每次工具呼叫重複推理整個問題的低效行為。

強化學習規模化顯著增強模型能力,後訓練算力超過預訓練的10%

DeepSeek-V3.2採用可擴展的強化學習框架,後訓練計算預算超過預訓練成本的10%,這一資源投入為高級能力的釋放奠定了基礎。

該公司在GRPO(Group Relative Policy Optimization)演算法基礎上引入多項穩定性改進,包括無偏KL估計、離策略序列掩碼、保持路由等機制。

在專家蒸餾階段,該公司為每個任務領域開發專門的模型,涵蓋數學、程式設計、通用邏輯推理、智能體任務等六個專業領域,均支援思考和非思考模式。這些專家模型通過大規模強化學習訓練,隨後用於產生領域特定資料供最終檢查點使用。

混合RL訓練將推理、智能體和人類對齊訓練合併為單一RL階段,有效平衡了不同領域的性能表現,同時規避了多階段訓練常見的災難性遺忘問題。對於推理和智能體任務,採用基於規則的結果獎勵、長度懲罰和語言一致性獎勵;對於通用任務,則使用生成式獎勵模型進行評估。

大模型“權力結構”正在改變!

在與海外幾大模型的對比中,DeepSeek-V3.2展現出顯著的性能優勢。在推理能力方面,V3.2在AIME 2025測試中達到93.1%的通過率,接近GPT-5的94.6%和Gemini-3.0-Pro的95.0%。在HMMT 2025測試中,V3.2得分92.5%,與頂級閉源模型差距進一步縮小。

在智能體能力評測中,V3.2的表現尤為突出。在程式碼智能體任務SWE-Verified中獲得73.1%的解決率,在Terminal Bench 2.0中達到46.4%的精準率,顯著超越現有開源模型。在搜尋智能體評估BrowseComp中,通過上下文管理技術,V3.2從51.4%提升至67.6%的通過率。

在工具使用基準測試中,V3.2在τ2-Bench中獲得80.3%的通過率,在MCP-Universe中達到45.9%的成功率。值得注意的是,V3.2並未針對這些測試集的工具進行特殊訓練,顯示出強大的泛化能力。相比之下,同期開源模型如MiniMax-M2-Thinking在多項測試中的表現明顯落後。

DeepSeek-V3.2 的發佈背後,其實是一個更大的訊號:閉源模型的絕對技術壟斷正在被打破,開源模型開始具備一線競爭力。

這具有三層意義:

對開發者:成本更低、可定製性更強的高性能模型已出現;對企業:不必再完全依賴海外 API,也能建構強大 AI 系統;對產業:大模型軍備競賽從“誰參數大”,升級為“誰方法強”。

而DeepSeek,此時站在了最前排。 (invest wallstreet)