開源之戰全面升級。
就在業界聚焦GPT-5與Gemini的技術鴻溝之際,中國AI創業公司DeepSeek攜DeepSeek-V3.2系列雙模型登場,其在數學、程式設計等核心基準上逼近甚至超越閉源頂尖模型的表現,引發行業震動。
官方技術報告顯示,這兩款模型在數學、程式設計和長上下文等核心基準上已經接近甚至在部分任務上超越閉源領先模型。
更具顛覆性的是,DeepSeek選擇以MIT許可完全開源全部權重,對全球AI產業格局構成重大衝擊,向世界展示了中國AI的硬實力。
DeepSeek V3.2系列採用 “雙軌平行” 策略,兩款6850億參數模型精準覆蓋不同場景需求,既兼顧日常實用性,又突破極限推理天花板。
定位為 “高效實用型智能夥伴”,核心優勢是平衡推理能力與使用成本。
相較於同類模型,其輸出長度減少30%–50%,在加快響應速度的同時,將128k token(約 300 頁書籍)的解碼成本壓縮至每百萬token0.70美元,較前代降低超 70%,完美適配問答互動、通用智能體等日常場景的大規模部署。
聚焦複雜問題與競賽級任務,是追求推理極致性的 “專業選手”。
通過延長推理路徑、強化邏輯驗證能力,在IMO、IOI、ICPC、CMO四大頂級賽事中斬獲全金牌,部分競賽成績躋身全球前十,尤其擅長數學證明、高階邏輯分析等硬核場景。
需注意的是,該版本暫不支援工具呼叫,未針對日常對話最佳化,僅聚焦專業領域能力突破。
DeepSeek V3.2系列最關鍵的技術突破來自自研的DeepSeek Sparse Attention(DSA)稀疏注意力機制。
傳統模型處理長文字時需要對所有token進行兩兩計算,複雜度為O(L²),導致成本高、推理速度慢,是長文字推理面臨的最大瓶頸。
DSA通過“閃電索引器”篩選與當前任務最相關的token,僅對核心部分進行密集計算,將複雜度降低為近似線性的O(Lk),有效突破了長上下文算力限制。
實際測算中,處理128k token的解碼成本從V3.1-Terminus的2.4美元下降至V3.2的0.7美元。更重要的是,在ChatbotArena和多個長上下文測試中,該機制未導致性能下降,使模型實現了“成本下降、能力提升”的雙向突破。
在核心能力評測中,DeepSeek V3.2系列展現出對標GPT-5與Gemini的硬實力。
標準版V3.2在權威基準測試中表現亮眼:AIME 2025數學競賽93.1%通過率僅略低於GPT-5的94.6%,HMMT 2025中92.5% 的得分反超GPT-5的88.3%,LiveCodeBench程式碼評測83.3%的表現與GPT-5基本持平。
實用場景中,V3.2在SWE-Verified真實bug修復任務中達成73.1%的成功率,接近GPT-5-High的74.9%;更在Terminal Bench 2.0複雜工作流測試中以46.4%的精準率,大幅領先GPT-5-High的35.2%,凸顯紮實的工程實用性。
極限推理版Speciale則在高階競賽中再創佳績:IMO斬獲35/42分金牌、IOI以492/600分位列全球第10、ICPC國際大學生程式設計競賽全球總決賽解決10/12題獲亞軍、CMO高分奪冠,四大頂級賽事全金牌的戰績,使其建立了接近專業選手的能力壁壘,充分釋放了模型在複雜邏輯推理領域的極限潛力。
以往的模型往往在“深度思考”和“工具呼叫”之間難以兼得,而DeepSeek-V3.2是該公司首個實現深度推理與工具使用融合的模型。
V3.2的上下文管理機制能夠在多輪工具呼叫過程中保留思考鏈路,讓模型在解決複雜任務時不必重複推理,大幅提升任務流暢度。在旅行規劃、跨檔案程式碼修復、多語言網路搜尋等實際場景中,V3.2能夠以類似“智能體”的方式持續推進任務。
為了建構這一能力,DeepSeek使用了包含1800多個任務環境與85,000多條複雜指令的合成資料體系,使模型即便沒有針對特定測試工具做額外訓練,也能在智能體評測中達到開源模型的領先水平,顯著縮小了與閉源前沿模型的能力差距。
最具顛覆性的舉措來自開源策略。
DeepSeek將兩款6850億參數規模的大模型以MIT協議完全開源,提供模型權重、訓練程式碼與完整文件,並同步上線至Hugging Face。
企業和開發者不僅可以免費下載與本地化部署,還能基於開源模型進行二次訓練或深度定製,而官方還提供OpenAI相容格式的遷移指令碼,大幅降低替換成本。
在這種策略下,傳統閉源模型的API收費模式受到直接衝擊,大量企業能夠以更低成本獲得接近GPT-5的能力,同時保持資料安全與部署靈活性。
然而,由於DeepSeek的公司背景,部分海外市場在資料合規、隱私保護與監管政策方面仍可能存在現實限制,這是其全球推廣必須面對的挑戰。
儘管成績亮眼,DeepSeek在技術報告中也坦誠模型的不足,包括世界知識廣度仍弱於Gemini 3.0 Pro,部分任務需要更長的推理鏈才能達到閉源模型的最佳表現,且在部分領域仍需進行更廣泛的訓練資料補充。但通過“專家蒸餾 + 混合式強化學習”的後訓練方法,模型在多項能力上實現了相對均衡的提升。
值得關注的是,在美國對中國的晶片出口管制背景下,DeepSeek依然能保持快速迭代,並讓模型適配華為、寒武紀等國產晶片,這顯示了中國AI在逆境中的韌性與自主創新能力。
目前,V3.2已全面上線官方網站、App和API,而V3.2-Speciale則通過臨時API供研究使用,後續將逐步與主線版本整合。
DeepSeek-V3.2系列展示了中國AI在結構創新、推理能力與工程最佳化上的快速躍升,不依賴算力堆疊,而是通過稀疏注意力(DSA)、任務化訓練和工具思維實現了對閉源巨頭的快速追趕甚至部分超越。
開源策略正在重塑行業生態,使得頂尖AI能力不再被少數閉源模型壟斷。當高性能與低成本同時成為可能,全球AI應用的門檻被大幅降低,也預示著新一輪技術革新即將到來。
AI的新時代已經來臨,而DeepSeek正在成為這場浪潮中不可忽視的重要力量。 (創新觀察局)