矽谷早晨驚醒,發現追兵已至。當中國對手拿出了旗鼓相當的產品,卻打出「完全免費」的底牌時,這場仗該怎麼打?
12月1日,DeepSeek帶著他們的全新“雙子星”—— DeepSeek-V3.2正式版(日常推理的“打工仔”)和DeepSeek-V3.2-Speciale(專攻推理的“頂流學霸”)殺回來了:奧賽金牌手軟,推理能力比肩,直接開啟了AIAI客戶時代的“谷歌免費”。
「人們以為DeepSeek只是一次性突破,但我們以更大規模回歸。」計畫貢獻者陳方在社群媒體上的這句「豪言」,無異於向全球AI圈下了一封「硬核戰書」。
網路上瞬間“炸鍋”,無數用戶湧入評論區,甚至有人高呼:“ChatGPT安息吧!”
YouTube知名SEO部落客朱利安·戈爾迪(Julian Goldie)在評測後直言,這款剛發布的模型,在幾乎每一項頂級推理和編程測試中,都對那些收費昂貴、壁壘森嚴的閉源巨頭發起了強有力的挑戰。
DeepSeek-V3.2不僅在程式設計競賽中榮獲金牌,更輕鬆解決奧賽級數學難題。更瘋狂的是:它完全開源,支援直接本地運行,成本甚至僅為GPT-5的1/25。
正如網友所驚呼:「有些人還沒意識到這次發布的分量有多重!」它不僅是一項技術突破,更是對「開源比閉源落後8個月」這一說法的當頭棒喝。
現在,讓我們一起研讀「剛剛宣布」的白皮書和技術報告,看看這個V3.2究竟是如何成為「頂級AI時代的免費入場券」的。
有網友評論認為:中國在頂尖模型應用層的「追趕窗口」已經基本關閉,中美AI競賽已進入「貼身肉搏」的白熱化階段。
你還在支付昂貴的API費用?不好意思,別人已經開著免費的「頂配超跑」上路了。
性能狂飆:
頂級「學霸」Speciale的
「奧賽金牌收割機」模式
戈爾迪表示,這次發布的焦點無疑是DeepSeek-V3.2-Speciale。這個擁有6850億參數的“大聰明”,直接帶著一疊金光閃閃的“成績單”登場,讓所有閉源模型都感受到了來自“別人家孩子”的壓力。
它在幹什麼?它在「收割金牌」中:
· 2025年國際數學奧林匹克競賽(IMO):Speciale豪取35/42分,穩拿金牌
· 國際資訊學奧林匹克競賽(IOI):拿下492/600分,再度拿下金牌
· ICPC世界總決賽:一口氣解出10/12題,直接鎖定總排名第二
有網友看到這串成績直接“原地起飛”:“IMO、CMO、ICPC金牌?🏅 DeepSeek的Speciale不僅僅是突破極限——它簡直是顛覆極限!這種競技成就足以引起整個領域的關注。絕對震撼!🚀”
在與閉源巨頭的正面PK中,Speciale 更是打出了“王牌”,直接把GPT-5和Gemini 3.0 Pro“摁在地上摩擦”。它用事實證明:開源模型也能成為頂尖層次的代名詞。
· 在美國數學競賽AIME 2025上:Speciale 變體通過率達96.0% ,高於GPT-5-High 的94.6% 和Gemini-3.0-Pro 的95.0%
· 在哈佛-麻省理工HMMT 數學競賽:Speciale 得分99.2%,超越Gemini 的97.5%
同時,標準版V3.2模型在AIME 和HMMT 分別得分93.1% 和92.5%,雖略低於前沿模型,但在計算資源消耗上顯著較少。
在程式設計基準測試中,DeepSeek-V3.2在SWE-Verified 上成功解決了73.1% 的真實軟體錯誤,與GPT-5-High 的74.9%旗鼓相當。
在衡量複雜編碼工作流程的Terminal Bench 2.0上,其得分為 46.4%,顯著高於GPT-5-High 的35.2%。這意味著它在處理實際複雜程式碼工作流程時,思路更清晰、效率更高,簡直就是程式設計師的「頂級外掛」。
有網友評論道,DeepSeek 的新模型非常強大,性能已經能和GPT-5、Gemini 3.0這些頂級閉源模型正面競爭了。尤其是它在數學競賽等推理任務上的表現,標誌著開源模型達到了新高度。既然免費開源的模型已經這麼好,再花錢用閉源API 就不划算了,這宣告了開源時代的全面到來。
科技白皮書「大揭密」:
打破性能魔咒的三大突破
DeepSeek 團隊在白皮書中坦誠了一個核心痛點:儘管開源社群在努力,但閉源專有模型(如Anthropic、OpenAI)的效能提升速度更快,二者之間的效能差距非但沒有縮小,反而看似在擴大。
但V3.2就是來終結這個「魔咒」的。它的成功並非靠簡單堆疊算力,而是基於三大革命性的技術突破。戈爾迪對此進行了總結:
1. 更聰明的注意力機制
傳統大模型在閱讀長文件時之所以“慢且貴”,是因為它們必須採用更複雜的注意力機制,時刻關注所有內容,導致成本呈指數級暴增。 DeepSeek 的解決方案是稀疏注意力(DSA)配合“閃電索引器”。
DSA 不再掃描所有Token,而是透過「閃電索引器」快速檢索並只挑選最重要的部分進行聚焦。這就像是AI 快速瀏覽一本厚書,只抓住精華要點,而不是逐字閱讀。因此,即使在處理128K 的超長上下文時,推理速度也提升了約3.5倍,記憶體佔用減少70%,同時Token 消耗量顯著降低,大大提升了成本效益。
2. 「砸錢」後訓練
大多數AI 公司在模型主訓練(預訓練)完成後,只會投入一小部分預算進行後訓練(微調)。而DeepSeek 直接「財大氣粗」地將其預訓練總預算的10% 以上,全部投入了基於強化學習的後訓練中。
這種大規模的投入和專門的強化學習技術,大大提升了模型的穩定性和最終能力。他們不再滿足於“能用”,而是追求“專家級性能”。
3. 智能體合成訓練:拒絕“金魚記憶”
V3.2的Speciale 模型是專為智能體(Agent)能力而生的。它的核心優勢是「思考鏈」方法,可以多次呼叫工具而不必重新開始。
這種訓練的目的是消除傳統AI 在跨工具調用時「丟失思路」的頑疾。為了實現目標,DeepSeek 創建了一個專門的合成訓練流程,旨在改善工具使用能力。這使得V3.2原生支援「推理加工具使用」,完美適用於複雜的多步驟工作流程。
親身體驗:
免費跑「金牌模型」的
誘惑與現實
戈爾迪認為,最瘋狂的部分在於,你完全可以在當地運行它。
DeepSeek V3.2在託管網站Hugging Face 上已經完整開源,模型權重、聊天模板、本地運行指南一應俱全。對於文件助理建構者、智能體系統開發者和長上下文聊天機器人設計師來說,這簡直是天降橫福。
極客硬派可以直接去Hugging Face 或GitHub,使用VLLM、Kaggle、Google Colab 或Transformers 函式庫,動手折騰程式碼,本地運行。
嚐鮮體驗派則可造訪DeepSeek 官網,直接在網頁端體驗V3.2的「深度思考」與「非深度思考」模式。然而,我們也要保持清醒:如實測所見,目前V3.2還沒完全整合到像Ollama 或Open Router 這樣方便的第三方平台。
如果你不是“代碼狂魔”,你必須經歷“複雜的編碼工作”才能本地部署,那麼它的便利性確實打了折扣。
戈爾迪吐槽道:“老實說,對我來說,如果使用起來不那麼方便——比如必須去Hugging Face,然後折騰代碼等等——我可能不會經常使用,因為這會耗費我大量時間。”
但如果它能直接整合在聊天介面裡,戈爾迪表示會很有興趣測試並看看它的表現。
優勢與限制:
五大爽點與三大局限
當然,再強的模型也有其「成長的煩惱」。
戈爾迪總結了DeepSeek V3.2的五大優勢(爽點):能夠處理超大上下文(DSA 機制紅利)、推理高效(速度快如閃電),在推理和工具使用方面表現卓越(Agent 能力強大),具備專家級性能(基準測試中擊敗付費模型),並且完全開源。
不過,它也有三大限制:在近期世界知識方面仍有滯後(需要外部檢索RAG 來「補課」),標記效率不夠優化,且在極其複雜的推理上仍需打磨。
在戈爾迪看來,V3.2應該被視為“推理和工作流引擎”,而不是知識問答機。如果你是文件助理建構者、智能體系統開發者或長上下文聊天機器人設計師,它就是你苦候多時的「神兵利器」!
DeepSeek V3.2的發布,不僅是一個新模型,更是一個歷史性的轉捩點。它用實打實的效能數據和慷慨的開源策略,宣告了:開源與閉源之間的效能差距正在迅速抹平。(網易科技)