#DeepSeek
開源和閉源模型的差距在拉大:這是 DeepSeek 論文揭示的殘酷真相
12月2日,DeepSeek 發佈了 V3.2 技術報告。在這篇論文裡,他們做了一件罕見的事:明確指出開源大模型與閉源模型的性能差距不是在縮小,而是在擴大。這是基於大量實測資料的冷靜判斷。差距正在拉大,這是事實2024年,當 DeepSeek、Qwen、GLM 等開源模型接連發佈時,社區充滿樂觀情緒。"8個月時間差"的說法廣為流傳,許多人相信開源正在追上閉源。但進入2025年,情況發生了變化。DeepSeek 在論文引言部分直言不諱地寫道:“過去幾個月出現了明顯的分化。雖然開源社區持續進步,但閉源專有模型的性能提升速度顯著更快。結果是,兩者的差距非但沒有縮小,反而在擴大,閉源系統在複雜任務上展現出越來越強的優勢。”這個觀察有資料支撐。論文對比了 DeepSeek V3.2 與 GPT-5、Gemini 3.0 Pro 在多個基準測試上的表現。在 MMLU-Pro(多學科知識測試)中,DeepSeek V3.2 得分 85.0,GPT-5 是 87.5,而 Gemini 3.0 Pro 達到了 90.1。在 GPQA Diamond(研究生等級科學問題)測試中,三者的得分分別是 82.4、85.7 和 91.9。更明顯的差距體現在 HLE(Human Last Exam,極難的文字推理測試)中。DeepSeek V3.2 的得分是 25.1,GPT-5 是 26.3,而 Gemini 3.0 Pro 高達 37.7——這個差距已經不是"接近"能形容的了。值得注意的是,DeepSeek V3.2 已經是目前最強的開源模型,在大部分開源模型的對比中都處於領先位置。但即便如此,它與頂級閉源模型之間仍然存在明顯差距,尤其是在需要深度推理和複雜任務處理的場景中。差距為何在拉大?三個結構性問題論文通過系統分析,識別出限制開源模型在複雜任務上能力的三個關鍵缺陷。這些不是表面問題,而是深層次的結構性困境。第一個問題在於架構層面。開源模型普遍依賴傳統的 vanilla attention 機制,這種機制在處理長序列時效率極低。論文指出,這種架構上的依賴"嚴重限制了長序列的效率,對可擴展部署和有效的後訓練構成了實質性障礙"。當閉源模型已經在探索更高效的注意力機制時,開源模型還在用五年前的技術架構,這本身就是一個巨大的劣勢。第二個問題是資源投入的鴻溝,尤其體現在後訓練階段。後訓練是讓模型從"會說話"變成"會思考"的關鍵環節,需要通過強化學習讓模型學會推理、工具使用和遵循複雜指令。論文透露,DeepSeek V3.2 的後訓練計算預算超過了預訓練成本的 10%。要知道,預訓練本身就是天價投入,而大部分開源模型的後訓練預算可能連 1% 都不到。這種資源投入上的差距,直接導致了性能上的代際差異。第三個問題是 AI Agent 能力的滯後。在真實應用場景中,開源模型的泛化能力和指令理解能力明顯落後。論文引用了三個關鍵的 Agent 測評基準:在 MCP-Mark 中,DeepSeek V3.2 得分 45.9,Gemini 3.0 Pro 是 51.0;在 MCP-Universe 中,前者是 80.3,後者是 87.9;在 Tool-Decathlon 中,差距更加明顯。這些數字背後反映的是開源模型在複雜多輪互動、工具呼叫、長期規劃等場景下的能力不足。論文總結道:"開源模型在泛化能力和指令跟隨能力方面展現出明顯滯後,這阻礙了它們在實際部署中的有效性。"這是一個誠實且殘酷的判斷。DeepSeek 的應對:技術路線的根本性改變認識到問題後,DeepSeek 沒有選擇簡單地堆砌參數或增加資料量,而是在三個核心維度上進行了根本性的技術創新。在架構層面,DeepSeek 引入了 DSA(DeepSeek Sparse Attention)機制。傳統注意力機制的計算複雜度是 O(L²),序列長度翻倍,計算量就要翻四倍。DSA 通過"閃電索引器"(Lightning Indexer)快速計算每個 token 的重要性評分,然後只選擇 top-k 個最重要的 token 參與注意力計算(論文中 k=2048),將複雜度從 O(L²) 降至 O(L×k)。這個改進不僅僅是理論上的最佳化。論文通過實測資料表明,在 128K 上下文長度下,DSA 大幅降低了推理成本,而性能幾乎沒有損失。更令人意外的是,在 AA-LCR(長文字推理基準)和 Fiction.liveBench(小說理解測試)中,V3.2 的表現甚至優於使用傳統注意力機制的 V3.1。這證明 DSA 不僅更快,在某些場景下質量還更好。在資源投入層面,DeepSeek 做出了超常規的決定。論文明確寫道:"近幾個月來,性能提升與擴展的 RL 訓練預算持續相關,該預算已超過預訓練成本的 10%。"這個數字在開源界極為罕見。具體來說,DeepSeek 為數學、程式設計、推理、Agent 等六大領域分別訓練了專家模型,每個都單獨進行大規模強化學習訓練。在持續預訓練階段,模型經歷了 943.7B tokens 的訓練(在 128K 上下文長度下),然後採用 GRPO(Group Relative Policy Optimization)演算法進行混合訓練,整合推理、Agent 和人類對齊三類任務。在 Agent 能力強化方面,DeepSeek 開發了系統化的任務合成流程。他們合成了超過 1800 個多樣化環境和 85,000 條複雜提示,涵蓋各種真實場景。具體包括 24,667 個程式碼 Agent 任務、50,275 個搜尋 Agent 任務、4,417 個通用 Agent 任務和 5,908 個程式碼直譯器任務。這些合成資料不是隨機生成的,而是通過冷啟動階段學習推理與工具使用的統一模式,然後在規模化階段系統地生成高品質訓練場景。效果是顯著的。在 Agent 相關的測試中,DeepSeek V3.2 顯著縮小了與閉源模型的差距,在 MCP-Universe 上達到了 80.3% 的成功率,雖然仍低於 Gemini 的 87.9%,但已經是開源模型中的最佳表現。論文總結說:“DeepSeek V3.2 成為 Agent 場景中極具成本效益的選擇,顯著縮小了開源與前沿閉源模型之間的性能差距。”論文最後寫了一句耐人尋味的話:"如果 Gemini 3.0 證明了持續擴展預訓練的潛力,DeepSeek V3.2-Speciale 則證明了在大規模上下文環境中強化學習的可擴展性。"言下之意很明顯:閉源巨頭有資源堆預訓練,但開源可以找到自己的路——通過更高效的架構和更科學的後訓練,用更少的資源實現接近的效果。這或許是開源 AI 唯一的生存之道:不是硬碰硬拚資源,而是拼技術路線的創新。至少在這一次,DeepSeek 證明了這條路是走得通的。 (矽星人Pro)
一個介面測了 N 個模型,DeepSeek V3.2 把我的頭給想禿了。。。
DeepSeek-V3.2 突然發佈,那參數強得離譜……基本上把 GPT-5 都按在地上摩擦了。圖:國外網友瘋狂研究 DeepSeek 3.2累不累啊?Benchmark 資料直接拉滿,而成本更是暴擊一堆海外頂尖模型。價格只有 GPT-5 的約 20%,輸出 Token 甚至只有它的 1/24。圖:DeepSeek  V3.2 參數大家都嗨了。而且這玩意還完美適配 Claude 生態,只需要改名成“deepdeek-reasoner”就好了。作為一個有“模型收集癖”的老玩家,我當時的反應和大家一樣:“扶我起來,我要測它!”但剛坐到電腦前,我就萎了。01| 以前測模型的“勸退”流程你們有沒有算過,以前我們要想對比測試幾個模型,得掉多少根頭髮?想測 DeepSeek?去官網。想測 Claude?去外網。想測阿里通義?去阿里雲。每個平台都得註冊帳號,綁手機,填發票資訊,還得先充值(那怕我只測幾毛錢)。最崩潰的來了。每家的 API 文件都長得不一樣!這家的參數叫 max_tokens,那家非要叫 max_output_tokens。為了相容這堆亂七八糟的介面,我得寫一堆 if-else 的“屎山程式碼”。圖:傳統的模型使用流程我就想簡單的問一句:“DeepSeek V3.2 和Claude Opus 4.5 到底誰寫程式碼更好?”結果這還沒開始測,我已經被“配環境”給勸退了。02|降維打擊:一個介面,通吃所有我實在不想再這麼折騰了,還好有朋友給我推薦了一個神器。它把市面上幾乎所有叫得上名字的頂尖模型(DeepSeek-V3.2、Opus 4.5、Gemini 3 Pro...),全部封裝成了一個標準的 OpenAI 相容介面。市面上做模型中轉的工具不少,但能以雲廠商的底座做到如此絲滑封裝的,還真不多。這就是七牛雲。它不僅僅是省事,這是玩法的降維打擊。這意味著,在我的視角裡,DeepSeek 和 Claude 不再是兩個需要分別配置的龐然大物,它們只是兩個不同的“字串名字”而已。我要做的,就是配置一次七牛雲的 Key。然後? 然後我就擁有了整個 AI 世界。03| 極致偷懶:Vibe Coding 實現“模型自由”既然介面統一了,我甚至連程式碼都懶得自己寫了。我打開了 Google AI Studio,然後開啟了 Vibe Coding(氛圍感程式設計) 模式。不到 10 分鐘,我擼了一個模型競技場出來:圖:模型競技場我一口氣把市面上的主流模型全擼了進來,想測那個測那個。這感覺,太 tm 爽啦!放在程式碼裡也一樣,以前我的程式碼(一堆亂七八糟的 import):import openaiimport anthropic# 此處省略50行噁心的配置程式碼現在我的程式碼:只需要改 model 參數,其他全都不用動client = QiniuAI(api_key="...")# 1. 遇到難題?切 CEO 帳號response = client.chat(model="deepseek-v3.2", messages=complex_task)# 2. 髒活累活?切 牛馬 帳號response = client.chat(model="qwen-turbo", messages=format_task)這就很舒服了。下次有新的模型一上,我不需要改邏輯,改個字串就能無縫升級。比如我突發奇想寫一個賽博朋克風的俄羅斯方塊,DeepSeek V3.2 Speciale 號稱宇宙無敵,先拿它來試試。結果它整整思考了 453 秒....圖:DeepSeek V 3.2 Speciale 思考時間很長然後寫了這玩意。。。圖:DeepSeek V3.2 Speciale 生成的遊戲接著我再試試 Gemini 3 Pro,我只需要在這裡換個模型名字就可以了。這回它不到 2 分鐘就完成了,快到飛起。圖:模型競技場中選擇模型而且這個效果也是碾壓啊。。 所以,模型好不好,不要光看跑分,實際跑一下吧。。。圖:Gemini 3 Pro 生成的遊戲整個過程非常絲滑,畢竟他們是做雲的,這速度非常流暢,不管模型在那,延遲都很低。但不得不說,DeepSeek V3.2 這個最牛逼的模型(Speciale),也是真的慢。04 最後的碎碎念:小孩子才做選擇這個模型競技場對我這種博主來說,太有用了。在這個“三天一個新模型”的瘋狂時代,效率就是生命。我是真的不想再把時間浪費在註冊帳號和配環境上了。很多人問我到底那個模型好?說實話這個問題沒有答案,模型各有千秋,我也會同時使用多個模型。下一步我還想做一件事兒,就是把多個模型放在一塊組成一個委員會,就是所謂的 LLM Council。圖:設想中的 LLM Council這也是有了七牛雲這個“萬能插座”後才能實現的玩法。你想想,每次你問一個問題,背後是一整個“復仇者聯盟”在給你出謀劃策。這才是 AI 正確的打開方式。小孩子才做選擇,成年人當然是全都要! (AI范兒)
DeepSeek V3.2雙模型震撼發佈,對標GPT-5,70%成本降幅重塑競爭格局
開源之戰全面升級。就在業界聚焦GPT-5與Gemini的技術鴻溝之際,中國AI創業公司DeepSeek攜DeepSeek-V3.2系列雙模型登場,其在數學、程式設計等核心基準上逼近甚至超越閉源頂尖模型的表現,引發行業震動。官方技術報告顯示,這兩款模型在數學、程式設計和長上下文等核心基準上已經接近甚至在部分任務上超越閉源領先模型。更具顛覆性的是,DeepSeek選擇以MIT許可完全開源全部權重,對全球AI產業格局構成重大衝擊,向世界展示了中國AI的硬實力。兩大模型:通用與專業的明確分工DeepSeek V3.2系列採用 “雙軌平行” 策略,兩款6850億參數模型精準覆蓋不同場景需求,既兼顧日常實用性,又突破極限推理天花板。DeepSeek-V3.2:高效全能的日常推理助手定位為 “高效實用型智能夥伴”,核心優勢是平衡推理能力與使用成本。相較於同類模型,其輸出長度減少30%–50%,在加快響應速度的同時,將128k token(約 300 頁書籍)的解碼成本壓縮至每百萬token0.70美元,較前代降低超 70%,完美適配問答互動、通用智能體等日常場景的大規模部署。DeepSeek-V3.2-Speciale:專攻極限推理的學術專家聚焦複雜問題與競賽級任務,是追求推理極致性的 “專業選手”。通過延長推理路徑、強化邏輯驗證能力,在IMO、IOI、ICPC、CMO四大頂級賽事中斬獲全金牌,部分競賽成績躋身全球前十,尤其擅長數學證明、高階邏輯分析等硬核場景。需注意的是,該版本暫不支援工具呼叫,未針對日常對話最佳化,僅聚焦專業領域能力突破。DeepSeek-V3.2系列與主流前沿模型在推理能力與智能體能力基準上的對比表現。(圖片來源:DeepSeek)技術革命:突破長上下文計算瓶頸DeepSeek V3.2系列最關鍵的技術突破來自自研的DeepSeek Sparse Attention(DSA)稀疏注意力機制。傳統模型處理長文字時需要對所有token進行兩兩計算,複雜度為O(L²),導致成本高、推理速度慢,是長文字推理面臨的最大瓶頸。DSA通過“閃電索引器”篩選與當前任務最相關的token,僅對核心部分進行密集計算,將複雜度降低為近似線性的O(Lk),有效突破了長上下文算力限制。實際測算中,處理128k token的解碼成本從V3.1-Terminus的2.4美元下降至V3.2的0.7美元。更重要的是,在ChatbotArena和多個長上下文測試中,該機制未導致性能下降,使模型實現了“成本下降、能力提升”的雙向突破。DeepSeek V3.2注意力架構:DSA稀疏機制以 “閃電索引 + Top-k篩選” 聚焦關鍵 token,實現長文字處理降本增效。(圖片來源:DeepSeek)性能全面狂飆:對標頂尖閉源模型在核心能力評測中,DeepSeek V3.2系列展現出對標GPT-5與Gemini的硬實力。標準版V3.2在權威基準測試中表現亮眼:AIME 2025數學競賽93.1%通過率僅略低於GPT-5的94.6%,HMMT 2025中92.5% 的得分反超GPT-5的88.3%,LiveCodeBench程式碼評測83.3%的表現與GPT-5基本持平。實用場景中,V3.2在SWE-Verified真實bug修復任務中達成73.1%的成功率,接近GPT-5-High的74.9%;更在Terminal Bench 2.0複雜工作流測試中以46.4%的精準率,大幅領先GPT-5-High的35.2%,凸顯紮實的工程實用性。極限推理版Speciale則在高階競賽中再創佳績:IMO斬獲35/42分金牌、IOI以492/600分位列全球第10、ICPC國際大學生程式設計競賽全球總決賽解決10/12題獲亞軍、CMO高分奪冠,四大頂級賽事全金牌的戰績,使其建立了接近專業選手的能力壁壘,充分釋放了模型在複雜邏輯推理領域的極限潛力。DeepSeek-V3.2與其他模型在各類數學、程式碼與通用領域評測集上的得分(括號內為消耗Tokens總量約數)。(圖片來源:DeepSeek)思考能力與工具使用的深度融合以往的模型往往在“深度思考”和“工具呼叫”之間難以兼得,而DeepSeek-V3.2是該公司首個實現深度推理與工具使用融合的模型。V3.2的上下文管理機制能夠在多輪工具呼叫過程中保留思考鏈路,讓模型在解決複雜任務時不必重複推理,大幅提升任務流暢度。在旅行規劃、跨檔案程式碼修復、多語言網路搜尋等實際場景中,V3.2能夠以類似“智能體”的方式持續推進任務。為了建構這一能力,DeepSeek使用了包含1800多個任務環境與85,000多條複雜指令的合成資料體系,使模型即便沒有針對特定測試工具做額外訓練,也能在智能體評測中達到開源模型的領先水平,顯著縮小了與閉源前沿模型的能力差距。上圖為思考模式下進行工具呼叫的API請求示意圖。(圖片來源:DeepSeek)開源震撼,重構 AI 產業生態最具顛覆性的舉措來自開源策略。DeepSeek將兩款6850億參數規模的大模型以MIT協議完全開源,提供模型權重、訓練程式碼與完整文件,並同步上線至Hugging Face。企業和開發者不僅可以免費下載與本地化部署,還能基於開源模型進行二次訓練或深度定製,而官方還提供OpenAI相容格式的遷移指令碼,大幅降低替換成本。在這種策略下,傳統閉源模型的API收費模式受到直接衝擊,大量企業能夠以更低成本獲得接近GPT-5的能力,同時保持資料安全與部署靈活性。然而,由於DeepSeek的公司背景,部分海外市場在資料合規、隱私保護與監管政策方面仍可能存在現實限制,這是其全球推廣必須面對的挑戰。DeepSeek-V3.2與其他模型在各類智能體工具呼叫評測集上的得分。(圖片來源:DeepSeek)中國AI的開源突圍之路儘管成績亮眼,DeepSeek在技術報告中也坦誠模型的不足,包括世界知識廣度仍弱於Gemini 3.0 Pro,部分任務需要更長的推理鏈才能達到閉源模型的最佳表現,且在部分領域仍需進行更廣泛的訓練資料補充。但通過“專家蒸餾 + 混合式強化學習”的後訓練方法,模型在多項能力上實現了相對均衡的提升。值得關注的是,在美國對中國的晶片出口管制背景下,DeepSeek依然能保持快速迭代,並讓模型適配華為、寒武紀等國產晶片,這顯示了中國AI在逆境中的韌性與自主創新能力。目前,V3.2已全面上線官方網站、App和API,而V3.2-Speciale則通過臨時API供研究使用,後續將逐步與主線版本整合。(圖片來源:Unsplash)DeepSeek-V3.2系列展示了中國AI在結構創新、推理能力與工程最佳化上的快速躍升,不依賴算力堆疊,而是通過稀疏注意力(DSA)、任務化訓練和工具思維實現了對閉源巨頭的快速追趕甚至部分超越。開源策略正在重塑行業生態,使得頂尖AI能力不再被少數閉源模型壟斷。當高性能與低成本同時成為可能,全球AI應用的門檻被大幅降低,也預示著新一輪技術革新即將到來。AI的新時代已經來臨,而DeepSeek正在成為這場浪潮中不可忽視的重要力量。 (創新觀察局)
“大交易”:一場遲到的美國AI戰略自救
前不久,前白宮人工智慧特別顧問本·布坎南(Ben Buchanan)在《外交事務》雜誌上拋出了他的“大交易”設想,華盛頓的政策圈似乎又找到了一個新的敘事框架。這位在2021至2025年間負責協調拜登政府AI政策的核心人物,試圖為美國AI發展勾勒一幅宏大藍圖:科技行業必須要與政府達成戰略協議,前者獲得能源基礎設施、人才管道和國家安全保護,後者則將AI整合進國防體系並確保其不破壞所謂的民主價值。這個提議聽起來既務實又理想主義——問題恰恰在於,它可能過於理想主義了。更令人玩味的是,就在布坎南構想這份“大交易”之後不久,DeepSeek正在以一種近乎諷刺的方式,拆解著他所依賴的核心假設。這家被美國晶片出口管制嚴密封鎖的公司發佈了DeepSeek V3.2,實測在開源模型中達到全球最高水平,與海外頂級閉源模型的差距縮小至約一個季度。該模型分為普通版和特別版:普通版性能對標 GPT-5,特別版則媲美 Gemini 3.0 Pro,尤其在數學與推理能力上表現突出。這不僅是一次技術突破,更是對美國“晶片遏制”戰略的一記響亮耳光。晶片政策的分歧:遏制還是“上癮”?在理解布坎南“大交易”的困境之前,我們必須先釐清美國AI戰略界內部一個長期存在但鮮被公開討論的根本分歧——關於對華晶片政策,決策圈內實際上存在著兩種截然不同的哲學。本·布坎南(Ben Buchanan)第一派可稱為“技術依賴派”或“上癮派”。這派觀點認為,應當允許中國大陸在一定程度上獲取美國的先進AI晶片,使其AI生態系統建立在美國技術基礎之上,形成一種戰略性依賴。這種策略的邏輯類似於毒品販子的手法:先讓對方上癮,然後控制供應鏈就能控制對方的技術發展節奏。輝達最初對中國大陸市場的態度——不斷推出降級版晶片如H800、H20來規避出口管制——某種程度上體現了這種思路。這一派相信,只要中國大陸市場的AI產業離不開美國晶片,華盛頓就永遠掌握著關閘的權力。第二派則是布坎南所代表的“全面遏制派”。在他們看來,任何對中國大陸的技術滲透都是危險的,必須在製造端實施最嚴格的封鎖,不給中國大陸任何獲取先進算力的機會。這種觀點在2022年10月拜登政府大幅擴展晶片管制時達到高峰,不僅限制先進晶片出口,還限制晶片製造裝置,甚至禁止美國公民為中國大陸半導體公司提供技術支援。布坎南在文中對中國大陸“軍民融合”戰略的惡毒指控,都清晰地顯示出他屬於這一陣營。然而諷刺的是,DeepSeek的成功恰恰證明了兩種策略可能都已失效。“上癮派”的夢想破滅了——中國大陸AI企業並沒有因為依賴美國晶片而束手就擒,反而在被斷供後激發出了驚人的技術創新能力。而“遏制派”的策略同樣遭遇挫敗——即便在最嚴格的出口管制下,中國大陸企業仍通過演算法最佳化、架構創新和可能的走私管道,實現了技術突破。正如智庫Stimson Center的分析所言,出口管制的“卡脖子”假設本身就是一個謬誤——每一次限制都會留下縫隙和漏洞,而目標國家的適應和創新能力往往被嚴重低估。更值得警惕的是,這種封鎖正在催生一個危險的結果:“設計出去”(designing out)。當美國技術被完全排除在外時,中國大陸企業別無選擇,只能開發完全繞過美國技術的替代方案。華為用麒麟9000s晶片替代高通,導致高通2024年損失6000萬套晶片銷售,就是一個典型案例。長期來看,這種“設計出去”將永久性地侵蝕美國在全球半導體生態系統中的地位——當中國大陸建立起完整的國產替代體系後,即便美國日後放鬆管制,市場份額也難以奪回。布坎南的“大交易”建立在全面遏制戰略能夠成功的假設之上,但現實已經在反覆證明,這個假設正在崩塌。能源幻覺與基礎設施的政治死結“大交易”的第一個支柱是政府為AI產業提供充足的能源基礎設施。布坎南在文中引用的資料令人震撼:到2028年,美國AI產業僅新增電力需求就將達到500億瓦,相當於整個阿根廷的用電量,資料中心可能消耗美國電力產量的12%。與此形成鮮明對比的是,中國大陸每年新增電力容量達12%,而美國在2005至2020年間幾乎沒有新增淨電力。這個對比看似有力,實則掩蓋了一個更深層的問題:為什麼美國在過去二十年間幾乎沒有新增電力?答案並非技術能力不足,而是美國社會在能源政策上陷入了一個幾乎無解的政治死結。一方面,任何大規模的新建電廠項目——無論是傳統化石能源還是核電——都會面臨環保團體、地方社區和監管機構的多重阻撓。美國的環境影響評估流程可以讓一個電廠項目耗費十年以上時間仍無法開工。另一方面,即便是清潔能源項目,也面臨著“不要建在我家後院”(NIMBY)效應的困擾。加州在可再生能源方面走在全美前列,但其電網卻經常因為峰值負荷而陷入危機,而新建輸電線路的項目同樣被環保和土地糾紛困住。布坎南樂觀地認為,AI驅動的能源繁榮將創造就業、加速清潔能源開發,實現“無碳化營運”。但這種敘事忽略了一個殘酷現實:在美國當前的政治生態下,任何大規模基礎設施建設都會遭遇曠日持久的黨派爭鬥、司法訴訟和監管審批。川普政府宣佈的5000億美元Stargate項目看起來宏大,但如果我們回顧川普第一任期內承諾的基礎設施投資有多少真正落地,就不難理解這些承諾的可信度。美國電力短缺狀況(@華盛頓大學)更諷刺的是,當前美國政治氛圍下,對AI的態度本身就充滿分裂。一部分人將AI視為新的經濟引擎和國家安全工具,另一部分人則擔心AI導致失業、隱私侵犯和社會不平等。在這種背景下,要求政府為AI產業大規模投資能源基礎設施,本身就可能引發激烈的政治反彈。那些在鏽帶州失去工作的選民,那些被高房價和生活成本壓得喘不過氣的中產階級,憑什麼要為矽谷科技巨頭買單,幫助他們獲得更多電力來訓練AI模型?中國大陸的優勢恰恰在於其政治體制能夠快速調動資源實施大規模基礎設施建設。當決策者確定AI是戰略重點時,電廠、資料中心和配套設施能夠以驚人的速度上馬。這不是單純的技術問題,而是治理模式的差異。布坎南的“大交易”假設美國政府能夠提供類似的支援,但這個假設本身就忽視了美國政治體制的結構性制約。人才政策的內在矛盾“大交易”的第二個支柱是維持國際人才管道。布坎南正確地指出,70%的頂級在美AI研究人員出生在國外,65%的領先美國AI公司至少有一位移民聯合創始人。但他對人才政策面臨的困境卻語焉不詳。川普政府在移民政策上的立場與布坎南的設想存在根本衝突。將H-1B簽證費用提高到10萬美元,大幅收緊國際學生入學政策(2025年可能導致國際學生入學率下降30%-40%),這些措施的政治邏輯與“保持AI人才流入”完全相悖。但問題的關鍵在於:這些移民政策並非出於無知或短視,而是回應了美國社會中一股強大的民粹主義情緒。對許多美國選民而言,保護美國就業、防止移民搶走機會是比維持AI領先地位更直觀、更緊迫的關切。當布坎南談論引進更多外國AI人才時,政治現實是,這種政策會被解讀為“讓外國人來搶美國人的工作”。技術精英和政策制定者可以用國家安全和經濟競爭力來論證開放移民的必要性,但這套話語在政治市場上的說服力遠不如美國優先來得有力。更深層的矛盾在於,布坎南一方面希望政府幫助AI產業獲得更多國際人才,另一方面又主張將AI深度整合進國家安全體系。但任何有過安全審查經驗的人都知道,涉及國防和情報的項目對人員背景有極其嚴格的要求。當AI越來越多地被用於軍事和情報用途時,如何平衡人才開放性和安全審查的嚴格性?那些來自對手國家的研究人員——包括大量來自中國大陸的AI專家——是否還能參與最前沿的AI研發?布坎南似乎希望魚與熊掌兼得:既要保持美國作為全球AI人才磁石的地位,又要加強對AI技術的國家安全管控。但這兩個目標存在內在張力。中國大陸正在積極招募AI專家回國,而美國日益收緊的移民政策和日益政治化的科研環境,可能會加速這種人才回流。當美國大學裡的中國大陸留學生發現自己無論多麼優秀都難以獲得工作簽證,當他們的研究因為敏感性而受到限制時,選擇回國就成了理性選擇。而這正是布坎南所擔心的人才外流。政府-產業合作的結構性障礙“大交易”設想的核心是政府與科技行業建立深度合作關係。但這個設想面臨一個尷尬的現實:雙方之間存在著深刻的互不信任。從科技行業的角度看,政府意味著繁瑣的監管、緩慢的決策流程和對商業創新的束縛。矽谷文化崇尚“快速行動,打破陳規”(Move fast and break things),而政府系統的特點恰恰是謹慎、官僚和風險規避。更重要的是,科技公司擔心與政府深度合作會限制它們的商業自由。如果將AI系統深度整合進國家安全體系,這意味著更嚴格的出口管制、更多的安全審查、更少的國際市場機會。對那些在全球營運的科技巨頭而言,這是一個巨大的代價。從政府的角度看,科技公司則是一群難以管束、唯利是圖、不考慮國家安全的商業實體。OpenAI、Google、Meta這些公司都曾因為與軍方和情報機構的合作項目引發內部員工抗議。2018年,Google員工成功迫使公司退出了與國防部的Maven項目。這種企業內部對軍事合作的牴觸,讓政府對科技公司的可靠性深表懷疑。布坎南在白宮任職期間主導的一些政策,恰恰體現了這種張力。拜登的AI行政命令要求科技公司自願做出安全承諾,但這些承諾大多停留在原則層面,缺乏強制約束力。而當政府試圖實施更嚴格的監管時,科技公司又會動用強大的遊說力量來阻撓。這種貓捉老鼠的遊戲,很難想像能夠昇華為布坎南所設想的“大交易”式的戰略夥伴關係。更根本的問題在於,“大交易”假設政府和產業能夠就AI的發展方向達成一致。但實際上,雙方對許多核心問題存在嚴重分歧:AI應該多大程度上開放?誰應該控制最強大的AI系統?AI帶來的經濟收益應該如何分配?AI技術應該向那些國家和實體出口?在這些問題上,政府和科技公司的利益遠非完全一致,而且內部也存在嚴重分歧。要在這樣的基礎上達成一個覆蓋能源、人才、國家安全等多個維度的“大交易”,難度之大可想而知。時間的殘酷性與政策的惰性布坎南正確地指出,AI進步速度極快,政策制定者必須在極短時間內做出重大決策。但他的“大交易”卻要求完成一系列在美國政治體制下通常需要數年甚至數十年才能實現的任務:大規模能源基礎設施建設、移民政策根本性改革、政府-產業關係的深刻重構、國家安全體系的全面AI化。這裡存在一個根本性的時間錯配:AI技術的演進以月為單位,而美國政治體制的變革以年甚至十年為單位。在拜登任期內,布坎南主導的AI行政命令確實取得了一些進展,建立了AI安全研究所等機構,推動了一些自願承諾。但這些成就與“大交易”設想的宏大目標相比,幾乎微不足道。而現在,川普政府正在系統性地拆除拜登時期建立的許多AI治理框架,包括放鬆晶片出口管制——這正是布坎南最擔心的事情。政治周期的不穩定性使得任何長期戰略都難以為繼。一個政府費盡心力建立的政策框架,可能在下一個政府上台後被全盤推翻。在這種情況下,要求政府和產業就一個需要十年、二十年才能見效的“大交易”達成共識,無異於痴人說夢。中國大陸的體制優勢恰恰在於其政策的連續性和長期性——當中國大陸將AI確定為戰略重點時,這個戰略可以持續數十年不變,資源投入也能夠保持穩定。美國的民主制度有其獨特價值,但在需要長期戰略規劃的技術競爭中,這種制度的弱點暴露無遺。布坎南的“大交易”本質上是一個防禦性戰略,它的出發點是“防止失去領先地位”而非“創造新的突破”。這種心態本身就反映了一種焦慮和不自信。當一個國家的AI戰略主要由防止對手超越而非創造革命性創新驅動時,它實際上已經喪失了先機。中國大陸的AI戰略雖然也包含趕超美國的目標,但更重要的是建立自主創新能力和獨立的技術生態。DeepSeek的成功正是這種戰略思維的體現——與其被動等待美國放鬆封鎖,不如主動探索新的技術路徑。難以癒合的裂痕最終,“大交易”之所以難以實現,根源在於它試圖彌合的那些裂痕可能本就無法癒合。美國社會在AI問題上的分裂是深層次的。技術精英認為AI是下一個增長引擎,必須不惜一切代價保持領先;普通民眾擔心AI導致失業和不平等;環保主義者反對為AI建設消耗巨量資源的資料中心;民族主義者要求限制移民和技術出口;國際主義者強調開放合作的重要性。這些立場之間的矛盾,不是一個“大交易”就能調和的。政府和科技公司之間的不信任是結構性的。科技公司希望政府提供支援但不要干預,政府希望科技公司服從國家利益但又不完全信任它們。這種關係更像是一種脆弱的共生而非穩固的夥伴關係。美國和中國大陸的競爭是長期的、全方位的,不可能通過單一的技術封鎖或單一的政策框架來解決。中國大陸的制度優勢在於能夠集中資源和長期規劃,美國的制度優勢在於創新活力和市場機制。但當競爭進入到需要國家動員和長期規劃的階段時,美國的制度優勢可能反而成為劣勢。布坎南的“大交易”建立在一個過於樂觀的假設之上:只要政府和產業達成正確的協議,美國就能夠延續其在AI領域的領先地位。但現實可能更加殘酷——不是美國不夠努力,不是政策不夠好,而是歷史的鐘擺正在擺向另一邊。技術霸權從來不是永恆的,曾經的領先者往往會在新的技術範式轉換中失去優勢。AI可能正是這樣一次範式轉換,而“大交易”式的修補方案,或許只是延緩衰落而非逆轉趨勢。在DeepSeek證明封鎖無效、川普政府拆除拜登時期的AI治理框架、美國社會在移民和能源政策上陷入僵局的當下,布坎南的“大交易”更像是一個精緻的政策幻想,而非可行的戰略方案。這並非說布坎南的診斷不對——美國在AI領域確實面臨能源、人才、安全整合等多重挑戰。問題在於,他開出的藥方需要一個在當前美國政治現實中幾乎不存在的條件:高度共識、長期承諾、政府效率和超黨派合作。當這些前提條件都不具備時,“大交易”就只能停留在紙面上,成為又一個華盛頓政策圈裡的美好願景,而非能夠真正塑造現實的戰略行動。 (心智觀察所)
V3.2逼近Gemini 3,DeepSeek硬氣喊話:接下來我要堆算力了
就在上周,OpenAI前首席科學家、現SSI CEO Ilya Sutskever在最新播客訪談中拋出一個重磅觀點,過去五年的“age of scaling”正在走到頭,預訓練數據是有限的,單純用更多GPU堆更大模型,那怕再放大100 倍,也未必能帶來質變。所以我們又回到了以研究為核心的時代,只不過這次有了巨大的算力”,這一表態被視作對Scaling Law撞牆論的強力佐證。然而僅過了幾天,12月1日,DeepSeek用V3.2和V3.2-Speciale的發布,給了一個不同的答案。模型發布後,DeepSeek研究員Zhibin Gou在X上發文:「如果Gemini-3證明了持續擴展預訓練的可能性,DeepSeek-V3.2-Speciale則證明了​​在大規模上下文環境中強化學習的可擴展性。我們花了一年時間將DeepSeek-V3推向極限,得出的經驗是:訓練後的瓶頸需通過優化方法和數據來解決,而不是僅等待更好的基礎模型。」他還補了一句:“持續擴大模型規模、數據量、上下文和強化學習。別讓那些'遭遇瓶頸'的雜音阻擋你前進。”這是DeepSeek團隊少有的發聲,而這一幕頗有意味,當業界在討論Scaling Law是否撞牆時,DeepSeek用實打實的模型喊話,想證明Scaling沒死,只是換了戰場。雖然業界普遍認同後訓練的重要性,但敢把相當於預訓練成本10%以上的算力預算砸在RL上的企業仍屬少數。 DeepSeek是真正把這條路線工程化、規模化的代表。這次發布的兩個模型正是這條路線的產物,V3.2定位日常主力,對標GPT-5;Speciale定位極限推理,對標Gemini 3.0 Pro,並拿下四枚國際競賽金牌。技術報告Introduction部分有句話值得注意,「過去幾個月,開源社群雖然在持續進步,但閉源模型的性能軌跡正在以更陡峭的速度加速。差距不是在縮小,而是在擴大。」同時點出了當前開源模型的三個核心短板:過度依賴普通注意力機制導致長序列效率低、後訓練算力投入不足、Agent場景下的泛化能力差。但DeepSeek的態度很明確,問題有解,而V3.2就是他們給的答案。1V3.2:高效主力,把自我進化用在通用效率上V3.2是9月發布的實驗版V3.2-Exp的正式繼任者,目標是平衡推理能力與輸出成本。在推理類Benchmark測驗中,V3.2達到了GPT-5水準:AIME 2025數學競賽93.1%(GPT-5為94.6%),HMMT 2025二月賽92.5%(GPT-5為88.3%),LiveCodeBench二月評測83.3%(GPT-5為88.3%),LiveCodeBench二月評測83.3%(GPT-5%)。相較於Kimi-K2-Thinking,V3.2在保持相近性能的同時,輸出Token量大幅降低-嚴格的Token約束和長度懲罰讓它更省、更快、更便宜。V3.2在架構上的核心改變是引入了DeepSeek Sparse Attention(DSA)。這項技術在9月的V3.2-Exp中首次亮相,用稀疏注意力取代傳統的全量注意力,將計算複雜度從O(L²)降到O(Lk)。V3.2-Exp上線兩個月後,DeepSeek透過多個維度確認了DSA的有效性:標準Benchmark與V3.1-Terminus基本持平,ChatbotArena的Elo評分接近,第三方長上下文評測反而高出4分。這意味著DeepSeek在底層架構創新上走對了路,稀疏注意力可以在不損失效能的前提下大幅提升效率。V3.2還有一個重要突破,這是DeepSeek首個將「思考」與「工具調用」融合的模型。先前的推理模型(包括OpenAI的o系列)在思考模式下無法調用工具,V3.2打破了這個限制,同時支持思考模式和非思考模式的工具調用。技術報告中篇幅最大的部分是Agent能力的訓練方法。 DeepSeek建構了一套大規模的Agent任務合成管線,涵蓋1800+環境和85000+複雜指令。這套流水線的核心設計哲學是「難解答,容易驗證」。以報告中的旅行規劃任務為例:複雜限制組合讓搜尋空間龐大,但驗證方案是否符合限制卻很簡單。這種特性天然適合強化學習,模型可以透過大量嘗試獲得明確的對錯回饋,不需要人工標註。效果驗證很有說服力,只用合成資料做RL的模型,在Tau2Bench、MCP-Mark等Agent基準上顯著提升,而只在真實環境做RL的模型,這些指標幾乎沒有變化。值得注意的是,官方特別強調,V3.2並沒有針對這些測試集的工具進行特殊訓練,但在Agent評測中仍達到開源最高水準。這說明模型的泛化能力是真實的,不是靠刷榜優化出來的。2V3.2-Speciale:極限推理,把自我驗證用在高階邏輯上Speciale是V3.2的"長思考增強版"。如果說V3.2透過嚴格的Token約束來優化效率,Speciale則反其道而行-放寬長度限制,鼓勵模型進行更深度的推理。技術報告中的Table 3很有趣:同樣的任務,Speciale的輸出Token量顯著高於其他模型。例如在AIME 2025上,GPT-5 High輸出13k tokens,Gemini 3.0 Pro輸出15k,而Speciale輸出23k;在Codeforces上差距更大,Speciale輸出77k tokens,是Gemini的3.5倍。雖然Speciale的Token輸出量極大,但得益於DeepSeek的定價策略和DSA帶來的效率提升,即便算上這些額外的"思考過程",其最終使用成本依然碾壓對手:比GPT-5便宜約25倍($0.4 vs $10),比Gemini 3.0 Propus Pro30約25倍($0.4 vs $10),比Gemini 3.0 Propus Pro30約30 月($25454545)。Speciale的意義不只是“讓模型想更久”,而是驗證了一個重要的假設,對推理“過程”的監督,能否從數學證明泛化到更廣泛的領域?上周剛發布的DeepSeekMath-V2提出了「生成器-驗證器」雙模型架構,生成器負責產出證明,驗證器評估證明的嚴謹性和完整性,驗證結果作為reward訊號回饋給生成器。這套機制的關鍵創新在於如何保持“生成-驗證差距”,當生成器變強後,驗證器也需要同步提升。 DeepSeek的解決方案是動態擴展驗證計算,以更多計算資源自動標註「難以驗證」的證明,持續合成高難度訓練數據,實現模型的可持續自我進化。Speciale整合了Math-V2的資料集和獎勵方法,不僅追求最終答案正確,更追求推理過程的嚴謹性和完整性。它將這套原本用於數學定理證明的“過程監督”,成功地遷移到了程式碼生成和通用邏輯任務。 這意味著「自我驗證」不是數學領域的特例,而是一種可泛化的能力提升範式。結果也相當不錯:3不缺算力的DeepSeek會帶來什麼?有網友評論說,每篇DeepSeek論文最重要的部分永遠是「結論、限制與未來工作」部分。這次的技術報告也不例外,他們說:“首先,由於總訓練FLOPs較少,DeepSeek-V3.2 的世界知識廣度仍落後於領先的閉源模型。我們計劃在後續版本中,通過擴大預訓練算力來彌補這一知識差距。”報告中承認,由於總訓練FLOPs 較少,V3.2 的世界知識廣度仍落後於Gemini 3.0 Pro。但DeepSeek 的選擇並不是等待一個更大的基礎模型,而是先把方法論打磨到極致,用一年時間,透過合成資料、自我驗證和大規模RL,把後訓練的上限真正跑出來。從這次的發布也能看出這條路線的成果:V3.2 將「自我進化式工程」(高RL 預算、合成資料閉環)應用在通用效率上;Speciale 則把過程獎勵與自我驗證機制推向高階邏輯推理。兩者共同指向同一個方向:未來的模型不再依賴人力堆砌,而是依靠自我博弈來實現持續演進。下一步就是擴大預訓練算力來彌補知識差距。這也讓人聯想,一是DeepSeek真把算力補上來,會發生什麼事?二是,這些新的算力資源從那裡來?回頭看過去一年的技術路徑,Janus的多模態統一架構、OCR的視覺壓縮記憶、NSA的長上下文效率、Math-V2的自我驗證……這些創新都是在V3這個基座上迭代出來的。那麼,一個參數更大、訓練FLOPs 更多的V4,再疊加這些已經驗證有效的方法論,會出現怎樣的化學反應?一個合理、甚至是大膽的預期是,當V4 或R2 到來時,我們看到的可能已經不是傳統意義上的“更強語言模型”,而是一個能夠感知多模態環境、具備更長期記憶、並能在真實交互中持續進化的系統。如今發生在合成環境中的自我博弈,未來可能會延伸到真實環境的線上學習。而在算力上,在今天輝達頻繁形容其中國市場份額已經歸零的背景下,繼續scaling需要的算力資源看起來不太能夠靠H800們提供,下一代模型會用什麼樣的更大的算力資源訓練,如果這些算力缺口可以被補齊,完全形態的DeepSeek下一代模型會是什麼樣?這些顯然更重要,也更讓人產生聯想。(矽星人PRO)
硬剛Gemini 3.0 Pro! DeepSeek V3.2實測性能確實猛,但這三個「硬傷「不得不防
矽谷早晨驚醒,發現追兵已至。當中國對手拿出了旗鼓相當的產品,卻打出「完全免費」的底牌時,這場仗該怎麼打?12月1日,DeepSeek帶著他們的全新“雙子星”—— DeepSeek-V3.2正式版(日常推理的“打工仔”)和DeepSeek-V3.2-Speciale(專攻推理的“頂流學霸”)殺回來了:奧賽金牌手軟,推理能力比肩,直接開啟了AIAI客戶時代的“谷歌免費”。「人們以為DeepSeek只是一次性突破,但我們以更大規模回歸。」計畫貢獻者陳方在社群媒體上的這句「豪言」,無異於向全球AI圈下了一封「硬核戰書」。網路上瞬間“炸鍋”,無數用戶湧入評論區,甚至有人高呼:“ChatGPT安息吧!”YouTube知名SEO部落客朱利安·戈爾迪(Julian Goldie)在評測後直言,這款剛發布的模型,在幾乎每一項頂級推理和編程測試中,都對那些收費昂貴、壁壘森嚴的閉源巨頭發起了強有力的挑戰。DeepSeek-V3.2不僅在程式設計競賽中榮獲金牌,更輕鬆解決奧賽級數學難題。更瘋狂的是:它完全開源,支援直接本地運行,成本甚至僅為GPT-5的1/25。正如網友所驚呼:「有些人還沒意識到這次發布的分量有多重!」它不僅是一項技術突破,更是對「開源比閉源落後8個月」這一說法的當頭棒喝。現在,讓我們一起研讀「剛剛宣布」的白皮書和技術報告,看看這個V3.2究竟是如何成為「頂級AI時代的免費入場券」的。有網友評論認為:中國在頂尖模型應用層的「追趕窗口」已經基本關閉,中美AI競賽已進入「貼身肉搏」的白熱化階段。你還在支付昂貴的API費用?不好意思,別人已經開著免費的「頂配超跑」上路了。性能狂飆:頂級「學霸」Speciale的「奧賽金牌收割機」模式戈爾迪表示,這次發布的焦點無疑是DeepSeek-V3.2-Speciale。這個擁有6850億參數的“大聰明”,直接帶著一疊金光閃閃的“成績單”登場,讓所有閉源模型都感受到了來自“別人家孩子”的壓力。它在幹什麼?它在「收割金牌」中:· 2025年國際數學奧林匹克競賽(IMO):Speciale豪取35/42分,穩拿金牌· 國際資訊學奧林匹克競賽(IOI):拿下492/600分,再度拿下金牌· ICPC世界總決賽:一口氣解出10/12題,直接鎖定總排名第二有網友看到這串成績直接“原地起飛”:“IMO、CMO、ICPC金牌?🏅 DeepSeek的Speciale不僅僅是突破極限——它簡直是顛覆極限!這種競技成就足以引起整個領域的關注。絕對震撼!🚀”在與閉源巨頭的正面PK中,Speciale 更是打出了“王牌”,直接把GPT-5和Gemini 3.0 Pro“摁在地上摩擦”。它用事實證明:開源模型也能成為頂尖層次的代名詞。· 在美國數學競賽AIME 2025上:Speciale 變體通過率達96.0% ,高於GPT-5-High 的94.6% 和Gemini-3.0-Pro 的95.0%· 在哈佛-麻省理工HMMT 數學競賽:Speciale 得分99.2%,超越Gemini 的97.5%同時,標準版V3.2模型在AIME 和HMMT 分別得分93.1% 和92.5%,雖略低於前沿模型,但在計算資源消耗上顯著較少。在程式設計基準測試中,DeepSeek-V3.2在SWE-Verified 上成功解決了73.1% 的真實軟體錯誤,與GPT-5-High 的74.9%旗鼓相當。在衡量複雜編碼工作流程的Terminal Bench 2.0上,其得分為 46.4%,顯著高於GPT-5-High 的35.2%。這意味著它在處理實際複雜程式碼工作流程時,思路更清晰、效率更高,簡直就是程式設計師的「頂級外掛」。有網友評論道,DeepSeek 的新模型非常強大,性能已經能和GPT-5、Gemini 3.0這些頂級閉源模型正面競爭了。尤其是它在數學競賽等推理任務上的表現,標誌著開源模型達到了新高度。既然免費開源的模型已經這麼好,再花錢用閉源API 就不划算了,這宣告了開源時代的全面到來。科技白皮書「大揭密」:打破性能魔咒的三大突破DeepSeek 團隊在白皮書中坦誠了一個核心痛點:儘管開源社群在努力,但閉源專有模型(如Anthropic、OpenAI)的效能提升速度更快,二者之間的效能差距非但沒有縮小,反而看似在擴大。但V3.2就是來終結這個「魔咒」的。它的成功並非靠簡單堆疊算力,而是基於三大革命性的技術突破。戈爾迪對此進行了總結:1. 更聰明的注意力機制傳統大模型在閱讀長文件時之所以“慢且貴”,是因為它們必須採用更複雜的注意力機制,時刻關注所有內容,導致成本呈指數級暴增。 DeepSeek 的解決方案是稀疏注意力(DSA)配合“閃電索引器”。DSA 不再掃描所有Token,而是透過「閃電索引器」快速檢索並只挑選最重要的部分進行聚焦。這就像是AI 快速瀏覽一本厚書,只抓住精華要點,而不是逐字閱讀。因此,即使在處理128K 的超長上下文時,推理速度也提升了約3.5倍,記憶體佔用減少70%,同時Token 消耗量顯著降低,大大提升了成本效益。2. 「砸錢」後訓練大多數AI 公司在模型主訓練(預訓練)完成後,只會投入一小部分預算進行後訓練(微調)。而DeepSeek 直接「財大氣粗」地將其預訓練總預算的10% 以上,全部投入了基於強化學習的後訓練中。這種大規模的投入和專門的強化學習技術,大大提升了模型的穩定性和最終能力。他們不再滿足於“能用”,而是追求“專家級性能”。3. 智能體合成訓練:拒絕“金魚記憶”V3.2的Speciale 模型是專為智能體(Agent)能力而生的。它的核心優勢是「思考鏈」方法,可以多次呼叫工具而不必重新開始。這種訓練的目的是消除傳統AI 在跨工具調用時「丟失思路」的頑疾。為了實現目標,DeepSeek 創建了一個專門的合成訓練流程,旨在改善工具使用能力。這使得V3.2原生支援「推理加工具使用」,完美適用於複雜的多步驟工作流程。親身體驗:免費跑「金牌模型」的誘惑與現實戈爾迪認為,最瘋狂的部分在於,你完全可以在當地運行它。DeepSeek V3.2在託管網站Hugging Face 上已經完整開源,模型權重、聊天模板、本地運行指南一應俱全。對於文件助理建構者、智能體系統開發者和長上下文聊天機器人設計師來說,這簡直是天降橫福。極客硬派可以直接去Hugging Face 或GitHub,使用VLLM、Kaggle、Google Colab 或Transformers 函式庫,動手折騰程式碼,本地運行。嚐鮮體驗派則可造訪DeepSeek 官網,直接在網頁端體驗V3.2的「深度思考」與「非深度思考」模式。然而,我們也要保持清醒:如實測所見,目前V3.2還沒完全整合到像Ollama 或Open Router 這樣方便的第三方平台。如果你不是“代碼狂魔”,你必須經歷“複雜的編碼工作”才能本地部署,那麼它的便利性確實打了折扣。戈爾迪吐槽道:“老實說,對我來說,如果使用起來不那麼方便——比如必須去Hugging Face,然後折騰代碼等等——我可能不會經常使用,因為這會耗費我大量時間。”但如果它能直接整合在聊天介面裡,戈爾迪表示會很有興趣測試並看看它的表現。優勢與限制:五大爽點與三大局限當然,再強的模型也有其「成長的煩惱」。戈爾迪總結了DeepSeek V3.2的五大優勢(爽點):能夠處理超大上下文(DSA 機制紅利)、推理高效(速度快如閃電),在推理和工具使用方面表現卓越(Agent 能力強大),具備專家級性能(基準測試中擊敗付費模型),並且完全開源。不過,它也有三大限制:在近期世界知識方面仍有滯後(需要外部檢索RAG 來「補課」),標記效率不夠優化,且在極其複雜的推理上仍需打磨。在戈爾迪看來,V3.2應該被視為“推理和工作流引擎”,而不是知識問答機。如果你是文件助理建構者、智能體系統開發者或長上下文聊天機器人設計師,它就是你苦候多時的「神兵利器」!DeepSeek V3.2的發布,不僅是一個新模型,更是一個歷史性的轉捩點。它用實打實的效能數據和慷慨的開源策略,宣告了:開源與閉源之間的效能差距正在迅速抹平。(網易科技)
DeepSeek V3.2 正式版發佈,V4 還沒來,但已經是開源模型裡 Agent 能力最強了
DeepSeek 又更新了,依舊是迭代了一年的 V3 系列,但這次給出的是 V3.2 正式版。9 月底,DeepSeek 推出了實驗性模型 DeepSeek-V3.2-Exp,在 V3.1-Terminus 的基礎上,引入了 DeepSeek Sparse Attention(DSA)技術,大幅提升了長文字處理的效率。今天,發佈的兩個正式版模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale,重點在推理、以及 Agent 能力的提升。DeepSeek-V3.2-Speciale 作為開源模型,在 IMO 2025、CMO 2025 等主流推理基準測試上的性能表現媲美 Gemini-3.0-Pro。有意思的是,Deepseek 在前幾天剛剛發佈了一個數學模型 DeepSeek-Math-V2,正是基於 DeepSeek-V3.2-Exp-Base 開發。這個數學模型實現了 IMO 金牌級的水平。同時,這次 V3.2 正式版發佈最值得一提的是,把思考過程融入到了工具呼叫中,模型能夠同時支援思考模式和非思考模式的工具呼叫。在各類智能體工具呼叫評測集上,DeepSeek-V3.2 達到了目前開源模型的最高水平。DeepSeek 官方稱,模型未針對測試集進行特殊訓練,在真實場景中顯示出了較強的泛化能力。目前,正式版 DeepSeek-V3.2 已在網頁端、App 和 API 上線。Speciale 版本以臨時 API 形式開放。API 支援 DeepSeek-V3.2 思考模式下的工具呼叫能力。技術報告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf01 V3 版本迭代了一年,V4 還是沒來去年 12 月 25 日發佈的 DeepSeek V3,今年 1 月 20 日發佈的 DeepSeek R1,R1 也正式引爆了這一年的 DeepSeek 和國內開源模型的熱潮,Kimi、MiniMax 等也相繼開源,並且取得了不錯的成績。不過梳理了 DeepSeek2025 年的發佈可以發現,今年一直在走小版本迭代和功能累加的路線。核心增強的點是:MoE 本身架構的一些改進,包括強化、DSA 等。Agent 工具使用能力的強化,從 V3.1 開始對工具使用能力的強化,到 3.2 增加思考模式下的工具使用能力,而且有了更泛化的工具使用能力。思考/非思考模型的統一,V3.1 就統一了 R1 和 V3,成為了一個混合推理模型,這也是當下閉源模型的大勢所趨,Gemini、Claude 和 GPT-5 都是這樣。DeepSeek 2025 年的發佈梳理和 V3.1-Exp 版本類似,這次也發佈了一個測試版本:DeepSeek-V3.2-Speciale,DeepSeek-V3.2 的長思考增強版,同時結合了 DeepSeek-Math-V2 的定理證明能力,試圖將開源模型的能力推到極致的版本,也許在這個測試之後,可能 V3.3(如果有的話)也會持續在這個版本上迭代。從年終就開始謠傳的 DeepSeek V4 或者 R2 即將發佈,到現在,我們也沒看到 DeepSeek 基模的大版本發佈。如果 Agent 的工具能力繼續在 V3 版本進行增強,對於明年要發佈的大版本(應該會在明年吧),感覺可以期待的東西似乎更多了,比如多模態?更長的上下文?更厲害的 Agent 能力?很期待 DeepSeek 下一個版本,我們能見到 V4。02 正式版 DeepSeek-V3.2:推理能力達到 GPT-5 水平DeepSeek-V3.2 的目標是平衡推理能力與輸出長度,適合日常使用,例如問答場景和通用 Agent 任務場景。在公開的推理類 Benchmark 測試中,DeepSeek-V3.2 達到了 GPT-5 的水平,僅略低於 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 的輸出長度大幅降低,顯著減少了計算開銷與使用者等待時間。DeepSeek-V3.2-Speciale 的目標則是將開源模型的推理能力推向極致。它是 V3.2 的長思考增強版,並結合了 DeepSeek-Math-V2 的定理證明能力。Speciale 版本模型在主流推理基準上的表現與 Gemini-3.0-Pro 不相上下。同時,在多項頂級學術競賽中達到金牌水平,包括 IMO 2025(國際數學奧林匹克)、ICPC 2025(國際大學生程式設計競賽)等,其中 ICPC 和 IOI 的成績分別達到了人類選手第二名和第十名的水平。但 Speciale 版本 是針對高度複雜任務最佳化,消耗的 Token 更多、且成本更高,目前僅供研究使用,不支援工具呼叫,未針對日常對話最佳化。DeepSeek-V3.2 與其他模型在各類數學、程式碼與通用領域評測集上的得分(括號內為消耗 Tokens 總量約數)03 工具呼叫也能 thinking 了本次更新的一個核心突破是將思考過程融入工具呼叫。DeepSeek-V3.2 同時支援思考模式與非思考模式的工具呼叫。DeepSeek 提出了一種大規模 Agent 訓練資料合成方法,建構了大量「難解答,易驗證」的任務,顯著提升了模型的泛化能力。DeepSeek-V3.2 與其他模型在各類智能體工具呼叫評測集上的得分在各類智能體工具呼叫評測集上,DeepSeek-V3.2 達到了當前開源模型的最高水平,大幅縮小了與閉源模型之間的差距。但模型並未針對測試集進行特殊訓練,在真實場景中具有較強的泛化性。 (Founder Park)
重磅!DeepSeek V3.2 特別版發佈:性能超越GPT-5,硬剛Gemini 3.0「IOI/IMO金牌」
DeepSeek-V3.2系列模型正式上線作為“為Agent建構的推理優先模型”,DeepSeek-V3.2包含兩個版本:DeepSeek-V3.2:V3.2-Exp的官方繼任者,平衡了推理能力與生成長度,性能對標GPT-5,現已上線App、Web端及APIDeepSeek-V3.2-Speciale:專攻深度推理能力的極限版本,性能超越GPT-5,比肩Gemini-3.0-Pro,目前僅通過API提供技術報告顯示,DeepSeek-V3.2-Speciale在2025年國際數學奧林匹克(IMO)、國際資訊學奧林匹克(IOI)、ICPC世界總決賽及CMO中均取得了金牌級成績官方已公開上述競賽的最終提交結果,社區可通過assets/olympiad_cases進行二次驗證技術報告:https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf以下是詳細資訊核心能力與技術突破DeepSeek-V3.2基於三大技術突破,實現了高計算效率與卓越推理、Agent性能的統一:1.DeepSeek Sparse Attention (DSA):引入高效注意力機制,大幅降低計算複雜度,並針對長上下文場景進行了最佳化2.可擴展強化學習框架:通過穩健的RL協議與後訓練(post-training)算力擴展,實現了高性能表現3.大規模Agent任務合成管線:涵蓋1800+環境及8.5萬+複雜指令這一合成管線不僅提升了模型在複雜互動環境中的遵循度和泛化能力,更讓DeepSeek-V3.2將“思考”直接整合進工具使用(Tool-Use)的模型,同時支援在思考和非思考模式下使用工具API更新與Speciale版限制DeepSeek-V3.2:API使用模式與V3.2-Exp保持一致,作為日常主力模型(Daily Driver),提供GPT-5等級的性能DeepSeek-V3.2-Speciale:該版本專為解決複雜任務設計,消耗更多Token,目前僅作為API提供,具體限制如下:臨時端點:需使用base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"服務期限:該端點服務至2025年12月15日 15:59 (UTC) 截止功能限制:不支援工具呼叫(Tool Calls),僅用於支援社區評估與研究。定價:與DeepSeek-V3.2保持一致聊天範本重大調整DeepSeek-V3.2不再提供Jinja格式範本,並引入了“帶工具思考”及新角色設定。Python指令碼編碼:官方提供了encoding資料夾,包含Python指令碼(encoding_dsv32.py),用於將OpenAI相容格式消息編碼為模型輸入字串及解析輸出Developer角色:範本新增developer角色,專門用於搜尋Agent場景,官方API不接受分配給該角色的消息輸出解析注意:提供的解析函數僅處理格式良好的字串,生產環境需自行增加穩健的錯誤處理機制。程式碼示例如下:import transformersfrom encoding_dsv32 import encode_messagestokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.2")messages = [    {"role": "user", "content": "hello"},    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},    {"role": "user", "content": "1+1=?"}]# 思考模式配置encode_config = dict(thinking_mode="thinking", drop_thinking=True, add_default_bos_token=True)prompt = encode_messages(messages, **encode_config)tokens = tokenizer.encode(prompt)本地部署建議模型結構與DeepSeek-V3.2-Exp相同。採樣參數:建議設定 temperature = 1.0,top_p = 0.95。Speciale版提示:本地部署Speciale版本時,同樣不支援工具呼叫功能開源與協議倉庫及模型權重均採用 MIT License 授權。 (AI寒武紀)