#DeepSeek-V3.2
一個介面測了 N 個模型,DeepSeek V3.2 把我的頭給想禿了。。。
DeepSeek-V3.2 突然發佈,那參數強得離譜……基本上把 GPT-5 都按在地上摩擦了。圖:國外網友瘋狂研究 DeepSeek 3.2累不累啊?Benchmark 資料直接拉滿,而成本更是暴擊一堆海外頂尖模型。價格只有 GPT-5 的約 20%,輸出 Token 甚至只有它的 1/24。圖:DeepSeek  V3.2 參數大家都嗨了。而且這玩意還完美適配 Claude 生態,只需要改名成“deepdeek-reasoner”就好了。作為一個有“模型收集癖”的老玩家,我當時的反應和大家一樣:“扶我起來,我要測它!”但剛坐到電腦前,我就萎了。01| 以前測模型的“勸退”流程你們有沒有算過,以前我們要想對比測試幾個模型,得掉多少根頭髮?想測 DeepSeek?去官網。想測 Claude?去外網。想測阿里通義?去阿里雲。每個平台都得註冊帳號,綁手機,填發票資訊,還得先充值(那怕我只測幾毛錢)。最崩潰的來了。每家的 API 文件都長得不一樣!這家的參數叫 max_tokens,那家非要叫 max_output_tokens。為了相容這堆亂七八糟的介面,我得寫一堆 if-else 的“屎山程式碼”。圖:傳統的模型使用流程我就想簡單的問一句:“DeepSeek V3.2 和Claude Opus 4.5 到底誰寫程式碼更好?”結果這還沒開始測,我已經被“配環境”給勸退了。02|降維打擊:一個介面,通吃所有我實在不想再這麼折騰了,還好有朋友給我推薦了一個神器。它把市面上幾乎所有叫得上名字的頂尖模型(DeepSeek-V3.2、Opus 4.5、Gemini 3 Pro...),全部封裝成了一個標準的 OpenAI 相容介面。市面上做模型中轉的工具不少,但能以雲廠商的底座做到如此絲滑封裝的,還真不多。這就是七牛雲。它不僅僅是省事,這是玩法的降維打擊。這意味著,在我的視角裡,DeepSeek 和 Claude 不再是兩個需要分別配置的龐然大物,它們只是兩個不同的“字串名字”而已。我要做的,就是配置一次七牛雲的 Key。然後? 然後我就擁有了整個 AI 世界。03| 極致偷懶:Vibe Coding 實現“模型自由”既然介面統一了,我甚至連程式碼都懶得自己寫了。我打開了 Google AI Studio,然後開啟了 Vibe Coding(氛圍感程式設計) 模式。不到 10 分鐘,我擼了一個模型競技場出來:圖:模型競技場我一口氣把市面上的主流模型全擼了進來,想測那個測那個。這感覺,太 tm 爽啦!放在程式碼裡也一樣,以前我的程式碼(一堆亂七八糟的 import):import openaiimport anthropic# 此處省略50行噁心的配置程式碼現在我的程式碼:只需要改 model 參數,其他全都不用動client = QiniuAI(api_key="...")# 1. 遇到難題?切 CEO 帳號response = client.chat(model="deepseek-v3.2", messages=complex_task)# 2. 髒活累活?切 牛馬 帳號response = client.chat(model="qwen-turbo", messages=format_task)這就很舒服了。下次有新的模型一上,我不需要改邏輯,改個字串就能無縫升級。比如我突發奇想寫一個賽博朋克風的俄羅斯方塊,DeepSeek V3.2 Speciale 號稱宇宙無敵,先拿它來試試。結果它整整思考了 453 秒....圖:DeepSeek V 3.2 Speciale 思考時間很長然後寫了這玩意。。。圖:DeepSeek V3.2 Speciale 生成的遊戲接著我再試試 Gemini 3 Pro,我只需要在這裡換個模型名字就可以了。這回它不到 2 分鐘就完成了,快到飛起。圖:模型競技場中選擇模型而且這個效果也是碾壓啊。。 所以,模型好不好,不要光看跑分,實際跑一下吧。。。圖:Gemini 3 Pro 生成的遊戲整個過程非常絲滑,畢竟他們是做雲的,這速度非常流暢,不管模型在那,延遲都很低。但不得不說,DeepSeek V3.2 這個最牛逼的模型(Speciale),也是真的慢。04 最後的碎碎念:小孩子才做選擇這個模型競技場對我這種博主來說,太有用了。在這個“三天一個新模型”的瘋狂時代,效率就是生命。我是真的不想再把時間浪費在註冊帳號和配環境上了。很多人問我到底那個模型好?說實話這個問題沒有答案,模型各有千秋,我也會同時使用多個模型。下一步我還想做一件事兒,就是把多個模型放在一塊組成一個委員會,就是所謂的 LLM Council。圖:設想中的 LLM Council這也是有了七牛雲這個“萬能插座”後才能實現的玩法。你想想,每次你問一個問題,背後是一整個“復仇者聯盟”在給你出謀劃策。這才是 AI 正確的打開方式。小孩子才做選擇,成年人當然是全都要! (AI范兒)
DeepSeek V3.2雙模型震撼發佈,對標GPT-5,70%成本降幅重塑競爭格局
開源之戰全面升級。就在業界聚焦GPT-5與Gemini的技術鴻溝之際,中國AI創業公司DeepSeek攜DeepSeek-V3.2系列雙模型登場,其在數學、程式設計等核心基準上逼近甚至超越閉源頂尖模型的表現,引發行業震動。官方技術報告顯示,這兩款模型在數學、程式設計和長上下文等核心基準上已經接近甚至在部分任務上超越閉源領先模型。更具顛覆性的是,DeepSeek選擇以MIT許可完全開源全部權重,對全球AI產業格局構成重大衝擊,向世界展示了中國AI的硬實力。兩大模型:通用與專業的明確分工DeepSeek V3.2系列採用 “雙軌平行” 策略,兩款6850億參數模型精準覆蓋不同場景需求,既兼顧日常實用性,又突破極限推理天花板。DeepSeek-V3.2:高效全能的日常推理助手定位為 “高效實用型智能夥伴”,核心優勢是平衡推理能力與使用成本。相較於同類模型,其輸出長度減少30%–50%,在加快響應速度的同時,將128k token(約 300 頁書籍)的解碼成本壓縮至每百萬token0.70美元,較前代降低超 70%,完美適配問答互動、通用智能體等日常場景的大規模部署。DeepSeek-V3.2-Speciale:專攻極限推理的學術專家聚焦複雜問題與競賽級任務,是追求推理極致性的 “專業選手”。通過延長推理路徑、強化邏輯驗證能力,在IMO、IOI、ICPC、CMO四大頂級賽事中斬獲全金牌,部分競賽成績躋身全球前十,尤其擅長數學證明、高階邏輯分析等硬核場景。需注意的是,該版本暫不支援工具呼叫,未針對日常對話最佳化,僅聚焦專業領域能力突破。DeepSeek-V3.2系列與主流前沿模型在推理能力與智能體能力基準上的對比表現。(圖片來源:DeepSeek)技術革命:突破長上下文計算瓶頸DeepSeek V3.2系列最關鍵的技術突破來自自研的DeepSeek Sparse Attention(DSA)稀疏注意力機制。傳統模型處理長文字時需要對所有token進行兩兩計算,複雜度為O(L²),導致成本高、推理速度慢,是長文字推理面臨的最大瓶頸。DSA通過“閃電索引器”篩選與當前任務最相關的token,僅對核心部分進行密集計算,將複雜度降低為近似線性的O(Lk),有效突破了長上下文算力限制。實際測算中,處理128k token的解碼成本從V3.1-Terminus的2.4美元下降至V3.2的0.7美元。更重要的是,在ChatbotArena和多個長上下文測試中,該機制未導致性能下降,使模型實現了“成本下降、能力提升”的雙向突破。DeepSeek V3.2注意力架構:DSA稀疏機制以 “閃電索引 + Top-k篩選” 聚焦關鍵 token,實現長文字處理降本增效。(圖片來源:DeepSeek)性能全面狂飆:對標頂尖閉源模型在核心能力評測中,DeepSeek V3.2系列展現出對標GPT-5與Gemini的硬實力。標準版V3.2在權威基準測試中表現亮眼:AIME 2025數學競賽93.1%通過率僅略低於GPT-5的94.6%,HMMT 2025中92.5% 的得分反超GPT-5的88.3%,LiveCodeBench程式碼評測83.3%的表現與GPT-5基本持平。實用場景中,V3.2在SWE-Verified真實bug修復任務中達成73.1%的成功率,接近GPT-5-High的74.9%;更在Terminal Bench 2.0複雜工作流測試中以46.4%的精準率,大幅領先GPT-5-High的35.2%,凸顯紮實的工程實用性。極限推理版Speciale則在高階競賽中再創佳績:IMO斬獲35/42分金牌、IOI以492/600分位列全球第10、ICPC國際大學生程式設計競賽全球總決賽解決10/12題獲亞軍、CMO高分奪冠,四大頂級賽事全金牌的戰績,使其建立了接近專業選手的能力壁壘,充分釋放了模型在複雜邏輯推理領域的極限潛力。DeepSeek-V3.2與其他模型在各類數學、程式碼與通用領域評測集上的得分(括號內為消耗Tokens總量約數)。(圖片來源:DeepSeek)思考能力與工具使用的深度融合以往的模型往往在“深度思考”和“工具呼叫”之間難以兼得,而DeepSeek-V3.2是該公司首個實現深度推理與工具使用融合的模型。V3.2的上下文管理機制能夠在多輪工具呼叫過程中保留思考鏈路,讓模型在解決複雜任務時不必重複推理,大幅提升任務流暢度。在旅行規劃、跨檔案程式碼修復、多語言網路搜尋等實際場景中,V3.2能夠以類似“智能體”的方式持續推進任務。為了建構這一能力,DeepSeek使用了包含1800多個任務環境與85,000多條複雜指令的合成資料體系,使模型即便沒有針對特定測試工具做額外訓練,也能在智能體評測中達到開源模型的領先水平,顯著縮小了與閉源前沿模型的能力差距。上圖為思考模式下進行工具呼叫的API請求示意圖。(圖片來源:DeepSeek)開源震撼,重構 AI 產業生態最具顛覆性的舉措來自開源策略。DeepSeek將兩款6850億參數規模的大模型以MIT協議完全開源,提供模型權重、訓練程式碼與完整文件,並同步上線至Hugging Face。企業和開發者不僅可以免費下載與本地化部署,還能基於開源模型進行二次訓練或深度定製,而官方還提供OpenAI相容格式的遷移指令碼,大幅降低替換成本。在這種策略下,傳統閉源模型的API收費模式受到直接衝擊,大量企業能夠以更低成本獲得接近GPT-5的能力,同時保持資料安全與部署靈活性。然而,由於DeepSeek的公司背景,部分海外市場在資料合規、隱私保護與監管政策方面仍可能存在現實限制,這是其全球推廣必須面對的挑戰。DeepSeek-V3.2與其他模型在各類智能體工具呼叫評測集上的得分。(圖片來源:DeepSeek)中國AI的開源突圍之路儘管成績亮眼,DeepSeek在技術報告中也坦誠模型的不足,包括世界知識廣度仍弱於Gemini 3.0 Pro,部分任務需要更長的推理鏈才能達到閉源模型的最佳表現,且在部分領域仍需進行更廣泛的訓練資料補充。但通過“專家蒸餾 + 混合式強化學習”的後訓練方法,模型在多項能力上實現了相對均衡的提升。值得關注的是,在美國對中國的晶片出口管制背景下,DeepSeek依然能保持快速迭代,並讓模型適配華為、寒武紀等國產晶片,這顯示了中國AI在逆境中的韌性與自主創新能力。目前,V3.2已全面上線官方網站、App和API,而V3.2-Speciale則通過臨時API供研究使用,後續將逐步與主線版本整合。(圖片來源:Unsplash)DeepSeek-V3.2系列展示了中國AI在結構創新、推理能力與工程最佳化上的快速躍升,不依賴算力堆疊,而是通過稀疏注意力(DSA)、任務化訓練和工具思維實現了對閉源巨頭的快速追趕甚至部分超越。開源策略正在重塑行業生態,使得頂尖AI能力不再被少數閉源模型壟斷。當高性能與低成本同時成為可能,全球AI應用的門檻被大幅降低,也預示著新一輪技術革新即將到來。AI的新時代已經來臨,而DeepSeek正在成為這場浪潮中不可忽視的重要力量。 (創新觀察局)
重磅!DeepSeek V3.2 特別版發佈:性能超越GPT-5,硬剛Gemini 3.0「IOI/IMO金牌」
DeepSeek-V3.2系列模型正式上線作為“為Agent建構的推理優先模型”,DeepSeek-V3.2包含兩個版本:DeepSeek-V3.2:V3.2-Exp的官方繼任者,平衡了推理能力與生成長度,性能對標GPT-5,現已上線App、Web端及APIDeepSeek-V3.2-Speciale:專攻深度推理能力的極限版本,性能超越GPT-5,比肩Gemini-3.0-Pro,目前僅通過API提供技術報告顯示,DeepSeek-V3.2-Speciale在2025年國際數學奧林匹克(IMO)、國際資訊學奧林匹克(IOI)、ICPC世界總決賽及CMO中均取得了金牌級成績官方已公開上述競賽的最終提交結果,社區可通過assets/olympiad_cases進行二次驗證技術報告:https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf以下是詳細資訊核心能力與技術突破DeepSeek-V3.2基於三大技術突破,實現了高計算效率與卓越推理、Agent性能的統一:1.DeepSeek Sparse Attention (DSA):引入高效注意力機制,大幅降低計算複雜度,並針對長上下文場景進行了最佳化2.可擴展強化學習框架:通過穩健的RL協議與後訓練(post-training)算力擴展,實現了高性能表現3.大規模Agent任務合成管線:涵蓋1800+環境及8.5萬+複雜指令這一合成管線不僅提升了模型在複雜互動環境中的遵循度和泛化能力,更讓DeepSeek-V3.2將“思考”直接整合進工具使用(Tool-Use)的模型,同時支援在思考和非思考模式下使用工具API更新與Speciale版限制DeepSeek-V3.2:API使用模式與V3.2-Exp保持一致,作為日常主力模型(Daily Driver),提供GPT-5等級的性能DeepSeek-V3.2-Speciale:該版本專為解決複雜任務設計,消耗更多Token,目前僅作為API提供,具體限制如下:臨時端點:需使用base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"服務期限:該端點服務至2025年12月15日 15:59 (UTC) 截止功能限制:不支援工具呼叫(Tool Calls),僅用於支援社區評估與研究。定價:與DeepSeek-V3.2保持一致聊天範本重大調整DeepSeek-V3.2不再提供Jinja格式範本,並引入了“帶工具思考”及新角色設定。Python指令碼編碼:官方提供了encoding資料夾,包含Python指令碼(encoding_dsv32.py),用於將OpenAI相容格式消息編碼為模型輸入字串及解析輸出Developer角色:範本新增developer角色,專門用於搜尋Agent場景,官方API不接受分配給該角色的消息輸出解析注意:提供的解析函數僅處理格式良好的字串,生產環境需自行增加穩健的錯誤處理機制。程式碼示例如下:import transformersfrom encoding_dsv32 import encode_messagestokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.2")messages = [    {"role": "user", "content": "hello"},    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},    {"role": "user", "content": "1+1=?"}]# 思考模式配置encode_config = dict(thinking_mode="thinking", drop_thinking=True, add_default_bos_token=True)prompt = encode_messages(messages, **encode_config)tokens = tokenizer.encode(prompt)本地部署建議模型結構與DeepSeek-V3.2-Exp相同。採樣參數:建議設定 temperature = 1.0,top_p = 0.95。Speciale版提示:本地部署Speciale版本時,同樣不支援工具呼叫功能開源與協議倉庫及模型權重均採用 MIT License 授權。 (AI寒武紀)
Deepseek V3.2深度解讀,對行業的影響
Deepseek終於出了大王炸的模型,接近GPT5.1和GEMINI3的水平。在Benchmark居然領先了Chatgpt5.1,僅比Gemini3.0差一點。我問了一個旅行行程規劃的問題,以上的回答其實Deepseek回答的很不錯,大比以前提高,模型水平是不錯的。至少和Chatgpt不相上下(在文末)。這代表什麼呢,代表著肯定是國內最強模型了。去年出來的時候,就對業界產生很大的影響,輝達的股價都跌到90左右,就是因為大家覺得東方魔力使得訓練成本和推理成本急劇降低,從而擔心不需要那麼多算力。這次又是如何呢?一、技術創新根據論文原文,我們推出了 DeepSeek-V3.2 模型,該模型兼顧了高計算效率、卓越的推理能力和智能體性能。DeepSeek-V3.2 的主要技術突破如下:(1)DeepSeek 稀疏注意力機制(DSA):我們引入了 DSA,這是一種高效的注意力機制,能夠在顯著降低計算複雜度的同時保持模型性能。在長上下文場景中。(2) 可擴展的強化學習框架:通過實現穩健的強化學習協議並擴展訓練後計算能力,DeepSeek-V3.2 的性能與 GPT-5 相當。值得注意的是,我們的高計算量變體 DeepSeek-V3.2-Speciale 超越了 GPT-5,並展現出與 Gemini-3.0-Pro 相當的推理能力,在 2025 年國際數學奧林匹克 (IMO) 和……中均獲得了金牌。國際資訊學奧林匹克競賽 (IOI)。(3) 大規模智能體任務合成流程:為了將推理能力融入工具使用場景,我們開發了一種新型合成流程,能夠系統地大規模生成訓練資料。該方法有助於實現可擴展的智能體後訓練,從而在複雜的互動式環境中顯著提高其泛化能力和指令執行魯棒性。通過上文,我們看出,DeepSeek-V3.2引入了多個重要的技術創新,可能會對AI和計算行業產生深遠的影響,尤其是在計算效率和推理能力方面的進展。其主要技術突破和行業影響包括:1、DeepSeek稀疏注意力(DSA):這種新的注意力機制減少了計算複雜度,同時在長上下文場景中保持了高性能,使其比傳統的注意力機制更加高效。這一創新直接解決了AI模型中的低效問題,尤其是在大規模長上下文任務中,能夠更好地利用資源,進而減少大型AI系統的營運成本。原理怎麼理解好呢?想像你正在處理一個非常長的文件,而這個文件中包含成千上萬的資訊,像是無數的句子、段落和細節。如果你要把每一句話和所有其他句子進行對比(就像傳統的“密集注意力”機制那樣),你需要為每個詞或每個句子計算大量的關聯關係,這就像你手裡有一個龐大的篩子,要對每一粒沙子都進行篩選,耗費大量時間和精力。但是,DSA就像是一個智能的篩選器。它不是去計算每一粒沙子的關係,而是只挑選出最重要的一部分,那些對結果最有幫助的“沙子”進行篩選。通過這種篩選機制,DSA只需要關注最關鍵的資訊,從而大大減少了不必要的計算量。為什麼能減少算力需求?稀疏性(Sparsity):傳統的注意力機制(Dense Attention)要計算每個詞與所有其他詞的關係,因此計算量隨著文字長度的增加呈平方增長。而DSA通過引入稀疏注意力,只關注一部分最重要的資訊,減少了計算的總量。換句話說,它從整體中挑選出最關鍵的部分,避免了對不重要部分的無謂計算。動態篩選:DSA通過一種稱為“Top-K篩選”的方式,自動選擇最相關的token(即單詞、詞語或字元),只有這些被篩選出來的關鍵部分才會參與到後續的計算。這種方法比起全量計算,只需處理一小部分資訊,從而降低了算力需求。減少儲存和記憶體負擔:因為只關注最相關的token,DSA不僅減少了計算量,也大幅減少了中間資料儲存的需求。傳統的注意力機制在長文字中需要儲存所有token的關聯資料,而DSA只保存最核心的資訊,減少了記憶體佔用。2、可擴展的強化學習框架:該模型引入了一種可擴展的強化學習(RL)協議,在後訓練階段大幅增加了計算資源。這使得DeepSeek-V3.2在推理任務上與GPT-5相當,而其高計算版本(DeepSeek-V3.2-Speciale)甚至超越了GPT-5,在推理能力方面表現出色,證明其在數學和程式設計比賽中獲得了金牌。為什麼這種學習框架有效呢?想像你是一名運動員,目標是成為世界級的高手(例如數學和程式設計比賽的冠軍)。你有一個基礎的訓練計畫(就像模型的初始訓練),通過不斷的練習提升你的技能,但是,這個計畫的強度和時間有限,無法讓你達到最佳狀態。為了提升你的水平,你決定加入一個“體能訓練營”。這個訓練營是一個特別的地方,它不僅僅提供基礎訓練,而是通過強度逐步提升和增加訓練資源,幫助你在訓練中不斷突破自己的極限。例如,你可以得到更多的教練指導、專業的裝置,甚至有更強的對手來和你一起切磋,通過這些額外的資源和挑戰,不斷提升自己的體能和技術水平。在“體能訓練營”的幫助下,你的技能和體能得到了極大的提升,你最終的表現(例如贏得金牌)遠遠超過了之前僅靠基礎訓練時的水平。這就是可擴展的強化學習在模型中的作用。為什麼它能提升模型的推理能力?1)增加計算資源:在訓練過程中,通過大幅增加計算資源,就像“體能訓練營”中的額外訓練裝置和教練,模型得到了更多的資源去最佳化自己的策略。這意味著它可以處理更多的資料,進行更複雜的推理和決策,逐步提高表現。2)逐步增強能力:在這個擴展的訓練框架下,模型不斷與更複雜的任務進行對抗,逐漸適應並提高自己的推理能力。就像運動員經過反覆的訓練後,逐步突破自己的極限,模型也通過“強化學習”的方式,不斷進行調整和最佳化,最終在推理任務中表現出色。3)高計算版本的優勢:通過高計算版本(如 DeepSeek-V3.2-Speciale),模型得到了更多的訓練資源,相當於訓練營中的“強化訓練”,使得它不僅能夠跟隨其他模型(如 GPT-5)相匹配,甚至能夠超越它們,在數學和程式設計等高難度任務中獲得金牌。3、大規模代理任務合成管道:通過大規模合成不同的任務環境,DeepSeek-V3.2增強了其代理能力,使其在需要工具使用和推理的複雜互動環境中表現更好。這一發展縮小了開源和專有模型之間的差距,為開源解決方案提供了與專有模型相當的任務解決能力,同時降低了成本。為什麼可以用這樣來提高效果呢?假設我們要訓練一個超級智慧型手機器人,它的目標是能夠在各種真實世界中完成複雜任務,比如做飯、修理電器、規劃旅行、打理園藝等。這些任務不僅需要機器人具備知識,還要能夠靈活使用工具、進行推理和決策,才能有效地解決問題。為了訓練機器人,我們在虛擬城市裡建造了成千上萬的模擬環境。這些環境包括了不同的任務、工具和挑戰,就像一個巨大的訓練營,裡面充滿了各種需要解決的問題:有的是解謎、做數學題的任務;有的是需要程式設計和工具使用的任務;有的是模擬的家務活,甚至是規劃一趟旅行的任務。每個任務環境都有特定的目標和規則,機器人必須使用各種工具和方法來完成這些任務。在這個虛擬城市中,機器人可以反覆訓練,不斷解決不同的任務,通過不斷的實踐和反饋提升自己的技能和應變能力。這個虛擬世界就像是一個 “任務合成管道”,它不斷生成新的任務和場景,提供給機器人進行訓練。在這個過程中,機器人不僅學會如何在不同的環境中使用工具和進行推理,還通過這些複雜的場景增強了自己的應變能力和任務解決能力。為什麼它能提升模型能力?1)任務環境多樣化:通過合成大量不同的任務環境,DeepSeek-V3.2就像是讓機器人在一個虛擬世界中不斷碰到新挑戰。這些任務環境可以模擬各種複雜情況(如程式設計任務、推理任務、工具使用任務等),幫助AI提高在多樣化環境中的適應能力。2)提升工具使用和推理能力:在這個訓練營裡,AI不僅僅是“記住”任務,它需要實際使用工具解決問題,同時還要進行推理來判斷如何解決任務。這就像是訓練機器人在一個模擬環境中,不斷提升它使用工具和推理的能力。3)降低成本並與專有模型競爭:通過這種大規模合成任務的方式,DeepSeek-V3.2可以在開源環境下模擬複雜任務,提供與專有模型相似的任務解決能力,而不需要像傳統模型那樣依賴於高昂的計算和硬體成本。這相當於用虛擬城市訓練機器人,而不需要實際去建設複雜的現實世界場景。二、帶來的影響1、對算力的影響,顯著降低因為Dense‑attention在 sequence length = n 時,其 self‑attention 計算量與記憶體需求大致按 O(n²) 規模增長。也就是說,序列越長,計算和記憶體消耗呈二次增長。 稀疏注意力則通過只計算一部分query‑key 互動,把複雜度降到 O(n·k),k ≪ n。DSA 屬於這種“細粒度稀疏+動態選擇”範式。因此第三方評測指出,引入 DSA 後,DeepSeek‑V3.2‑Exp 的訓練和推理「長文字場景」效率“顯著提升”;同時 “輸出質量與前代dense‑attention 的 V3.1 相當”。2、能降低多少呢因為傳統 LLM(ChatGPT、Gemini 等)通常設計時兼顧通用性、對話靈活性,attention是dense的,好處是適合短對話、生成、存在清晰 global attention。但在長上下文 (文件、上下文過往歷史、長對話等) 的場景下,資源和延遲開銷非常大。DeepSeek‑V3.2 的 DSA 是為“長上下文 + 長對話 + 文件 + agentic task”最佳化 —— 也就是說,它最佳化的不是短對話生成的即時響應,而是需要處理大量歷史、文件、context 的任務。對於這種用途,其資源優勢就非常大。相當於傳統模型 “短對話 + 每次幾百 token” vs DeepSeek “幾千到幾十萬 token 長 context”。因此,在這些“重 context、長歷史、長文字分析、生成、記憶、推理、 agent agentic tasks”等場景裡,DeepSeek 的資源成本、效率比傳統 dense attention 模型要低很多。所以有下面的推測,在長上下文下,帶來的影響更大。3、對算力、儲存等帶來的影響呢第一,單模型、單任務所需的GPU 數量下降,長文字的任務,不再必須使用大規模GPU群集,而用少量較輕GPU算子就足夠,所以 GPU 總需求減少。第二,雲服務、模型部署成本下降,對“GPU as a Service”/雲算力服務需求可能上升(因為單位資源更便宜,更多公司願意部署大模型),但“單位任務所需 GPU 量”下降,短期可能壓縮對高端卡的“吃緊需求”。第三,推動“更廣泛、更輕量、大規模部署” ,由於成本,資源下降,更多中小廠商 、初創企業等,邊緣部署可能更容易採用大模型 ,所以最終“整體算力消費總量”可能增長,尤其是大模型、agent、多模態、實體部署、邊緣部署普及會推動“總算力需求指數增長”。故事和去年的故事一樣了,先是大家覺得算力會減少使用,後來覺得不對,這不是推動大規模的企業部署算力,對算力整體又增加了。第四,對儲存的影響也是一樣,局部變少,整體變多。DeepSeek-V3.2通過引入稀疏注意力(DSA)機制顯著減少了計算過程中的記憶體佔用,尤其是在長上下文的任務中。相比傳統的密集注意力模型,DeepSeek-V3.2能夠通過減少計算和儲存需求,降低對高性能GPU記憶體的依賴。在實際應用中,這意味著每個任務所需的記憶體和臨時儲存空間更小,從而減少了大規模推理和訓練時對儲存的需求。由於稀疏注意力機制的引入,DeepSeek-V3.2在處理長序列時不再需要儲存完整的上下文資訊。它只關注最重要的token,從而減少了對儲存快取的需求,特別是在進行長對話或大文件處理時。這在大規模推理任務中,意味著較低的儲存負擔,並減少了對大容量儲存的需求。由於儲存需求的降低,DeepSeek-V3.2使得部署更加靈活,尤其是對於邊緣計算、分佈式儲存和低成本硬體的支援,能夠大大降低儲存方面的成本,提高儲存資源的利用率。在大規模部署時,整體儲存需求減少有助於降低維運成本。但是因為整體部署多了,反而整體的總量的儲存還會進一步增加。第五,對電力的影響。得益於稀疏注意力機制和最佳化的計算框架,DeepSeek-V3.2能夠在減少計算量的同時降低電力消耗,尤其是在推理和長時間運行的場景中,幫助降低資料中心的電力成本。但整體部署多了,電力總消耗其實短期下降,長期還是增長的。三、對美股相關公司的影響3.1輝達:短期有震盪,長期有受益DeepSeek V3.2和Deepseek R1一樣,短期會讓大家認為高端算力量可以減少,但長期只會有更多的企業開源部署,導致更大的卡的訓練和推理量。這個故事已經預演過一次了。這次可能短期小震盪,很快就V回去了。3.2Google:無影響雖然說這個DS 3.2和Google3.0接近,但是,Google有他的優勢,包括多模態等,而且基於TPU已經在自己的路徑上一直發展,對Google應該沒有影響。Google今天說還要再加大TPU的採購量,明年再翻倍。3.3對BE,GEV,SNDK等公司:短期震盪,長期受益對能源公司:如果AI效率提升+更少高端 GPU/硬體資源需求,對電力、資料中心基礎設施需求可能略有下降 。對能源消耗、能源服務需求可能帶來壓力。但另一方面,如果 AI 部署更廣泛、增長爆發,即使單個模型能耗下降,整體算力總量可能上升,對能源需求可能依然增長。總之,影響不確定。對於 Bloom Energy 來說,短期波動較大,長期取決於 AI 行業部署規模,還是長期受益。對 SanDisk / 儲存廠商:類似邏輯。DeepSeek 最佳化可能降低對高端 GPU 的需求,以及可能降低對大規模 GPU‑cluster 的依賴,但大模型依然需要儲存(模型權重、資料、快取等)。如果 AI 部署量上升,儲存需求可能保持穩定或增長。附:以下是我問的問題和具體的回答:————————————————————————————我問了一下Deepseek的官網,回答是:那麼繼續問一個測試問題:問題是:你需要為一位客戶規劃一場為期五天的美國東西海岸旅行,滿足以下要求:客戶的出發地點是紐約市,最終目的地是洛杉磯。客戶希望每天都有不同的城市體驗,但要求每個城市的遊玩時間不超過8小時,且每天的總預算為**$300**。每天的活動預算包括:住宿(最多$150),餐飲(最多$50),景點(最多$50),交通(最多$50)。客戶喜歡文化活動,包括參觀博物館、歷史遺蹟、藝術展覽等,不喜歡戶外極限運動。客戶的飛行時間應儘量減少,因此建議的行程應儘量避免多次長途飛行,最理想的情況是每兩天一次飛行。客戶希望在旅行的最後一天,在洛杉磯的好萊塢區域進行購物和休閒,然後返回紐約。任務:請基於上述要求,為客戶規劃出五天的行程,並提供以下內容:每天的城市和活動安排。每個城市的交通安排(包括飛機、火車或租車)。每日預算分配(住宿、餐飲、景點、交通的具體花費分配)。餐館和景點的推薦(至少三個,適合客戶需求)。附加要求:請計算出整體旅行的總費用(包括所有交通、住宿、餐飲和景點費用)。如果可以,最佳化旅行路線,確保客人體驗最大化,同時符合預算和時間要求。Chatgpt的回答是:根據客戶的需求,我為您規劃了一個五天的美國東西海岸文化之旅。以下是詳細的行程安排,包括城市、活動、預算分配、交通和餐館景點推薦:第一天:紐約市(New York City)活動安排:上午:參觀大都會藝術博物館(Metropolitan Museum of Art),欣賞世界級藝術品。時間:2小時。下午:參觀自由女神像(Statue of Liberty)和埃利斯島博物館(Ellis Island Museum)。時間:4小時。晚上:漫步時代廣場(Times Square),體驗紐約的城市魅力。時間:2小時。交通安排:交通:全天使用公共交通,地鐵、公車,單程費用:$10。預算分配:住宿:$150(選擇市中心的三星級酒店,如Holiday Inn)。餐飲:$50(在當地餐廳就餐,如Shake Shack、Joe's Pizza)。景點:$50(大都會博物館門票約$25,自由女神像渡輪約$25)。交通:$50(地鐵、公車等)。餐館和景點推薦:大都會藝術博物館(Metropolitan Museum of Art)自由女神像(Statue of Liberty)時代廣場(Times Square)第二天:紐約市 → 華盛頓特區(Washington, D.C.)活動安排:上午:乘飛機前往華盛頓特區,飛行時間約1小時30分鐘。下午:參觀國家博物館(National Museum of American History)和林肯紀念堂(Lincoln Memorial)。時間:4小時。晚上:參觀白宮(White House)外觀,沿著國家廣場漫步。時間:2小時。交通安排:飛機:紐約市到華盛頓特區的航班,票價約$100。當地交通:租用公共交通卡,地鐵和巴士,費用:$20。預算分配:住宿:$150(華盛頓特區市中心三星級酒店,如Hyatt Place)。餐飲:$50(如Founding Farmers、Old Ebbitt Grill等)。景點:$50(博物館免費,其他費用用於小型展覽)。交通:$50(公共交通和部分計程車費用)。餐館和景點推薦:國家博物館(National Museum of American History)林肯紀念堂(Lincoln Memorial)白宮(White House)第三天:華盛頓特區 → 芝加哥(Chicago)活動安排:上午:乘飛機前往芝加哥,飛行時間約2小時。下午:參觀芝加哥藝術博物館(Art Institute of Chicago),欣賞著名藝術作品。時間:4小時。晚上:在千禧公園(Millennium Park)享受戶外活動,拍照留念。時間:2小時。交通安排:飛機:華盛頓特區到芝加哥的航班,票價約$150。當地交通:芝加哥城市公車和地鐵,費用:$20。預算分配:住宿:$150(芝加哥市中心三星級酒店,如Best Western Plus)。餐飲:$50(如Giordano's Pizza、The Purple Pig等)。景點:$50(芝加哥藝術博物館門票約$25,千禧公園免費)。交通:$50(公共交通和部分計程車費用)。餐館和景點推薦:芝加哥藝術博物館(Art Institute of Chicago)千禧公園(Millennium Park)芝加哥深盤披薩(Giordano's)第四天:芝加哥 → 洛杉磯(Los Angeles)活動安排:上午:乘飛機前往洛杉磯,飛行時間約4小時。下午:參觀洛杉磯縣藝術博物館(LACMA)和格里菲斯天文台(Griffith Observatory)。時間:4小時。晚上:在好萊塢星光大道(Hollywood Walk of Fame)漫步,參觀好萊塢博物館。時間:2小時。交通安排:飛機:芝加哥到洛杉磯的航班,票價約$200。當地交通:洛杉磯公車和地鐵,費用:$20。預算分配:住宿:$150(洛杉磯市中心三星級酒店,如Holiday Inn)。餐飲:$50(如In-N-Out Burger、The Bazaar等)。景點:$50(洛杉磯藝術博物館門票約$25,天文台免費)。交通:$50(公共交通和部分計程車費用)。餐館和景點推薦:洛杉磯縣藝術博物館(LACMA)格里菲斯天文台(Griffith Observatory)好萊塢星光大道(Hollywood Walk of Fame)第五天:洛杉磯(Los Angeles) → 紐約市(New York City)活動安排:上午:在洛杉磯好萊塢區域進行購物和休閒。時間:4小時。下午:參觀好萊塢博物館,享受最後的旅行時光。時間:4小時。晚上:乘飛機返回紐約市,飛行時間約5小時。交通安排:飛機:洛杉磯到紐約市的航班,票價約$250。預算分配:住宿:$150(洛杉磯的酒店)。餐飲:$50(在洛杉磯餐廳就餐)。景點:$50(好萊塢博物館門票約$25)。交通:$50(機場到酒店的計程車費用)。餐館和景點推薦:好萊塢博物館(Hollywood Museum)好萊塢購物區總費用計算:機票:紐約 → 華盛頓特區 $100 + 華盛頓特區 → 芝加哥 $150 + 芝加哥 → 洛杉磯 $200 + 洛杉磯 → 紐約市 $250 = $700住宿:5晚 × $150 = $750餐飲:5天 × $50 = $250景點:5天 × $50 = $250交通:5天 × $50 = $250整體旅行總費用:$2500旅行路線最佳化建議:通過選擇合適的航班,減少長途飛行次數,最佳化了飛行路線,確保在預算內的情況下最大化客戶的城市體驗。每個城市的活動安排充分考慮了客戶對文化活動的興趣,確保遊玩的同時符合預算限制。這樣客戶可以在有限的時間和預算內,體驗不同城市的文化和歷史遺蹟,同時確保旅行中的每一項活動都儘可能完美,達到預算目標。Deepseek的回答是:根據你的要求,我為你規劃了一條從紐約市出發,最終抵達洛杉磯的5天美國東西海岸“快閃”之旅。這條路線精心選擇了幾個代表性地標城市,並確保行程安排、文化體驗與**每日300美元的嚴格預算**高度契合。### 📅 五日經典快閃行程總覽為了讓行程一目瞭然,以下表格彙總了核心安排,具體預算和活動細節將在後文展開。### 💰 每日詳細行程與預算分配以下是每日行程、活動建議及精確到各項的預算分配,確保總額控制在300美元/天以內。#### **第1天:歷史啟蒙 · 紐約 → 費城***   **活動安排**:上午從紐約乘火車抵達後,參觀**獨立宮**和**自由鐘**(需提前預約免費門票)。下午可遊覽**費城藝術博物館**(門票約25美元),傍晚在歷史老城區漫步。*   **交通**:火車(Amtrak),約1.5小時,票價約**30美元**。*   **預算分配**:*   **住宿**:經濟型酒店或特色民宿, **$120***   **餐飲**:早餐(紐約簡餐)$10,午餐(費城芝士牛肉三明治)$15,晚餐 $25,合計 **$50***   **景點**:費城藝術博物館門票, **$25***   **交通**:紐約-費城火車票 $30,費城市內交通 $20,合計 **$50***   **當日總計:$295**#### **第2天:國家寶藏 · 費城 → 華盛頓特區***   **活動安排**:上午乘火車抵達後,全天遊覽**國家廣場**。可免費參觀**美國國家歷史博物館**、**國家自然歷史博物館**或**國家美術館**。外觀**白宮**、**華盛頓紀念碑**和**國會大廈**。*   **交通**:火車(Amtrak),約2小時,票價約**40美元**。*   **預算分配**:*   **住宿**:特區周邊經濟酒店, **$130***   **餐飲**:早餐 $10,午餐(博物館內簡餐)$15,晚餐 $25,合計 **$50***   **景點**:所有博物館免費, **$0***   **交通**:費城-華盛頓火車票 $40,華盛頓地鐵日票約 $15,合計 **$55***   **當日總計:$290**#### **第3天:風城建築 · 華盛頓 → 芝加哥***   **活動安排**:搭乘早班機飛往芝加哥。下午遊覽**千禧公園**(雲門雕塑),參觀**芝加哥藝術博物館**(門票約$35)。傍晚沿**華麗一英里**散步,欣賞建築和城市夜景。*   **交通**:飛機(早班經濟艙),飛行時間約2小時,票價約**$80-$120**(提前預訂)。*   **預算分配**:*   **住宿**:芝加哥市中心經濟酒店, **$140***   **餐飲**:早餐 $10,午餐 $15,晚餐 $25,合計 **$50***   **景點**:芝加哥藝術博物館門票, **$35***   **交通**:機票 $100(取中值),機場往返市區交通 $30,合計 **$130***   **當日總計:$295**(以機票$100計)#### **第4天:高山門戶 · 芝加哥 → 丹佛 → 洛杉磯***   **活動安排**:上午飛往丹佛作為中轉。下午可參觀**丹佛藝術博物館**(門票約$18)或前往市郊的**紅岩公園**(免費)感受獨特地貌。傍晚飛往洛杉磯,為最後一天養精蓄銳。*   **交通**:兩段飛機(芝加哥-丹佛,丹佛-洛杉磯),總飛行時間約4.5小時,兩段機票合計約**$150**(提前規劃)。*   **預算分配**:*   **住宿**:洛杉磯機場或好萊塢附近經濟酒店, **$120***   **餐飲**:全天餐飲, **$50***   **景點**:丹佛藝術博物館門票, **$18***   **交通**:兩段機票 $150,市內交通 $10,合計 **$160***   **當日總計:$298**#### **第5天:星光落幕 · 洛杉磯休閒購物***   **活動安排**:全天在**好萊塢區域**活動。上午漫步**好萊塢星光大道**、參觀**杜比劇院**(門票約$29)。下午前往**格里菲斯天文台**(免費)俯瞰洛杉磯全景和好萊塢標誌。之後在**格羅夫購物中心**或**農夫市場**休閒購物。晚上根據航班時間前往機場。*   **交通**:以公共交通和拼車為主。*   **預算分配**:*   **住宿**:無(當晚飛返紐約)*   **餐飲**:全天餐飲, **$50***   **景點**:杜比劇院門票 $29, **$29***   **交通**:洛杉磯市內交通 $30,預留機場交通費 $20,合計 **$50***   **當日總計:$129***   **本日備註**:洛杉磯有許多優秀的免費文化活動,如**蓋蒂中心**和**布萊德貝瑞大廈**,你可以根據興趣靈活替換,進一步控制預算。### 💵 整體旅行總費用根據以上每日預算規劃,本次5天旅行的總費用估算如下:*   **交通費總計**:**$445**(含城市間火車、機票及主要市內交通)*   **住宿費總計**:**$510**(4晚)*   **餐飲費總計**:**$250**(5天)*   **景點門票總計**:**$107***   **旅行費用總計**:**$1312**> 註:以上為一人預算估算。**國際段機票(洛杉磯-紐約)** 未包含在內。根據查詢,紐約與洛杉磯間的單程經濟艙機票價格浮動較大,需單獨預算約$150-$300。### ✨ 行程最佳化與體驗提升建議*   **最大化文化體驗**:行程中的華盛頓特區所有國家級博物館、洛杉磯的格里菲斯天文台和蓋蒂中心均為免費,是豐富行程、控制預算的絕佳選擇。*   **節省餐飲開支**:在洛杉磯,你可以嘗試一些富有特色且平價的餐廳。例如,在**北好萊塢的Vegatinos**可以找到約$7.5的純素墨西哥塔可套餐,在**Silver Lake的Hot Tongue披薩店**有$6/片的純素披薩,既能體驗當地多元飲食文化,又符合預算。*   **靈活交通與住宿**:機票和酒店價格波動大。**儘早預訂**、選擇**非周末出行**、關注**火車/航空公司的折扣票**是控制兩大核心支出的關鍵。使用地鐵日票等也能節省市內交通費。### 💎 總結這條路線通過火車與飛機的組合,在滿足“儘量減少飛行”偏好的同時,高效串聯了美國東西海岸的文化地標。所有安排都緊密圍繞你對**歷史、藝術、博物館的喜好**,並確保了嚴格的預算控制。如果你想進一步瞭解某個城市的詳細景點介紹、具體的機票預訂策略,或者希望調整行程節奏,我可以隨時為你提供更深入的分析。 (老王說事)
開源最強!“拳打GPT 5”,“腳踢Gemini-3.0”,DeepSeek V3.2為何提升這麼多?
V3.2在工具呼叫能力上達到當前開源模型最高水平,大幅縮小了開源模型與閉源模型的差距。作為DeepSeek首個將思考融入工具使用的模型,V3.2在“思考模式”下仍然支援工具呼叫。公司通過大規模Agent訓練資料合成方法,構造了1800多個環境、85000多條複雜指令的強化學習任務,大幅提升了模型在智能體評測中的表現。在大模型賽道逐漸從“參數競賽”走向“能力競賽”的當下,一個顯著的變化正在發生:開源模型開始在越來越多關鍵能力維度上逼近、甚至衝擊頂級閉源模型。12月1日,DeepSeek同步發佈兩款正式版模型——DeepSeek-V3.2 與 DeepSeek-V3.2-Speciale,前者在推理測試中達到GPT-5水平,僅略低於Gemini-3.0-Pro,而後者在IMO 2025等四項國際頂級競賽中斬獲金牌。V3.2在工具呼叫能力上達到當前開源模型最高水平,大幅縮小了開源模型與閉源模型的差距。據官方介紹,V3.2是DeepSeek首個將思考融入工具使用的模型,在“思考模式”下仍然支援工具呼叫。該公司通過大規模Agent訓練資料合成方法,構造了1800多個環境、85000多條複雜指令的強化學習任務,大幅提升了模型在智能體評測中的表現。V3.2證明了一件事:通過正確的架構+資料策略+工具融合設計,開源模型完全有能力成為世界級選手。Deepseek研究員苟志斌在社交平台X上發帖稱:如果說Gemini-3證明了持續擴大預訓練規模依然有效,那麼DeepSeek-V3.2-Speciale則證明了在超大上下文下進行強化學習擴展是可行的。我們花了一年時間把DeepSeek-V3推到極限。得到的經驗是:後訓練的瓶頸,是靠最佳化方法和資料而不是靠等待一個更強的基礎模型來解決的。DSA突破性能瓶頸,“思考+工具呼叫”策略帶來質的飛躍這次的核心飛躍,來自兩大底層創新。第一個是DeepSeek Sparse Attention(DSA)稀疏注意力機制,DeepSeek兩個月前在實驗版(V3.2-Exp)中引入的一項關鍵結構。該稀疏注意力機制有效解決了傳統注意力機制在長序列處理中的效率瓶頸,將注意力複雜度從O(L²)降低至O(Lk),同時保持模型性能。在架構層面,DSA採用閃電索引器和細粒度Token選擇機制兩大元件。閃電索引器計算查詢Token與歷史Token之間的索引分數,決定那些Token被選中;細粒度Token選擇機制則基於索引分數檢索對應的鍵值條目。該機制基於MLA的MQA模式實現,確保計算效率的同時維持模型表現。在大量使用者對比測試中發現:V3.2-Exp 在任何場景中都沒有明顯弱於 V3.1,稀疏注意力不僅沒有損失能力,反而大幅提升了效率和響應質量。這意味著,模型可以:看得更“遠”、想得更“深”、卻用更少的計算資源。第二,DeepSeek-V3.2提升顯著的關鍵在於訓練策略的根本性改變。以往版本採用"直接調工具"的簡單模式,而V3.2創新性地實現了"思考+調工具"(Thinking in Tool-use)的融合機制。DeepSeek-V3.2 成為首個在“思考模式”下仍然支援工具呼叫的模型。也就是說,它不再是一看到問題馬上用工具,而是變成:先分析、再規劃、再呼叫工具、再驗證、再修正。這種表現更接近人類的“思考-行動-反思”閉環,為複雜任務(如搜尋、寫程式碼、修 Bug、規劃項目)帶來了指數級的能力上升。資料策略的改變:1800+環境+8.5萬條複雜指令至於模型為什麼突然變強這麼多?本質上,是訓練策略徹底升級了。DeepSeek搭建了一條全新的大規模資料合成流水線,生成1800多個環境和85000多條高難度指令,專門用於強化學習。這種“冷啟動+大規模合成資料RL”的訓練方法,讓模型在複雜任務如程式碼修復、搜尋等場景中的泛化能力大幅提升。通過構造“難解答、易驗證”的強化學習任務,模型學會了在推理過程中有機融合工具呼叫。這種方式的核心價值在於:不再依賴真實人類標註,而是構造“極限題庫”錘煉模型能力。結果也非常清晰:在程式碼修復、搜尋路徑規劃、多步驟任務中,V3.2 的泛化能力大幅領先過往版本,甚至接近閉源商業模型。在思考上下文管理方面,V3.2採用專門針對工具呼叫場景的最佳化策略。歷史推理內容僅在新使用者消息引入時被丟棄,而在工具相關消息(如工具輸出)加入時保持推理內容,避免了模型為每次工具呼叫重複推理整個問題的低效行為。強化學習規模化顯著增強模型能力,後訓練算力超過預訓練的10%DeepSeek-V3.2採用可擴展的強化學習框架,後訓練計算預算超過預訓練成本的10%,這一資源投入為高級能力的釋放奠定了基礎。該公司在GRPO(Group Relative Policy Optimization)演算法基礎上引入多項穩定性改進,包括無偏KL估計、離策略序列掩碼、保持路由等機制。在專家蒸餾階段,該公司為每個任務領域開發專門的模型,涵蓋數學、程式設計、通用邏輯推理、智能體任務等六個專業領域,均支援思考和非思考模式。這些專家模型通過大規模強化學習訓練,隨後用於產生領域特定資料供最終檢查點使用。混合RL訓練將推理、智能體和人類對齊訓練合併為單一RL階段,有效平衡了不同領域的性能表現,同時規避了多階段訓練常見的災難性遺忘問題。對於推理和智能體任務,採用基於規則的結果獎勵、長度懲罰和語言一致性獎勵;對於通用任務,則使用生成式獎勵模型進行評估。大模型“權力結構”正在改變!在與海外幾大模型的對比中,DeepSeek-V3.2展現出顯著的性能優勢。在推理能力方面,V3.2在AIME 2025測試中達到93.1%的通過率,接近GPT-5的94.6%和Gemini-3.0-Pro的95.0%。在HMMT 2025測試中,V3.2得分92.5%,與頂級閉源模型差距進一步縮小。在智能體能力評測中,V3.2的表現尤為突出。在程式碼智能體任務SWE-Verified中獲得73.1%的解決率,在Terminal Bench 2.0中達到46.4%的精準率,顯著超越現有開源模型。在搜尋智能體評估BrowseComp中,通過上下文管理技術,V3.2從51.4%提升至67.6%的通過率。在工具使用基準測試中,V3.2在τ2-Bench中獲得80.3%的通過率,在MCP-Universe中達到45.9%的成功率。值得注意的是,V3.2並未針對這些測試集的工具進行特殊訓練,顯示出強大的泛化能力。相比之下,同期開源模型如MiniMax-M2-Thinking在多項測試中的表現明顯落後。DeepSeek-V3.2 的發佈背後,其實是一個更大的訊號:閉源模型的絕對技術壟斷正在被打破,開源模型開始具備一線競爭力。這具有三層意義:對開發者:成本更低、可定製性更強的高性能模型已出現;對企業:不必再完全依賴海外 API,也能建構強大 AI 系統;對產業:大模型軍備競賽從“誰參數大”,升級為“誰方法強”。而DeepSeek,此時站在了最前排。 (invest wallstreet)
開源最強!“拳打GPT 5”,“腳踢Gemini-3.0”,DeepSeek V3.2為何提升這麼多?
V3.2在工具呼叫能力上達到當前開源模型最高水平,大幅縮小了開源模型與閉源模型的差距。作為DeepSeek首個將思考融入工具使用的模型,V3.2在“思考模式”下仍然支援工具呼叫。公司通過大規模Agent訓練資料合成方法,構造了1800多個環境、85000多條複雜指令的強化學習任務,大幅提升了模型在智能體評測中的表現。在大模型賽道逐漸從“參數競賽”走向“能力競賽”的當下,一個顯著的變化正在發生:開源模型開始在越來越多關鍵能力維度上逼近、甚至衝擊頂級閉源模型。12月1日,DeepSeek同步發佈兩款正式版模型——DeepSeek-V3.2 與 DeepSeek-V3.2-Speciale,前者在推理測試中達到GPT-5水平,僅略低於Gemini-3.0-Pro,而後者在IMO 2025等四項國際頂級競賽中斬獲金牌。V3.2在工具呼叫能力上達到當前開源模型最高水平,大幅縮小了開源模型與閉源模型的差距。據官方介紹,V3.2是DeepSeek首個將思考融入工具使用的模型,在“思考模式”下仍然支援工具呼叫。該公司通過大規模Agent訓練資料合成方法,構造了1800多個環境、85000多條複雜指令的強化學習任務,大幅提升了模型在智能體評測中的表現。V3.2證明了一件事:通過正確的架構+資料策略+工具融合設計,開源模型完全有能力成為世界級選手。Deepseek研究員苟志斌在社交平台X上發帖稱:如果說Gemini-3證明了持續擴大預訓練規模依然有效,那麼DeepSeek-V3.2-Speciale則證明了在超大上下文下進行強化學習擴展是可行的。我們花了一年時間把DeepSeek-V3推到極限。得到的經驗是:後訓練的瓶頸,是靠最佳化方法和資料而不是靠等待一個更強的基礎模型來解決的。DSA突破性能瓶頸,“思考+工具呼叫”策略帶來質的飛躍這次的核心飛躍,來自兩大底層創新。第一個是DeepSeek Sparse Attention(DSA)稀疏注意力機制,DeepSeek兩個月前在實驗版(V3.2-Exp)中引入的一項關鍵結構。該稀疏注意力機制有效解決了傳統注意力機制在長序列處理中的效率瓶頸,將注意力複雜度從O(L²)降低至O(Lk),同時保持模型性能。在架構層面,DSA採用閃電索引器和細粒度Token選擇機制兩大元件。閃電索引器計算查詢Token與歷史Token之間的索引分數,決定那些Token被選中;細粒度Token選擇機制則基於索引分數檢索對應的鍵值條目。該機制基於MLA的MQA模式實現,確保計算效率的同時維持模型表現。在大量使用者對比測試中發現:V3.2-Exp 在任何場景中都沒有明顯弱於 V3.1,稀疏注意力不僅沒有損失能力,反而大幅提升了效率和響應質量。這意味著,模型可以:看得更“遠”、想得更“深”、卻用更少的計算資源。第二,DeepSeek-V3.2提升顯著的關鍵在於訓練策略的根本性改變。以往版本採用"直接調工具"的簡單模式,而V3.2創新性地實現了"思考+調工具"(Thinking in Tool-use)的融合機制。DeepSeek-V3.2 成為首個在“思考模式”下仍然支援工具呼叫的模型。也就是說,它不再是一看到問題馬上用工具,而是變成:先分析、再規劃、再呼叫工具、再驗證、再修正。這種表現更接近人類的“思考-行動-反思”閉環,為複雜任務(如搜尋、寫程式碼、修 Bug、規劃項目)帶來了指數級的能力上升。資料策略的改變:1800+環境+8.5萬條複雜指令至於模型為什麼突然變強這麼多?本質上,是訓練策略徹底升級了。DeepSeek搭建了一條全新的大規模資料合成流水線,生成1800多個環境和85000多條高難度指令,專門用於強化學習。這種“冷啟動+大規模合成資料RL”的訓練方法,讓模型在複雜任務如程式碼修復、搜尋等場景中的泛化能力大幅提升。通過構造“難解答、易驗證”的強化學習任務,模型學會了在推理過程中有機融合工具呼叫。這種方式的核心價值在於:不再依賴真實人類標註,而是構造“極限題庫”錘煉模型能力。結果也非常清晰:在程式碼修復、搜尋路徑規劃、多步驟任務中,V3.2 的泛化能力大幅領先過往版本,甚至接近閉源商業模型。在思考上下文管理方面,V3.2採用專門針對工具呼叫場景的最佳化策略。歷史推理內容僅在新使用者消息引入時被丟棄,而在工具相關消息(如工具輸出)加入時保持推理內容,避免了模型為每次工具呼叫重複推理整個問題的低效行為。強化學習規模化顯著增強模型能力,後訓練算力超過預訓練的10%DeepSeek-V3.2採用可擴展的強化學習框架,後訓練計算預算超過預訓練成本的10%,這一資源投入為高級能力的釋放奠定了基礎。該公司在GRPO(Group Relative Policy Optimization)演算法基礎上引入多項穩定性改進,包括無偏KL估計、離策略序列掩碼、保持路由等機制。在專家蒸餾階段,該公司為每個任務領域開發專門的模型,涵蓋數學、程式設計、通用邏輯推理、智能體任務等六個專業領域,均支援思考和非思考模式。這些專家模型通過大規模強化學習訓練,隨後用於產生領域特定資料供最終檢查點使用。混合RL訓練將推理、智能體和人類對齊訓練合併為單一RL階段,有效平衡了不同領域的性能表現,同時規避了多階段訓練常見的災難性遺忘問題。對於推理和智能體任務,採用基於規則的結果獎勵、長度懲罰和語言一致性獎勵;對於通用任務,則使用生成式獎勵模型進行評估。大模型“權力結構”正在改變!在與海外幾大模型的對比中,DeepSeek-V3.2展現出顯著的性能優勢。在推理能力方面,V3.2在AIME 2025測試中達到93.1%的通過率,接近GPT-5的94.6%和Gemini-3.0-Pro的95.0%。在HMMT 2025測試中,V3.2得分92.5%,與頂級閉源模型差距進一步縮小。在智能體能力評測中,V3.2的表現尤為突出。在程式碼智能體任務SWE-Verified中獲得73.1%的解決率,在Terminal Bench 2.0中達到46.4%的精準率,顯著超越現有開源模型。在搜尋智能體評估BrowseComp中,通過上下文管理技術,V3.2從51.4%提升至67.6%的通過率。在工具使用基準測試中,V3.2在τ2-Bench中獲得80.3%的通過率,在MCP-Universe中達到45.9%的成功率。值得注意的是,V3.2並未針對這些測試集的工具進行特殊訓練,顯示出強大的泛化能力。相比之下,同期開源模型如MiniMax-M2-Thinking在多項測試中的表現明顯落後。DeepSeek-V3.2 的發佈背後,其實是一個更大的訊號:閉源模型的絕對技術壟斷正在被打破,開源模型開始具備一線競爭力。這具有三層意義:對開發者:成本更低、可定製性更強的高性能模型已出現;對企業:不必再完全依賴海外 API,也能建構強大 AI 系統;對產業:大模型軍備競賽從“誰參數大”,升級為“誰方法強”。而DeepSeek,此時站在了最前排。 (invest wallstreet)
性能超DeepSeek-V3.2!中國大模型又開源了,限時免費用
100億啟動參數!MiniMax開源新模型M2,全球開源模型綜闔第一。智東西10月27日報導,剛剛,MiniMax發佈並開源MiniMax-M2,一款為Max可視化程式設計和智能體工作流建構的輕量級模型。▲MiniMax-M2在Hugging Face的開源介面截圖MiniMax-M2聚焦智能體的效率提升,是一款總參數達2300億個的MoE(混合專家)模型,其中活躍參數達100億個,兼顧程式設計和智能體任務以及通用智能。在權威基準測評中,MiniMax-M2的測試成績趕超Gemini 2.5 Pro、DeepSeek-V3.2等領先模型,接近GPT-5(thinking)模型性能,據稱可提供匹敵這些模型的端到端工具使用性能,同時部署和擴展更便捷。▲MiniMax-M2的基準測試概況具體來看,MiniMax-M2有以下幾大亮點:1、智能提升。根據知名分析機構Artificial Analysis的基準測試,MiniMax-M2在數學、科學、指令遵循、程式設計和智能體工具使用方面展現出具競爭力的通用智能。其綜合得分在全球開源模型中排名第一。2、高級程式設計。MiniMax-M2專為端到端開發人員工作流程而設計,擅長多檔案編輯、編碼-運行-修復循環以及測試驗證修復。在Terminal-Bench和(Multi-)SWE-Bench風格的任務中展現了其在跨語言終端、IDE和CI中的實用有效性。3、智能體性能。MiniMax-M2能夠規劃並執行跨Shell、瀏覽器、檢索和程式碼運行器的複雜、長周期工具鏈。在類似BrowseComp的評估中,它能夠持續定位難以發現的漏洞來源,保持證據的可追溯性,並優雅地從不穩定的步驟中恢復。4、高效設計。MiniMax-M2擁有100億個啟動參數,可為互動式智能體和批次採樣提供更低的延遲、更低的成本和更高的吞吐量,這與向高度可部署的模型轉變契合,這些模型在程式設計和智能體任務中仍然表現出色。以下更全面的評估測試了端到端程式設計和智能體工具的使用情況,涉及編輯真實的程式碼庫、執行命令、瀏覽網頁以及交付實用的解決方案等方面。MiniMax-M2在Multi-SWE-Bench、Terminal-Bench、ArtifactsBench、BrowseComp等多項測試中超越了Claude Sonnet 4、Gemini 2.5 Pro、DeepSeek-V3.2等頂尖模型。▲MiniMax-M2的基準測試具體情況Artificial Analysis統計的基準測試如下,MiniMax-M2在LiveCodeBench(LCB)、IFBench、AA Intelligence等多項測試中超越了Claude Sonnet 4、Gemini 2.5 Pro、DeepSeek-V3.2等頂尖模型。▲Artificial Analysis基準測試具體情況目前,使用者可以在MiniMax Agent上體驗MiniMax-M2,在限定時間內免費用。▲MiniMax Agent限免使用體驗地址:https://agent.minimax.io/智東西第一時間對MiniMax-M2進行了體驗,當輸入提示詞:“模擬一個旋轉六邊形內彈跳球。”MiniMax-M2能夠成功實現這一物理模擬,且提供了比較直觀的小球軌跡效果及參數控製麵板設計。這期間等待數分鐘,主要是其呼叫智能體對基本控制功能、面板參數偵錯、高級功能、網站顯示等進行了數次的測試偵錯。▲MiniMax Agent生成的小球實驗模擬體驗案例連結:https://en6x2um63xa4.space.minimaxi.com/當我把題目難度提高,輸入提示詞:“模擬一個旋轉六邊形內彈跳球,有兩個球體積相同,球a的質量是球b的2倍。”只見MiniMax-M2模擬的小球衝出了六邊形,與預期有一些出入,不過整個網站可調參數和呈現內容變得更加豐富。或許這一題目對一個輕量級模型來說還是有難度。▲MiniMax Agent生成的小球實驗模擬體驗案例連結:https://bwr3exu4k4ph.space.minimaxi.com/另外,MiniMax-M2 API已在MiniMax開放平台上線,同樣限時免費。MiniMax-M2模型權重現已開源,允許本地部署和使用。API地址:https://platform.minimax.io/docs/guides/text-generation模型權重開源地址:https://huggingface.co/MiniMaxAI/MiniMax-M2 (智東西)
騰訊研究院AI速遞 20250930
生成式AI一、 DeepSeek-V3.2-Exp 發佈,訓練推理提效,API 同步降價1. 引入DeepSeek Sparse Attention稀疏注意力機制,在幾乎不影響效果前提下大幅提升長文字訓練和推理效率;2. 模型在HuggingFace和魔搭平台開源,同步公開論文及TileLang與CUDA算子程式碼;3. 得益於服務成本大幅降低,官方API價格下調50%以上,並保留V3.1-Terminus介面至10月15日供對比測試。https://mp.weixin.qq.com/s/6hKi5F_S2zQ4g6SyF0UNow二、 智源開源RoboBrain-X0,零樣本跨本體泛化通用小腦基座1. RoboBrain-X0僅靠預訓練即可實現零樣本跨本體泛化,一個模型可直接部署在不同廠商、不同結構的真實機器人上;2. 核心創新在於學習任務"做什麼"而非"怎麼動",通過統一動作表徵體系將複雜動作拆解為標準化token序列;3. 在真機跨本體評測中總體成功率達48.9%,是基線模型π0的近2.5倍,基礎抓放任務成功率達100%。三、 3D版ControlNet突破多模態控制,混元3D-Omni實現高精度資產生成1. 混元3D-Omni是業界首個統一多種條件控制的3D生成模型,支援骨骼姿態、邊界框、點雲和體素四類控制訊號;2. 通過輕量化統一控制編碼器和漸進式難度感知訓練策略,實現精細化3D資產生成及多模態融合;3. 能有效解決單檢視生成"紙片物體"問題,成功重建幾何細節並確保比例與真實物體精確對齊。四、 GPT-5解決量子版NP難題?半小時內給出有效方案1. 理論物理學家Scott Aaronson團隊證明黑箱方法在量子複雜性理論QMA放大上已達極限,無法進一步降低完整性誤差;2. 在關鍵技術步驟遇到瓶頸時,GPT-5在半小時內提出了巧妙的數學函數方案,正確指出度有理函數編碼最大特徵值資訊;3. 該研究給出2008年QMA分離結果的定量版本,證明某條研究路徑已走到盡頭,但整體問題仍未最終解決。前沿科技五、 加州理工團隊創量子位元陣列新紀錄:6100位元、相干13秒、精度99.98%1. 加州理工團隊創造全球最大中性原子量子電腦,實現6100量子位元陣列,相干時間達13秒(比此前長10倍),單位元操控精度達99.98%,為大型糾錯量子電腦奠定基礎;2. 團隊使用光鑷技術捕獲原子並實現量子位元在陣列中移動數百微米且保持疊加態,這種物理可重構性是中性原子系統相比超導電路和離子阱的關鍵優勢;3. 該成果在規模、精度和相乾性三方面取得突破性平衡,鞏固了中性原子作為量子計算領先平台的地位,但團隊表示仍需完成大規模糾錯演示才能實現實用化應用。報告觀點六、AlphaGo大神發聲:2026年是AI廣泛融入經濟的關鍵一年1. AlphaGo核心研究者Julian Schrittwieser駁斥AI停滯論,指出人們忽視了AI從幾年前完全無法完成程式設計、設計等任務到現在已能勝任的巨大進步;2. METR研究顯示AI能力保持指數增長,最新模型已能自主完成2小時以上任務,7個月能力翻倍的趨勢持續驗證;OpenAI的GDPval評估顯示Claude Opus 4.1在44個職業中已接近人類專家水平;3. 基於現有趨勢外推,預測2026年中期模型可自主工作8小時,年底前在多行業達到專家水平,2027年底將頻繁超越專家,2026年將成為AI廣泛融入經濟的關鍵轉折年。七、Flash Attention作者最新播客:輝達GPU統治三年內將終結1. 輝達GPU主導地位將在2-3年內被打破,隨著針對不同工作負載的專用晶片出現,市場將從90%集中度轉向多元化生態,AMD等廠商在推理端已顯現優勢;2. 推理成本已下降100倍且未來有望再降10倍,主要得益於MoE架構、模型量化(從16位降至4位甚至更低)、演算法與硬體協同設計等技術突破;3. AI應用將分化為三類工作負載:傳統聊天機器人、極低延遲場景(如程式碼輔助)、大規模批處理,硬體供應商需針對性最佳化,而代理型應用和即時視訊生成被視為下一波殺手級應用。 (騰訊研究院)