一文讀懂DeepSeek V4:1.6兆參數、百萬上下文、華為晶片

4月24日消息,DeepSeek V4預覽版官宣上線。

根據DeepSeek的官方介紹,V4系列包含兩個MoE模型:DeepSeek-V4-Pro總參數1.6T、啟動參數49B,DeepSeek-V4-Flash總參數 284B、啟動參數13B,兩者均原生支援100萬token上下文。

DeepSeek創始人梁文鋒。圖片經過AI處理

在1M上下文設定下,V4-Pro的單token推理FLOPs只有V3.2的27%,KV Cache只有10%;V4-Flash更極端,分別壓到10%和7%。DeepSeek自己給這代模型的定位是“preview version”,官方在報告中明確表示,V4的能力水平仍落後GPT-5.4和Gemini-3.1-Pro,“發展軌跡大約滯後前沿閉源模型3至6個月”。

換句話說,V4預覽版是把長上下文成本重構,為下一階段test-time scaling和長程任務鋪路的基礎設施發佈,沒有強調能力上的跨越升級。

01. 兩款模型、三檔推理:V4預覽版到底是什麼?

根據DeepSeek的官方介紹,V4系列包含兩個MoE模型:DeepSeek-V4-Pro總參數1.6T、啟動參數49B,DeepSeek-V4-Flash總參數284B、啟動參數13B,兩者均原生支援100萬token 上下文。

真正值得關注的是成本曲線。

在1M token的上下文設定下,V4-Pro的單token推理FLOPs 只有V3.2的27%,KV Cache只有 10%;V4-Flash更極端,分別壓到10%和7%。換句話說,上下文從V3.2的128K擴到V4的1M,理論上放大了近8倍,但單token算力需求反而下降了。

API價格沿襲了DeepSeek一貫的“打穿底”思路。V4-Pro每百萬token輸入1元(快取命中)或 12元(快取未命中),輸出24元;V4-Flash分別為0.2元、1元、2元。

每款模型都提供三檔推理強度:Non-think(直出)、Think High(常規深度思考)、Think Max(在 system prompt 裡注入強指令、把上下文和輸出長度拉滿)。

Max模式是為了榨出模型的能力上限——V4-Pro-Max在HLE測試中從Think High的34.5分升到 37.7分,Apex Shortlist 測試中從85.5升到90.2,代價是輸出token翻倍。

根據DeepSeek披露的詳細基準測試資料,在知識與推理類測試中,DeepSeek-V4-Pro-Max 在Apex Shortlist(90.2%)和 Codeforces(Rating 3206)兩項硬核推理 / 程式設計任務中拔得頭籌,展現了極強的邏輯與演算法能力;而 Gemini-3.1-Pro-High在 SimpleQA Verified(75.6%)中領先,Claude 和GPT則在各項目中互有勝負,整體差距不大。

在智能體能力相關的測試中,四款模型在SWE Verified任務上打成平手(均達到80.6%),但 DeepSeek在Terminal Bench 2.0(67.9%)和Toolathlon(51.8%)兩項任務上同樣表現突出,體現了在複雜指令執行與工具呼叫場景下的優勢。

DeepSeek表示,相比前代模型,DeepSeek-V4-Pro的Agent能力顯著增強。

“使用體驗優於Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與Opus 4.6思考模式存在一定差距。”

DeepSeek官方強調,基於豐富的世界知識:V4-Pro在世界知識測評中,大幅領先其他開源模型,僅稍遜於頂尖閉源模型Gemini-Pro-3.1——Gemini-3.1-Pro-High在MMLU-Pro(91.0)、SimpleQA-Verified(75.6%)、GPQA Diamond(94.3%)等通用知識問答中領先。

另外,在數學、STEM、競賽型程式碼的測評中,DeepSeek-V4-Pro超越當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的優異成績,DeepSeek將其稱之為“世界級的推理性能”。

定位為經濟性模型的V4 Flash在世界知識儲備方面比DeepSeek-V4-Pro稍遜一籌,但也展現出了接近的推理能力。而由於模型參數和啟動更小,相較之下V4-Flash能夠提供更加快捷、經濟的API服務。

在Agent測評中,DeepSeek-V4-Flash在簡單任務上與DeepSeek-V4-Pro旗鼓相當,但在高難度任務上仍有差距。

02. 重寫注意力機制:“先壓縮再挑著看”

V4最核心的技術改動在注意力層。

傳統Transformer的注意力機制,每個token要和前面所有token都算一遍相似度。上下文從10萬拉到100萬,計算量增長的不是10倍,是100倍,這是長上下文一直跑不起來的根本原因。

V4的做法是把注意力拆成兩種,交替疊用。

一種叫CSA(壓縮稀疏注意力),它先把每4個token的KV快取合併成一條摘要,再讓每個query只在這些摘要裡挑出最相關的top-k條去算注意力。相當於既壓縮了“要看的內容”,又只挑“值得看的”去算。

另一種叫HCA(重壓縮注意力),它的壓縮率更激進,把每128個token合併成一條,但對剩下的摘要做稠密注意力,不做稀疏挑選。

兩種交替疊起來,再加一個滑動窗口分支處理“離得近的token之間的細節依賴”。這是一套“粗粒度+細粒度、稀疏+稠密”的組合拳。

把這套方案和DeepSeek過去兩年的技術脈絡連起來看,變化就清晰了:V2、V3走的是參數稀疏化——總參數很大,但每token只啟動一小部分專家;V4在此之外又開了一條上下文稀疏化的路——KV壓縮、top-k選擇、分層壓縮率。

這是DeepSeek第一次把“稀疏化”的刀動到Transformer的核心結構裡。

除了注意力層,V4還有兩處此前版本沒動過的改造。一是把傳統殘差連接升級為mHC(流形約束超連接),通過數學約束讓深層網路的前向和反向傳播更穩定;二是用Muon最佳化器替代大部分模組原本用的AdamW,收斂更快、訓練更穩。這是DeepSeek第一次同時動Transformer的注意力、殘差、最佳化器這三處核心結構。

DeepSeek-V4 和 DeepSeek-V3.2 的計算量和視訊記憶體容量隨上下文長度的變化

03. 後訓練換範式:把一堆專家“蒸餾”成一個模型?

比架構改動更值得注意的是後訓練方法的切換。

V3.2用的是“混合RL”,一次性用強化學習最佳化多個目標。V4換成了“分化再統一”的兩步走:

第一步,針對數學、程式碼、Agent、指令跟隨等不同領域,每個領域單獨訓練一個專家模型。這些專家先用該領域的高品質資料做監督微調,再用GRPO演算法做強化學習,每個專家都在自己的細分賽道上跑到最優。

第二步,用一種叫On-Policy Distillation(OPD,在策略蒸餾)的方法,把十多個領域專家“合成”回一個統一的學生模型。學生自己生成回答,然後對每個回答,去匹配“最懂這個問題”的專家的輸出分佈,通過logit級對齊,把能力吸收進來。

你可以講這種做法理解為,把一堆尖子生蒸餾了。

這套流程的工程難度在於:同時載入十多個兆參數級的教師模型做線上推理不現實。DeepSeek的做法是把所有教師權重統一解除安裝到分佈式儲存,只快取每個教師最後一層的hidden state,訓練時按教師索引排序樣本,保證任意時刻GPU視訊記憶體裡只駐留一個teacherhead。

換個說法,V4的能力不再靠一個模型從頭學,而是先讓不同專家在自己的賽道跑到頂,再把它們收編進同一套權重裡。這種思路繞開了傳統“混合 RL”容易導致的能力互相干擾問題。

04. Agent能力最佳化

DeepSeek-V4針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流的Agent產品進行了適配和最佳化,在程式碼任務、文件生成任務等方面表現均有提升。

DeepSeek自述V4-Pro的Agent能力“優於Sonnet 4.5,交付質量接近Opus 4.5非思考模式,但仍與Opus 4.6思考模式存在一定差距”。

值得注意的是,V4在Agent方向做了幾處專項最佳化:後訓練階段把Agent作為與數學、程式碼並列的獨立專家方向單獨訓練;工具呼叫格式從JSON換成帶特殊token的XML結構,用來降低轉義錯誤;跨輪次推理痕跡在工具呼叫場景下完整保留,不再像V3.2那樣每輪清空;此外DeepSeek自建了一套名為DSec的沙箱平台,單叢集可並行管理數十萬個沙箱實例,用來支撐Agent強化學習訓練和評測。

下圖為V4-Pro在Agent框架下生成的PPT內頁示例:

05. 昇騰在等V4,V4也在等昇騰

比起技術本身,V4這次發佈更受關注的還有與華為昇騰的協同。

V4技術報告第3.1節專門寫了一句:“我們在輝達GPU和華為昇騰NPU兩個平台上均驗證了細粒度EP(專家平行)方案。”這是DeepSeek官方第一次在正式文件中把華為昇騰和輝達並列寫進硬體驗證清單。

報告同時披露,V4的MoE專家權重和稀疏注意力索引器都採用FP4精度,FP4(mxFP4)恰好是華為3月發佈的昇騰950PR晶片的原生支援精度。

華為官網後續在全聯接大會 2025 的主題演講中確認,昇騰950系列新增支援 MXFP4 等低精度格式,其中950PR面向Prefill和推薦場景,並採用華為自研 HiBL 1.0,容量128GB,頻寬1.6TB/s。

另外,面向訓練場景的950DT計畫今年四季度推出。

DeepSeek在官宣文章中還表示:“預計下半年昇騰950超節點批次上市並部署之後,Pro版本的價格也會大幅度下調。 (騰訊科技)