一文讀懂DeepSeek V4：1.6兆參數、百萬上下文、華為晶片

2026/04/25

•

4月24日消息，DeepSeek V4預覽版官宣上線。

根據DeepSeek的官方介紹，V4系列包含兩個MoE模型：DeepSeek-V4-Pro總參數1.6T、啟動參數49B，DeepSeek-V4-Flash總參數 284B、啟動參數13B，兩者均原生支援100萬token上下文。

在1M上下文設定下，V4-Pro的單token推理FLOPs只有V3.2的27%，KV Cache只有10%；V4-Flash更極端，分別壓到10%和7%。DeepSeek自己給這代模型的定位是“preview version”，官方在報告中明確表示，V4的能力水平仍落後GPT-5.4和Gemini-3.1-Pro，“發展軌跡大約滯後前沿閉源模型3至6個月”。

換句話說，V4預覽版是把長上下文成本重構，為下一階段test-time scaling和長程任務鋪路的基礎設施發佈，沒有強調能力上的跨越升級。

01. 兩款模型、三檔推理：V4預覽版到底是什麼？

根據DeepSeek的官方介紹，V4系列包含兩個MoE模型：DeepSeek-V4-Pro總參數1.6T、啟動參數49B，DeepSeek-V4-Flash總參數284B、啟動參數13B，兩者均原生支援100萬token 上下文。

真正值得關注的是成本曲線。

在1M token的上下文設定下，V4-Pro的單token推理FLOPs 只有V3.2的27%，KV Cache只有 10%；V4-Flash更極端，分別壓到10%和7%。換句話說，上下文從V3.2的128K擴到V4的1M，理論上放大了近8倍，但單token算力需求反而下降了。

API價格沿襲了DeepSeek一貫的“打穿底”思路。V4-Pro每百萬token輸入1元（快取命中）或 12元（快取未命中），輸出24元；V4-Flash分別為0.2元、1元、2元。

每款模型都提供三檔推理強度：Non-think（直出）、Think High（常規深度思考）、Think Max（在 system prompt 裡注入強指令、把上下文和輸出長度拉滿）。

Max模式是為了榨出模型的能力上限——V4-Pro-Max在HLE測試中從Think High的34.5分升到 37.7分，Apex Shortlist 測試中從85.5升到90.2，代價是輸出token翻倍。

根據DeepSeek披露的詳細基準測試資料，在知識與推理類測試中，DeepSeek-V4-Pro-Max 在Apex Shortlist（90.2%）和 Codeforces（Rating 3206）兩項硬核推理 / 程式設計任務中拔得頭籌，展現了極強的邏輯與演算法能力；而 Gemini-3.1-Pro-High在 SimpleQA Verified（75.6%）中領先，Claude 和GPT則在各項目中互有勝負，整體差距不大。

在智能體能力相關的測試中，四款模型在SWE Verified任務上打成平手（均達到80.6%），但 DeepSeek在Terminal Bench 2.0（67.9%）和Toolathlon（51.8%）兩項任務上同樣表現突出，體現了在複雜指令執行與工具呼叫場景下的優勢。

DeepSeek表示，相比前代模型，DeepSeek-V4-Pro的Agent能力顯著增強。

“使用體驗優於Sonnet 4.5，交付質量接近Opus 4.6非思考模式，但仍與Opus 4.6思考模式存在一定差距。”

DeepSeek官方強調，基於豐富的世界知識：V4-Pro在世界知識測評中，大幅領先其他開源模型，僅稍遜於頂尖閉源模型Gemini-Pro-3.1——Gemini-3.1-Pro-High在MMLU-Pro（91.0）、SimpleQA-Verified（75.6%）、GPQA Diamond（94.3%）等通用知識問答中領先。

另外，在數學、STEM、競賽型程式碼的測評中，DeepSeek-V4-Pro超越當前所有已公開評測的開源模型，取得了比肩世界頂級閉源模型的優異成績，DeepSeek將其稱之為“世界級的推理性能”。

定位為經濟性模型的V4 Flash在世界知識儲備方面比DeepSeek-V4-Pro稍遜一籌，但也展現出了接近的推理能力。而由於模型參數和啟動更小，相較之下V4-Flash能夠提供更加快捷、經濟的API服務。

在Agent測評中，DeepSeek-V4-Flash在簡單任務上與DeepSeek-V4-Pro旗鼓相當，但在高難度任務上仍有差距。

02. 重寫注意力機制：“先壓縮再挑著看”

V4最核心的技術改動在注意力層。

傳統Transformer的注意力機制，每個token要和前面所有token都算一遍相似度。上下文從10萬拉到100萬，計算量增長的不是10倍，是100倍，這是長上下文一直跑不起來的根本原因。

V4的做法是把注意力拆成兩種，交替疊用。

一種叫CSA（壓縮稀疏注意力），它先把每4個token的KV快取合併成一條摘要，再讓每個query只在這些摘要裡挑出最相關的top-k條去算注意力。相當於既壓縮了“要看的內容”，又只挑“值得看的”去算。

另一種叫HCA（重壓縮注意力），它的壓縮率更激進，把每128個token合併成一條，但對剩下的摘要做稠密注意力，不做稀疏挑選。

兩種交替疊起來，再加一個滑動窗口分支處理“離得近的token之間的細節依賴”。這是一套“粗粒度+細粒度、稀疏+稠密”的組合拳。

把這套方案和DeepSeek過去兩年的技術脈絡連起來看，變化就清晰了：V2、V3走的是參數稀疏化——總參數很大，但每token只啟動一小部分專家；V4在此之外又開了一條上下文稀疏化的路——KV壓縮、top-k選擇、分層壓縮率。

這是DeepSeek第一次把“稀疏化”的刀動到Transformer的核心結構裡。

除了注意力層，V4還有兩處此前版本沒動過的改造。一是把傳統殘差連接升級為mHC（流形約束超連接），通過數學約束讓深層網路的前向和反向傳播更穩定；二是用Muon最佳化器替代大部分模組原本用的AdamW，收斂更快、訓練更穩。這是DeepSeek第一次同時動Transformer的注意力、殘差、最佳化器這三處核心結構。

DeepSeek-V4 和 DeepSeek-V3.2 的計算量和視訊記憶體容量隨上下文長度的變化

03. 後訓練換範式：把一堆專家“蒸餾”成一個模型？

比架構改動更值得注意的是後訓練方法的切換。

V3.2用的是“混合RL”，一次性用強化學習最佳化多個目標。V4換成了“分化再統一”的兩步走：

第一步，針對數學、程式碼、Agent、指令跟隨等不同領域，每個領域單獨訓練一個專家模型。這些專家先用該領域的高品質資料做監督微調，再用GRPO演算法做強化學習，每個專家都在自己的細分賽道上跑到最優。

第二步，用一種叫On-Policy Distillation（OPD，在策略蒸餾）的方法，把十多個領域專家“合成”回一個統一的學生模型。學生自己生成回答，然後對每個回答，去匹配“最懂這個問題”的專家的輸出分佈，通過logit級對齊，把能力吸收進來。

你可以講這種做法理解為，把一堆尖子生蒸餾了。

這套流程的工程難度在於：同時載入十多個兆參數級的教師模型做線上推理不現實。DeepSeek的做法是把所有教師權重統一解除安裝到分佈式儲存，只快取每個教師最後一層的hidden state，訓練時按教師索引排序樣本，保證任意時刻GPU視訊記憶體裡只駐留一個teacherhead。

換個說法，V4的能力不再靠一個模型從頭學，而是先讓不同專家在自己的賽道跑到頂，再把它們收編進同一套權重裡。這種思路繞開了傳統“混合 RL”容易導致的能力互相干擾問題。

04. Agent能力最佳化

DeepSeek-V4針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流的Agent產品進行了適配和最佳化，在程式碼任務、文件生成任務等方面表現均有提升。

DeepSeek自述V4-Pro的Agent能力“優於Sonnet 4.5，交付質量接近Opus 4.5非思考模式，但仍與Opus 4.6思考模式存在一定差距”。

值得注意的是，V4在Agent方向做了幾處專項最佳化：後訓練階段把Agent作為與數學、程式碼並列的獨立專家方向單獨訓練；工具呼叫格式從JSON換成帶特殊token的XML結構，用來降低轉義錯誤；跨輪次推理痕跡在工具呼叫場景下完整保留，不再像V3.2那樣每輪清空；此外DeepSeek自建了一套名為DSec的沙箱平台，單叢集可並行管理數十萬個沙箱實例，用來支撐Agent強化學習訓練和評測。

下圖為V4-Pro在Agent框架下生成的PPT內頁示例：

05. 昇騰在等V4，V4也在等昇騰

比起技術本身，V4這次發佈更受關注的還有與華為昇騰的協同。

V4技術報告第3.1節專門寫了一句：“我們在輝達GPU和華為昇騰NPU兩個平台上均驗證了細粒度EP（專家平行）方案。”這是DeepSeek官方第一次在正式文件中把華為昇騰和輝達並列寫進硬體驗證清單。

報告同時披露，V4的MoE專家權重和稀疏注意力索引器都採用FP4精度，FP4（mxFP4）恰好是華為3月發佈的昇騰950PR晶片的原生支援精度。

華為官網後續在全聯接大會 2025 的主題演講中確認，昇騰950系列新增支援 MXFP4 等低精度格式，其中950PR面向Prefill和推薦場景，並採用華為自研 HiBL 1.0，容量128GB，頻寬1.6TB/s。

另外，面向訓練場景的950DT計畫今年四季度推出。

DeepSeek在官宣文章中還表示：“預計下半年昇騰950超節點批次上市並部署之後，Pro版本的價格也會大幅度下調。 (騰訊科技)