新版本發佈，DeepSeek再掀效率革命

2026/04/25

•

更便宜、更快，向Agent和國產替代更進一步。

終於，DeepSeek-V4 來了。

距離上次版本發佈已經過去近5個月，期間多次有DeepSeek新版本發佈的消息傳出，但都乾打雷不下雨，等待的空氣裡不免泛起一些懷疑。

4月24日，DeepSeek-V4 預覽版正式上線並同步開源，官方新聞稿裡直接宣稱“邁入百萬上下文普惠時代”。

此次發佈的版本包含兩款MoE語言模型——DeepSeek-V4-Pro和DeepSeek-V4-Flash。

前者總參數1.6T、啟動參數49B，後者總參數284B、啟動參數13B，兩者均支援一百萬token 上下文。

如果單看百萬上下文的能力，在V4之前市場上已有多款模型能夠實現，國外如GoogleGemini ，國內如阿里Qwen、月之暗面Kimi等。

DeepSeek-V4 令人驚豔的地方，是又一次帶來效率革命，在性能提升的同時實現成本下降，尤其是讓Agent更便宜成為可能。

更重要的是，V4為打破算力束縛提供了更大可能性，大模型的算力底座從輝達向華為邁出了堅實一步。

1. 轉向Agent

DeepSeek官方表示，V4在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。

其中，DeepSeek-V4-Pro性能比肩頂級閉源模型。

在世界知識測評中，DeepSeek-V4-Pro大幅領先其他開源模型，僅稍遜於頂尖閉源模型Gemini-Pro-3.1。在推理性能上，DeepSeek-V4-Pro超越當前所有已公開評測的開源模型，取得了世界頂級閉源模型相當的成績。

不過，技術報告顯示，最大推理強度模式DeepSeek-V4-Pro-Max性能仍略遜於GPT-5.4和Gemini 3.1-Pro，這表明其發展軌跡大致落後於最先進的前沿模型約3到6個月。

值得注意的是，DeepSeek-V4-Pro的Agent 能力大幅提高。

在對DeepSeek-V4技術報告的深入分析中，「甲子光年」注意到，V4在更明顯地轉向Agent任務。從V3.1到V3.2，DeepSeek已經在強化工具呼叫和Agent能力，到了V4，這條線更清楚。

技術報告裡出現了工具呼叫格式、推理內容管理、Quick Instruction、Agent沙箱基礎設施，以及Search、White-Collar Task、Code Agent等真實任務評測。重點考察模型能不能在多步任務中低成本地呼叫工具、保留狀態、繼續執行。

在Agent 能力提高的同時，V4提供的價格相當實惠。快取命中場景下，Flash版輸入成本低至0.2元/百萬Token。對於需要大量、多輪次Token互動的Agent應用來說，這無疑是降低成本的好消息。

能力提高、價格下降，毫無疑問，V4在瞄準Agent 發力，也將進一步推動Agent 的普及。

2. 更便宜、更快

DeepSeek-V4系列此次表現出的最大特點，是在長上下文場景中極高的效率。

在1M上下文設定下，V4-Pro的單token推理FLOPs只有V3.2的27%，所需KV快取空間也僅為其10%。

而參數啟動數量更少的DeepSeek-V4-Flash則進一步提升了效率：在百萬上下文中，其單token推理FLOPs僅為DeepSeek-V3.2的10%，KV快取容量僅為7%。

DeepSeek-V4系列與DeepSeek-V3.2的推理FLOPs計算量及KV快取容量

基於這種進步，DeepSeek官方宣佈，“從現在開始，1M（一百萬）上下文將是 DeepSeek 所有官方服務的標配。”

這帶來了什麼？最直觀的就是價格便宜。

處理一個Token所需的總計算量驟降，直接導致在雲端處理每一條請求的電力、硬體磨損和營運成本都斷崖式下降。這是DeepSeek敢於將API定價打到行業地板價。

DeepSeek V4-Flash輸出價為2元/百萬token，不到同天發佈的GPT-5.5 Pro輸出價（180美元）的千分之二。

除了更便宜，模型也會更快。KV快取佔用降低，也有助於提升並行能力，並在一定程度上改善長上下文請求的響應效率。

讓或許能讓許多曾經“奢侈”的應用場景成為現實。例如，將整個程式碼庫塞進上下文進行跨檔案的“智能體程式設計”（Agentic Coding）、讓AI進行長時間的自主規劃與反思等。

效率的提高源自工程層面的創新。

「甲子光年」認為，在延續底層工程哲學的基礎上，V4的重點進一步轉向兩個問題：一是如何低成本支援百萬token上下文，二是如何讓更複雜的模型結構和後訓練流程穩定運行。

最核心的結構創新是混合注意力機制（Hybrid Attention），這讓V4的長上下文效率大幅提升。

大模型在生成內容時，需要不斷回看此前上下文。上下文越長，需要保存和呼叫的KV快取就越多，每生成一個新Token時的推理開銷也會隨之增加。DeepSeek-V4的思路是，將長上下文分層處理，將壓縮稀疏注意力（CSA）與重度壓縮注意力（HCA）相結合。

具體來說，V4將壓縮稀疏注意力（CSA）和重度壓縮注意力（HCA）結合：CSA先壓縮KV資訊，再篩選與當前query最相關的部分參與計算；HCA則以更高壓縮率保留遠距離上下文的粗粒度資訊。同時，滑動窗口注意力（SWA）處理近處上下文細節，彌補壓縮機制可能導致的局部資訊損失。

通俗地說，傳統注意力機制更像把整本書逐頁攤開，每次答題都重新翻一遍；V4則更像更像是一個智能索引，把近處內容保留原文，把遠處內容壓縮成章節摘要。

另一項核心架構創新是流形約束超連接（mHC），用於增強底層穩定性。混合注意力機制解決的是模型“怎麼看長文字”，mHC解決的是模型內部資訊“如何穩定傳遞”。

技術報告中提到，通過重計算、融合算子等工程最佳化，mHC帶來的額外訓練時間開銷被控制在約6.7%。這表明它並非單純的理論構想，而是適配V4大規模生產訓練的實用設計。

DeepSeek對V4的架構很有信心，表示其性能可與GPT-5.2和Gemini-3.0-Pro相媲美，確立了其作為處理複雜推理任務的高性價比架構的地位。

3. 加速國產替代

另一個值得注意的地方是，此次DeepSeek-V4與華為的關聯更強。

技術報告中提到一個細節：DeepSeek的細粒度專家平行最佳化方案已經在輝達GPU和華為昇騰NPU上驗證。

並且，這套方案在通用推理負載中帶來1.50—1.73倍加速，在強化學習採樣和高速智能體服務等低延遲場景中最高達到1.96倍加速。

這並不等於V4全端已經完全適配昇騰，但意味著昇騰950超節點對V4-Pro的意義不只是增加算力，也在於提升多卡協同能力。若後續供給和適配順利，V4-Pro的吞吐和成本空間有望改善。

DeepSeek在V4發佈的官宣文章中，用一行小字寫道：預計下半年昇騰950超節點批次上市後，pro的價格會大幅下調。

另一方面，技術報告還提到，DeepSeek-V4系列的路由專家參數均採用FP4精度。雖然在現有硬體上，FP4×FP8運算的峰值FLOPs性能與FP8 × FP8運算相同，但從理論上講，在未來硬體上其效率可提高三分之一，這將進一步提升DeepSeek-V4系列的運算效率。

據「甲子光年」觀察，從V3開始，DeepSeek就沒有單純依賴參數規模，而是持續最佳化訓練效率、視訊記憶體佔用和硬體利用率。在訓練工程上，V4引入Muon最佳化器，並進一步使用FP4/FP8低精度訓練。前者用於提升收斂速度和訓練穩定性，後者用於降低視訊記憶體、頻寬和推理成本。

這可謂DeepSeek-V4 在技術選型上的一個“伏筆”：它在當前硬體上選擇了成熟的 FP8×FP8 路線，但架構設計已為未來的 FP4×FP8 混合精度運算做好了準備，一旦硬體成熟，效率將立刻躍升。

這意味著 V4 未來有望在單卡上運行更大模型，推理成本也有望繼續下降。

同時，基於DeepSeek的高效架構，即使國產AI晶片單卡算力絕對值不如輝達等頂級產品，也能憑藉其高吞吐、低視訊記憶體佔用的優勢運行大模型。

這無疑進一步打破了算力束縛，國產替代的步伐加快了。 (甲子光年)