482天,DeepSeek V4隱藏的三件事:開源六個模型,華為+輝達雙算力提速196%

靴子落地。

4月24日消息,距離V3時隔482天,期待已久的DeepSeek V4終於來了!

今天上午,DeepSeek正式上線DeepSeek-V4介面和模型介紹,包括DeepSeek-V4-flash和DeepSeek-V4-pro兩個模型版本。

DeepSeek-V4擁有百萬字超長上下文,在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。API服務已同步更新,通過修改model_name為deepseek-v4-pro或deepseek-v4-flash即可呼叫。其中,在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平。

我也用了一下DeepSeek專家模式,但目測DeepSeek Chat還無法識別V4模型。

我也通過DeepSeek論文和官網,發現三個官方沒有講的事實:

1、這次DeepSeek不止開源兩個模型,而是六個模型。

除了Pro、Flash之外,還包括Base系列的DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base;兩個推理最高版本DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max等等。

2、隨著DeepSeek V4系列發佈,V3系列和之前deepseek-chat系列模型API棄用。

其中,deepseek-chat (將於 2026/07/24 棄用),deepseek-reasoner (將於 2026/07/24 棄用)。當前階段內,這兩個模型名分別指向deepseek-v4-flash 的非思考模式與思考模式。

3、在推理和訓練算力層面,DeepSeek採用分佈式訓練架構,由於強化學習(RL)下需要長尾的小批次資料,在推理層面則研發出細粒度EP(Fine-Grained EP)核心方案,並且進行開源。DeepSeek已經在輝達GPU和華為昇騰 NPUs平台上驗證了細粒度EP方案。

與強大的非融合基線相比,該方案在通用推理工作負載上可實現1.50至1.73倍的加速(173%),在對延遲敏感的場景(如強化學習展開和高速智能體服務)中,加速比甚至可達1.96倍(196%)。DeepSeek已將基於 CUDA 的超大規模核心實現 MegaMoE2 開源,作為 DeepGEMM 的一個組成部分。

換句話說,DeepSeek現在就一門心思干V4模型,而且已經將國產化AI算力當作可選項之一,形成了輝達+昇騰兩格局,而且用一系列的技術和方案將國產算力利用率提升。

理論上看,DeepSeek V4開源大模型很強,但核心還是在於Agent、算力成本、世界理解和推理層面。顯然,DeepSeek不是你想像的成為世界最強模型,而是最好用的模型。

01. DeepSeek發六大模型:高性能、性價比都有

DeepSeek首次公佈兩個大的模型系列:

一個是性能比肩頂級閉源模型的DeepSeek-V4-Pro(1.6T參數,已啟動 49B);

另一個是更快捷、高效的經濟之選的DeepSeek-V4-Flash (284B 參數,已啟動 13B)。

兩者均支援一百萬個標記的上下文長度。

文章指出,DeepSeek-V4 開創了一種全新的注意力機制,在 token 維度進行壓縮,結合 DSA 稀疏注意力(DeepSeek Sparse Attention),實現了全球領先的長上下文能力,並且相比於傳統方法大幅降低了對計算和視訊記憶體的需求。從現在開始,1M(一百萬)上下文將是 DeepSeek 所有官方服務的標配。

這是DeepSeek-V4系列的全新整體架構。

1、混合注意力架構:DeepSeek設計了一種混合注意力機制,結合了壓縮稀疏注意力(CSA)和高度壓縮注意力(HCA),以顯著提高長上下文效率。在 100 萬個詞元的上下文設定下,與 DeepSeek-V3.2 相比,DeepSeek-V4-Pro 僅需27% 的單詞元推理浮點運算次數和10% 的鍵值快取。

2、流形約束超連接(mHC):DeepSeek引入 mHC 來加強傳統的殘差連接,增強跨層訊號傳播的穩定性,同時保持模型的表達能力。

3、Muon最佳化器:我們採用Muon最佳化器以實現更快的收斂速度和更高的訓練穩定性。

其中,DeepSeek-V4-Pro採用1.6相較前代模型實現全面升級,Agent能力顯著提升,Agentic Coding評測位列開源模型頂尖水準,實際使用體驗優於Sonnet 4.5,交付質量接近Opus 4.6非思考模式;同時其世界知識儲備大幅領先同類開源模型,僅略次於頂級閉源模型Gemini-Pro-3.1,在數學、STEM及競賽程式碼等場景下推理性能突破開源上限,整體實力可媲美全球頂尖閉源模型。

而DeepSeek-V4-Flash是一款高效高性價比的選擇,其世界知識略弱於 V4-Pro,但推理能力相近;憑藉更小的參數與啟動規模,可提供更快速、低成本的API服務,簡單 Agent 任務表現與 V4-Pro 持平,僅在高難度任務上存在差距。

當然,DeepSeek不止發了兩款模型,其公號隱藏了其他四個模型:基礎系列的DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base;兩個推理最高版本DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max等等。

我算了一下,這次V4共發佈六款模型,這還不包括非推理的三個版本。

據悉,DeepSeek-V4-Pro-Max是DeepSeek-V4-Pro的最高推理模式,顯著提升了開源模型的知識能力,穩居目前最佳開源模型之列。它在編碼基準測試中取得了頂尖性能,並在推理和智能體任務方面顯著縮小了與領先的閉源模型之間的差距。

DeepSeek-V4-Flash也有一個Max版本,在擁有更大的推理預算時,其推理性能與 Pro 版本相當,但由於其參數規模較小,在純知識任務和最複雜的智能體工作流程方面自然略遜一籌。

總體而言,DeepSeek-V4系列保留了Transformer架構和多標記預測(MTP)模組,同時在DeepSeek-V3的基礎上引入了若干關鍵升級。

02. 華為+輝達加持,開源1.96倍推理加速的算力核心

早前很多媒體報導稱,DeepSeek推遲的核心原因,在於國產化算力訓練不足。

在論文當中,DeepSeek特別提到算力“踩坑”的問題,並且通過梳理大模型算力訓練和推理,研發了多種模組和方案,形成V4國產化能力。

DeepSeek提到,在DeepSeek-V4系列中,每個MoE層主要可以分解為四個階段:兩個通訊受限階段,分發(Dispatch)和合併(Combine),以及兩個計算受限階段,線性層1(Linear-1)和線性層2(Linear-2)。團隊的分析顯示,在單個MoE層內,通訊的總時間少於計算的總時間。因此,在將通訊和計算融合為統一管道後,計算仍然是主要的瓶頸,這意味著系統可以在不降低端到端性能的情況下容忍較低的互連頻寬。

為了進一步降低互連頻寬需求並放大重疊的好處,DeepSeek引入了一種更細粒度的專家分區方案:Fine-Grained EP。

受到許多相關工作的啟發,DeepSeek將專家拆分並調度成波次。每個波次包含一小部分專家。一旦波次內的所有專家完成通訊,計算就可以立即開始,而無需等待其他專家。在穩態下,當前波次的計算、下一個波次的令牌傳輸和已完成專家的結果傳送都同時進行,這在專家之間形成了細粒度的流水線,使計算和通訊在整個波次中持續進行。基於波次的調度加快了速度。在極端情況下(如強化學習(RL)的 rollout),通常也會遇到長尾小批次。

因此,DeepSeek表示,其在 NVIDIA GPU 和華為Ascend NPU平台上驗證了細粒度EP方案。與強大的非融合基線相比,它在通用推理工作負載上實現了 1.50-1.73 倍的加速,在對延遲敏感的場景(如 RL rollout 和高速代理服務)中最高可實現 1.96 倍的加速。

DeepSeek已經開源了基於CUDA的Mega-Kernel,命名為 MegaMoE2,作為DeepGEMM的一個元件。

此外,為最大限度地提高 GPU 資源利用率,並支援高優先順序任務的快速硬體調配,DeepSeek還將GPU 叢集,採用一種全叢集範圍的搶佔式任務調度器,任何正在運行的任務都可能隨時被搶佔。

而在大規模GPU叢集中,硬體故障較為常見。為此,DeepSeek實現了一項可搶佔且具備容錯能力的大型語言模型生成服務,以支援強化學習/OPD 的部署。 具體而言,DeepSeek為每項生成請求實施了一種基於標記粒度的預寫日誌(WAL)。每當為某項請求生成新標記時,我們會立即將其追加到該請求的 WAL 中。在搶佔過程中,DeepSeek會暫停推理引擎,並保存KV 快取。

總結,DeepSeek V4在大模型算力計算、通訊互聯、記憶體等方向都做了很多的工作,這確實是V4推遲發佈的原因,也是V4依然能夠實現成本低廉下實現性能提升的關鍵原因。

如今,DeepSeek-V4-Flash版本價格低至2元輸出1M tokens上下文。

03. DeepSeek過去一年重要時刻點梳理如下

2024年12月28日:發佈DeepSeek V3大模型,訓練周期2個月、成本低於600萬美元,推理性能對標OpenAI o1,程式碼與邏輯推理能力接近GPT-4 Turbo。

2025年1月20日:推出R1推理最佳化模型(表現優於OpenAI o1)並開源多模態模型Janus-Pro。

當日DeepSeek遭遇峰值3.2 Tbps的DDoS攻擊導致部分區域服務中斷;

2025年5月28日:推出DeepSeek R1-0528升級版本,參數量685B,程式碼與推理能力直逼OpenAI o3、超越Claude 4,支援128K上下文長度,部署成本更低。

2025年8月-9月:8月18日開源V3.1-Base版本(128K上下文、約685B參數);8月20日-21日發佈DeepSeek V3.1定位為“邁向Agent時代的第一步”。

9月6日,DeepSeek調整API價格

2025年12月1日:DeepSeek發佈V3.2系列模型(含標準版與高性能版),性能逼近甚至超越同類閉源模型,128K上下文場景中預填充成本降低51%、解碼速度提升62.5%,推理總成本僅為同類閉源模型1/3,其中V3.2-Speciale在數學證明賽事中獲金牌,達到人類選手第二水平。

2026年1月20日:恰逢DeepSeek-R1開源一周年,開發者Hub的FlashMLA程式碼庫中意外發現神秘識別碼“MODEL-1”,其橫跨114個檔案、出現28次,與現有V3.2模型並列引用且未沿用舊版命名規則,暗示DeepSeek將推出架構重構的新版本模型而非簡單迭代。

2026年2月10日:野村證券發佈報告,預計2月中旬推出的DeepSeek V4模型不會重現去年V3發佈時引發的全球AI算力需求恐慌,指出V4核心價值在於通過底層架構創新推動AI應用商業化落地。

2026年2月11日:DeepSeek 開啟新模型灰度測試,該版本疑似V4正式亮相前的終極灰度版。

3月:DeepSeek更新了專家模型,並且發佈了多份研究論文。 (智能紀元AGI)