DeepSeek V4震撼發佈！實現全球開源領先

2026/04/25

•

讓全球從春節苦等到四月的DeepSeek V4，終於來了！

就在剛剛，DeepSeek V4真的來了！

今天，那個曾經以一己之力打破閉源模型霸權的DeepSeek，帶著DeepSeek-V4系列預覽版，向全球開發者正式宣告——

百萬級上下文（1M Context）的平民化時代，以及開源Agent能力、世界知識和推理性能上的新巔峰，已經到來。

DeepSeek V4，再度實現國內與開源領域的領先。

V4的技術報告，已經同步發佈。

論文地址：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

DeepSeek-V4-Pro性能比肩頂級閉源模型

DeepSeek-V4 系列包含兩個版本：擁有1.6T總參數、49B啟動參數的性能怪獸 DeepSeek-V4-Pro，以及專為高效率、經濟性設計的284B總參數、13B啟動參數的DeepSeek-V4-Flash。

可以說，DeepSeek-V4-Pro已經達到了開源模型的新巔峰，對標全球頂尖閉源水準。

首先，V4-Pro在Agent能力上實現了跨越式突破，其Agentic Coding水平穩居開源界首位。

實測反饋顯示，其編碼體驗已超越Sonnet 4.5，交付質量直追Opus 4.6（非思考模式），目前已成為公司內部Agent程式設計的首選模型。

其次，它具備深厚的世界知識儲備。

在知識測評維度，V4-Pro顯著領先同類開源產品，與閉源標竿Gemini-Pro-3.1的差距已縮減至極小範圍。

另外，它還有頂尖的邏輯推理表現。

在數學、STEM及高難度競賽程式碼等硬核領域，V4-Pro的表現不僅冠絕開源社區，更具備了挑戰世界最強閉源模型的實戰競爭力。

支撐這兩個模型傲視群雄的，是其底層技術的「三大神技」：

混合注意力機制（CSA + HCA）

DeepSeek-V4 並沒有盲目增加硬體投入，而是開創性地設計了混合注意力架構。

壓縮稀疏注意力（CSA）對KV快取進行token維度的壓縮並結合DSA稀疏注意力；重壓縮注意力（HCA）則進行更極致的壓縮以維持稠密計算。

這種「長短結合」的策略，讓模型在處理百萬字上下文時，計算量和視訊記憶體需求大幅降低。

流形約束超連接（mHC）

為了提升訊號傳播的穩定性並增強模型表達力，V4引入了mHC結構，升級了傳統的殘差連接。這讓模型在深層網路中依然能保持卓越的建模能力。

Muon 最佳化器

引入全新的Muon最佳化器，讓訓練過程不僅收斂更快，且更加穩定。

正是這些結構創新，讓DeepSeek-V4在推理效率上實現了質的飛躍。

在100萬token上下文的極端場景下，DeepSeek-V4-Pro的單token推理計算量僅為前代的 27%，KV快取佔用更是縮減到了驚人的10%。

DeepSeek-V4-Flash極致效能與性價比的完美平衡

相比於Pro版本，Flash版則是更快捷高效的經濟之選。

儘管在世界知識的深度上略遜於Pro版本，但DeepSeek-V4-Flash保留了與之接近的邏輯推理水平。

受益於更精簡的參數規模與啟動機制，它能為使用者提供響應更快、成本更低的API接入方案。

在處理基礎 Agent 任務時，V4-Flash的表現與Pro版不相上下，但在應對極端複雜任務時仍存在進階空間。

架構革新重塑長上下文效率

DeepSeek-V4引入了革命性的注意力機制，通過在Token維度進行高效壓縮，並結合 DSA稀疏注意力（DeepSeek Sparse Attention）技術，實現了全球頂尖的長文字處理能力。

這種創新大幅削減了對計算資源與視訊記憶體的依賴。

即日起，1M（100萬 tokens）超長上下文將成為DeepSeek官方服務的標準配置。

DeepSeek-V4和DeepSeek-V3.2的計算量和視訊記憶體容量隨上下文長度的變化

Agent能力深度最佳化

DeepSeek-V4 針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流 Agent生態進行了深度適配。

在程式碼編寫與自動化文件生成等場景下，其產出效率顯著提升。

API全面升級，舊版模型倒計時

對於開發者而言，好消息是：API已經同步上線！

只需簡單修改 model_name 即可接入這兩款新旗艦：

追求性能：deepseek-v4-pro
追求效率：deepseek-v4-flash

特別提醒：原有的 deepseek-chat 和 deepseek-reasoner 模型名將作為V4的過渡別名（分別指向 V4-Flash 的非思考與思考模式），但這兩個舊名稱將於2026年7月24日正式停用。

論文解讀

兩種壓縮，一套組合拳

V4-Pro中，CSA的壓縮率為4，每4個token的KV快取合併成一個條目。

壓縮之後再通過Lightning Indexer對壓縮後的KV條目打分，每個query token只選top-1024個條目做注意力計算。索引計算用FP4精度，超長上下文下開銷極低。

HCA走另一條路。壓縮率拉到128，比CSA激進得多，但不做稀疏選擇，所有壓縮後的KV條目都參與計算。極致壓縮換全域視野。

兩種機制交替堆疊，CSA精細檢索，HCA全域感知，再加上每層128 token的滑動窗口捕捉局部依賴，三條路徑協同。

算一筆帳。

以常規BF16 GQA8（頭維度128）作為基線，V4在100萬token下的KV快取只有基線的約2%。KV條目還採用混合精度儲存，RoPE維度BF16，其餘FP8，體積比純BF16再砍一半。

推理端則把壓縮KV和滑動窗口KV分開管理，支援磁碟級快取儲存，避免共享前綴的重複prefill。

mHC，6.7%的代價換來的穩定性

標準HC擴展殘差流寬度來增強資訊傳遞，但多層堆疊時數值會炸。

mHC的做法是把殘差對應矩陣約束在雙隨機矩陣流形（Birkhoff多面體）上，確保譜范數不超過1，訊號深層傳播不發散。投影通過Sinkhorn-Knopp演算法迭代20次實現。

工程代價可控，擴展因子只有4，經過融合kernel和選擇性重計算最佳化後，額外牆鐘時間僅6.7%。

訓練兆參數的「土辦法」

Muon的核心是對梯度動量做Newton-Schulz正交化，V4用10次混合迭代，前8次快速收斂，後2次精確穩定。

但最佳化器只是一半的故事。V4報告披露了兩個訓練穩定性技巧。

Anticipatory Routing，把路由索引的計算和主幹網路的更新解耦，用歷史參數提前算好路由並快取。系統在檢測到loss spike時自動觸發，日常開銷可忽略。

SwiGLU Clamping，把SwiGLU線性份量箝制在[-10, 10]，門控上界箝制在10。簡單粗暴但有效。

MoE工程上，V4開源了MegaMoE，把通訊和計算融合進單個pipeline kernel，通用場景加速1.5到1.73倍，延遲敏感場景最高1.96倍。

專家分訓，蒸餾合一

V4用On-Policy Distillation（OPD）替代了V3.2的混合RL。先獨立訓練數學、程式碼、Agent等領域專家，再用一個學生模型對十幾個專家做全詞表logit蒸餾。

工程上的關鍵突破是，不快取教師logits（視訊記憶體放不下），只快取最後一層隱藏狀態，訓練時按需重建logits，用TileLang專用kernel加速KL散度計算。

V4還引入了Generative Reward Model（GRM），讓actor網路同時充當獎勵模型，評判和生成能力聯合最佳化，不再依賴傳統標量獎勵模型。

後訓練階段同步做了FP4量化感知訓練，對MoE專家權重和CSA索引器做FP4量化，且FP4到FP8反量化無損，整個流程復用現有FP8框架。

DeepSeek再度證實開放原始碼的力量

從V3的橫空出世到V4的效率革命，DeepSeek始終堅持將最頂級的技術通過開源分享給社區。

DeepSeek-V4的上線，不僅是技術參數的跳躍，更是對「百萬長上下文」和「高性能 Agent」這兩大未來趨勢的有力回應。

它證明了通過架構創新，我們可以在不犧牲性能的前提下，極大降低大模型的門檻。

現在，你可以在官方App或chat.deepseek.com立即開啟1M上下文的全新體驗。

這不僅僅是一個對話方塊，這是一個能裝下整部百科全書、能理解萬行程式碼邏輯的「第二大腦」。 (新智元)