DeepSeek V4,一個王炸!

DeepSeek V4,終於亮相了。

就在2026年4月24日,AI圈的平靜被一封發佈稿打破。

沒有任何預熱,沒有發佈會,深度求索團隊在官網和社交媒體上同步宣佈:全新系列模型DeepSeek-V4 預覽版正式上線並開源,即日起登錄官網或App即可體驗。

這是一次略顯突然的發佈。就在幾天前,矽谷還在熱議OpenAI的GPT-5.5和Anthropic的Claude Opus 4.6,全球AI領域的競爭早已呈現“萬類霜天競自由”的氣象。

站在另一個維度來看,此刻距離DeepSeek上一次讓全球AI行業震動,已經過去了近16個月。

時間撥回到2025年初。R1發佈當天,行業迅速沸騰,中國AI團隊用不到600萬美元的算力成本訓練出能與GPT-4正面競爭的模型,輝達股價應聲暴跌。那一周,DeepSeek同時登頂中美App Store下載榜首,“中國AI奇蹟”的敘事鋪天蓋地。

在這近16個月的時間裡,智譜和MiniMax先後登陸資本市場,市值一度衝破3000億元;豆包、Qwen密集發佈新版本,頻頻登頂各類榜單;Anthropic推出Claude 4系列,OpenAI迭代至GPT-5.5,

而DeepSeek在V3之後長達近16個月的時間裡,只推出了幾個跑分變化不大的中間版本,外界關於“DeepSeek是否後繼乏力”的猜測此起彼伏。

近16個月的時間裡,整個行業都在等待一個答案:DeepSeek究竟是曇花一現,還是一條可持續的技術路線?

終於,答案來了。

DeepSeek V4,有那些亮點?

客觀上講,DeepSeek V4的發佈略顯樸素,沒有任何預熱,也沒有發佈會。

並且,在DeepSeek官方的稿件裡面,似乎也沒有太多“炸裂”元素。

DeepSeek官方在技術報告中坦誠地寫道,V4的能力水平仍落後GPT-5.4和Gemini-3.1-Pro,“發展軌跡大約滯後前沿閉源模型3至6個月”。在國內AI發佈稿裡,這種主動承認差距的寫法相當罕見。

但真正值得關注的不在於跑分是否登頂,而在於V4解決了一個困擾大模型行業多年的根本問題:長上下文的成本困境。

眾所周知,傳統Transformer架構有一個致命的擴展難題——注意力機制的計算量隨上下文長度呈平方級增長。上下文翻倍,計算量翻四倍。這意味著,把上下文從128K擴展到100萬token,理論上計算量會增長約60倍。

這也是為什麼長期以來,百萬字上下文要麼是Google Gemini的獨家王牌,要麼是實驗室裡的漂亮數字,太貴了,用不起。

V4給出的解法是一種全新的混合注意力架構。通俗地解釋,就像你在讀一本1000頁的書時找某個觀點的關聯內容。笨辦法是把目標頁和其他999頁逐一比對,工作量隨頁數翻倍而變成四倍。聰明的辦法是:先粗略判斷那些頁面可能相關(稀疏選擇),再把相關頁面壓縮成摘要(token壓縮),兩步疊加上後,工作量增長曲線被大幅壓平。

這正是V4的核心創新:CSA(壓縮稀疏注意力)和HCA(高度壓縮注意力)的混合架構。在1M上下文設定下,V4-Pro的單token推理算力只有上一代V3.2的27%,KV快取僅需10%;更經濟的V4-Flash版本則將這兩個數字分別壓到了10%和7%。

換句話說,上下文長度擴大了近8倍,但推理成本反而下降了。

再回到模型本身來看,V4一口氣發佈兩個版本:DeepSeek-V4-Pro 總參數1.6兆、每次推理啟動49B;DeepSeek-V4-Flash 總參數284B、啟動13B。兩者均原生支援100萬token上下文。

理解這兩個數字需要先理解MoE(混合專家)架構。簡單講,V4內部有大量“專家”子網路,每次處理資訊時只啟動其中一小部分。總參數決定知識容量,啟動參數決定推理成本。這就像一家公司有1600個身懷絕技的員工,但每個項目只調49人上陣,可以按需靈活組合。

在能力評估上,DeepSeek的措辭相當克制。

發佈稿明確表示:V4-Pro的Agent能力優於Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與後者思考模式存在差距。在內部85名開發者和研究人員的調研中,超過九成認為V4-Pro已可作為首選或接近首選的程式設計模型。

能力的分佈是不均勻的。在數學、STEM、競賽型程式碼等推理密集型任務上,V4-Pro超越所有已知開源模型,比肩頂級閉源產品;在Codeforces人類選手排行榜上,V4-Pro-Max位列第23名;但在世界知識方面——事實性資訊的覆蓋廣度,僅稍遜於Gemini-Pro-3.1。

這個差距來自資料:Google擁有搜尋引擎索引和更大規模網頁抓取的結構性優勢,不是演算法可以短期彌補的。

V4-Flash則定位為明確的性價比之選。很多人看到Pro和Flash兩個檔位,第一反應是“Flash就是降配版”,但實際並非如此。

V4-Flash的推理能力與Pro接近,世界知識稍遜,而在Think Max模式下,性能可以大幅追近Pro:LiveCodeBench Flash Max達到91.6,Codeforces Flash Max Rating達到3052,與Pro Max的差距已相當有限。

DeepSeek的底層突破

V4在Agent能力上的提升幅度引人注目。但這一點需要更細緻的理解。

Agent任務的核心約束一直是上下文管理:任務鏈越長,需要維護的狀態越多,有限的上下文窗口很快就成為瓶頸。V4的1M窗口意味著,Agent可以在更長的操作鏈裡保持狀態連貫,處理更大規模的程式碼庫,跨越更多文件進行推理。

不只是模型變聰明了,底層條件也變了。

V4專門針對 Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產品做了適配最佳化。後訓練階段,Agent是作為與數學、程式碼並列的獨立方向單獨訓練的;工具呼叫格式從JSON換成了帶特殊token的XML結構以降低錯誤率;跨輪次的推理痕跡在工具呼叫場景下完整保留,不再每輪清空。另外,DeepSeek還搭建了一套名為DSec的沙箱平台,單叢集可並行管理數十萬個沙箱實例,專門用來支撐Agent強化學習訓練和評測。

這些細節指向同一個方向:V4不是在做“更強的聊天機器人”,而是在做“能幹活的作業系統”。

另外,V4最核心的技術改動,是在注意力層。

傳統Transformer的注意力機制,每個token要和前面所有token逐一計算相似度。上下文從10萬拉到100萬,計算量增長的不是10倍,而是100倍。

V4的做法是把注意力拆成兩種,交替疊用:

一種是CSA(壓縮稀疏注意力),先把每若干token的KV快取合併成摘要,再讓每個query只在這些摘要裡挑選最相關的top-k條去算注意力——相當於既壓縮了“要看的內容”,又只挑“值得看的”去算;

另一種是HCA(高壓縮注意力),用更激進的壓縮率把更長區間的token合併為一條,但保持稠密注意力。兩種機制交替疊加,再加上一個滑動窗口分支處理“離得近的token之間的細節依賴”,形成了一套粗粒度與細粒度、稀疏與稠密的組合拳。

而除了注意力層,V4還在殘差連接和最佳化器上動了刀。

傳統殘差連接被升級為mHC(流形約束超連接),通過數學約束讓深層網路的訊號傳播更穩定;大部分模組的最佳化器從AdamW換成了Muon,通過迭代正交化梯度矩陣來加速收斂。這是DeepSeek第一次同時動Transformer的注意力、殘差、最佳化器這三處核心結構。

後訓練方法同樣換了範式。V3.2用的是“混合RL”,一次性最佳化多個目標。

V4則換成了“分化再統一”的兩步走:先針對數學、程式碼、Agent等不同領域獨立訓練專家模型,每個專家都在自己的賽道上跑到最優;再用一種叫On-Policy Distillation的方法,把十多個領域專家“蒸餾”回一個統一的學生模型——學生自己生成回答,針對每個回答匹配最懂這個問題的專家的輸出分佈,通過logit級對齊把能力吸收進來。用通俗的話說,把一堆尖子生蒸餾成一個通才。

這套流程的工程難度在於:同時載入十多個兆參數級的教師模型做線上推理幾乎不可能。DeepSeek的做法是把所有教師權重統一解除安裝到分佈式儲存,只快取每個教師最後一層的hidden state,訓練時按教師索引排序樣本,保證任意時刻GPU視訊記憶體裡只駐留一個teacherhead。

從2025年初到今天,V3.1、V3.2那些“沒什麼亮點”的中間版本,當時看似乎是在原地踏步。現在回頭看,DSA稀疏注意力的種子、TileLang替代CUDA的嘗試、Engram架構的早期驗證,都是在那時悄悄種下的,V3.2正是V4的地基。

DeepSeek V4,對國產晶片價值幾何?

如果說技術架構的革新是V4的“明線”,那麼對國產晶片產業鏈的重塑,則是這次發佈最容易被低估的“暗線”。

要理解這條暗線的份量,需要先理解過去兩年AI競爭的核心邏輯。大模型發展至今,行業的共識是:訓練看算力,推理看視訊記憶體。在訓練階段,誰能買到更多高端GPU,誰能堆出更大叢集,誰就更有機會做出更強的基礎模型。

輝達憑藉H100/A100系列GPU和CUDA生態,在這個階段建立了看似難以踰越的護城河。

但大模型做出來之後,真正決定商業化速度和產業滲透深度的,是推理。尤其是以OpenClaw、Hermes為代表的Agent應用爆發後,推理的成本結構發生了根本性變化。

Agent任務的特點是上下文越來越長、記憶越來越深、工具呼叫越來越頻繁。在這個場景下,GPU的視訊記憶體會被KV快取撐爆,大模型的推理質量急劇下降。

推理的第一個瓶頸,不是算力不夠,是“記憶”和“計算”在搶同一塊視訊記憶體。

這正是國產晶片最大的短板所在。受限於先進製程,國產GPU在算力峰值上尚可追趕,但在視訊記憶體容量和頻寬上與輝達存在代際差距。輝達最新一代Rubin GPU搭載288GB HBM4記憶體,而國產晶片如昇騰910B的視訊記憶體容量為64GB。如果按照傳統架構跑長上下文推理,這個差距幾乎是致命的。

DeepSeek V4的解題思路,不是硬拚硬體,而是從架構層面重構了“記憶”和“計算”的關係。

這涉及兩個關鍵創新:其一,CSA/HCA混合注意力機制大幅壓縮了KV快取佔用,1M上下文下,V4-Pro的KV快取僅為V3.2的10%,V4-Flash更是壓到7%。

其二,據公開論文推測,V4採用的Engram架構把模型裡那些“死記硬背”的靜態知識抽出來放入獨立的記憶體表,推理時CPU負責“查字典”檢索知識,GPU只負責“想邏輯”計算推理,兩者完全重疊執行。當GPU在算上一個詞的邏輯時,CPU已經把下一個詞所需的知識搬到了門口。

延遲被這種平行架構徹底掩蓋。

結果是什麼?一個原本需要80GB視訊記憶體才能跑的長上下文推理任務,在Engram架構下可能只需要8GB視訊記憶體。輝達引以為傲的HBM視訊記憶體稀缺性,在這套架構面前被大幅削弱。國產晶片那64GB的視訊記憶體容量,突然變得夠用了。

這解釋了為什麼黃仁勳會在近期訪談中做出一個意味深長的假設。他說,如果DeepSeek新模型在華為平台上首發,“這一天對美國來說將是一個可怕的結果,因為這意味著AI模型被最佳化為在中國AI硬體上表現最佳,而這些模型擴散到全球之後,就會推動中國技術成為世界標準。”

而DeepSeek恰恰這麼做了。

V4這次沒有按行業慣例給輝達早期測試權限,而是把提前適配的機會獨家開放給了華為昇騰和寒武紀。目標是實現從CUDA生態到華為CANN框架的整體遷移。

V4技術報告第3.1節將華為昇騰NPU與輝達GPU並列寫進硬體驗證清單——這是DeepSeek官方第一次這樣做。V4的MoE專家權重和稀疏注意力索引器採用FP4精度,而FP4恰好是華為昇騰950PR晶片的原生支援精度。

這不是巧合,這是一條被悄悄鋪了很久的路。

產業鏈的傳導效應已經顯現。據有關媒體報導,阿里巴巴、字節跳動和騰訊等科技巨頭已提前下單華為新一代AI晶片,訂單規模達數十萬顆。

在華為之外,寒武紀在軟硬一體生態中已完成對V4全系列的Day 0適配,適配程式碼開源至GitHub社區。沐曦股份預期2026年將扭虧為盈,有望成為繼寒武紀之後另一家盈利的國產GPU廠商。當DeepSeek用兆參數等級的模型驗證了國產晶片可以承載頂級大模型的推理,整個生態的底氣就變了。

並且,從更宏觀的視角看,這件事改變的不僅是晶片選型,更是AI產業鏈的利潤分配邏輯。

過去兩年,輝達憑藉GPU壟斷攫取了AI爆發期最豐厚的利潤,其資料中心業務毛利率長期維持在70%以上。而當一家開源模型的架構創新能夠進一步降低視訊記憶體需求,能夠跑通國產晶片並實現推理成本的大幅下降,輝達的定價權就不再是鐵板一塊。

儘管短期內輝達在高端訓練GPU和CUDA生態上的優勢仍難替代,但推理市場,這個遠比訓練更廣闊、更具持續性的市場的遊戲規則正在被改寫。

這就是DeepSeek“曲線救國”的邏輯:不是在單卡性能上硬碰硬,而是用系統級最佳化、軟硬協同和架構創新,重新定義了競爭維度。

正如一位GPU企業人士所說,國內廠商都是戴著“鐐銬”與輝達同台競技。而V4證明了一件事:戴著鐐銬也可以起舞,甚至能跳出一支讓對方緊張的舞。

結語:梁文鋒的安靜“棋局”

V4發佈稿結尾,DeepSeek引了一句荀子:“不誘於譽,不恐於誹,率道而行,端然正己。”

這句話放在DeepSeek一路走來的故事語境裡,意味深長。

過去一年多,DeepSeek在外界的敘事裡經歷了過山車般的起伏。

2025年初V3和R1爆火後,媒體將其捧上神壇,“中國AI奇蹟”的敘事鋪天蓋地。隨後一年多,當Anthropic、OpenAI密集發佈新模型,而DeepSeek只推出幾個跑分變化不大的中間版本時,關於“後繼乏力”的質疑又此起彼伏。在這個崇尚競爭和結果說話的行業裡,掌聲和噓聲都來得極快。

而梁文鋒似乎始終活在自己的節奏裡。

在DeepSeek內部,梁文鋒更多扮演著一個導師的角色:組織研發、協調資源,也做具體研究,在共同成果上署名為通訊作者。他幾乎把所有時間投入選定的少數事情上,不做融資、不參加團建、很少和成員聚餐。

DeepSeek至今保持著一些在全球AI圈都極其罕見的習慣:不打卡、沒有明確的績效考核,平日裡多數員工會在下午六七點離開公司。在梁文鋒看來,一個人每天能高品質工作的時間很難超過6到8小時,加班疲勞下的昏庸判斷反而會浪費寶貴的算力資源。

接近過梁文鋒的人曾評價:“他是一個特別抗噪音的人。”

這種抗噪音的能力,解釋了DeepSeek為何沒有在R1爆火後乘勝追擊放大招,而是沿著自己選定的方向繼續深耕效率最佳化、架構改進和一些“非主流”探索。梁文鋒認同的AGI目標有兩層含義:一是基於國產生態來做大模型,他曾提出過“能不能用現存的一部分算力,就實現現在所有的智能”的假設;二是做“原創式創新”,做一些大廠或其它創業公司不會去試、不願去試的方向。

這或許也能解釋V4為何選擇在這個時間點發佈。不急不躁,按自己的節奏出牌,在技術成熟度、生態適配和成本重構都到位的節點,一擊中的。

也就在V4發佈後,一個容易被忽略的細節值得被重新提起:截至2026年4月,史丹佛大學HAI實驗室發佈的年度《AI指數報告》顯示,中美大模型性能差距已縮小至2.7%,基本實現技術追平。

這個數字的背後,是兩種截然不同的路徑。

美國走的是“算力堆疊+商業驅動”的路,用全球最強的GPU、最充裕的資本、最激進的商業化來推動模型能力不斷突破;

中國走的是另一條路,一條在算力受限、晶片被卡的條件下,只能靠架構創新和系統最佳化來“戴著鐐銬起舞”的路。DeepSeek V4的每一項創新背後都能嗅到一個共同的動機:如何在更少的視訊記憶體、更低的算力、更受限的硬體條件下,榨出更多的智能。

可以說,DeepSeek V4不是終點,甚至不是一次高潮。

它是一個訊號,一個在算力受限的逆風局裡,依然可以用原創架構打開新空間的訊號;一個頂級開源模型不再必須繫結在輝達晶片上的訊號;一個沒有融資、不卷加班、按自己節奏前行的團隊,依然能站在第一梯隊的訊號。

“不誘於譽,不恐於誹,率道而行,端然正己。” (正和島)