DeepSeek V4,千呼萬喚始出來。
一年多的等待,終於等來了 DeepSeek 的全新模型。從 Benchmark 上看來,V4 的表現大概追平矽谷的上一代旗艦模型,但最近 Kimi 2.6、GLM 5.1 的整體表現都大概在這個水准之上,似乎驚喜並不大。在論文中 DeepSeek 團隊也開誠布公地表示,DeepSeek-V4-Pro-Max 的表現小幅超越當前的領先開源模型,並高於 GPT-5.2 and Gemini-3.0-Pro,但仍然落後於 GPT-5.4 and Gemini-3.1-Pro,差距大概在三到六個月。
只看 Benchmark,原來曾經靠著 V3、R1 一枝獨秀的 DeepSeek,似乎也突然泯然眾人了。
一開始我覺得這是因為國內開源同行們追得太快,同時也是訓練範式在這一年中強烈逐漸收斂後的必然。
01. 第一個範式更新:折疊中的百萬上下文
第一個範式級的更新是處理注意力壓縮的 CSA/HCA。
它是 V4 最重要的一個技術革新,同時也是 DeepSeek 對 AI 發展下一個高地的判斷。
對 DeepSeek 而言,長上下文,不再是一個簡單的功能,而是下一代大模型的基礎設施。
為什麼?他們在技術報告中寫道:「長視野場景和任務的湧現——從複雜的智能體工作流到大規模的跨文件分析——也使得對超長上下文的高效支援,對未來進展至關重要。」
這很合理。Test-time scaling 需要模型在推理時想很久,產生極長的思考鏈,上下文越長,計算量二次方爆炸。而當前關注長程任務的智能體工作流天然需要超長上下文,效率低就跑不起來,跑不起來就沒有商業價值。
他們甚至不惜點名批評同行,說他們沒有直面問題。論文中說:「儘管近期的開源努力(Kimi K2、DeepSeek-V3、MiniMax、Qwen)在推進通用能力方面取得了進展,但處理超長序列時這種核心的架構低效仍然是一個關鍵障礙,限制了 test-time scaling 的進一步收益,也阻礙了對長視野場景和任務的進一步探索。」
而做到了高效的長上下文處理,模型才能更好地做推理、完成長程任務、完成更複雜的線上後訓練。
因此,誰做到了長上下文上的首先突破,誰就能更快地、更好地推進模型的訓練發展。
在這個判斷之下,V4 在決定上下文的核心技術,也就是注意力機制上進行了更激進的重構。
制約上下文的核心問題,其實就是 Transformer 架構中注意力機制(Attention)的複雜度問題。
- 重新定義「壓縮」,從變薄到變短
在大模型圈,注意力壓縮本身並不新鮮,但 DeepSeek-V4 這次是在下刀的維度上,走了一條創新之路。
注意力機制的計算工作量,其實由三部分組成,長度(文字的總數)× 寬度(大模型同時思考的注意力頭數)× 厚度(每個詞彙所蘊含的隱藏層維度資訊量)。
在 V4 誕生之前,業界一直在寬度和厚度上做文章。比如 GQA(分組查詢注意力)做的就是壓縮寬度。它讓大模型的多個思考線程(Query)共享同一組歷史記錄的鍵值(Key 和 Value)。這就像是把一份 100 萬字的檔案雙面縮小列印後再讓注意力去看,一個注意力看得就多了。
MLA(多頭潛在注意力)則是意圖壓縮厚度,這是上一代 DeepSeek-V3 的核心技術。它嫌棄每個詞的特徵向量太長、太佔地方,於是通過低秩對應(Low-Rank Projection)技術,把每個詞壓縮成了一個更短的潛在向量。這相當於發明了一種 token 的速記符號。
這兩種方式的問題是,雖然壓薄了、做窄了,但 100 萬個速記符號依然是 100 萬個計算單位,大模型還是得從頭看到尾。
但到了 DeepSeek-V4 這一代,也就是核心的 CSA/HCA(壓縮注意力),架構師們意識到只要文字的物理長度不減少,算力爆炸就永遠無法停止。
於是,他們這次選擇直接對時間/序列維度(長度)下刀。
V4 不再把 100 萬個詞當作 100 萬個獨立的實體,而是將它們強制融合。直接讓小秘書把 100 萬字的原著,揉碎重寫成了一份不到 1 萬字的執行摘要。大模型在後續推理時,只看摘要,絕不解壓(No Decompression)。
傳統的電腦壓縮(比如壓縮包),在讀取時必須還原成原檔案。但 V4 的壓縮是一場「有損的語義融合」。它通過演算法的權重分配,將幾十上百個詞的特徵向量,按重要性比例像放進攪拌機一樣揉碎後相加,形成了一個全新的「宏觀概念超級 Token」。
這就像把多種水果打成了一杯混合果汁(融合),你再也無法把蘋果和香蕉單獨剝離出來(不解壓),但果汁裡依然包含了它們所有的營養(語義資訊)。過去發生的事情,變成了這種濃縮的劇情大綱塊。大模型在思考時,直接品嚐這杯果汁(提取特徵),徹底省去了將其還原回幾十萬字的算力災難。
- 混合注意力的精細解剖
這麼壓縮的好處是極端省算力、省記憶體,但度怎麼掌握呢?
DeepSeek-V4 並沒有用一刀切的辦法,而是設計了兩把材質完全不同的手術刀交替使用。
先說 HCA(重度壓縮注意力),它就是一個暴力的全域「超廣角鏡」,會極其暴力地大步長壓縮。在 V4-Pro 中,它把連續的 128 個詞,毫無縫隙地強行捏成 1 個超級概念塊。當計算時,因為 100 萬個詞被壓縮了 128 倍後,只剩下不到 8000 個塊,這點長度對大模型來說不過是小菜一碟。所以它不做任何篩選,直接從頭到尾通讀這 8000 個塊。
HCA 為大模型提供了一個極其廉價的全域底噪。這就像是偵探在腦海中隨時掛著一幅「案件宏觀時間線」,它確保模型在處理百萬字時,始終錨定宏觀語境,絕不跑題。
第二個壓縮等級是 CSA(壓縮稀疏注意力),它是個附帶雷達的「微距長焦鏡」。
如果只有宏觀的 HCA,大模型就會變成一個只會敷衍大意、喪失精細推理能力的糊塗蛋。為了找回丟失的細節,CSA 登場了。它採用的是相對 HCA 的輕度壓縮,僅把 4 個詞融合成 1 個。並且為了防止相鄰句子的意思被切斷,它採用了帶重疊的滑動壓縮,保證了語義的平滑過渡。
在 CSA 下,既然壓縮率低,那 100 萬字壓縮後依然有 25 萬個塊,如果全算一遍,算力依然會當機。於是,V4 給它祭出了「微型雷達」閃電索引器。
它把當前大模型的提問(Query)降維成一個極小的封包,像雷達掃描一樣飛速掠過這 25 萬個壓縮塊,最後幫模型鎖定最相關的 1024 本書(Pro版本)。這時,大模型只把注意力投入到這挑出來的幾百本核心線索書上,進行深度的精準核對。
在 DeepSeek V4 的設計裡,架構上這兩種方法是一層疊一層的,時而用 HCA 掃視全貌,時而用 CSA 拿著放大鏡聚焦線索。它基本完美復刻了人類閱讀長篇巨著時略讀與精讀交替的高能效認知模式。
這種方法帶來的是巨大的收益,靠著這種粗讀方式,V4-Pro 的單 Token 推理計算量(FLOPs)僅為上一代 V3.2 的 27%,而極其昂貴的視訊記憶體(KV Cache)佔用僅為 10%。V4-Flash 更誇張,計算量僅佔 10%,視訊記憶體僅佔 7%。
- 「深度補償」的極限套娃遊戲
這個世界上能量是守恆的。DeepSeek 用暴力壓縮在長度上佔了天大的便宜,難道就真的不會影響精度嗎?
從常識上看,把 128 個字的龐大語義強行塞進原來只能裝 1 個字的特徵向量裡,細節必然會被無情地擠碎。
所以為了保住大模型的智商,防止關鍵資訊的流失,一定要有點補償。DeepSeek 的架構師們開始在補償中套娃,補償的第一步是把特徵向量強行加厚(Depth Compensation)。在 DeepSeek-V4-Pro 中,為了兜住這 128 倍壓縮帶來的資訊洪流,架構師將大模型單個注意力頭(Head)的隱藏維度(即容器的厚度)從常規的 128 維,喪心病狂地拉寬到了 512 維。這個加厚操作確實保住了資訊的保真度,但它引爆了另一個計算炸彈。
在神經網路中,大模型同時工作的 128 個注意力頭(就像 128 個獨立思考的員工),在算完自己的結果後,需要把資料拼接在一起,向上級匯報(對應回模型的原始維度)。因為前面把每個頭的維度加厚到了 512,這 128 個頭拼起來的資料長度直衝 65536 維!如果不加干預,負責這次匯報的投影矩陣將吃掉驚人的 4.7 億個參數。
看到這裡,你可能會產生一個敏銳的疑問,既然為了兜住資訊,把向量加厚到了 512 維,單次計算量變大了,那之前壓縮長度省下來的算力,是不是裡外裡又被抵消了?
這筆帳,其實完全算得過。大模型最耗時的操作,是那條二次方爆炸的長度曲線。因為把 100 萬字的長度壓縮到了不到 8000 個塊,注意力機制省下的是數百億次的浮點運算;而因為把維度加厚到 512 維,特徵計算雖然增加了 4 倍,但付出的代價僅僅是幾億次浮點運算的倒貼。
所以它引發的不是計算能力的瓶頸,而是頻寬的擁塞。如果每生成一個詞,顯示卡都要在記憶體和計算單元之間搬運這近 1GB 的權重資料,視訊記憶體頻寬(高速公路)會被瞬間擠爆,推理速度將如同大塞車一般龜爬。
因此補償進入第二層。為了填平這個坑,V4 引入了「分組輸出投影」。這就好比一場科層制的企業管理改革,128 個基層員工不再直接把幾萬頁的報告拍給大老闆,而是被劃分為 16 個小組;每個小組先在內部把報告濃縮為一份短小的小組總結,最後由 16 個中層領導統一匯報給老闆。通過加入這層極薄的中層管理結構,投影矩陣的參數量斷崖式暴跌近 60%,成功在數學層面上化解了頻寬塞車的危機。
但就算在深度上補償過了,深度本身也是一種壓縮形式,重要的內容依然可能丟失。因此 DeepSeek V4 就開啟了補償第三步,即絕對兜底的滑動窗口注意力(SWA),它強制不壓縮最後的 128 個 token。
它保證了模型在天馬行空思考 100 萬字大背景的同時,雙腳始終牢牢踩在當下的現實中。
- 壓縮的魔法,也許模型真的不用看得那麼細
這種不斷壓縮、縫縫補補的架構,單純從外部看挺不靠譜的。但從測試效果看,它換來的是實打實的智商飛躍。
因為不再受困於計算資源的限制,大模型展現出了更宏觀的聚合視角。
在 Codeforces 這種堪稱人類腦力煉獄的程式設計競賽中,V4-Pro-Max 以 3206 分的 Rating 首平了 OpenAI 的 GPT-5.4 等閉源頂流;在百萬長度的大海撈針極限測試中,其檢索表現甚至超越了 Gemini-3.1-Pro。
- 壓縮和線性,那條路更好?
在章節的開始,我們提到過以 Kimi (Moonshot AI) 為代表的線性注意力機制(Linear Attention)。和 DeepSeek 一樣,它徹底拋棄了保留所有歷史記憶的執念。但做法上與 DeepSeek 靠直接壓縮不同,它不再做整本厚厚的讀書筆記,而是只拿一張小卡片(狀態矩陣)。每讀到一個新詞,就擦除一下卡片,把新意思融合進去,不斷更新。
因此,它的計算複雜度是完美的一次方複雜度,這意味著,無論你給它看 100 萬字還是 1000 萬字,它生成每一個新詞所需的算力和視訊記憶體,就像死水一潭,永遠不會增加。
從理論上限來看,它無可匹敵。
但把 100 萬字的汪洋大海,全揉進一張固定大小的卡片裡,必然會導致精細記憶的嚴重丟失。為了找回智商,當前的線性注意力(如 Kimi)被迫向現實妥協,採用了 3:1 混合架構——每讀 3 層小卡片,就必須強行穿插 1 層傳統的標準注意力機制來翻看原著回血。
而正是這剩下的 25% 傳統層,依然要硬扛百萬長度的算力大山,成為了拖累其整體起飛的木桶短板。
而 DeepSeek 的方法,從結果上比這種妥協模式更省(10% vs 25%)。更重要的是,它本質上依然是矩陣乘法(大規模的行列式計算),這正是當今輝達等 GPU 晶片最適合的計算類型,其實際運行的硬體效率極高,對 infra 改造的要求比線性注意力要小。
因此,DeepSeek-V4 就是當前工業界更完美的現實主義最優解。為全世界提供了一個當下就能用、且用得起的百萬級上下文引擎。
- 交錯式思考,DeepSeek的Harness訓練
除了主線的注意力改變之外,為了更好的應對百萬級的token量,DeepSeek V4還提出了一個解決上下文連貫性的Harness框架。
它就是Interleaved Thinking(交錯式思考管理)。
在 DeepSeek-V3.2 里,模型已經開始區分「工具呼叫過程中的思考」和「普通對話中的思考」,但它仍然有一個問題:當新的使用者消息進來時,之前積累的 reasoning traces 會被丟棄。
對於普通聊天來說,這樣做是合理的,因為大多數對話不需要背著一大串中間推理往前走,保留太多反而浪費上下文。
但對於複雜 Agent 任務來說,這就很致命。
一個真正的 Agent 往往不是一問一答,而是要經歷搜尋、讀取、寫程式碼、運行命令、觀察結果、修正計畫、再次呼叫工具的多輪循環。如果每一輪使用者消息或工具結果之後,模型都要重新建構自己的問題理解,它就像一個每走幾步就失憶一次的工程師。
上下文看似還在,但任務狀態已經斷了。
V4 的做法是,把這兩種場景徹底分開。在普通對話場景裡,它仍然丟棄上一輪的思考內容,保持上下文簡潔;但在工具呼叫場景裡,它會跨使用者消息邊界保留完整的 reasoning history,讓模型能夠把前面每一次搜尋、每一次工具反饋、每一次失敗嘗試都納入同一個連續的問題求解過程。
這就是為什麼百萬 token 上下文在 V4 里不只是一個「能塞更多文字」的功能。它變成了 Agent 的工作記憶。長上下文負責提供足夠大的記憶空間,Interleaved Thinking 則決定這塊空間怎麼被使用。沒有前者,複雜任務裝不下;沒有後者,複雜任務雖然裝得下,但模型仍然無法穩定地沿著一條長鏈路持續推進。
所以從這個角度看,V4 的長上下文不是孤立的架構炫技,而是在為長程 Agent 工作流補齊一塊基礎設施。
CSA/HCA 解決的是百萬 token 能不能算得起,Interleaved Thinking 解決的是算得起之後,模型能不能真的把這些歷史變成連續的行動能力。
02. 第二個範式更新:推翻傳統後訓練
在大家都還用 GRPO 作為後訓練的基礎的時候,發明了這一方法的 DeepSeek 先部分推翻了它。
這說明,在 DeepSeek 看來,後訓練範式還遠沒有定型。
當下的後訓練面對的最大的兩個問題,一個是對齊稅(Alignment Tax),另一個就是對非 RLVR 領域的拓展可能。
DeepSeek V4 這次對兩個方向都發起了進攻。
- 用 OPD 攜手多個老師消除對齊稅
對齊稅,指的是當我們試圖讓模型變得更聽話、更嚴謹時,往往會以犧牲其原始的創造力或特定領域的靈動性為代價。這是因為 V3/V3.2 時代改採用的,現在也屬於行業比較通用的 Mixed RL(混合強化學習)範式中,所有的目標(程式碼、數學、創意寫作、指令遵循)都在同一個 RL 過程中被最佳化。
當模型試圖同時滿足數學的絕對嚴謹(Rule-based RL)和文學的優雅流暢(Preference-based RL)時,這兩種截然不同的獎勵訊號會在參數更新中產生極其劇烈的衝突。結果往往是模型常見的平庸化,為了保住程式碼不報錯,模型變得像個復讀機;為了讓語氣更有親和力,它的數理邏輯開始鬆動。每個值都達不到最好。
因此,V4 團隊提出的第一條自救邏輯是,承認偏科的必然性,並將其工程化。他們首先獨立培養了十幾個領域的頂級專家。數學專家只需在數學沙盒中用傳統的 GRPO 方式進行訓練,而程式碼和 Agent 專家則在 DeepSeek 自己設計的一套任務錨定的 DSec 沙盒中通過百萬次的編譯反饋不斷進化。這種物理層面的隔離,確保了每一種能力都能在不被其他領域干擾的前提下,觸碰到當前參數規模下的性能天花板。
那在專家們各顯神通之後,如何將這些靈魂重新注入一個統一的容器?用 OPD(On-Policy Distillation)。
OPD 一直是大模型後訓練中的一個明日之星,因為它就是可以統合不同的能力。但傳統的蒸餾由於算力限制,沒法蒸餾全部詞表,往往只能做 Token 等級的對齊,或者為了省視訊記憶體而只學 Top-K 的分佈。這種管中窺豹的學習方式會讓學生模型只學到皮毛(表層機率),而學不到教師模型深層的邏輯機率分佈。
為了避免這種現象,DeepSeek 這次選擇了全詞表 Logit 蒸餾(Full-vocabulary Logit Distillation)。為了實現這種全量灌頂,DeepSeek 設計了一套極其巧妙的快取替換策略。在前向傳播時只存隱狀態(Hidden States),在反向傳播時動態重構 Logits。
這種方法讓學生模型(最終的 V4)能夠完美擬合所有專家模型在全詞表上的輸出分佈。這不僅僅是學答案,而是學機率。由於學生模型在每一輪迭代中都在向這十幾個頂尖專家對齊,它成功規避了上面提到的權重融合(Weight Merging)帶來的性能退化,實現了真正意義上的無損大一統。
- GRM,將「通用驗證器」帶入工業生產線
如果說 OPD 是解決如何合,那麼 GRM(生成式獎勵模型)就是解決怎麼獎勵的問題。
這個問題在後訓練屆也是由來已久的,過去我們訓練的主要是那些有 Ground Truth 的領域,比如數學、程式碼(可以通過跑不跑得通驗證),這類訓練叫做 RLVR(即建立在可驗證獎勵上的強化學習)。它讓模型的程式碼和數學能力一日千里。
但對於主觀性極強的難以驗證的任務(Hard-to-verify tasks),我們之前都是用傳統的標量獎勵模型(Scalar RM),它是一個黑盒,只能給出一個 0.8 或 0.9 的分數,卻無法告訴模型「為什麼這裡寫得好」。
這導致模型在 RL 階段極其容易通過刷字數或特定語氣範本來欺騙獎勵函數(Reward Hacking)。
學界之前給出的解決方法就是希望建立一個 Universal Verifier(通用驗證器),能給所有類型的任務都提供有效的獎勵函數。
但主觀的怎麼給,有人用模型自己生成,結果發現效果不怎麼樣;有人則提出人來寫規則,但人也不可能窮盡所有的規則,依然很難。
DeepSeek-V4 對此的邏輯是,結合併超越。GRM 的工作流程被設定為,評份量表(Rubric)引導 → 思考軌跡生成(Think)→ 最終評分。又有量表,又有模型判別。
同時,這個寫判決的模型(GRM)和生成的模型是同一個模型,並且聯動最佳化。過去單獨訓練一個小一點的評分模型,導致評價水平低的問題,也被解決了。
不光如此,通過聯合最佳化,Actor 生成模型在數理邏輯訓練中練就的「肌肉」,被直接借用到了 GRM 的評估過程中。這意味著,當模型評估一個 Agent 的軌跡時,它不再是靠感覺,而是動用了它在程式碼和數學訓練中獲得的因果推演能力。
而這種因果能力,在一定程度上又抑制了評價模型自己過於自信的可能。
這種推理賦能評估的機制,讓 GRM 從過去工業論文中比較實驗性的嘗試,第一次變成了一個魯棒的、能夠指揮兆參數模型進行對齊的「工業級通用驗證器」。
- 最終結果:拒絕「偏科怪物」,走向能力均一化
還記得 GPT 5.4、Claude 4.7 被吐槽最多的點嗎?就是程式設計行,但不說人話。這正是目前許多追求極限 RL 模型的通病。
靠著上面這套新的後訓練範式,論文中對 V4 最終表現的自評,是 Uniform Performance(表現均一性)。
在高階白領任務(White-Collar Task)中,在包含金融、教育、法律等 13 個行業的複雜中文任務(深度資訊分析、長文件生成、精細編輯)中,V4-Pro-Max 直接對標了閉源的 Claude Opus 4.6 Max,並且拿下了 63% 的不敗率(勝+平)。中文寫作(Chinese Writing)中,V4-Pro 以 62.7% 的勝率碾壓了基線模型 Gemini-3.1-Pro(後者勝率僅為 34.1%);在創意類寫作的「寫作質量」指標上,勝率更是高達 77.5%。而硬核程式碼研發智能體(R&D Coding Agent)也沒落下,在收集自內部工程師的 200 多個真實複雜研發任務(涉及修 Bug、重構、多語言棧)中,V4-Pro 的通過率達到了 67%,遠遠甩開了 Claude Sonnet 4.5(47%),並且逼近了 Claude Opus 4.5(70%)。
這套方法論其實就是 RL 的下一輪轉型訊號。大模型的下一階段,拼的不再是簡單的 RL 算力堆砌,而是誰能用最優雅的工程結構,把分佈在不同領域的極致智慧,毫無損耗地壓縮排同一個參數空間裡。
03. 第三個範式更新:mHC 帶來的殘差流的「穩壓器」
mHC 因為之前 DeepSeek 單獨發過論文,所以很多文章都對它進行了一些講解。但這次開放原始碼的 V4,讓它的具體落地方法更明確了,依然有必要再細說說。
- 殘差,模型之間的通訊管道
想講明白 mHC,就得先講明白 HC(超連接),想講明白 HC,得先從殘差連接開始。
大模型的世界裡,每一層 Transformer 都在做同一件事。就是把輸入的資料做一次複雜的非線性變換,然後傳給下一層。資料從第一層流到最後一層,要經過幾十次這樣的加工。這聽起來像是一條順暢的流水線,但實際上,隨著網路越來越深,這條流水線會從根部開始腐爛。
問題的根源出在梯度上。當模型做反向傳播、從最後一層往回更新權重的時候,梯度要經過幾十次連乘。只要有一點點微小的誤差被放大,梯度就會直接變成零即梯度消失,或者變成一個天文數字即梯度爆炸。一旦發生這種情況,模型的訓練會瞬間崩潰,之前幾周的訓練成果全部化為烏有。
何愷明提出的殘差連接(Residual Connection),就是為瞭解決這個問題。它的想法其實挺簡單的。在標準的前饋網路裡,第 l 層的輸出是 F(x),即一個複雜的變換函數。殘差連接乾脆在旁邊加了一個加號,把公式改成了,輸出 = x + F(x)。
這個加號就是那條「水管」。它的意義就是,即無論 F(x) 這一層的變換有多離譜、提取的特徵有多沒用,模型至少還能拿到一份最原始輸入的完整複製,不至於讓資訊在頂層徹底失真。
從反向傳播的角度看,這個加號更像是一條「應急車道」。梯度不用非得鑽過 F(x) 那堆複雜的權重矩陣,它可以順著這條直通的水管直接流回底層。只要這條水管還在,那怕中間的層學得一團糟,底層的梯度也能順順暢暢地流回去,保證訓練不會斷掉。
這就是殘差連接最核心的價值,即它保住了深度網路的生命線。
但殘差連接有一個天生的缺陷。它的「水管粗細」即通道數,跟模型的隱藏層維度(Hidden Size)死死繫結在一起。因為要做 x + F(x),F(x) 的輸出維度必須跟 x 的維度完全一致,否則根本加不起來。
這意味著,如果你想讓這一層提取更多的特徵、表達更複雜的資訊,你只能整體加大隱藏層的維度,而這會直接推高整層整層的計算量和視訊記憶體消耗。
殘差流本身沒有獨立的設計空間,它完全被 F(x) 的內部結構給綁架了。
- 超連接,把單車道強行改成四車道
Hyper-Connections(HC)的提出,就是覺得這種「強制對齊」太浪費了,它在拖模型的後腿。HC 的核心想法是,憑什麼殘差流的寬度要被隱藏層維度限制住?為什麼不能單獨把殘差流拉寬,讓它變成一條真正的資訊高速公路?
具體做法是,HC 在殘差流進入每一層之前,先用一個「輸入對應矩陣」把窄的殘差流投影到一個更寬的空間;等到 F(x) 算完之後,再用一個「輸出對應矩陣」把寬的 F(x) 壓縮回原來的殘差流維度。
這樣一來,F(x) 內部可以隨便設計得又寬又複雜,完全不拖累殘差流的維度。殘差流自己則獨立地變寬。
這相當於把單車道強行改成了四車道。
更多的獨立通道意味著殘差流可以同時、平行地傳遞更多樣、更細粒度的原始資訊。底層捕捉到的某個細微特徵,不用跟其他特徵擠在一起。
它有自己專屬的車道,可以毫髮無損地直接流淌到最頂層。從資訊理論的角度看,HC 打破了殘差流和隱藏層之間的維度死結,提供了一個全新的「縮放軸」,即在不改變模型計算量(FLOPs)的前提下,僅僅通過拉寬殘差流,就能大幅提升模型的資訊交換效率。
但 HC 在自己的成功裡埋下了毀滅的種子。它只管把路修寬,卻完全沒想過寬路上如果不設紅綠燈、不限速、不劃車道,車流會在半路發生什麼。
- 當四車道變成車禍現場
HC 的訓練不穩定問題,根源在於它對殘差對應矩陣的參數沒有任何約束。輸入對應、殘差變換、輸出對應,這三組矩陣的全部權重都是自由學習的。這會帶來兩個致命的後果。
第一個後果是訊號抵消。如果殘差變換矩陣裡的權重符號不統一,有的正、有的負,那麼在高層進行矩陣加法的時候,不同的特徵通道就會發生嚴重的相消干涉。好比兩股勁使反了,力氣越大,殘差裡的有效資訊反而被抵消得越乾淨。
你以為拉寬了四車道能讓更多資訊傳遞過去,但實際上,這四股車流可能在半路迎頭撞上,最後啥都沒剩。
第二個後果是梯度爆炸。因為對應矩陣是自由學習的,沒有譜范數(Spectral Norm)的任何約束,隨著網路越來越深,這些矩陣在向前傳播時會被反覆連乘。一旦某個矩陣的模稍微大於 1,經過幾十層的堆疊,輸出值就會呈指數級膨脹。等到資料流到頂層的時候,啟動值直接衝進無窮大,Loss 變成 NaN,訓練瞬間崩潰。
這就像水壓太大且沒有控制,水流在幾十層樓之間來回放大或疊加,最終要麼互相激盪導致水流莫名其妙地消失,要麼壓力過大直接把整棟樓沖垮。
這就是為什麼 HC 雖然被證明有潛力提升模型性能,卻始終沒法擴展到極深的網路。它不是不夠強,它是太強且完全失控。
HC 修了一條沒有護欄、沒有限速、沒有交通規則的超級高速公路,車速越快,翻車的機率就越高。
- mHC,給超級高速公路裝上智能交通管制系統
Manifold-Constrained Hyper-Connections(mHC)的出現,就是要把這頭脫韁的野獸重新關回籠子裡。給 HC 加 Harness 了屬於是。方法也和 Harness 很相似,就是直接對殘差對應矩陣施加流形約束,讓它永遠無法脫離安全區間。
mHC 的關鍵,是強制要求中間的殘差對應矩陣 W_res 必須滿足「雙隨機矩陣」(Doubly Stochastic Matrix)的性質。翻譯成人話就是,這個矩陣的所有元素都必須是非負數,而且每一行的和等於 1,每一列的和也等於 1。聽起來這就是個歸一化,但它很好用。
一個矩陣如果是雙隨機的,那麼數學上可以嚴格證明,它的譜范數(L2 誘導范數)最大隻能是 1。這意味著,無論資料怎麼流過這一層,輸出的能量(模長)絕對不可能超過輸入。這就相當於給訊號的放大倍數焊死了一個硬上限。不管矩陣內部的權重怎麼變,它都不可能變成一個「膨脹器」。
這是從數學根源上剷除了梯度爆炸的可能性。
更有意思的是,雙隨機矩陣的集合(數學上叫 Birkhoff 多面體)在矩陣乘法下是封閉的。這意味著,即使你把幾十個這樣的矩陣連乘起來,結果依然是一個雙隨機矩陣,譜范數依然不會超過 1。
這就保證了,那怕網路堆到 61 層、121 層,訊號在整條鏈路上的傳播依然是絕對穩定的,不會因為層數加深而出現累積性的數值漂移。
除了核心的殘差對應,mHC 還對輸入和輸出的對應矩陣也動了手腳。它用 Sigmoid 函數把這兩個對應矩陣的權重死死壓在 0 到 2 之間。這保證了資訊在進出殘差流的時候,永遠是正增益或者溫和衰減,再也不會出現正負號打架導致的訊號抵消。
這就像在每條車道上裝了單向閥和限速器,確保車流只能往前走,而且速度永遠在一個安全範圍內。
- DeepSeek 的極致性價比再次出現
但這套做法裡,強行把一個任意的矩陣變成雙隨機矩陣,這計算量豈不是巨大?
這對於擅長搞稀疏化的 DeepSeek 來講並不難。mHC 用了一個非常巧妙的近似演算法,叫 Sinkhorn-Knopp 迭代,來高效地完成這個投影。首先,對殘差對應矩陣的每個元素取指數(exp),保證所有元素都是正數。然後,像「天平稱重」一樣,先讓每一行除以行和(行歸一化),再讓每一列除以列和(列歸一化)。這樣來回迭代,通常只需要 20 次(DeepSeek V4 中 T_max=20),矩陣就會收斂到雙隨機狀態。
它不需要做任何昂貴的矩陣分解,只需要做簡單的逐行、逐列除法,完全可以寫成高效的 CUDA 核函數。而且,由於 Sinkhorn-Knopp 迭代是高度可平行的,mHC 可以把多組對應矩陣打包到一起,用一次大的矩陣運算批次完成投影,最大化 GPU 的硬體利用率。
除了流形約束,mHC 還引入了一個叫「動態參數化」的設計。它讓殘差對應的矩陣參數變成「動態」的,即根據當前輸入的資料特徵,臨時生成一份專屬的對應矩陣(動態份量),再疊加上一份不變的底版(靜態份量)。這樣做的目的是,在享受流形約束帶來的穩定性的同時,還能保留模型對複雜資料的擬合能力。如果對應矩陣全是死板的數字,模型可能會學不動,動態參數化則給了 mHC 足夠的表達力余量。
mHC 的引入,從原理上看是在「增加」計算量和視訊記憶體消耗的。每一次前向傳播,都要多算三組矩陣對應,還要跑 20 輪 Sinkhorn-Knopp 迭代。每一次反向傳播,都要多傳三組矩陣的梯度。更何況,拉寬後的殘差流本身就會佔用更多的啟動視訊記憶體,在流水線平行(Pipeline Parallelism)時,還會增大跨 GPU 的通訊量。
但 DeepSeek V4 的論文資料表示,mHC 帶來的額外時間開銷,被死死壓在了僅佔流水線 Stage 總耗時的 6.7%。這意味著,mHC 幾乎是在「免費」運行。
從結果來看,DeepSeek 的團隊幾乎是把底層 CUDA 程式設計的潛力榨乾到了極致,才讓這套複雜的流形約束系統能夠在實際訓練中實用化。
- mHC 到底帶來了什麼
嚴格來說,mHC 的首要目的不是「高效」,而是「可能」。在沒有 mHC 這樣的流形約束之前,HC 那種拓寬殘差流的設計,根本沒法在極深的網路上穩定訓練。你要麼接受殘差流被綁死的窄水管,要麼冒險用寬水管但隨時準備面對訓練崩潰。
mHC 出現之後,這個二選一的困局被打破了。你現在可以放心地把殘差流拉寬,放心地往深了堆 Transformer 層,因為 mHC 已經用數學硬約束把整條鏈路的水壓和流向給焊死了。
這種「穩定」帶來的,是質變級的能力提升。
因為 mHC 把這條寬闊但極度危險的殘差流徹底馴服了,模型現在可以放心地在第一層和第六十一層之間傳遞極其複雜的邏輯特徵,而不用擔心中間失真。
在 DeepSeek V4-Pro 裡,殘差流的擴展因子 r_hc 被設為 4,意味著殘差流比隱藏層維度寬了四倍。這多出來的通道,承載的是底層捕捉到的細微推理線索,即一段程式碼的語法依賴關係,或者一段長文的因果鏈。這些資訊可以原汁原味地直接流淌到最頂層的預測頭,不會被中間幾十層的複雜變換給稀釋掉。
這就是為什麼 V4-Pro 在僅有 49B 啟動參數的情況下,邏輯推理能力能夠直接逼近滿血版 Claude Opus 4.5 和 GPT-5 等級模型的核心原因。
它不是靠堆參數堆出來的性能,而是靠把資訊傳遞的通路徹底打通、把訊號損耗降到最低,才在參數效率上實現了對同等級模型的降維打擊。
從更廣闊的視角看,mHC 解決的是一個被整個行業低估了的問題,即當大模型走向極深度、極長上下文的時候,資訊傳遞的效率瓶頸,可能比計算量的瓶頸來得更致命。
大家的注意力都放在了怎麼減少注意力層的計算量、怎麼壓縮 KV 快取,卻很少有人意識到,如果殘差流這條路本身不通暢,再強的注意力機制也救不了頂層的資訊失真。
DeepSeek V4 用 mHC 給出了自己的回答。這套看起來樸素的「穩壓器」,讓 61 層的深層網路能夠像淺層網路一樣穩定訓練,讓百萬 token 的上下文資訊能夠像流進淺溪一樣順暢地流淌過整個模型。
結合之前 DeepSeek 對長上下文的信仰,這個改變的意義就變得更加意義深遠了。
04. 範式革新外的工程最佳化
除了上面提到的三層範式等級的革新外,DeepSeek V4 在工程上的最佳化依然和之前一樣可圈可點。
- Muon 最佳化器的工程迭代
首先是對 Muon 最佳化器的使用。DeepSeek V4 並不是第一個用 Muon 最佳化器訓練的兆模型,但它解決了過去它存在的一個重要工程難題,讓它更容易被在工程界廣泛推廣。
Muon 最佳化器本身其實很重要。它可能會直接重寫未來所有大模型的「煉丹說明書」。
訓練模型最重要的是什麼?就是做梯度下降,梯度下降的又好又穩,那這個模型訓練就非常順滑。但梯度(現實和生成的差距)在那兒,怎麼調整模型參數才能讓它能很好地接近現實呢?這裡面可能涉及的可調整項非常多。我們把這些可調整項想像成旋鈕,負責決定怎麼去擰這些可調整按鈕的指揮系統,就叫最佳化器(Optimizer)。
之前,全世界都在用一個叫 AdamW 的老牌指揮系統。它的工作邏輯是各自為戰。它會讓每個旋鈕只看自己的歷史記錄,「我過去主要往左扭」,「我過去扭得猛不猛」,然後每個旋鈕獨立決定下一步怎麼動。這在小模型上沒問題,但在兆級模型上,因為大家不看彼此的配合,最後會導致旋轉發力極度不均勻。有的旋鈕都擰已經冒煙了,有的旋鈕還一點不動。這讓訓練效率大打折扣。
2024 年,學術界提出了 Muon 最佳化器,它的核心思想就是,不要讓按鈕自己決定怎麼旋,我們要有一個全域的視角!在每次調整前,Muon 會先通過一個複雜的數學操作(正交化),把所有旋鈕的協同關係算得清清楚楚。經過 Muon 調配後,所有參數維度的更新步長變得非常均衡。大家整齊劃一,沒有誰掉隊,也沒有誰冒進。
Muon 最佳化器如同交響樂指揮,讓所有參數更新整齊劃一
業界(比如 Kimi 的 K2 論文)已經證明了它的威力,在同樣的計算資源下,換上 Muon 後,模型的錯誤率(Loss)下降速度極快,訓練極其穩定。這等於你花同樣的電費,練出了更聰明的模型。
既然這麼好,為什麼以前大廠都不用?因為 Muon 身上帶了一個工業級絕症。
Muon 的全域統籌有一個硬性前提,它必須一眼看到完整的梯度矩陣(所有旋鈕的狀態)。但現代大模型訓練,根本不可能把所有參數放在一張顯示卡上。業界通用的做法(叫 ZeRO 技術)是把龐大的參數矩陣像切豆腐一樣,切成成千上萬塊,散落在幾千張顯示卡上。AdamW 覺得無所謂,反正參數是各自為戰,切得多碎它都能算。但 Muon 傻眼了。它需要統籌全域,但現在每個人手裡只有一塊拼圖。如果每次更新都要讓幾千張顯示卡停下來,把拼圖湊齊了再算,那個通訊延遲和堵車程度,會直接把訓練速度拖垮為零。
這就是為什麼過去一年,大家都知道 Muon 理論上很牛,但在真正的兆大模型上,誰也用不起來。
Kimi 是第一個把 Muon 強行按在兆大模型上並證明有效的團隊。他們在演算法上打了很多極具價值的補丁。比如加入了防止死記硬背的機制(Weight Decay);加入了更聰明的慣性系統(Nesterov 動量),讓收斂更快;搞定了參數相容(RMS Rescaling)讓 Muon 算出來的大小,可以直接套用原來 AdamW 的超參數,免去了重新調參的噩夢。
但是,Kimi 的論文沒有教大家怎麼徹底解決拼圖散落一地(ZeRO)的工程絕症。他們在自己的系統裡硬扛了過去,但沒有給出一套標準答案。
DeepSeek-V4 在用 Muon 時候,就給出了一套收納解決法,解決了這個問題。為了不讓矩陣被切得太碎,DeepSeek 先設一個上限(比如最多切 8 份,而不是 64 份)。這樣保證每個 GPU 上拿到足夠大的一塊,Muon 可以對這塊做正交化。為了保證 8 份兒就能裝下所有,DeepSeek 用了一套「背包演算法」決定那個參數矩陣放在那張卡上。就像裝行李箱,儘量把完整的小件裝在一個箱子裡,絕不把一件衣服剪成兩半放兩個箱子。最後稍微塞點填充物(Padding),保證所有箱子一樣重(開銷極小,不到 10%)。這樣既省了記憶體,Muon 也能看到完整的局部矩陣。
Kimi 證明了 Muon 不是紙上談兵;而 DeepSeek 給出了一份寫滿註釋的實戰說明書。
這兩家中國頂尖 AI 公司的接力,完成了 Muon 最佳化器從一篇有趣的學術論文到工業級應用的跨越。
- MegaMoE 的車間法則
讓 GPU 不閒著,是 DeepSeek V3 里的一個拿手好戲。
在 V4 中,這個極致壓榨 GPU 的模式被提升到了整個 MoE 的層級上。
MoE(混合專家模型)處理資料的五個標準步驟,第一步是 Dispatch(分發),即把流水線上的零件(Token/資料)分發給不同的專家醫生或車間。後三步,Linear-1 → SwiGLU → Linear-2(加工),這三個是專家車間內部的具體加工步驟(神經網路的計算和啟動)。最後一步,再 Combine(合併),把各個車間加工好的零件重新組裝起來,送往下個環節。
以前,這 5 個步驟是各自獨立的。每做完一步,工人都要把零件放回總倉庫(GPU 視訊記憶體),下一步的工人再去倉庫拿。這種頻繁的存取操作極其浪費時間,成了最大的性能瓶頸。
DeepSeek V4,Fusion Kernel,把這五個流程全塞進一個算子裡,拆掉了這 5 個車間之間的牆。
現在,零件從進入 Dispatch 開始,就在一條無縫銜接的流水線上飛速流轉,中途絕對不回總倉庫,只在這個 Kernel 裡進行。資料直接在 GPU 內部最快的快取記憶體(SRAM/暫存器)裡完成所有加工,最後一次性輸出(Combine)。
這是 MoE 架構最佳化中的聖盃,第一次被系統性地完美解決,從而實現了 1.92 倍的訓練加速。
- FP4 量化感知訓練(QAT)
這也是 DeepSeek 在 V3 上工程的一個延續。他們在 V3 上測試的是 FP8,現在在 V4 上就開始測試 FP4。
FP 就是參數儲存的位數。一個參數可以用不同位數表達,精度(FP)越高,儲存的資訊越多,但佔據的空間和計算量也越大。
因此壓縮 FP 就是減少計算量和儲存量的一個非常好的手法。
但因為精度丟失,它並不適用於所有場景中,有的場景精度就很敏感,有的就不行。改在那裡省,得靠試。
但這需要一整套訓練,讓模型在低精度下也能學會做對事。
具體的做法,就是訓練時就模擬 FP4 會帶來的誤差。讓模型在訓練過程中學會適應這種粗糙數值這樣,最後真的部署成 FP4 時,掉點更少。
這就是說,不是考完試才把眼鏡摘掉,而是平時訓練就戴著一副低清眼鏡,讓你習慣在低清條件下工作。
和過去一樣,在真正訓練時,DeepSeek v4 通過 FP4-to-FP8 的方式復用已有 FP8 mixed precision 框架,同時保留 FP32 的參數。也就是說,不是所有訓練計算都徹底 FP4,而是在關鍵路徑上讓模型適應 FP4 表示。
這次的 FP4,DeepSeek V4 主要用在了兩個位置上。
MoE Expert 權重,在大規模混合專家架構中,MoE 的專家權重是佔據 GPU 視訊記憶體絕對大頭的罪魁禍首。通過將路由專家參數量化為 FP4,模型在部署時的視訊記憶體佔用被成倍壓縮。
Indexer QK 路徑,還記得第一個範式更新中的壓縮稀疏注意力(CSA)機制中有個閃電索引嗎?DeepSeek 讓這一步的 Query-Key (QK) 啟動值完全在 FP4 精度下進行快取、載入和矩陣乘法。這直接在超長上下文(如 1M token)場景下,大幅加速了注意力分數的計算。
在訓練過程的 Rollout(採樣)過程中,因為不用做梯度,DeepSeek V4 也用了原生 FP4。這大幅減少了記憶體載入負擔,帶來了實打實的加速和視訊記憶體暴降。
尤其在上面提到 OPD 的全詞表蒸餾階段,由於需要同時跑十幾個龐大的 Teacher 模型,FP4 量化極大地緩解了視訊記憶體讀寫壓力並降低了採樣延遲。
可以說,FP4 是 OPD 能夠落地的隱性前提。
05. 看完技術文件,回來講講 DeepSeek 到底在做什麼
在這個大模型賽道似乎已經高度同質化、當整個行業都在為了 Benchmark 上那零點幾的百分點卷生卷死時,DeepSeek 到底在做一件什麼事?
DeepSeek V4 用這 58 頁的技術報告告訴我們的是,比起刷榜,他們更有興趣選擇衝擊那些真正卡住下一代智能脖子的真問題。
而這其實已經變成了一種開源行業整體的趨勢。當我們把視角拉寬,會發現其實很多中國頂尖 AI 力量在技術上都做了類似的嘗試和嚴謹。
比如在後訓練範式(如 OPD)的探索上,Qwen、智譜、小米都在持續投入,其中前兩家已經通過相關路徑有效緩解了模型在對齊過程中的通用能力遺忘,小米則和DeepSeek的路線高度一致;在建構類似 Rubic 的通用驗證器系統上,智譜和小米也早有自己的嘗試與佈局;針對底層資訊通路和殘差結構的處理,字節跳動此前也提出過自己的一套解決方案;而在解決長文字算力與記憶瓶頸的維度上,月之暗面(Kimi)對於 Linear(線性注意力結構)的深刻探索,同樣為整個行業在超長上下文的延伸上提供了極其寶貴的解法。
如果說 Test-Time Compute 的範式是由 OpenAI 率先開啟,由DeepSeek領銜揭秘,造就了一時瑜亮。那麼在今天的中國 AI 社區裡,個個公司都已跨越了盲人摸象或單純跟隨的階段,開始各自在核心難點上做出實質性的底層創新。
在這個百花齊放的生態中,DeepSeek 的獨特之處,在於它展現出了一種極為系統化的工程魄力和深沉的技術品味。
它並非在那一個單點上閉門造車,而是將這些散落在行業各處的探索方向,最深入、最徹底地統合進了一套切實可用的訓練體系裡。
從 V4 的這 58 頁技術報告中,我們清楚地看到,DeepSeek 的技術選擇始終有一條清晰的主線。它沒有那裡熱就去追那裡,而是圍繞著未來的長視野智能體、深層因果推理以及極限算力效率,量身定製了一套完整的基礎設施路線圖。
這大概就是在這個周期裡,中國開源行業最讓人興奮的地方。創新的紅利不再只屬於某一家公司,而是化作了整體賽道的共同進步。
而 DeepSeek,依然是這場集體進階中,把長期主義和系統性思考踐行得最透徹、也最優雅的之一。 (騰訊科技)
