DeepSeek新年第一天硬核論文上線：Transformer殘差連接迎來十年來最大升級「梁文鋒署名」

2026/01/02

•

自大神何愷明的ResNet誕生以來，“殘差連接”（Residual Connection）就已成為深度學習架構的基石，貫穿了從摺積網路到如今大行其道的Transformer。這一簡潔的設計通過“恆等對應”（identity mapping）特性，保證了資訊在深層網路中的穩定傳遞，有效緩解了梯度消失問題

然而，十年來，儘管殘差連接內部的計算模組（如注意力、FFN）日新月異，其“A+B”式的拓撲結構本身卻鮮有變化。

最近，一項名為 超連接（Hyper-Connections, HC） 的研究試圖打破這一常規。通過將單通道的殘差流擴展為多通道，並引入可學習的連接模式，HC在不顯著增加計算量（FLOPs）的前提下，提升了模型的拓撲複雜度和性能潛力。

但這種自由度的提升也帶來了一把雙刃劍：不受約束的連接方式從根本上破壞了殘差連接賴以成功的恆等對應屬性。這導致了嚴重的訓練不穩定、模型難以擴展，並帶來了巨大的記憶體訪問開銷，限制了其在真實大規模訓練中的應用。

現在DeepSeek的研究團隊提出了一個全新的解決方案：流形約束超連接（Manifold-Constrained Hyper-Connections, mHC）。

核心思路是把 Transformer 裡原本只有一條“殘差高速路”的結構，升級成多條平行通道，讓每一層都能在通道之間重新分配資訊，並用“雙隨機矩陣”約束，避免梯度爆炸或消失。更重要的是，團隊通過一系列嚴謹的底層架構最佳化，使其在真實的大規模訓練中高效可行

實驗證明，mHC不僅解決了HC的訓練穩定性問題，還表現出更強的性能和擴展性，為基礎模型的架構設計提供了新的思路。

論文名稱：mHC: Manifold-Constrained Hyper-Connections

論文地址：arXiv:2512.24880v1

超連接

要理解mHC的創新，我們首先需要回顧一下殘差連接的演進。

1. 標準殘差連接 (a)

其結構可以表示為 x_l+1 = x_l + F(x_l，w_l。x_l是輸入，F是計算層（如Transformer Block）。核心在於x_l這一項，它確保了無論F如何變化，總有一條“高速公路”能讓資訊無損地從淺層傳遞到深層。當把這個公式遞迴展開時，深層特徵x_L總是包含了淺層特徵x_l的原始資訊

2. 超連接 (HC) (b)

HC將殘差流的維度從C擴展到了n x C，相當於建立了n條平行的殘差“車道”。同時，它引入了三個可學習的矩陣來控制資訊流動：

H_pre: 從n條車道中“讀出”資訊，匯聚後送入計算層F。
H_post: 將計算層F的輸出“寫入”回n條車道。
H_res: 在n條車道之間直接進行資訊互動和更新。

初步消融實驗表明，在三個矩陣中，負責殘差流內部資訊交換的H_res對性能提升的貢獻最大。

然而，問題也恰恰出在這個H_res上。由於H_res是一個不受約束的可學習矩陣，當網路層數加深時，訊號在殘差流中的傳播由多個H_res矩陣的連乘（Π H_res）決定。這個連乘積會嚴重偏離恆等矩陣，導致訊號在傳播過程中被無限放大或衰減，最終造成訓練崩潰

27B模型的實驗資料清晰地揭示了這一問題。與mHC相比，HC的損失在訓練約12k步時出現了異常飆升。其梯度范數也極不穩定。

進一步分析訊號傳播的增益幅度（Amax Gain Magnitude），可以發現HC的復合對應（多層H_res連乘）增益峰值達到了驚人的3000，而理想值應為1。這證實了殘差流中存在嚴重的訊號爆炸

除了數值不穩定，HC還帶來了巨大的系統開銷。擴寬的殘差流（n倍寬度）意味著記憶體讀寫（I/O）成本急劇增加，這在現代GPU架構中是主要的性能瓶頸。此外，在流水線平行訓練中，通訊開銷也增加了n倍，嚴重影響訓練效率。

mHC：用“流形約束”馴服超連接

為瞭解決上述挑戰，DeepSeek-AI團隊提出了mHC框架，其核心思想是：對H_res施加流形約束。

具體來說，mHC將H_res約束為一個雙隨機矩陣

這是一種特殊的非負矩陣，其每行之和與每列之和均為1。這種約束帶來了三個關鍵的理論優勢：

保范性：雙隨機矩陣的譜范數有界（小於等於1），這意味著對應是非擴張的，從根本上杜絕了梯度爆炸的風險。
復合閉包性：兩個雙隨機矩陣的乘積仍然是雙隨機矩陣。這保證了無論網路多深，Π H_res的復合對應始終保持穩定。
幾何解釋：所有n x n雙隨機矩陣構成的集合是一個“伯克霍夫多面體”（Birkhoff Polytope），它是所有n x n置換矩陣的凸包。這意味著H_res的作用可以被看作是不同流之間特徵的一種“柔性”置換和融合。

為了實現這一約束，mHC採用了經典的Sinkhorn-Knopp演算法。該演算法通過對矩陣進行交替的行、列歸一化迭代，可以有效地將任意一個正矩陣投影到雙隨機矩陣流形上。

對於H_pre和H_post，mHC也施加了非負性約束，以防止正負係數的組合導致訊號抵消。

高效的系統工程實現

一個好的架構思想，離不開高效的工程實現。為了讓mHC能夠在大規模訓練中真正落地，研究團隊進行了三項關鍵的底層最佳化：

1. Kernel Fusion（核函數融合）

針對mHC引入的額外操作（如RMSNorm、矩陣變換、啟動函數等）會帶來大量小規模、高延遲的GPU Kernel呼叫和記憶體讀寫，團隊開發了高度最佳化的融合核函數。例如，將多個對共享資料進行的操作合併到一個CUDA Kernel中，並利用TileLang等工具高效開發，極大地減少了記憶體頻寬瓶頸和Kernel啟動開銷。

2. Recomputing（重計算）

擴寬的殘差流會佔用大量視訊記憶體來儲存中間啟動值，以備反向傳播使用。為緩解這一問題，mHC採用了一種選擇性的重計算策略。在前向傳播後，只保留每個重計算塊的初始輸入x_l0，而塊內的其他中間啟動值則被丟棄。在反向傳播時，利用已儲存的x_l0即時重新計算這些值。團隊還推匯出了最優重計算塊大小的公式，以最小化總視訊記憶體佔用

3. Overlapping Communication in DualPipe（在DualPipe中重疊通訊）

在大規模流水線平行訓練中，mHC引入的通訊和重計算開銷可能阻塞訓練流程。團隊擴展了現有的DualPipe調度策略，通過設定高優先順序計算流和解耦重計算與通訊依賴，實現了計算、通訊和重計算的深度重疊，最大限度地隱藏了額外開銷。

通過這一系列最佳化，mHC（當n=4時）帶來的額外訓練時間開銷被控制在了 6.7% 以內，使其成為一個既強大又實用的架構。

實驗效果：穩定、高效、可擴展

團隊在3B、9B和27B等不同規模的MoE模型上，對基線模型、HC和mHC進行了全面的對比實驗。

穩定性驗證

27B模型訓練過程中的損失差距和梯度范數。mHC成功地解決了HC的訓練不穩定性，最終取得了比基線模型低0.021的損失。其梯度范數曲線也與基線模型一樣平滑穩定

對訊號傳播的分析也證實了mHC的有效性。其單層和復合對應的增益幅度都穩定在1附近（最大約1.6），相比HC的~3000，穩定性提升了三個數量級

HC中出現大量絕對值很大的元素，而mHC的矩陣則非常穩定，接近於一個柔性的置換。

下游任務性能

在涵蓋了常識推理、程式碼、數學等多個領域的8個下游基準測試中，27B的mHC模型性能全面領先。它不僅顯著優於基線模型，並且在大多數任務上超越了原始的HC模型。特別是在BBH和DROP等考驗推理能力的任務上，mHC相比HC分別取得了2.1%和2.3%的提升

擴展性分析

擴展性是衡量一個架構是否有潛力的關鍵。計算擴展曲線顯示，從3B到27B模型，mHC相較於基線模型的性能優勢一直穩定保持。Token擴展曲線則展示了在單次訓練中，mHC的優勢隨著訓練的進行而持續存在

這些結果共同證明，mHC是一個在各種規模下都穩定有效、且具備良好擴展性的架構設計

寫在最後

deepseek 這項工作指出了超連接（HC）在擴展殘差連接範式時，因破壞恆等對應而導致的內在不穩定性。通過引入流形約束超連接（mHC），研究團隊成功地將訊號傳播轉化為一種穩定的凸組合，恢復了訓練的穩定性與可擴展性。

更重要的是，通過精細的系統級最佳化，mHC在實現了性能提升的同時，保持了極低的計算開銷

mHC框架的提出，不僅為超連接這一新興方向提供了實用的解決方案，也為宏觀架構設計開闢了新的可能性。未來，研究人員可以探索除雙隨機矩陣外的其他流形約束，以適應不同的學習目標，在模型的可塑性與穩定性之間找到更優的平衡點。這項工作或許將重新激發社區對網路拓撲結構設計的興趣。總的來說，本文的真正亮點並非在於證明超連接能夠大規模運行，而在於：DeepSeek擁有內部能力，可以圍繞高度實驗性的研究理念，在各個層面（核心、記憶體管理、節點間通訊）重構整個訓練環境 (AI寒武紀)