這個假期,DeepSeek又刷屏!有啥敘事性?

Deepseek 的這個論文,幾點 takeaway

1. 牛不牛?牛,架構層面的改良,海外討論度高+風評好。

2. 有沒有即時的資本市場影響?未必。

第一,這是更加學術性,實驗性的論文,真正的影響可能在DeepSeek v4 出來的時候才有。

第二,大家經過deepseek1.0,已經能夠理解,突破會帶來更多的模型能力突破,帶來更多的模型應用,而非“零和遊戲”

3. 有啥敘事性?

第一,deepseek 喜歡假期發佈。壞習慣可能預示著...春節假期有什麼發佈也不足為奇。deepseek 的每一次論文發佈,v4 就應該越近。

第二,這份mHC 論文是建立在之前字節 HC 論文之上,做的一個實驗性改良版。開源生態,導致了這個飛輪能夠更快的轉動。海外封閉模型,在路線技術上的改良,很難有這種“複利效應”;

第三,跑分是一回事,實驗室能力是另一回事。deepseek 的論文繼續給學術界帶來新的觀點,對於開源人才生態的影響也能有正向循環。

DeepSeek mHC演算法刷屏!產業與技術新趨勢是?

2026年1月DeepSeek發佈《DeepSeek mHC: Manifold - Constrained  Hyper - Connections》(論文水印25-12-31),引發產業刷屏,我們仔細閱讀原始論文:

背景與效果

何愷明resnet(殘差訓練)在2016年名聲大噪(CVPR 2016 最佳論文),超連接HC(Hyper-Connection)加強殘差。

本篇mHC(Manifold-contrained HC)顯著提升,解決訓練擴展性、不穩定問題(典型值最佳化3個數量級)。有限硬體成本增加(典型增記憶體6.7%,一貫DeepSeek風格)

大家關心的趨勢和投資問題

1)利多AI應用訓練。特別適合殘差高頻領域,如圖像視訊和複雜特徵邏輯推理(複雜難題)

2)高普適性,尤其訓練,尤其端側。普適很多模型(論文裡3B/9B/27B都有),低成本端側訓練/推理容易被視訊記憶體佔用問題緩解。此前殘差訓練容易梯度爆炸或記憶體等待

3)記憶體/快取/光器件/計算開銷?

(不大的新增計算開銷。論文裡的n流殘差流水線延遲,和Lr層mHC核心重計算,用流水線DualPipe 最佳化。論文典型值記憶體增加6.7%)。

(新增快取,如各階段初始啟動值Xlo本地快取。但不大,因整計算丟棄核心中間啟動值)

(光器件幾無變化。光模組頻寬與之前一致)

(減少儲存io次數。大大提高訓練穩定性,降低訓練中斷的重複IO。利多企業級ssd,減少高速ssd依賴)

4)GPU利用率提升?

(GPU利用率大幅提高,典型值90%+。解決記憶體牆等待。本來殘差計算不收斂,不穩定)

(論文提出,原HC雖然最佳化殘差,但易導致訊號 / 梯度失控,多流平行放大記憶體壓力。mHC論文從Sinkhorn-Knopp演算法開始最佳化)

本篇涉及的DeepSeek關鍵技術(尤其線性代數+通訊+AI_Infra)

1)承認transformer+稀疏的FFNs(前饋網路)

2)基於Sinkhorn-Knopp演算法。將非負矩陣迭代縮放為雙隨機矩陣,本論文中,是解決超連接訓練不穩定的關鍵技術

3)融合核,緩解記憶體頻寬翻倍問題

4)Amax Gain Magnitude衡量殘差流爆炸

5)流形約束超連接,把殘差約束到特定流形,保證穩定性

6)伯克霍夫多面體(Birkhoff Polytope),上述5的理論基石

7)混合精度策略。本次AI infra技巧,最大化數值精度

CALLBACK

一貫的DeepSeek創新風格,努力最佳化一切AI Infra,對應用/訓練/模型/GPU使用率利多,對記憶體/快取/光器件/AI infra等整體非利空,也利於滲透率再提高,繼續推薦所有科技!

DeepSeek發佈mHC (流形約束超連接)新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題

DeepSeek提出了一種名為 mHC (流形約束超連接)的新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益。值得注意的是,DeepSeek創始人&CEO梁文鋒也在作者名單中。

近期,以Hyper-Connections(HC)為代表的研究,通過擴展殘差流寬度和多樣化連接模式,拓展了過去十年中廣泛應用的殘差連接範式。雖然這些方法帶來了顯著的性能提升,但但也帶來了兩個嚴重問題:

數值不穩定性:原始的HC中,連接矩陣是自由學習的,沒有約束。這導致訊號在經過多層傳播後,數值會「爆炸」或「消失」,破壞了恆等對應的特性,模型越深越難訓練。

系統開銷大:通道變寬意味著視訊記憶體讀寫(I/O)和通訊成本成倍增加,也就是所謂的「視訊記憶體牆」問題。

為瞭解決這些挑戰,DeepSeek的研究團隊提出了 Manifold-ConstrainedHyper-Connections(mHC,流形約束超連接)。這是一個通用框架,它將HC的殘差連接空間投影到一個特定的流形上,以恢復恆等對應屬性,同時結合嚴格的基礎設施最佳化以確保效率。它的核心目的是:在保留「加寬殘差流」帶來的性能提升的同時,解決其導致的訓練不穩定和視訊記憶體消耗過大的問題。

實證表明,mHC不僅解決了穩定性問題,且在大規模訓練中(如27B模型)表現出卓越的可擴展性。在n=4的擴展倍率下,僅增加了6.7%的訓練時間開銷,卻換來了顯著的性能提升。mHC為基礎模型的拓撲架構演進指明了方向。

(有道調研)