#mHC | 熱門關鍵字 | 鉅亨號

DeepSeek 又扔了個王炸。本來準備躺平過節（嗯，是真的躺著了），結果睜眼發現一篇新論文 mHC（流形約束超連接）突然刷屏。我看了一眼作者列表，直接“垂死病中驚坐起”——最後一位赫然寫著：Wenfeng Liang（梁文鋒）。圖：DeepSeek CEO 梁文鋒署名熟悉 DeepSeek 的都知道，這位 CEO 極少在技術論文上親自署名。老闆親自掛帥，還選在新年第一天發，說明這事兒絕對不簡單。讀完我才發現，他們這次竟然要革深度學習祖師爺 ResNet 的命。聽起來很狂？但我研究了一下原理，發現這幫人是真有東西。01｜從何愷明的“神來之筆”說起要看懂 DeepSeek 的操作，我們得先回看一眼歷史。2016年，大神何愷明（Kaiming He）團隊提出了 ResNet，徹底解決了深層網路訓練不動的難題。其中的核心設計叫“恆等對應”。圖：何愷明，深度殘差網路（ResNet）的主要發明者打個比方，這就像在迷宮裡修了一條“直通車道”。訊號可以無腦地從這一層傳到下一層，不被中間商賺差價。正是因為有了這條路，今天的 ChatGPT、DeepSeek 這些結構極深的龐然大物才跑得起來。但問題是，對於現在胃口越來越大的模型來說，這一條“單車道”漸漸不夠用了。於是，學術界搞出了一個叫 HC（Hyper-Connections，超連接）的東西。（主要來自字節跳動 2024 年發表的論文）HC 的想法很美好：既然單車道不夠，那我就擴建成多車道唄！它把殘差流變寬（n倍），讓資訊在不同車道間亂竄、混合，以此來提升模型的能力。圖：三代架構進化史：(a) 是經典的“單車道” ResNet； (b) 是路修寬了但沒紅綠燈的 HC（容易撞車）； (c) 是 DeepSeek 加了“交通管制”的 mHC。但問題來了，這一擴建，出事了。原來的 ResNet 是“直通車”，很穩。現在的 HC 變成了“無紅綠燈的超級路口”。論文裡的資料特別嚇人：在 HC 的架構下，訊號在網路裡傳著傳著，就會因為缺乏管束而瘋狂膨脹。看原論文裡的資料，HC 的訊號增益幅度峰值直接幹到了 3000！（下圖右側）圖：HC 的訊號增益幅度峰值直接幹到了 3000這意味著啥？意味著訊號被放大了 3000 倍。這就像早高峰的十字路口沒有紅綠燈，車全撞在一塊了，這就是典型的“訊號爆炸”。結果就是：模型訓練極其不穩定，錯誤率（Loss）說炸就炸，根本沒法在大規模模型上用。02｜DeepSeek 的解法：數學暴力美學面對這種“車禍現場”，一般人的思路可能是：“那我就少修兩條路吧。”但 DeepSeek 的思路是：路我要修，但我要請一個懂數學的交警。這就是 mHC（流形約束超連接）的核心邏輯。他們發現，只要把那些負責指揮交通的矩陣，強行按在一個叫“雙隨機矩陣”的數學規則裡，問題就解決了。別被這個數學名詞嚇跑，它的原理其實也挺簡單，就像“能量守恆定律”：不管你在路口怎麼變道、怎麼混合，進來的流量總和，必須嚴格等於出去的流量總和。既不允許車子憑空消失（訊號衰減），也不允許憑空變出車來（訊號爆炸）。為了做到這一點，DeepSeek 用了一個叫 Sinkhorn-Knopp 的演算法，像是給矩陣戴上了“緊箍咒”。不管這矩陣原來長啥樣，經過這個演算法一處理，它就必須變得老老實實，行和列的加和都得等於1。這就很漂亮了。它保留了多車道互聯帶來的資訊豐富度（性能提升），又把訊號嚴格限制在了一個安全的範圍內（穩定性），完美致敬了何愷明當年追求的“恆等對應”精神。03. 效果怎麼樣？直接看療效理論吹得再好，還得看實驗。還記得剛才說 HC 的訊號增益飆到了 3000 嗎？用了 mHC 之後，這個數字被死死按在了 1.6 左右。從 3000 到 1.6，這是直接降低了三個數量級！這也直接體現在了訓練曲線上：穩如老狗： mHC 的訓練 Loss 曲線（藍線）極其平滑，跟基線模型幾乎一樣穩。圖：mHC 的訓練 Loss 曲線極其平滑性能更強：在 27B 參數的模型上，mHC 不僅穩，效果還比標準版更好。特別是在比較難的 BBH（邏輯推理）和 DROP 任務上，提升非常明顯。圖：在 27B 參數的模型上，mHC 不僅穩，效果還比標準版更好。04. 不止是數學，更是工程上的“摳門”讀 DeepSeek 的論文，你永遠能感覺到他們那種“把算力榨乾到最後一滴”的執著。因為把路修寬，本來是一件非常費視訊記憶體、費時間的事。如果不做最佳化，記憶體訪問成本（I/O）會增加好幾倍，這誰受得了？所以 mHC 不僅僅是一個數學創新，還是一套工程最佳化方案。算子融合（Kernel Fusion）：他們手寫了底層的 Kernel，把好幾步計算合併成一步，減少 GPU 讀寫記憶體的次數。重計算（Recomputing）：為了省視訊記憶體，他們選擇在反向傳播時重新計算中間結果，而不是一直存著。通訊重疊：利用 DualPipe 策略，把額外的通訊時間“藏”在計算時間裡。結果就是：在擴展率為 4 的情況下，mHC 帶來的額外訓練時間開銷，僅僅只有 6.7%。用極小的代價，換來了模型性能和穩定性的雙重提升。這種“又好又省”的風格，確實很 DeepSeek。寫在最後說實話，每次讀 DeepSeek 的論文都讓人挺佩服的，不是那些牛逼的技術，而是他們“死磕底層”的態度。特別是在現在，大家都忙著卷應用、卷 Agents 的時候，他們願意回過頭去修補 AI 的“地基”。ResNet 已經統治了深度學習這麼多年，大家都覺得它是完美的。但 mHC 告訴我們：只要你不迷信權威，那怕是地基，也有重修的可能。mHC 這種架構，或許不會馬上改變你的生活，但它可能會讓下一代的 DeepSeek、GPT 跑得更穩、更快。 (AI范兒)