#梁文鋒 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#梁文鋒

幻方量化年收益率曝光，DeepSeek梁文鋒發財了

DeepSeek最大的“金主”就是創始人。AI“燒錢”早已不是秘密。在這個領域，無論是科技巨頭還是初創企業，都面臨著巨大的資金壓力，DeepSeek自然也不例外。但令人好奇的是，這家公司既不是大廠，又不接受外部融資，更不上市，它的錢究竟從何而來？答案其實藏在創始人梁文鋒的另一重身份裡：他不僅是DeepSeek的靈魂人物，更是國內頂級量化私募機構幻方量化的掌舵者。在研究經費方面，DeepSeek此前一直依靠幻方支撐。據媒體消息，梁文鋒曾公開表示：“幻方作為出資人之一，有充足的研發預算。”去年，他旗下的幻方量化交出了一份令人矚目的成績單，業內普遍認為，這為DeepSeek提供了源源不斷的資金支援。幻方量化年收益率曝光，梁文鋒贏麻了據私募排排網最新資料，2025年幻方量化的收益均值達56.55%，在中國管理規模超百億的量化私募業績榜中位列第二，僅次於靈均投資的73.51%。另外，私募排排網資料顯示，幻方量化近三年的收益均值為85.15%，近五年的收益均值為114.35%。圖源：私募排排網公眾號在量化投資這個高門檻、高風險的領域，能夠實現如此穩定的高回報，足以證明幻方量化的實力。目前，幻方量化管理規模已超700億元。有業內人士估算，如果按1%的管理費和20%的績效費計算，該基金去年就有可能為公司帶來了超過7億美元（約50億人民幣）的收入。據DeepSeek透露，R1的訓練成本為29.4萬美元，V3模型的總訓練成本預算在557萬美元。按照7億美元的數字計算，即便我們保守估計，未來每一代大模型的訓練和迭代成本呈指數級增長（比如下一代可能需要5000萬甚至上億美元），幻方去年單年產生的現金流也足以支撐十次以上的同等規模研發。當然這都是粗略估算。簡單翻譯一下就是DeepSeek的錢夠花。所以大家不必擔心DeepSeek的彈藥是否充足，有幻方量化在背後支援，DeepSeek在AI研發上至少不用擔心“斷糧”的問題。這或許也是為什麼DeepSeek能夠保持獨立發展，不急於融資上市的原因之一。畢竟，在AI這場長跑中，真正的勝負手往往不是誰跑得最快，而是誰跑得最久。接下來我們再進一步瞭解一下幻方量化。幻方量化是DeepSeek的母公司，天眼查顯示，幻方量化的機構主體為浙江九章資產管理有限公司，由梁文鋒持股85%，鄭達韡、徐進分別持股7.5%。圖源：天眼查梁文鋒的跨界佈局並非偶然。在校期間，梁文鋒就對金融市場產生了極大的興趣，尤其是在2008年全球經濟危機時，他敏銳地捕捉到了機遇，帶領團隊開始探索機器學習技術在全自動量化交易中的應用潛力。2013年，他與浙大校友共同創立了杭州雅克比投資管理有限公司，正式踏上了量化投資的征程。2015年，他們又創辦了杭州幻方科技有限公司（後更名為浙江九章資產管理有限公司），也就是後來大名鼎鼎的幻方量化。所謂量化投資，就是用設定的數學模型和AI進行自動投資，由機器和AI做決策。幻方量化憑藉先進的高頻量化策略，在市場中取得了令人矚目的成績。到2019年，該公司的資金管理規模已超過100億元。2021年，幻方量化的資產管理規模突破千億大關，躋身國內量化私募領域的“四大天王”之列。2019年，梁文鋒在當年的金牛獎頒獎儀式上發表了主題演講《一名程式設計師眼裡中國量化投資的未來》。圖源：中國證券報當時，梁文鋒在演講中表示，“量化投資的未來，是用技術讓市場更有效率”。最後，梁文鋒說幻方量化的使命就是：提高中國二級市場的有效性。在青雲看來，如果把這句話稍作延展，或許也可以用來理解DeepSeek。大模型的價值，並不只是聊天、寫文案，而是用技術提升整個社會的資訊處理效率與決策效率。再結合當下DeepSeek的發展軌跡，就不難理解梁文鋒的整體佈局邏輯。幻方量化負責在一個成熟、可變現的領域中持續創造現金流；DeepSeek則在一個更具想像空間、但短期回報不確定的領域中，探索技術上限。過去一年，梁文鋒高光時刻不斷接下來，我們再把目光看向梁文鋒。在科技圈，他已經嶄露頭角，成為一個無法被忽視的存在。去年春節期間，DeepSeek-R1以開源、低成本、高性能的姿態橫空出世，就像一條鯰魚，改變了AI市場的競爭格局。梁文鋒也以DeepSeek創始人的身份受到了世界的關注，迎來了不少高光時刻。去年3月，美國《時代》周刊公佈2025年全球100最具影響力人物，梁文鋒入選該榜單，同榜單的還有馬斯克、祖克柏等科技圈大佬。圖源：《時代》周刊官網《時代》周刊稱，深度求索（DeepSeek）正式發佈DeepSeek-R1模型，這是第一個足以挑戰OpenAI最新產品的開源模型。8月，美國《財富》雜誌正式發佈2025年全球100位最具影響力商界人士榜單，梁文鋒首次進入榜單，排名第72。《財富》對他的評語是：2025年最震撼的人工智慧突破並非來自OpenAI、Meta或阿里巴巴，而是一家名不見經傳的中國小公司——深度求索（DeepSeek）。這家初創企業以遠少於行業巨頭的資源，開發出媲美甚至超越美國頂尖AI模型的技術成果，震驚全球科技界。真正讓梁文鋒完成“技術圈破圈”的，應該是9月那篇登上《Nature》封面的論文。圖源：Nature在封面推薦中，Nature毫不吝嗇地讚揚了DeepSeek-R1的成就。《Nature》毫不吝嗇讚美之詞，指出當前幾乎所有主流大模型都缺乏獨立同行評審，而DeepSeek“終於填補了這一空白”。在一個充斥著行銷話術、參數對比和模糊表述的行業裡，DeepSeek選擇把模型拆解、方法公開、結果可復現，這在《Nature》看來，是“邁向透明度和可重複性的重要一步”。隨著技術聲望的提升，關於財富和地位的討論也隨之而來。10月，2025胡潤百富榜正式發佈，胡潤特別提到，40歲的DeepSeek創始人梁文鋒本次未上榜，是因為還沒開始商業化，企業估值尚未明確，如果未來商業化成功，參考OpenAI三萬多億元人民幣的價值，胡潤預測，他將成為未來三年中國首富的重要候選人。12月3日，《2025全球獨角獸企業500強報告》發佈，DeepSeek憑藉1.05兆元的估值，力壓阿里雲、螞蟻集團等一眾企業，成為了僅次於字節跳動的中國第二大、全球第六大獨角獸企業。圖源：全球獨角獸企業500強公眾號不過需要強調的是，估值只是估值，並不代表實際價值。12月8日，梁文鋒入選自然2025年度十大科學人物榜單，被評為“科技顛覆者”。當然，高光背後並非沒有陰影。過去一年，DeepSeek也真實地經歷了流量下滑和競爭加劇的壓力。針對DeepSeek流量下滑，360創始人周鴻禕給出了自己的看法和爆料。周鴻禕表示，DeepSeek官網流量下降是因為梁文鋒“就沒想認真做to C的App”，在流量高峰期時，即使網站速度“慢得要死”，梁文鋒也不在乎。周鴻禕還提到，“DeepSeek可能在憋大招“。2025年對梁文鋒而言，既是被世界看見的一年，也是被世界檢驗的一年。光環已經加身，挑戰也已在路上。梁文鋒曾在接受訪談時表示，“我們看到的是中國AI不可能永遠處在跟隨的位置。我們經常說中國AI和美國有一兩年差距，但真實的gap是原創和模仿之差。如果這個不改變，中國永遠只能是追隨者，所以有些探索也是逃不掉的。”他也在繼續探索。今年1月12日，DeepSeek發佈梁文鋒署名的新論文，主題為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》（直譯為基於可擴展尋找的條件記憶：大語言模型稀疏性的新維度）。當下，關於DeepSeek V4的消息已經在市場中流傳。無論最終發佈時間如何，這都意味著，梁文鋒和他的團隊並沒有停在高光時刻，而是繼續向更難、更遠的方向推進。 (大佬說)

【梁文鋒署名】DeepSeek再發新論文：75%思考+25%記憶，這是他們算出來的最優解

DeepSeek又發論文了。這次的主題有點意思：他們發現，現在的大模型在浪費大量算力做一件很傻的事——用計算來模擬查字典。論文叫《Conditional Memory via Scalable Lookup》，核心是一個叫Engram的模組。這個名字有點意思。Engram是神經科學術語，最早由德國生物學家Richard Semon在1904年提出，指的是大腦中儲存記憶痕跡的物理結構——當你記住"巴黎是法國首都"這個事即時，這條資訊就以某種物理形式（可能是特定的神經連接模式）儲存在你的大腦裡，這個物理痕跡就叫engram。DeepSeek用這個名字，顯然是想說：我們要給大模型裝上真正的"記憶"。說實話，看完之後我挺興奮的——這篇論文的思路非常優雅，而且解決的是一個很根本的問題。更重要的是，它觸及了一個認知科學的經典命題：記憶和思考是什麼關係？先說問題：大模型在浪費算力做"背書"你有沒有想過，當大模型看到"Diana, Princess of Wales"（戴安娜王妃）這個詞的時候，它內部發生了什麼？DeepSeek在論文裡引用了一個很有意思的研究（PatchScope）：模型需要消耗多層Attention和FFN，才能逐步把這個實體識別出來。具體來說，模型處理"Wales"這個詞時的內部狀態演變：看到沒？模型用了6層計算，才把一個固定的歷史人物識別出來。問題在於：這個資訊是靜態的、固定的，根本不需要每次都"計算"出來。"亞歷山大大帝"就是"亞歷山大大帝"，"四大發明"就是"四大發明"，"張仲景"就是"張仲景"。這些固定搭配、命名實體、慣用表達，每次都用神經網路重新計算一遍，是不是有點傻？這就像你每次需要查"中國首都是那"的時候，不是直接查字典，而是從頭推理一遍——中國是個國家，國家有首都，中國的政治中心在...DeepSeek的核心觀點是：大模型浪費了大量的"網路深度"在做這種重複性的靜態知識重建。這些算力本來可以用來做更有價值的事——比如推理。Engram的核心思想：給模型發一本字典想像你在考試。以前的規則是：什麼都不能帶，全靠腦子現場推。"亞歷山大大帝是誰？"你得從頭想——亞歷山大，希臘名字，大帝說明是君主，歷史上有名的希臘君主...現在新規則：允許帶一本字典進考場。字典裡寫著"亞歷山大大帝 = 馬其頓國王，公元前356-323年，征服了波斯帝國"。你直接翻到這一頁，抄上去，省下來的時間做後面的推理題。Engram就是這本字典。具體怎麼查？很簡單：模型看到"Alexander the Great"這三個詞連在一起，就像看到字典的索引詞條。它用一個很快的方法（雜湊）定位到字典裡對應的那一頁，直接把預先存好的資訊拿出來用。整個過程不需要"思考"，只需要"翻頁"。但這裡有個問題：同一個詞在不同場合意思不一樣。比如"蘋果"，可能是水果，也可能是那家科技公司。字典裡存的是那個意思？Engram的解決方案很聰明：查完字典之後，先看看上下文，再決定用不用。如果前面在聊水果，字典裡查出來的"蘋果公司"就不太對勁，模型會自動忽略這個查表結果，繼續用自己的推理。如果前面在聊手機，那字典裡的資訊就很有用，直接採納。這就像一個聰明的學生：帶了字典進考場，但不是無腦抄，而是先判斷字典裡的答案和題目對不對得上。關鍵發現：U型縮放定律這裡是論文最有意思的部分。DeepSeek研究了一個問題：如果總參數量固定，應該把多少參數分配給MoE專家，多少分配給Engram記憶？他們定義了一個"分配比例"ρ：ρ = 100% 表示純MoE（所有稀疏參數都給專家）ρ < 100% 表示把部分參數從專家轉移到Engram實驗結果讓人驚訝：驗證損失呈現U型分佈：純MoE（ρ=100%）不是最優的分配約20-25%給Engram（ρ≈75-80%）效果最好把太多參數給Engram（ρ<50%）效果又變差這個U型曲線說明了什麼？MoE和Engram是互補的：MoE擅長動態的、需要上下文推理的任務Engram擅長靜態的、固定模式的識別兩者缺一不可。純MoE缺少記憶能力，純Engram缺少推理能力。插一段：博爾赫斯早就寫過這個看到這個U型曲線的時候，我突然想起博爾赫斯的一個短篇：**《博聞強記的富內斯》**（Funes the Memorious）。故事講的是一個叫富內斯的阿根廷青年，從馬上摔下來之後，獲得了"完美記憶"的能力——他能記住一切。每一片葉子的形狀，每一朵雲的變化，甚至能記住1882年4月30日黎明時分南方天空的雲綵排列。但博爾赫斯寫道：富內斯無法思考。"思考就是忘記差異，就是概括，就是抽象。在富內斯塞滿了東西的世界裡，只有細節，幾乎是直接感知的細節。"富內斯能記住三個不同時刻看到的同一條狗，但他無法理解"狗"這個概念——因為每一條狗、每一個瞬間的狗，對他來說都是完全不同的東西。他記住了一切，卻失去了抽象的能力。這不就是論文裡U型曲線的左端嗎？當ρ趨近於0（全是Engram，沒有MoE）時，模型有無限的記憶，但失去了推理能力。它能記住"亞歷山大大帝"是誰，但無法用這些知識進行推理。反過來，當ρ=100%（全是MoE，沒有Engram）時，模型有強大的推理能力，但要浪費大量算力重建那些本可以直接記住的東西。博爾赫斯在1942年就洞察到了這一點：記憶和思考是互補的，但也是對立的。完美的記憶會殺死思考，而純粹的思考則需要不斷重新發明輪子。最優解在中間——既有記憶，又有思考。DeepSeek的實驗資料給出了一個驚人精確的答案：大約75-80%給思考，20-25%給記憶。這讓我想到另一個認知心理學的經典概念：**組塊（Chunking）**。1956年，心理學家George Miller發表了著名的論文《神奇的數字7±2》，指出人類工作記憶的容量是有限的，但我們可以通過"組塊"來擴展它。比如記電話號碼138-8888-6666，你不是記11個數字，而是記3個組塊。N-gram本質上就是語言的組塊。"亞歷山大大帝"不是5個字，而是1個組塊。Engram做的事情，就是把這些組塊預先存好，省得每次都要重新計算。人腦早就在這麼幹了。DeepSeek只是讓大模型學會了同樣的技巧。實驗結果：推理能力提升比知識提升更大這是讓我最驚訝的部分。你可能會想：Engram是個"記憶模組"，應該主要提升知識類任務吧？確實，知識任務有提升：MMLU：+3.4CMMLU：+4.0MMLU-Pro：+1.8但推理任務的提升更大：BBH：+5.0ARC-Challenge：+3.7DROP：+3.3甚至程式碼和數學也有顯著提升：HumanEval：+3.0MATH：+2.4GSM8K：+2.2等等，一個"記憶模組"為什麼能提升推理能力？機制分析：為什麼"記憶模組"能提升推理？這是我最想搞明白的問題。DeepSeek做了一個很有意思的實驗：他們"偷看"模型每一層在想什麼。具體方法是：把每一層的中間結果拿出來，問它"你現在覺得下一個詞是什麼？"。如果這一層已經很接近最終答案，說明模型在這一層就基本"想明白了"。結果很直觀：有Engram的模型，在很早的層就"想明白了"；沒有Engram的模型，要到很深的層才行。為什麼？因為沒有字典的模型，前面幾層都在忙著做一件事：搞清楚"亞歷山大大帝"是誰。它得一層一層地拼湊——這是個人名，是個歷史人物，是個國王，是馬其頓的國王...等它終於搞清楚這是誰了，已經用掉了5、6層。剩下的層才能開始真正的推理。但有字典的模型不一樣。第2層的時候，Engram直接告訴它："亞歷山大大帝 = 馬其頓國王，征服者"。好了，搞定，後面20多層全部用來推理。這就像兩個學生做同一張卷子：一個學生得先花20分鐘背公式，再用40分鐘做題。另一個學生帶了公式表，60分鐘全用來做題。誰的推理題做得更好？顯然是第二個。DeepSeek還做了一個更精確的測量：Engram模型第5層的"思考深度"，相當於普通模型第12層的水平。換句話說，Engram相當於免費給模型加了7層深度。這就解釋了為什麼推理能力提升這麼大——不是Engram本身能推理，而是它把推理的空間讓出來了。長上下文能力也炸了還有個意外收穫：處理長文章的能力暴漲。有個測試叫"大海撈針"——在一篇很長的文章裡藏一句關鍵資訊，看模型能不能找到。為什麼字典能幫助處理長文章？想像你在讀一本很長的小說。如果你每次看到"福爾摩斯"都要停下來想"這是誰來著..."，讀到後面肯定記不住前面的劇情。但如果"福爾摩斯 = 偵探，住貝克街221B"這個資訊已經存在字典裡，你的注意力就可以全部用來追蹤劇情——誰殺了誰，線索在那，凶手是誰。Engram處理了"這是誰"的問題，Attention就可以專注於"發生了什麼"的問題。相當於給大腦減負了。系統設計：字典可以放在抽屜裡這裡體現了DeepSeek一貫的風格：理論創新和工程落地並重。繼續用考試的比喻。MoE（專家模型）的問題是：每道題都要"現場"決定找那個專家來答，這個決定本身就要花時間。但字典不一樣。你看到"亞歷山大大帝"，就知道要翻到A開頭那一頁。你不需要先讀完整道題，才知道去查那個詞條。這意味著什麼？意味著字典可以提前準備好。模型還在處理第1層的時候，系統就已經知道第2層要查什麼詞條了。所以可以提前把那一頁準備好，等模型算到第2層的時候，字典已經翻開擺在那兒了。更妙的是：字典不需要放在桌上，放在抽屜裡也行。GPU視訊記憶體很貴，就像桌面空間有限。但CPU記憶體便宜得多，就像抽屜容量大得多。既然可以提前知道要查什麼，那就提前從抽屜裡把那一頁拿出來，等用的時候已經在桌上了。DeepSeek做了個實驗：把一本1000億參數的"字典"放在抽屜裡（CPU記憶體），結果：只慢了2% ，但多了1000億參數的知識。這就是為什麼Engram可以做得很大——字典放抽屜裡就行，不佔桌面。門控可視化：確實在識別固定模式論文最後有個很直觀的可視化：紅色表示門控值高（Engram被啟動），白色表示門控值低（Engram被忽略）。可以看到，門控在這些地方啟動："Alexander the Great"（亞歷山大大帝）"the Milky Way"（銀河系）"Princess of Wales"（威爾士王妃）"四大發明""張仲景""傷寒雜病論"全是命名實體和固定搭配。Engram確實在做它該做的事：識別靜態模式。往大了說：DeepSeek在開一條新路回到開頭的問題：這篇論文的意義是什麼？過去幾年，大家都在一個方向上卷：怎麼讓模型算得更聰明。MoE讓不同的專家處理不同的問題，Attention讓模型看到更遠的上下文，更深的網路讓推理更複雜。但不管怎麼卷，本質上都是在最佳化"計算"。DeepSeek說：等等，有些問題根本不需要算，查一下就行了。這個思路其實很符合直覺：人腦也不是什麼都靠推理，很多時候就是直接呼叫記憶。你看到"1+1"不需要推理，直接輸出"2"就行。論文最後一句話很有意思："We envision conditional memory as an indispensable modeling primitive for next-generation sparse models."翻譯過來：我們認為條件記憶會成為下一代稀疏模型的基礎元件。DeepSeek在押注一個新的架構方向。最後：記憶與思考的平衡回到開頭的問題：記憶和思考是什麼關係？博爾赫斯用富內斯告訴我們：完美的記憶會殺死思考。認知心理學告訴我們：人腦用組塊來平衡記憶和思考的負擔。現在DeepSeek用實驗資料告訴我們：最優的比例大約是75%計算 + 25%記憶。這個數字讓我覺得很有意思。它意味著，即使是"智能"系統，也不能全靠"聰明"——你得記住一些東西，才能把腦力用在更值得思考的地方。這篇論文給我最大的啟發是：有時候最好的最佳化不是讓計算更快，而是把計算變成查表。O(1)的查表永遠比O(n)的計算快。如果一個問題的答案是固定的、可以預先算好存起來的，那就沒必要每次都重新算。這個道理在電腦科學裡叫"空間換時間"。但在大模型領域，過去幾年大家都在卷MoE、卷Attention、卷更深的網路，似乎忘了還有"記憶"這條路。DeepSeek的Engram提醒我們：大模型不是越大越好、也不是越深越好，關鍵是把合適的任務分配給合適的模組。靜態知識 → 查表（Engram）動態推理 → 計算（MoE）就像人腦一樣：你不需要每次看到"1+1"都重新推導，直接從記憶裡調出"2"就行了。省下來的腦力，用來思考更有價值的問題。富內斯記住了一切，卻無法思考。純MoE模型能夠思考，卻要浪費算力重建記憶。最聰明的系統，是知道什麼該記住、什麼該思考的系統。 (花叔)

梁文鋒署名新論文深夜炸場！DeepSeek-V4 新架構曝光：提出新的稀疏化方向，與MoE互補，長上下文能力顯著擴展，推理程式碼能力更強了

一覺醒來，DeepSeek又發新論文了！仔細一看作者，梁文鋒的名字也赫然出現在其中。這篇論文題為《通過可擴展尋找實現的條件記憶：大型語言模型稀疏性的新維度》，重點在於提出了 Engram ——這是一種條件記憶模組，旨在通過將靜態模式儲存與動態計算在結構上分離，來增強 Transformer 骨幹網路。論文的給出的實驗資料也相當驚豔：1、Engram 在知識、推理、程式碼和數學任務上能夠帶來顯著性能提升，均超過純MoE模型。2、存在U形擴展規律：純 MoE性能次優，將 20–25% 的稀疏參數分配給 Engram，效果最佳。3、長上下文能力提升明顯，能釋放注意力用於全域模式和複雜推理。程式碼和論文全文均已開源：論文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf程式碼地址：https://github.com/deepseek-ai/Engram為什麼大語言模型需要 Engram ？稀疏性（sparsity）一直是智能系統的核心設計原則，無論是生物大腦的神經回路，還是現代大語言模型都在用它來“省資源”。在 AI 裡，這個思想最常見的體現就是混合專家模型（MoE）——也就是通過“條件計算”讓模型只啟動部分參數，從而在不增加太多計算量的情況下，把模型容量放大好幾倍。MoE 是目前推進參數規模和能力擴展的關鍵技術之一，DeepSeek 自家系列模型（如 DeepSeek V2、DeepSeek V3 等）也採用了先進的 MoE 方法進行擴展訓練。但 MoE 也有其侷限性。語言本身非常複雜，至少包含兩類截然不同的任務：組合式推理：需要深層、動態的神經計算，比如理解複雜句子結構或推理問題；知識檢索：大量文字都是高度固定、重複的內容，比如命名實體、固定表達、程式化模式。論文中提出，經典的𝑁-gram 模型已經證明，處理這種局部、重複的語言規律，用“查表”效率最高，幾乎不需要動深層神經網路。然而現在的 Transformer 並沒有這種原生“查表能力”，所以模型每次要識別一個常見的多 token 實體，都要消耗好幾層注意力和前饋網路，這就像在執行階段重複重建一個靜態字典，既浪費計算，又佔用模型的“序列深度”，原本可以用來做更高級的推理。Engram是如何實現的？為瞭解決上述問題，DeepSeek提出了一個新的稀疏化方向——條件記憶，專門用來儲存和尋找固定知識。它和 MoE 的條件計算完全互補：MoE 負責動態推理和組合邏輯；Engram 負責靜態知識，直接查表就行。Engram是神經科學中的一個核心概念，意為“記憶痕跡”，它是一個可擴展、可尋找的記憶模組，用於語言模型在推理過程中過去可能已經見過的模式或片段。在具體實現上，Engram模組通過 O(1) 的尋找複雜度將靜態模式儲存從動態計算中分離出來，採用了四項核心技術：現代化的雜湊 N-gram 嵌入、分詞器壓縮、上下文門控以及多分支融合技術。具體來看：1、分詞器壓縮：預先計算對應函數，將語義等價但 ID 不同的詞項（如 "Apple" 和 "apple"）折疊為統一識別碼，將有效詞表大小減少了 23%。· 多頭2、雜湊檢索：利用局部上下文（N-grams）作為鍵，通過雜湊函數在巨大的嵌入表中檢索靜態向量。3、上下文感知門控：這是 Engram 的關鍵創新。利用當前層的隱藏狀態作為 Query，與檢索到的記憶體進行語義匹配。如果檢索內容與上下文矛盾，門控值會趨近於零，從而抑制雜湊衝突帶來的噪聲。4、混合分枝整合：專門針對多分枝架構（如 mHC）進行了最佳化，通過參數共享策略（共享 Embedding 表和 Value 投影，保持獨立 Key 投影）平衡了表達能力與計算效率。Engram 通常會插在 Transformer 的前期層，比如 Layer 2 或 Layer 6。這樣做的好處是：一方面可以把靜態模式的重建工作解除安裝掉，減輕骨幹網路的負擔；另一方面又能保留足夠的上下文資訊，讓門控機制更聰明地判斷那些記憶該用，那些該忽略。Engram 的記憶容量並不是越大越好，它需要和 MoE 專家容量精心配比。按照 Sparsity Allocation（稀疏性分配）法則，合理劃分兩者比例，既保證大模型的參數利用率，又最大化計算效率——簡單來說，就是讓每一份記憶和每一位專家都發揮最大作用。實驗結果很驚豔：推理、程式碼、長上下文能力顯著提升論文把 Engram 擴展到 270 億參數，嚴格對齊 MoE 基線的參數和 FLOPs。結果顯示：知識密集型任務（MMLU、CMMLU、MMLU-Pro）：性能提升 1.8–4.0 分不等；通用推理任務（BBH、ARC-Challenge、DROP）：提升更明顯，最高 +5 分；程式碼和數學能力（HumanEval、MATH、GSM8K）：平均提升 2–3 分。值得注意的是，Engram 在知識密集型任務中明顯優於純 MoE 模型。原因很直觀：它把靜態模式的記憶交給了高效的尋找機制，而不是每次都用神經網路“重算”，減少了淺層的重複計算。更重要的是，Engram也顯著擴展了長上下文能力，在長文字任務（如 LongPPL、RULER）表現突出，尤其是在多跳檢索、鏈式推理等場景中。例如 Multi-Query NIAH 指標從 84.2 提升到 97.0，Variable Tracking 從 77.0 提升到 89.0。原因是 Engram 處理了大量局部、靜態的依賴，釋放了注意力機制去處理全域上下文，從而在長序列中更穩、更準。此外，團隊還發現了 MoE 和 Engram 容量分配中的U形擴展規律：當 Engram 記憶容量太小或太大時，性能都不理想將 20–25% 的稀疏參數分配給 Engram，效果最佳網友：Engram 可能是 DeepSeek-V4 型號的基礎技術！在Reddit、X等平台上，DeepSeek的新論文也立刻引發了網友的熱烈討論。其中最廣泛的一個猜測就是：Engram 可能是即將推出的 DeepSeek-V4 的基礎技術。很多網友認為，Engram這個方法很有趣，其特點在於讓模型架構處理“記憶模式尋找”和“神經計算推理”兩塊職責分離，從而開啟了新的稀疏性方向。也有網友表示，這種方法比線性注意力機制要好得多。DeepSeek的深夜放大招，也讓部分網友直言：中國大模型團隊的創新性真令人害怕。 (51CTO技術堆疊)

梁文鋒署名！DeepSeek再發炸裂論文：提出“條件記憶”新範式，徹底打破GPU推理視訊記憶體牆

當業界紛紛湧入MoE（Mixture-of-Experts）架構以實現高效擴容時，一個根本性的低效問題卻始終存在：強大的Transformer模型，本質上缺乏一種原生的“知識尋找”機制。它們被迫通過複雜的“動態計算”來模擬簡單的“靜態檢索”過程。例如，為了識別“戴安娜王妃”這樣的實體，模型需要消耗多層注意力與前饋網路資源，逐步建構其內部表徵。這無異於用高射炮打蚊子，浪費了寶貴的計算深度來自DeepSeek 的最新論文，為解決這一難題提出了一個全新的稀疏性維度：條件記憶（Conditional Memory）他們推出名為Engram的新模組，它以O(1)的恆定時間複雜度實現了可擴展的知識尋找，作為對MoE“條件計算”的有力補充。通過系統性研究，團隊揭示了一條指導兩種稀疏性權衡的U形縮放定律。依據該定律，他們建構了一個270億參數的Engram模型，在總參數量與計算量（FLOPs）完全相同的情況下，其性能全面超越了純MoE基線。令人矚目的是，這種提升不僅體現在知識密集型任務上（MMLU +3.4），更在通用推理（BBH +5.0）、程式碼（HumanEval +3.0）和數學（MATH +2.4）等領域取得了更大的收益。機理分析表明，Engram通過接管早期層的靜態模式重構任務，有效“加深”了網路，為複雜推理釋放了更多計算資源。同時，它將局部依賴關係的處理委託給尋找操作，從而解放了注意力機制，使其能更專注於全域上下文，極大地提升了模型的長文字處理能力（如Multi-Query NIAH任務得分從84.2提升至97.0）。更重要的是，Engram的設計充分考慮了系統效率。其確定性的尋找機制支援在執行階段從低速的主機記憶體預取資料，幾乎不產生額外開銷，從而打破了GPU視訊記憶體的瓶頸。論文地址：https://github.com/deepseek-ai/Engram語言模型的雙重任務：計算與檢索語言建模包含兩種性質截然不同的子任務：一是需要深度動態計算的組合推理，二是對本地、靜態、高度模式化的文字片段（如命名實體、慣用語）的知識檢索。經典的N-gram模型證明了，後一種任務通過廉價的尋找操作就能高效完成。然而，當前的LLM架構缺少這種原生尋找功能，導致它們必須通過計算來模擬檢索，造成了資源浪費。為了讓模型架構與語言訊號的這種二元性對齊，DeepSeek提出了“條件記憶”這一新的稀疏軸，與MoE的“條件計算”形成互補。• 條件計算 (MoE)：稀疏啟動參數，處理動態邏輯。• 條件記憶 (Engram)：稀疏尋找操作，檢索靜態知識。研究團隊提出的Engram模組，正是這一理念的具體實現。它以經典的N-gram結構為基礎，並融入了分詞器壓縮、多頭雜湊、上下文門控和多分支整合等現代化改造。Engram架構：兩階段實現高效尋找與融合Engram作為一個條件記憶模組，旨在將靜態模式儲存與動態計算在結構上分離。其工作流程分為兩個核心階段：檢索與融合1. 稀疏檢索：通過雜湊N-grams定位記憶首先，模組需要將局部上下文對應到靜態記憶條目。這包括兩個步驟：分詞器壓縮 (Tokenizer Compression)：標準的分詞器常為語義等價的詞分配不同ID（如Apple vs. apple）。為提升語義密度，Engram首先通過一個預計算的對應函數，將原始Token ID壓縮為規範化的ID。多頭雜湊 (Multi-Head Hashing)：直接參數化所有N-gram組合是不現實的。Engram採用基於雜湊的方法，為每個N-gram階數（如2-gram, 3-gram）配備K個獨立的雜湊頭，將上下文雜湊到不同嵌入表中的索引，以降低衝突。最終，所有檢索到的嵌入向量被拼接成一個記憶向量et。2. 上下文感知門控與融合檢索到的記憶向量et是靜態的、上下文無關的先驗知識，可能存在雜湊衝突或歧義。為瞭解決這個問題，Engram引入了受注意力機制啟發的上下文感知門控它將當前層的隱藏狀態ht（已聚合了全域資訊）作為Query，將記憶向量et投影為Key和Value。通過計算Query與Key的相似度，生成一個門控標量αt。這個標量決定了檢索到的資訊與當前上下文的匹配程度：如果匹配度低，門控值趨近於0，有效抑制噪聲。最後，通過門控的Value向量會經過一個輕量級的深度因果摺積，以擴大感受野並增強非線性。最終的輸出通過殘差連接融入到Transformer主幹網路中核心發現：稀疏性分配的U形定律為了量化MoE（計算）與Engram（記憶）之間的協同作用，研究人員提出了稀疏性分配問題：在固定的總參數和計算預算下，應如何在這兩者之間分配“稀疏容量”？他們定義了一個分配比例ρ，其中ρ=1代表純MoE模型，ρ<1則代表將一部分原用於MoE專家的參數轉而分配給Engram的嵌入表。實驗在兩個不同的計算規模（2e20和6e20 FLOPs）下進行，結果揭示了一條清晰的U形縮放定律：MoE主導 (ρ → 100%)：模型缺乏專門的記憶模組，被迫低效地通過計算重構靜態模式Engram主導 (ρ → 0%)：模型喪失了條件計算能力，無法處理需要動態、上下文相關推理的任務最佳平衡點：將大約20%-25%的稀疏參數預算分配給Engram時，模型性能達到最優。這一穩定的U形關係證明了條件計算和條件記憶在結構上的互補性。此外，在“無限記憶體”設定下，單獨增加Engram的記憶槽數量，模型性能也呈現出可預測的對數線性提升，證明了Engram是一個有效的、可獨立擴展的性能提升手段。大規模預訓練：性能全面超越，推理提升更顯著基於上述定律，研究團隊訓練了一系列模型，並與嚴格對等的基線進行比較。所有模型均在262B Tokens上訓練，並保持啟動參數量（3.8B）一致。Engram-27B：總參數26.7B，與MoE-27B基線相同。它將MoE專家的數量從72個減少到55個，並將節約的參數（5.7B）用於建構Engram記憶模組。Engram-40B：在Engram-27B基礎上，進一步將Engram記憶擴展至18.5B參數，總參數達到39.5B。實驗結果（Table 1）表明：1.稀疏模型優於密集模型：所有稀疏變體（MoE與Engram）均顯著優於同等計算量的Dense-4B模型2.Engram全面超越MoE：在參數和計算量完全匹配的情況下，Engram-27B在所有評估維度上都優於MoE-27B3.推理與程式碼數學領域增益尤為突出：雖然Engram在知識任務（如MMLU +3.4, CMMLU +4.0）上表現出色，但其在通用推理（BBH +5.0, ARC-Challenge +3.7）和程式碼數學（HumanEval +3.0, MATH +2.4）上的優勢更為顯著這證明了引入專用的知識尋找原語，能夠極大地提升模型的表徵效率，其益處遠不止於知識檢索本身。Engram如何工作？機理分析揭示“有效深度”增加為了探究Engram的內部工作機制，研究團隊使用了LogitLens和CKA（中心核對齊）兩種可解釋性工具。加速預測收斂：LogitLens分析顯示，與MoE基線相比，Engram模型的淺層網路就能生成更接近最終預測結果的表徵（KL散度更低）。這表明，通過直接尋找知識，Engram減少了模型逐步建構特徵所需的計算步驟提升有效深度：CKA分析則揭示了Engram模型與MoE模型之間的層間表徵相似性。結果顯示，Engram模型的淺層（如第5層）在功能上等價於MoE模型的深層（如第12層）結論很明確：Engram通過顯式尋找繞過了早期的特徵組合階段，在功能上等價於增加了模型的有效深度系統效率：解耦計算與儲存，打破GPU視訊記憶體牆Engram的一個關鍵優勢在於其系統設計。與依賴執行階段隱藏狀態進行動態路由的MoE不同，Engram的尋找索引完全由輸入Token序列決定，具有嚴格的確定性這一特性使得在推理時可以實現高效的預取-重疊（prefetch-and-overlap）策略：系統可以在GPU計算前序Transformer塊的同時，非同步地從大容量、低成本的主機記憶體（DRAM）甚至NVMe SSD中預取後續Engram層所需的嵌入。實驗在一個1000億參數的Engram層上進行了驗證。結果顯示，將整個嵌入表解除安裝到主機記憶體，所帶來的吞吐量懲罰峰值僅為2.8%，幾乎可以忽略不計。這證明了Engram能夠有效繞過GPU視訊記憶體限制，以極小的開銷實現參數規模的激進擴展。這意味著可以用較少/較低配的GPU（視訊記憶體有限）來運行一個總參數量極大的模型。這大大降低了模型的部署和使用成本寫在最後DeepSeek AI的Engram工作，為大模型稀疏化設計開闢了一個全新的、與MoE互補的軸線——條件記憶。通過將靜態知識檢索從動態計算中剝離，Engram不僅在知識任務上取得優勢，更在推理、程式碼、數學等複雜任務上實現了超預期的性能提升。這項研究的核心貢獻包括：1. 提出Engram模組：一個可擴展、系統高效的條件記憶實現。2. 發現稀疏分配的U形定律：為平衡計算與記憶提供了理論指導。3. 驗證了架構優勢：在同等參數和計算成本下，混合模型全面超越純MoE模型。4. 揭示了工作機理：Engram通過提升模型的“有效深度”來最佳化表徵效率。研究人員認為，條件記憶應成為下一代稀疏大模型不可或缺的建模原語，為建構更強大、更高效的智能系統鋪平了道路。我彷彿已經看到了v4的影子 (AI寒武紀)

DeepSeek-V4核心公開？梁文鋒署名新論文發佈，實習生挑大樑

這一記憶架構有望成為新的Scaling路徑。智東西1月13日報導，昨晚，DeepSeek又開源了，還發佈一篇新論文。這次，他們提出了一種全新的“條件記憶”機制——Engram，旨在讓MoE模型在保持巨量參數的同時，更高效地處理語言資訊。DeepSeek創始人兼CEO梁文鋒、北大王選電腦研究所的趙東岩和張輝帥教授都在論文中署名。Engram架構的核心優勢在於以更低成本實現更優性能。訓練計算量較MoE減少18%的情況下，在32768個token的長上下文任務中，Engram在RULER基準測試中反超同參數量MoE模型。並且，其淺層部署的記憶模組接管局部依賴與靜態知識儲存，為注意力機制騰出容量以專注全域推理，1000億參數記憶表解除安裝後使H800推理吞吐量降幅不足3%。DeepSeek還觀察到，增加記憶槽位數量能持續、穩定地降低驗證損失，這意味著Engram提供了一個可預測的Scaling新手段：增大記憶容量持續帶來收益，而無需增加計算量。那這種效果究竟是如何實現的呢？如今的MoE模型雖然在計算層面做到了稀疏化，但是它處理資訊的方式仍然很費勁：有些老生常談的事實性內容，比如常見的名字、公式或固定表達，模型卻要重複計算，非常耗時間。DeepSeek的做法是，把這些“固定知識”提前整理成一個可以快速查詢的表格，這樣就能把更多精力放在真正需要深度思考的任務上，比如複雜推理或者理解長段文字。值得一提的是，論文的第一作者Xin Cheng（程信）目前在北京大學智能學院攻讀博士學位，主要研究大模型的高效參數化方法和機制。他同時也在DeepSeek工作，R1、V3的研究都參與了，很有可能是實習生。在論文摘要中，DeepSeek提出，條件記憶（conditional memory）將成為下一代稀疏模型中不可或缺的建模原語。這或許意味著DeepSeek-V4有望整合條件記憶機制，實現知識高效檢索與推理能力的飛躍。論文連結：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf項目連結：https://github.com/deepseek-ai/Engram01. Transformer缺乏知識檢索機制經典𝑁-gram架構提供啟發在正式介紹新型記憶機制前，DeepSeek團隊首先提出了一項重要的觀察。稀疏性已經成為了智能系統的核心設計原則，在大模型領域，其具體實現就是MoE（混合專家模型）。但是，現有的標準Transformer本質上沒有真正的知識檢索機制，導致現有大模型不得不在早期層中通過昂貴計算來“重建”靜態知識，浪費了寶貴的模型深度。因此，DeepSeek認為有必須要提出第二個與條件計算互補的稀疏維度：條件記憶。條件記憶則依賴稀疏的尋找操作，為固定知識檢索靜態嵌入表示，適合命名實體、固定表達等靜態且高度模式化的語言表示。DeepSeek他們向經典的𝑁-gram結構引入了現代化的條件記憶模組，包括分詞器壓縮、多頭雜湊、上下文化門控以及多分支整合等，最終提出了Engram。下圖是Engram的基本架構，通俗地說，Engram就是給Transformer加個外接記憶庫，並把當前token附近的一小段內容，用快速、省參數的方式，去一個超大的靜態記憶表裡查到對應內容。02. 多管齊下打造新型記憶機制天然支援參數儲存與計算資源解耦這個記憶庫該如何具體實現呢？首先，DeepSeek團隊對分詞器（tokenizer）進行了壓縮。普通的分詞器會把Apple、apple、APPLE這些單詞當成完全不同的東西，但是對人來說其實差別不大。Engram先把詞表清洗了一遍，全部轉小寫，Unicode規範化（NFKC）。最後，一個原本128k的詞表，實際只剩下77%，有23%的token ID被合併了。這讓N-gram記憶的密度明顯提升了。不過，直接對所有𝑁-gram進行建模是不可行的，參數會指數級增長。DeepSeek團隊引入了多頭雜湊記憶（Multi-Head Hashing），在固定參數預算下近似大規模𝑁-gram表，降低雜湊碰撞引入的語義噪聲。上述檢索機制提供的記憶是靜態的，缺乏上下文適應性，易受歧義與衝突的影響，這一問題可通過上下文感知門控（Context-aware Gating）來解決。為進一步擴大感受野並增強非線性建模能力，模型還引入了一個深度可分離因果摺積。DeepSeek團隊採用多分支架構作為默認主幹網路，而非標準的單流殘差連接（這是何愷明此前的研究成果）。多分支架構把殘差流擴展為M個平行分支，但共享記憶表和輸出對應。這樣設計的好處是，它可以一次性用矩陣乘法搞定多條分支的計算，GPU用得非常高效。Engram的核心優勢在於記憶檢索完全依賴輸入token，而非執行階段的隱藏狀態。這種確定性機制實現了參數儲存與計算資源的解耦，支援訓練和推理階段採取專門的最佳化策略：▲Engram訓練和推理階段可採用不同最佳化策略訓練最佳化：通過將超大嵌入表分片至多張GPU，利用All-to-All通訊按需收集對應行，使總記憶容量隨GPU數量線性擴展。推理最佳化：由於可提前確定待查詢記憶，系統可從主機記憶體非同步預取，同時在前幾層計算期間隱藏通訊延遲，實現預取與計算的重疊，避免GPU停頓。硬體-演算法協同設計：Engram在模型中的放置位置需平衡建模性能與系統延遲。較早引入有助於局部模式重建，較深放置則延長延遲隱藏窗口，需兼顧二者最佳化。層次化儲存：基於自然語言𝑁-gram的Zipf分佈特性，可採用多級快取策略，高頻嵌入存放於GPU HBM或主機DRAM，低頻嵌入置於SSD。這使Engram能擴展至超大規模記憶，同時保持低延遲與高效率。03. 兩個模組資源二八分成互補性獲驗證接下來，DeepSeek團隊研究了另一個關鍵問題——條件計算和條件記憶這兩種稀疏模式該怎麼配合，才能發揮最佳效果？實驗發現，在有限資源下，把所有空閒參數都給MoE（也就是純MoE模型）不是最優解，最好的效果是大約75%-80%給MoE，其餘20%-25%給Engram。如果完全由MoE主導，模型缺乏靜態模式的專用記憶，只能靠計算反覆重建，效率低。而如果完全由Engram主導，模型失去了動態計算能力，無法應對需要上下文理解的任務。這條U型曲線，驗證了兩個模組的結構互補性：前面這一實驗探索的是在固定參數參數預算下的分配最佳化，那麼如果把記憶大幅度擴展，會發生什麼？實驗發現，在MoE主幹網路不變的情況下，附加Engram表。結果顯示，增加記憶槽位數量能持續、穩定地降低驗證損失。在探索範圍內，曲線嚴格遵循冪律（對數空間線性）。DeepSeek認為，這意味著Engram提供了一個可預測的Scaling新手段：增大記憶持續帶來收益，而無需增加計算量。同時，相比別的只做簡單平均的記憶方法（比如OverEncoding），Engram的Scaling潛力更大，性能提升更明顯。這些結果驗證了條件記憶作為稀疏容量的獨立可擴展維度，與MoE的條件計算形成互補。04. 架構訓練計算量少18% 性能反超MoE驗證了架構、技術路徑的可行性，DeepSeek團隊的下一步就是進行大規模的Scale，驗證這種方式在實際語言模型預訓練中的有效性。具體而言，DeepSeek訓練了四個模型：Dense-4B、MoE-27B、Engram-27B、Engram-40B。訓練時的語料庫、分詞器都使用了相同的設定，而後兩個模型引入了Engram機制，用於研究在模型大小不變和Engram進一步擴展後的特性。結果顯示，在相同算力和參數量的情況下，Engram-27B能在MoE-27B的基線上去取得持續提升，並且這些增益並不僅限於知識密集型任務。通用推理任務、程式碼與數學推理任務從中得到的提升甚至更為顯著，這些結果支援了DeepSeek的假設：引入專門的知識尋找原語（knowledge lookup primitive）能夠提升表示效率，這超出了僅將整個稀疏預算用於條件計算所能達到的效果。最後，將模型擴展到Engram-40B進一步降低了預訓練損失，並在大多數基準上提升了性能。雖然它尚未在每個任務上嚴格優於Engram-27B，但這很可能是訓練不足的結果。DeepSeek團隊觀察到，在訓練結束時，Engram-40B與基線模型之間的訓練損失差距仍在擴大，這表明在當前的token預算下，擴展的記憶容量尚未完全發揮其潛力。接著，DeepSeek團隊用MoE-27B與Engram-27B作為對照組，均使用了5000步（約300億token）的高品質長上下文資料進行微調，然後他們採用DeepSeek-V3中的YaRN技術，將模型的上下文窗口擴展到32768個token。實驗結果顯示，由於Engram模組接管了局部依賴的建模，它為模型的注意力機制騰出了容量，使其能更專注於處理全域上下文。因此，Engram架構在處理超長文字和長程推理任務上比傳統架構表現更好，具體表現如下：在架構方面，在排除了基礎模型能力差異的情況下，Engram-27B依然顯著優於MoE-27B。在複雜的檢索任務RULER基準測試中，Engram表現出了更強的長程依賴處理能力。例如在多查詢Multi-Query NIAH任務中，Engram精準率大幅領先。▲長上下文性能比較基準測試計算效率方面，即使只用了82%的預訓練計算量，Engram-27B的表現依然能與完全訓練的MoE-27B基線模型持平，甚至在RULER基準上實現超越。這證明了Engram架構具有極高的訓練效率，能用更少的計算資源達到同等或更好的長上下文性能。05. Engram淺層效果更好對事實性知識影響較大而後，DeepSeek團隊對Engram模型進行了深入的機制分析和消融實驗。核心目的是回答“Engram到底是如何工作的？它的各個元件有什麼用？”這兩個問題。首先是模型深度與表徵分析，DeepSeek團隊通過LogitLens分析顯示，Engram模型在早期層就能更快地收斂到最終預測結果，因為它通過查表直接獲取了靜態知識，不需要像傳統模型那樣通過多層計算來重組基礎特徵。▲表徵對齊和收斂速度分析中心核對齊分析發現，Engram的淺層在表徵上與純MoE模型的深層高度相似。這意味著Engram讓模型在更少的層數內完成了同等複雜的特徵提取，在功能上等同於增加了模型的有效深度。在架構消融實驗中，研究人員發現將Engram模組放在較淺的層，如第2層，效果最好。這樣可以儘早解除安裝模型背負的局部模式重建任務，讓後面的深層網路專注於複雜的全域推理。▲結構消融實驗結果研究人員還發現，分支特定融合、上下文感知門控和分詞器壓縮對性能影響最大，去掉任何一個都會導致驗證損失顯著上升，而次要元件輕量級摺積層的影響則較小。如果把Engram“關掉”，模型在那些任務上會崩潰？為回答這個問題，DeepSeek團隊進行了功能敏感性分析。他們測試在推理時強制遮蔽Engram模組的輸出，觀察性能下降情況。結果顯示，在事實性知識方面，模型性能災難性下降，僅保留約29-44%的性能。這證明Engram是模型儲存參數化知識的主要倉庫。️但在閱讀理解方面，模型性能幾乎不受影響，保留約81-93%。這證明涉及上下文推理的任務主要由Transformer的骨幹網路處理，而非記憶模組。▲功能敏感性分析結果在系統效率與推理吞吐上，由於Engram的訪問模式是預先可知的，不像MoE需要根據隱藏狀態動態路由，系統可以提前從記憶體中預取資料。即使將一個1000億參數的Engram表解除安裝到主機記憶體，其在H800硬體上的推理吞吐量下降也不到3%，這證明了Engram能以極低的代價實現參數量的大幅擴展。此外，Engram的門控機制會在遇到靜態模式時被啟動，即變紅。具體表現為當模型遇到多詞實體、固定短語或中文成語以及歷史名詞時，Engram會被啟動進行檢索；而在處理需要動態推理的文字時，其門控則保持關閉。▲門控機制啟動06. Engram內化記憶與Attention機制互補最後，DeepSeek團隊將Engram與MoE、外部記憶與檢索增強、長上下文建模以及表徵學習與知識蒸餾進行了對比。傳統MoE是Engram的“前輩”，它通過稀疏啟動來擴展模型容量。Engram解決了傳統MoE在超大規模下路由成本高、訓練不穩定的問題，提供了一種更高效的擴展路徑。對比外部記憶與檢索增強（RAG）這類工作通常是在模型外部掛一個資料庫，在推理時即時檢索。而Engram是內化的記憶，它在預訓練階段就把海量知識消化並固化到了參數化的記憶表中，這使得它比傳統RAG具有更低的延遲和更強的知識一致性。長上下文建模這一領域的研究則主要關注如何讓模型的注意力機制處理更長的序列。DeepSeek團隊強調，Engram並不是要取代注意力機制，而是與之互補。Engram負責處理局部的、靜態的上下文依賴，從而讓注意力機制能更專注於處理全域的、動態的長程依賴。對於表徵學習與知識蒸餾來說，Engram提供了一種新的視角——將模型的知識解耦為通用推理能力和特定知識庫。這種解耦結構天然適合進行知識蒸餾，因為未來的研究團隊可以選擇只蒸餾輕量級的骨幹網，而將龐大的知識庫作為可插拔的附件。07. 結語：Engram將實現低成本超大規模擴展，逼近AGIEngram架構的核心思想就是通過解耦來實現效率與性能的平衡。它成功地將“局部模式重建”從複雜的Transformer骨幹網中剝離出來，交由專門的記憶模組處理。這種設計使得模型在保持強大推理能力的同時，能夠以極低的成本擴展到超大規模。DeepSeek團隊認為，Engram不僅僅是一個學術上的新模型，它具有很強的工程落地價值。由於記憶模組的訪問具有確定性，Engram可以進行高效的預取和硬體最佳化，非常適合大規模部署。而且，既然知識集中在Engram表中，未來或許可以通過直接修改這個表來修正模型的知識錯誤，而無需進行昂貴的微調。但目前的Engram是在預訓練時“固化”的。未來的一個重要方向是讓這個記憶模組具備線上學習或動態更新的能力，讓模型能即時獲取新知識。例如，未來的研究可以將Engram擴展到多模態領域，建立一個通用的多模態記憶庫。研究人員還可以繼續探索是否能將模型解耦為更多專用模組，以進一步逼近AGI（通用人工智慧）的效率。 (智東西)

梁文鋒署名新論文，DeepSeek V4架構首曝？直擊Transformer致命缺陷

【新智元導讀】深夜，梁文鋒署名的DeepSeek新論文又來了。這一次，他們提出全新的Engram模組，解決了Transformer的記憶難題，讓模型容量不再靠堆參數！剛剛，DeepSeek新論文發佈了，梁文鋒署名！這一次，他們聯手北大直接瞄準了「記憶」，是Transformer最致命的關鍵難題。如今，MoE成為大模型主流架構，但本質仍是Transformer，因其缺少原生「知識尋找」機制，很多檢索能力被迫用大量計算去模擬。33頁論文中，團隊提出了 MoE 互補的「條件記憶」稀疏軸，並通過一種全新的Engram模組去實現：將經典雜湊N-gram嵌入現代化，提供近似O(1)的確定性知識尋找。論文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf通過「稀疏分配」（Sparsity Allocation）建模，他們意外發現MoE與Engram之間，存在「U形scaling law」。這意味著，需調整兩者之間資源比例，讓計算與靜態記憶間找到最優權衡。沿著這個規律，將Engram擴展到27B參數後，並在嚴格等參數、等FLOPs下優於MoE基線。直白講，MoE只解決「怎麼少算」，Engram直接解決「別瞎算」。它把該查的交給 O(1)記憶，把注意力從局部瑣碎中解救出來，結果不只是更會背知識，同時推理、程式碼、數學一起變強。這可能成為稀疏LLM下一條主流路線，更重要的是，下一代V4或將整合這一新方法。不再苦算，給Transfomer插入「電子腦」當前，LLM越做越大已成為「鐵律」，一條熟悉的路徑是——把參數做大，把計算做「稀疏」。混合專家模型（MoE）就是典型代表，每個token只需啟動少量專家，用「條件計算」讓參數規模飆升，FLOPs還能控住。從Artifical Analysis榜單中可以看出，現有的稀疏大模型，主流都是MoE。但問題在於，Transformer缺少一種「原生的知識尋找」能力，所以很多本該像檢索一樣 O(1)解決的事，被迫用一堆計算去「模擬檢索」，效率很不划算。北大和DeepSeek新論文帶來一個很有意思的觀點：稀疏化不只服務「計算」，也可以服務「記憶」。由此，團隊提出了Engram，把語言建模中大量「固定、局部、刻板」的模式，交給一個可擴展的查表模組去承擔。這樣一來，可以讓Transformer主幹把注意力和深度用在更需要「組合與推理」的地方。語言建模，兩類任務論文中，作者明確將語言建模拆成兩類子任務：一部分任務需「組合與推理」：上下文關係、長程依賴、邏輯推理、鏈式推理。另一部分任務更像「模式檢索」：實體名、固定搭配、常見短語、語法片段、重複出現的局部結構後者的一個共同點很明顯，即它們往往局部、穩定、重複出現。若是用多層注意力和FFN去「算」他們，模型做得到，但成本極高，還會擠佔早期層的表達空間。為了識別實體「戴安娜，威爾士王妃」（Diana，Princess of Wales），LLM必須消耗多層注意力和FFN來逐步組合特徵，這個過程理論上是可以通過一次知識尋找操作來完成的。而Engram想做的事情很直接——把這類「局部靜態模式」轉移到一個廉價的知識尋找原語。它用確定性的查表快速給出候選資訊，再由上下文決定是否採納。Engram核心架構：暴力查表+記憶開關Engram一詞源於神經學，本意為「記憶痕跡」，是一種可擴展、可檢索的記憶單元。它可以用於儲存LLM在推理過程中，可能已接觸過的模式、資訊片段。可以將Engram理解為，把經典「雜湊N-gram嵌入」現代化，做成插在Transformer中間層的一個「可擴展查表模組」。如圖1所示，Engram是一個條件記憶模組，旨在通過從結構上將靜態模式儲存與動態計算分離開來，從而增強Transformer骨幹網路。形式化地說，給定輸入序列X=(x_1,...,x_T)和第l層的隱藏狀態H^(l)∈R^Txd，該模組分兩個功能階段來處理每個位置t：檢索和融合。接下來，一起看看Engram的關鍵設計點。基於雜湊N-gram的稀疏檢索第一階段主要負責將局部上下文對應到靜態的記憶條目中，這通過分詞器壓縮（tokenizer compression）和確定性雜湊檢索嵌入來實現。分詞器壓縮為了最大化語義密度，作者引入了一個詞表投影層。他們預先計算了一個滿射函數P:V→V'，利用歸一化的文字等價性（比如NFKC、小寫化等手段）將原始Token ID坍縮成規範識別碼。這個過程能讓128k大小的分詞器有效詞表大小減少23%。多頭雜湊要想直接參數化所有可能的N-grams組合空間，計算上是行不通的。作者採用了一種基於雜湊的方法。為了減少沖突，給每個N-gram階數n分配了K個不同的雜湊頭。每個頭k通過一個確定性函數φ_n,k,將壓縮後的上下文對應到嵌入表E_n,k中的一個索引：上下文感知門控檢索到的嵌入e_t充當的是上下文無關的先驗資訊。不過，它們容易受到雜湊衝突或多義詞帶來的噪聲干擾。為了增強表達力並解決這種歧義，作者採用了一套受注意力機制啟發的上下文感知門控機制。他們利用當前的隱藏狀態h_t作為動態的Query，而檢索到的記憶e_t則作為Key和Value投影的來源：其中W_K，W_V是可學習的投影矩陣。為了保證梯度穩定性，他們在計算標量門α_t∈(0,1)之前，先對Query和Key進行RMSNorm處理：最後，為了擴大感受野並增強模型的非線性，作者還引入了一個短的深度因果摺積：門控可視化為了實證驗Engram是否按預期行為，作者在圖7中可視化了Engram-27B在各種樣本上的門控標量α_t。結果展示了，明顯的選擇性模式。門控機制在完成局部、靜態模式時一致地啟動（顯示為紅色）。在英文中，觀察到在多Token命名實體（如Alexander the Great、the Milky Way）和固定短語（如By the way，Princess of Wales）上有強烈的啟動。關鍵是，這種行為有效地跨語言泛化。在中文demo中，Engram識別並檢索獨特的習語表達和歷史實體，比如「四大發明」和「張仲景」。這些定性結果證實，Engram成功識別並處理了固定的語言依賴關係，有效地將Transformer骨幹網路從記憶這些靜態關聯中解放出來。系統效率：計算與儲存解耦擴展記憶增強型模型往往受限於GPU高頻寬記憶體（HBM）的容量。然而，Engram的確定性檢索機制天生就支援將參數儲存與計算資源解耦。與依賴執行階段隱藏狀態進行動態路由的混合專家模型（MoE）不同，Engram的檢索索引僅取決於輸入的Token序列。這種可預測性為訓練和推理提供了專門的最佳化策略，如圖2所示。訓練階段，為了容納大規模嵌入表，他們採用標準的模型平行策略，將表分片儲存在可用的GPU上。推理階段，這種確定性特性使得「預取和重疊」策略成為可能。U型Scaling Law，揭秘最優分配比Engram作為條件記憶的一種實現形式，在結構上與MoE專家提供的條件計算是互補的。這裡，主要研究了以下兩個關鍵問題：1. 有限約束下的分配2. 無限記憶體場景作者通過三個參數指標來分析MoE和Engram之間的權衡：P_tot:總可訓練參數，不包括詞表嵌和LM頭。P_act：每個Token的啟動參數量。這個數值決定了訓練成本（FLOPs）。P_sparse≜P_tot-P_act：非啟動參數，這代表了「免費」的參數預算，可用於在不增加計算成本的情況下擴展模型規模。作者將分配比例ρ∈[0,1]定義為分配給MoE專家容量的非啟動參數預算的比例：直觀來說：ρ=1對應純MoE模型（所有非啟動參數都是參與路由的專家）。ρ＜1則減少路由專家的數量，並將釋放出來的參數重新分配給Engram嵌入槽位。結果與分析圖3（左）展示了驗證損失與分配比例ρ之間存在一致的U型關係。這種U型關係證實了兩個模組之間的結構互補性：MoE主導（ρ→100）：模型缺乏用於儲存靜態模式的專用記憶體，迫使它只能通過增加深度和計算量來低效地重建這些模式。Engram主導（ρ→0%）：模型失去了條件計算能力，從而損害了那些需要動態、上下文依賴推理的任務；在這種場景下，記憶無法替代計算。接下來，作者探索了一種互補的設定：激進的記憶體擴展。圖3（右）表明，擴充記憶體槽位的數量能帶來清晰且一致的驗證損失改善。在探索的範圍內，曲線遵循嚴格的冪律，這表明Engram提供了一種可預測的擴展調節手段：更大的記憶體能持續帶來收益，而無需額外的計算量。關於擴展效率關鍵的一點是：雖然OverEncoding的直接平均方法也能受益於更大的記憶體表，但Engram在相同的記憶體預算下解鎖了更大的擴展潛力。結合分配定律，這些結果驗證了——條件記憶可以作為稀疏容量的一個獨特且可擴展的維度，與MoE的條件計算相輔相成。爆殺傳統MoE，知識推理數學全面漲基於Engram架構以及實驗得出的分配定律，作者將Engram擴展到了數十億參數的等級，以此來驗證其在現實世界LLM預訓練中的有效性。他們訓練了以下四個模型：Dense-4B （總參數4.1B）MoE-27B （總參數26.7B）Engram-27B （總參數26.7B）Engram-40B （總參數39.5B）實驗結果首先，與先前的文獻結論一致，稀疏架構表現出了優於密集模型的擴展定律。在相同的訓練計算預算下，所有三個稀疏變體（MoE-27B，Engram-27B/40B）在所有基準測試中都顯著擊敗了等FLOPs的Dense-4B基線。更重要的是，Engram-27B始終優於等參數且等FLOPs的MoE-27B基線。有趣的是，這些收益並不僅限於知識密集型任務（MMLU：+3.0，MMLU-Pro：+1.8，CMMLU：+4.0）。在通用推理領域（BBH：+5.0，ARC-Challenge：+3.7，DROP：+3.3），以及程式碼和數學推理（HumanEval：+3.0，MBPP：+1.6，GSM8K：+2.2，MATH：+2.4）中，提升更為顯著。這些結果支援了他們的假設：引入一個專用的知識尋找原語所帶來的表示效率提升，要超過將所有稀疏預算都分配給條件計算的效果。最後，擴展到Engram-40B進一步降低了預訓練損失，並在大多數基準測試中提升了性能。可以觀察到，Engram-40B與基線之間的訓練損失差距在訓練後期仍在持續擴大，這表明擴大的記憶體容量在當前的Token預算內尚未完全飽和。注意力徹底解放，32k上下文性能狂飆通過將局部依賴建模的任務解除安裝給靜態尋找，Engram架構保留了寶貴的注意力容量來管理全域上下文。通過長上下文擴展訓練，作者證明了Engram在長程檢索和推理任務上帶來了顯著的提升。實驗結果1. 超越注意力機制的長上下文能力雖然注意力機制和位置編碼提供了處理上下文的結構基礎，但結果表明，長上下文性能並非僅由架構先驗決定。軌跡可見，長上下文性能與基座模型的通用建模能力本質上是掛鉤的。因此，嚴格的架構比較必須通過對齊基座模型的Loss來控制這一干擾變數，而不僅僅是簡單地對齊訓練步數。2. 受控設定下的架構優越性在上述原則的指導下，作者將Engram與MoE 基線進行了對比。當控制了基座能力後，Engram模組的效率增益就變得非常明顯：等Loss設定（46k vs. 基線）：當對比預訓練Loss對齊的Engram-27B（46k）和完全訓練的MoE-27B（50k）時，Engram 展現出了顯著的增益。等FLOPs設定（50k vs. 基線）：在標準的等計算預算下，Engram-27B（50k）進一步拉大了這一差距，確立了全面的最佳性能。極端設定（≈82%計算量）：即便是提前停止訓練的Engram-27B（41k），在面對完全訓練的MoE-27B（50k）時依然極具競爭力。這凸顯了Engram架構內在的優越性。計算+記憶雙軸時代，直接融入V4？DeepSeek最新論文，打開了稀疏化的第二條路，是一條非常具有啟發性的路線：稀疏化模型進入了「計算+記憶」雙軸時代。MoE繼續負責動態計算與推理Engram負責儲存與檢索靜態知識與局部模式如上的U型scaling law證明了，稀疏預算全部給MoE，不是全域最優，留出一部分給Engram整體更強。1. 稀疏化目標變得更豐富了條件計算解決了FLOPs，條件記憶解決了容量與模式檢索，兩線均可互補。2. Engram收益帶有結構性它讓LLM知識能力暴漲同時，也間接提升了推理、數學、程式碼的性能，因為Transfomer主幹的深度和注意力計算效用更「值錢」了。3. 確定性查表，很適合系統最佳化模型預取和解除安裝很大，為「更大參數、同等吞吐」提供了一種可行的工程路線。如今，全網都在猜測，春節檔的V4有很大機率會把Engram融入主幹架構。回看此前DeepSeek路線：DeepSeek V2曾引入MLA，大幅提升了推理效率和KV快取友好度；DeepSeek V3持續最佳化MoE，實現無損負載平衡，訓練更穩定，成本更低。若是V4真的把Engram落地，那將不僅是參數規模的提升，更是架構範式的又一次躍遷。再加上，此前爆出，V4程式碼實力可能趕超Claude、ChatGPT系列。今年的春節大禮，真是讓人期待。(新智元)

DeepSeek 元旦扔出王炸！CEO 梁文鋒親自署名，要動 AI 用了 10 年的“承重牆”？

DeepSeek 又扔了個王炸。本來準備躺平過節（嗯，是真的躺著了），結果睜眼發現一篇新論文 mHC（流形約束超連接）突然刷屏。我看了一眼作者列表，直接“垂死病中驚坐起”——最後一位赫然寫著：Wenfeng Liang（梁文鋒）。圖：DeepSeek CEO 梁文鋒署名熟悉 DeepSeek 的都知道，這位 CEO 極少在技術論文上親自署名。老闆親自掛帥，還選在新年第一天發，說明這事兒絕對不簡單。讀完我才發現，他們這次竟然要革深度學習祖師爺 ResNet 的命。聽起來很狂？但我研究了一下原理，發現這幫人是真有東西。01｜從何愷明的“神來之筆”說起要看懂 DeepSeek 的操作，我們得先回看一眼歷史。2016年，大神何愷明（Kaiming He）團隊提出了 ResNet，徹底解決了深層網路訓練不動的難題。其中的核心設計叫“恆等對應”。圖：何愷明，深度殘差網路（ResNet）的主要發明者打個比方，這就像在迷宮裡修了一條“直通車道”。訊號可以無腦地從這一層傳到下一層，不被中間商賺差價。正是因為有了這條路，今天的 ChatGPT、DeepSeek 這些結構極深的龐然大物才跑得起來。但問題是，對於現在胃口越來越大的模型來說，這一條“單車道”漸漸不夠用了。於是，學術界搞出了一個叫 HC（Hyper-Connections，超連接）的東西。（主要來自字節跳動 2024 年發表的論文）HC 的想法很美好：既然單車道不夠，那我就擴建成多車道唄！它把殘差流變寬（n倍），讓資訊在不同車道間亂竄、混合，以此來提升模型的能力。圖：三代架構進化史：(a) 是經典的“單車道” ResNet； (b) 是路修寬了但沒紅綠燈的 HC（容易撞車）； (c) 是 DeepSeek 加了“交通管制”的 mHC。但問題來了，這一擴建，出事了。原來的 ResNet 是“直通車”，很穩。現在的 HC 變成了“無紅綠燈的超級路口”。論文裡的資料特別嚇人：在 HC 的架構下，訊號在網路裡傳著傳著，就會因為缺乏管束而瘋狂膨脹。看原論文裡的資料，HC 的訊號增益幅度峰值直接幹到了 3000！（下圖右側）圖：HC 的訊號增益幅度峰值直接幹到了 3000這意味著啥？意味著訊號被放大了 3000 倍。這就像早高峰的十字路口沒有紅綠燈，車全撞在一塊了，這就是典型的“訊號爆炸”。結果就是：模型訓練極其不穩定，錯誤率（Loss）說炸就炸，根本沒法在大規模模型上用。02｜DeepSeek 的解法：數學暴力美學面對這種“車禍現場”，一般人的思路可能是：“那我就少修兩條路吧。”但 DeepSeek 的思路是：路我要修，但我要請一個懂數學的交警。這就是 mHC（流形約束超連接）的核心邏輯。他們發現，只要把那些負責指揮交通的矩陣，強行按在一個叫“雙隨機矩陣”的數學規則裡，問題就解決了。別被這個數學名詞嚇跑，它的原理其實也挺簡單，就像“能量守恆定律”：不管你在路口怎麼變道、怎麼混合，進來的流量總和，必須嚴格等於出去的流量總和。既不允許車子憑空消失（訊號衰減），也不允許憑空變出車來（訊號爆炸）。為了做到這一點，DeepSeek 用了一個叫 Sinkhorn-Knopp 的演算法，像是給矩陣戴上了“緊箍咒”。不管這矩陣原來長啥樣，經過這個演算法一處理，它就必須變得老老實實，行和列的加和都得等於1。這就很漂亮了。它保留了多車道互聯帶來的資訊豐富度（性能提升），又把訊號嚴格限制在了一個安全的範圍內（穩定性），完美致敬了何愷明當年追求的“恆等對應”精神。03. 效果怎麼樣？直接看療效理論吹得再好，還得看實驗。還記得剛才說 HC 的訊號增益飆到了 3000 嗎？用了 mHC 之後，這個數字被死死按在了 1.6 左右。從 3000 到 1.6，這是直接降低了三個數量級！這也直接體現在了訓練曲線上：穩如老狗： mHC 的訓練 Loss 曲線（藍線）極其平滑，跟基線模型幾乎一樣穩。圖：mHC 的訓練 Loss 曲線極其平滑性能更強：在 27B 參數的模型上，mHC 不僅穩，效果還比標準版更好。特別是在比較難的 BBH（邏輯推理）和 DROP 任務上，提升非常明顯。圖：在 27B 參數的模型上，mHC 不僅穩，效果還比標準版更好。04. 不止是數學，更是工程上的“摳門”讀 DeepSeek 的論文，你永遠能感覺到他們那種“把算力榨乾到最後一滴”的執著。因為把路修寬，本來是一件非常費視訊記憶體、費時間的事。如果不做最佳化，記憶體訪問成本（I/O）會增加好幾倍，這誰受得了？所以 mHC 不僅僅是一個數學創新，還是一套工程最佳化方案。算子融合（Kernel Fusion）：他們手寫了底層的 Kernel，把好幾步計算合併成一步，減少 GPU 讀寫記憶體的次數。重計算（Recomputing）：為了省視訊記憶體，他們選擇在反向傳播時重新計算中間結果，而不是一直存著。通訊重疊：利用 DualPipe 策略，把額外的通訊時間“藏”在計算時間裡。結果就是：在擴展率為 4 的情況下，mHC 帶來的額外訓練時間開銷，僅僅只有 6.7%。用極小的代價，換來了模型性能和穩定性的雙重提升。這種“又好又省”的風格，確實很 DeepSeek。寫在最後說實話，每次讀 DeepSeek 的論文都讓人挺佩服的，不是那些牛逼的技術，而是他們“死磕底層”的態度。特別是在現在，大家都忙著卷應用、卷 Agents 的時候，他們願意回過頭去修補 AI 的“地基”。ResNet 已經統治了深度學習這麼多年，大家都覺得它是完美的。但 mHC 告訴我們：只要你不迷信權威，那怕是地基，也有重修的可能。mHC 這種架構，或許不會馬上改變你的生活，但它可能會讓下一代的 DeepSeek、GPT 跑得更穩、更快。 (AI范兒)

DeepSeek新年第一天硬核論文上線：Transformer殘差連接迎來十年來最大升級「梁文鋒署名」

自大神何愷明的ResNet誕生以來，“殘差連接”（Residual Connection）就已成為深度學習架構的基石，貫穿了從摺積網路到如今大行其道的Transformer。這一簡潔的設計通過“恆等對應”（identity mapping）特性，保證了資訊在深層網路中的穩定傳遞，有效緩解了梯度消失問題然而，十年來，儘管殘差連接內部的計算模組（如注意力、FFN）日新月異，其“A+B”式的拓撲結構本身卻鮮有變化。最近，一項名為超連接（Hyper-Connections, HC）的研究試圖打破這一常規。通過將單通道的殘差流擴展為多通道，並引入可學習的連接模式，HC在不顯著增加計算量（FLOPs）的前提下，提升了模型的拓撲複雜度和性能潛力。但這種自由度的提升也帶來了一把雙刃劍：不受約束的連接方式從根本上破壞了殘差連接賴以成功的恆等對應屬性。這導致了嚴重的訓練不穩定、模型難以擴展，並帶來了巨大的記憶體訪問開銷，限制了其在真實大規模訓練中的應用。現在DeepSeek的研究團隊提出了一個全新的解決方案：流形約束超連接（Manifold-Constrained Hyper-Connections, mHC）。核心思路是把 Transformer 裡原本只有一條“殘差高速路”的結構，升級成多條平行通道，讓每一層都能在通道之間重新分配資訊，並用“雙隨機矩陣”約束，避免梯度爆炸或消失。更重要的是，團隊通過一系列嚴謹的底層架構最佳化，使其在真實的大規模訓練中高效可行實驗證明，mHC不僅解決了HC的訓練穩定性問題，還表現出更強的性能和擴展性，為基礎模型的架構設計提供了新的思路。論文名稱：mHC: Manifold-Constrained Hyper-Connections論文地址：arXiv:2512.24880v1超連接要理解mHC的創新，我們首先需要回顧一下殘差連接的演進。1. 標準殘差連接 (a)其結構可以表示為 x_l+1 = x_l + F(x_l，w_l。x_l是輸入，F是計算層（如Transformer Block）。核心在於x_l這一項，它確保了無論F如何變化，總有一條“高速公路”能讓資訊無損地從淺層傳遞到深層。當把這個公式遞迴展開時，深層特徵x_L總是包含了淺層特徵x_l的原始資訊2. 超連接 (HC) (b)HC將殘差流的維度從C擴展到了n x C，相當於建立了n條平行的殘差“車道”。同時，它引入了三個可學習的矩陣來控制資訊流動：H_pre: 從n條車道中“讀出”資訊，匯聚後送入計算層F。H_post: 將計算層F的輸出“寫入”回n條車道。H_res: 在n條車道之間直接進行資訊互動和更新。初步消融實驗表明，在三個矩陣中，負責殘差流內部資訊交換的H_res對性能提升的貢獻最大。然而，問題也恰恰出在這個H_res上。由於H_res是一個不受約束的可學習矩陣，當網路層數加深時，訊號在殘差流中的傳播由多個H_res矩陣的連乘（Π H_res）決定。這個連乘積會嚴重偏離恆等矩陣，導致訊號在傳播過程中被無限放大或衰減，最終造成訓練崩潰27B模型的實驗資料清晰地揭示了這一問題。與mHC相比，HC的損失在訓練約12k步時出現了異常飆升。其梯度范數也極不穩定。進一步分析訊號傳播的增益幅度（Amax Gain Magnitude），可以發現HC的復合對應（多層H_res連乘）增益峰值達到了驚人的3000，而理想值應為1。這證實了殘差流中存在嚴重的訊號爆炸除了數值不穩定，HC還帶來了巨大的系統開銷。擴寬的殘差流（n倍寬度）意味著記憶體讀寫（I/O）成本急劇增加，這在現代GPU架構中是主要的性能瓶頸。此外，在流水線平行訓練中，通訊開銷也增加了n倍，嚴重影響訓練效率。mHC：用“流形約束”馴服超連接為瞭解決上述挑戰，DeepSeek-AI團隊提出了mHC框架，其核心思想是：對H_res施加流形約束。具體來說，mHC將H_res約束為一個雙隨機矩陣這是一種特殊的非負矩陣，其每行之和與每列之和均為1。這種約束帶來了三個關鍵的理論優勢：保范性：雙隨機矩陣的譜范數有界（小於等於1），這意味著對應是非擴張的，從根本上杜絕了梯度爆炸的風險。復合閉包性：兩個雙隨機矩陣的乘積仍然是雙隨機矩陣。這保證了無論網路多深，Π H_res的復合對應始終保持穩定。幾何解釋：所有n x n雙隨機矩陣構成的集合是一個“伯克霍夫多面體”（Birkhoff Polytope），它是所有n x n置換矩陣的凸包。這意味著H_res的作用可以被看作是不同流之間特徵的一種“柔性”置換和融合。為了實現這一約束，mHC採用了經典的Sinkhorn-Knopp演算法。該演算法通過對矩陣進行交替的行、列歸一化迭代，可以有效地將任意一個正矩陣投影到雙隨機矩陣流形上。對於H_pre和H_post，mHC也施加了非負性約束，以防止正負係數的組合導致訊號抵消。高效的系統工程實現一個好的架構思想，離不開高效的工程實現。為了讓mHC能夠在大規模訓練中真正落地，研究團隊進行了三項關鍵的底層最佳化：1. Kernel Fusion（核函數融合）針對mHC引入的額外操作（如RMSNorm、矩陣變換、啟動函數等）會帶來大量小規模、高延遲的GPU Kernel呼叫和記憶體讀寫，團隊開發了高度最佳化的融合核函數。例如，將多個對共享資料進行的操作合併到一個CUDA Kernel中，並利用TileLang等工具高效開發，極大地減少了記憶體頻寬瓶頸和Kernel啟動開銷。2. Recomputing（重計算）擴寬的殘差流會佔用大量視訊記憶體來儲存中間啟動值，以備反向傳播使用。為緩解這一問題，mHC採用了一種選擇性的重計算策略。在前向傳播後，只保留每個重計算塊的初始輸入x_l0，而塊內的其他中間啟動值則被丟棄。在反向傳播時，利用已儲存的x_l0即時重新計算這些值。團隊還推匯出了最優重計算塊大小的公式，以最小化總視訊記憶體佔用3. Overlapping Communication in DualPipe（在DualPipe中重疊通訊）在大規模流水線平行訓練中，mHC引入的通訊和重計算開銷可能阻塞訓練流程。團隊擴展了現有的DualPipe調度策略，通過設定高優先順序計算流和解耦重計算與通訊依賴，實現了計算、通訊和重計算的深度重疊，最大限度地隱藏了額外開銷。通過這一系列最佳化，mHC（當n=4時）帶來的額外訓練時間開銷被控制在了 6.7% 以內，使其成為一個既強大又實用的架構。實驗效果：穩定、高效、可擴展團隊在3B、9B和27B等不同規模的MoE模型上，對基線模型、HC和mHC進行了全面的對比實驗。穩定性驗證27B模型訓練過程中的損失差距和梯度范數。mHC成功地解決了HC的訓練不穩定性，最終取得了比基線模型低0.021的損失。其梯度范數曲線也與基線模型一樣平滑穩定對訊號傳播的分析也證實了mHC的有效性。其單層和復合對應的增益幅度都穩定在1附近（最大約1.6），相比HC的~3000，穩定性提升了三個數量級HC中出現大量絕對值很大的元素，而mHC的矩陣則非常穩定，接近於一個柔性的置換。下游任務性能在涵蓋了常識推理、程式碼、數學等多個領域的8個下游基準測試中，27B的mHC模型性能全面領先。它不僅顯著優於基線模型，並且在大多數任務上超越了原始的HC模型。特別是在BBH和DROP等考驗推理能力的任務上，mHC相比HC分別取得了2.1%和2.3%的提升擴展性分析擴展性是衡量一個架構是否有潛力的關鍵。計算擴展曲線顯示，從3B到27B模型，mHC相較於基線模型的性能優勢一直穩定保持。Token擴展曲線則展示了在單次訓練中，mHC的優勢隨著訓練的進行而持續存在這些結果共同證明，mHC是一個在各種規模下都穩定有效、且具備良好擴展性的架構設計寫在最後deepseek 這項工作指出了超連接（HC）在擴展殘差連接範式時，因破壞恆等對應而導致的內在不穩定性。通過引入流形約束超連接（mHC），研究團隊成功地將訊號傳播轉化為一種穩定的凸組合，恢復了訓練的穩定性與可擴展性。更重要的是，通過精細的系統級最佳化，mHC在實現了性能提升的同時，保持了極低的計算開銷mHC框架的提出，不僅為超連接這一新興方向提供了實用的解決方案，也為宏觀架構設計開闢了新的可能性。未來，研究人員可以探索除雙隨機矩陣外的其他流形約束，以適應不同的學習目標，在模型的可塑性與穩定性之間找到更優的平衡點。這項工作或許將重新激發社區對網路拓撲結構設計的興趣。總的來說，本文的真正亮點並非在於證明超連接能夠大規模運行，而在於：DeepSeek擁有內部能力，可以圍繞高度實驗性的研究理念，在各個層面（核心、記憶體管理、節點間通訊）重構整個訓練環境 (AI寒武紀)