#論文
一夜200萬閱讀,OpenAI神同步!這項測評框架讓全球頂尖LLM全翻車
這篇中國團隊領銜發佈的論文,已經在外網刷屏了,僅一夜閱讀就達到了200萬!這位MIT博士回國創業後組建的團隊,拉來全球24所頂級機構,給AI如何助力科學發現來了一劑猛藥。最近,一篇由中國團隊領銜全球24所TOP高校機構發佈,用於評測LLMs for Science能力高低的論文,在外網炸了!當晚,Keras (最高效易用的深度學習框架之一)締造者François Chollet轉發論文連結,並喊出:「我們迫切需要新思路來推動人工智慧走向科學創新。」AI領域KOL Alex Prompter分享論文核心摘要後,NBA獨行俠隊老闆Mark Cuban跟帖轉發,矽谷投資人、歐洲家族辦公室、體育媒體同時湧進評論區。僅一夜,累計閱讀量逼近200萬。值得一提的是,同一時間窗裡,OpenAI也發佈了對於AI在科學發現領域能力評測的論文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述,指出現有評測標準在AI for Science領域失靈。神同步OpenAI、海外討論出圈,究竟是什麼樣的一份工作成果,攪動了全球AI輿論場?AI距離可以助力科學發現,還有多遠?前段時間,美國推出「創世紀計畫」,號稱要調動「自阿波羅計畫以來最大規模的聯邦科研資源」,目標是在十年內將美國科研的生產力和影響力翻倍。但在人工智慧估值泡沫隱現、能耗與產出比飽受質疑的當下,一面是資本的狂歡,另一面卻是AI能力困於「文生圖」等表層應用的尷尬;一面是各類大語言模型頻繁霸榜GPQA、MMMU等題庫式Benchmark的層出不窮,另一面卻是現有LLMs還無法精準解析簡單核磁圖譜的尷尬現狀。人們不禁要問:能在題庫拿高分,就能助力科學發現嗎?現在的模型距離科學發現還有多遠?究竟什麼樣的AI模型可以勝任,拓寬人類的生存邊界?這些討論,在中美AI競爭白熱化的當下變得愈發濃烈。在此背景下,由中國AI for Science領域的初創企業「深度原理Deep Principle」領銜麻省理工學院、哈佛、普林斯頓、史丹佛、劍橋、牛津等全球24所科研院校共同發佈的《Evaluating LLMs in Scientific Discovery》論文,正式回答該時代之問。論文推出了LLMs for Science首套評測體系SDE(Scientific Discovery Evaluation),從科學問題到研究項目,對GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等全球主流大語言模型在生物、化學、材料、物理領域的科學研究與發現能力完成摸底。同以往評測體系不同的是,SDE對模型能力的考量,從簡單的問答式,引向了具體的「假設->實驗->分析」實驗場景。研究發現,GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均精準率 50–70%,遠低於它們在GPQA、MMMU等題庫上的80–90%;在86道「SDE-Hard」難題中,最高分不足12%,共同暴露出多步推理、不確定性量化和實驗-理論閉環的短板。更值得警惕的是,模型規模與推理能力的提升已呈現明顯的 「邊際效益遞減」。GPT-5相較於前一代模型,參數規模和推理算力顯著增加,但在SDE基準的四大科學領域中,平均精準率僅提升3%-5%,部分場景(如NMR結構解析)甚至出現性能下滑。換句話說,當前大語言模型在推動科學發現方面的表現,還不如一個普通的本科生。能領銜24所頂尖科研院校發佈背後團隊是誰?《Evaluating LLMs in Scientific Discovery》論文通訊作者段辰儒,是「深度原理Deep Principle」創始人兼CTO。早在2021年,在MIT攻讀化學博士期間,他就已在圖靈獎得主Yoshua Bengio的支援下,發起了AI for Science社區的建立,並在NeurIPS上舉辦AI for Science workshop。2024年初,他與MIT物理化學博士賈皓鈞回國,共同創立「深度原理Deep Principle」。賈皓鈞任CEO,段辰儒任CTO,兩人雖為95後,但已在全球AI for Science創業領域小有名氣。創業一年半以來,其已獲得線性資本、高瓴創投、螞蟻集團等多家知名機構的投資,且與晶泰科技、深勢科技等AI for Science領域的知名企業建立戰略合作關係。「深度原理Deep Principle」從創立之初,就帶著全球AI for Science頭部研究者們的期待。目前「深度原理Deep Principle」已深入全球材料研發中的第一線,將生成式人工智慧同量子化學結合起來,致力於推動材料發現等領域進入新紀元。在過去的一年中,他們在Nature大子刊和JACS等頂級期刊上不斷扔出重磅成果,宣告著他們的技術領先和開放交流的「95後創業公司」心態。從開拓擴散生成模型(Diffusion Models)在化學反應的生成,證明「不止要生成材料,更需要生成材料的合成路徑」,到機器學習勢(Machine Learning Potentials, MLPs)和擴散生成模型的直接對比,證明傳統的機器學習勢不是「萬能」的,再到現在組織各大頂級學者和高校推出SDE,證明傳統一問一答的Benchmark不能帶領我們走向科學超級智能,精準切入AI for Science領域的核心衝突。但同時,對於所有的AI4S公司而言,在商業真金白銀的檢驗中,AI能否真正解決新產品研發問題、滿足客戶期待,是日復一日必須面對的拷問。隨著與行業頭部客戶的商業化合作落地,「深度原理Deep Principle」的資料庫中已經匯聚了來源於客戶與自己實驗室、大量來自第一線的真實工業研發場景資料和模型應用經驗。學術圈的深耕與在AI for Science商業化第一線的積累,讓「深度原理Deep Principle」在提出要建構一把新尺子評測LLMs for Science能力時,一呼百應,搖來了23家全球TOP科學發現機構的50餘位科學家,成立了制定SDE的「夢之隊」。這其中,不乏活躍在LLM領域的大牛學者們,比如:孫歡(Huan Sun),MMMU發起人,俄亥俄州立教授杜沅豈(Yuanqi Du),康奈爾博士,AI4Science 社區「營運大管家」王夢迪,普林斯頓最年輕教授,AI+Bio Safety先驅者Philippe Schwaller,IBM RXN之父,EPFL教授而「深度原理Deep Principle」前期積累的科學發現場景,成為了後來SDE評測體系的前身。在經歷近9個月的跨高校跨學科跨時區的協作後,《Evaluating LLMs in Scientific Discovery》論文正式發佈,通訊單位赫然寫著:深度原理,杭州,中國。自此,匯聚著全球頂級科學發現機構的集體智慧,來自中國的創業團隊「深度原理Deep Principle」,和大洋彼岸的OpenAI,同時站在了向AI for Science——這一人類通往終極AGI頂峰攀登的起跑線。或許千百年後,當人類回望AGI時代,在21世紀的四分之一結束的當口,這場由中美團隊共同呼應的,對於AI for Science的嚴肅討論,把LLMs在各類問答式榜單上的內卷,向真正科學發現的星辰大海推近了一步。「深度原理Deep Principle」與20多所機構的50多位合作者的研究證明了,目前LLM的發展路徑並不能「順便攻克」科學發現。這條通往科學超級智能之路,需要更多有識之士共同並肩而行。 (新智元)
【梁文鋒署名】DeepSeek再發新論文:75%思考+25%記憶,這是他們算出來的最優解
DeepSeek又發論文了。這次的主題有點意思:他們發現,現在的大模型在浪費大量算力做一件很傻的事——用計算來模擬查字典。論文叫《Conditional Memory via Scalable Lookup》,核心是一個叫Engram的模組。這個名字有點意思。Engram是神經科學術語,最早由德國生物學家Richard Semon在1904年提出,指的是大腦中儲存記憶痕跡的物理結構——當你記住"巴黎是法國首都"這個事即時,這條資訊就以某種物理形式(可能是特定的神經連接模式)儲存在你的大腦裡,這個物理痕跡就叫engram。DeepSeek用這個名字,顯然是想說:我們要給大模型裝上真正的"記憶"。說實話,看完之後我挺興奮的——這篇論文的思路非常優雅,而且解決的是一個很根本的問題。更重要的是,它觸及了一個認知科學的經典命題:記憶和思考是什麼關係?先說問題:大模型在浪費算力做"背書"你有沒有想過,當大模型看到"Diana, Princess of Wales"(戴安娜王妃)這個詞的時候,它內部發生了什麼?DeepSeek在論文裡引用了一個很有意思的研究(PatchScope):模型需要消耗多層Attention和FFN,才能逐步把這個實體識別出來。具體來說,模型處理"Wales"這個詞時的內部狀態演變:看到沒?模型用了6層計算,才把一個固定的歷史人物識別出來。問題在於:這個資訊是靜態的、固定的,根本不需要每次都"計算"出來。"亞歷山大大帝"就是"亞歷山大大帝","四大發明"就是"四大發明","張仲景"就是"張仲景"。這些固定搭配、命名實體、慣用表達,每次都用神經網路重新計算一遍,是不是有點傻?這就像你每次需要查"中國首都是那"的時候,不是直接查字典,而是從頭推理一遍——中國是個國家,國家有首都,中國的政治中心在...DeepSeek的核心觀點是:大模型浪費了大量的"網路深度"在做這種重複性的靜態知識重建。這些算力本來可以用來做更有價值的事——比如推理。Engram的核心思想:給模型發一本字典想像你在考試。以前的規則是:什麼都不能帶,全靠腦子現場推。"亞歷山大大帝是誰?"你得從頭想——亞歷山大,希臘名字,大帝說明是君主,歷史上有名的希臘君主...現在新規則:允許帶一本字典進考場。字典裡寫著"亞歷山大大帝 = 馬其頓國王,公元前356-323年,征服了波斯帝國"。你直接翻到這一頁,抄上去,省下來的時間做後面的推理題。Engram就是這本字典。具體怎麼查?很簡單:模型看到"Alexander the Great"這三個詞連在一起,就像看到字典的索引詞條。它用一個很快的方法(雜湊)定位到字典裡對應的那一頁,直接把預先存好的資訊拿出來用。整個過程不需要"思考",只需要"翻頁"。但這裡有個問題:同一個詞在不同場合意思不一樣。比如"蘋果",可能是水果,也可能是那家科技公司。字典裡存的是那個意思?Engram的解決方案很聰明:查完字典之後,先看看上下文,再決定用不用。如果前面在聊水果,字典裡查出來的"蘋果公司"就不太對勁,模型會自動忽略這個查表結果,繼續用自己的推理。如果前面在聊手機,那字典裡的資訊就很有用,直接採納。這就像一個聰明的學生:帶了字典進考場,但不是無腦抄,而是先判斷字典裡的答案和題目對不對得上。關鍵發現:U型縮放定律這裡是論文最有意思的部分。DeepSeek研究了一個問題:如果總參數量固定,應該把多少參數分配給MoE專家,多少分配給Engram記憶?他們定義了一個"分配比例"ρ:ρ = 100% 表示純MoE(所有稀疏參數都給專家)ρ < 100% 表示把部分參數從專家轉移到Engram實驗結果讓人驚訝:驗證損失呈現U型分佈:純MoE(ρ=100%)不是最優的分配約20-25%給Engram(ρ≈75-80%)效果最好把太多參數給Engram(ρ<50%)效果又變差這個U型曲線說明了什麼?MoE和Engram是互補的:MoE擅長動態的、需要上下文推理的任務Engram擅長靜態的、固定模式的識別兩者缺一不可。純MoE缺少記憶能力,純Engram缺少推理能力。插一段:博爾赫斯早就寫過這個看到這個U型曲線的時候,我突然想起博爾赫斯的一個短篇:**《博聞強記的富內斯》**(Funes the Memorious)。故事講的是一個叫富內斯的阿根廷青年,從馬上摔下來之後,獲得了"完美記憶"的能力——他能記住一切。每一片葉子的形狀,每一朵雲的變化,甚至能記住1882年4月30日黎明時分南方天空的雲綵排列。但博爾赫斯寫道:富內斯無法思考。"思考就是忘記差異,就是概括,就是抽象。在富內斯塞滿了東西的世界裡,只有細節,幾乎是直接感知的細節。"富內斯能記住三個不同時刻看到的同一條狗,但他無法理解"狗"這個概念——因為每一條狗、每一個瞬間的狗,對他來說都是完全不同的東西。他記住了一切,卻失去了抽象的能力。這不就是論文裡U型曲線的左端嗎?當ρ趨近於0(全是Engram,沒有MoE)時,模型有無限的記憶,但失去了推理能力。它能記住"亞歷山大大帝"是誰,但無法用這些知識進行推理。反過來,當ρ=100%(全是MoE,沒有Engram)時,模型有強大的推理能力,但要浪費大量算力重建那些本可以直接記住的東西。博爾赫斯在1942年就洞察到了這一點:記憶和思考是互補的,但也是對立的。完美的記憶會殺死思考,而純粹的思考則需要不斷重新發明輪子。最優解在中間——既有記憶,又有思考。DeepSeek的實驗資料給出了一個驚人精確的答案:大約75-80%給思考,20-25%給記憶。這讓我想到另一個認知心理學的經典概念:**組塊(Chunking)**。1956年,心理學家George Miller發表了著名的論文《神奇的數字7±2》,指出人類工作記憶的容量是有限的,但我們可以通過"組塊"來擴展它。比如記電話號碼138-8888-6666,你不是記11個數字,而是記3個組塊。N-gram本質上就是語言的組塊。"亞歷山大大帝"不是5個字,而是1個組塊。Engram做的事情,就是把這些組塊預先存好,省得每次都要重新計算。人腦早就在這麼幹了。DeepSeek只是讓大模型學會了同樣的技巧。實驗結果:推理能力提升比知識提升更大這是讓我最驚訝的部分。你可能會想:Engram是個"記憶模組",應該主要提升知識類任務吧?確實,知識任務有提升:MMLU:+3.4CMMLU:+4.0MMLU-Pro:+1.8但推理任務的提升更大:BBH:+5.0ARC-Challenge:+3.7DROP:+3.3甚至程式碼和數學也有顯著提升:HumanEval:+3.0MATH:+2.4GSM8K:+2.2等等,一個"記憶模組"為什麼能提升推理能力?機制分析:為什麼"記憶模組"能提升推理?這是我最想搞明白的問題。DeepSeek做了一個很有意思的實驗:他們"偷看"模型每一層在想什麼。具體方法是:把每一層的中間結果拿出來,問它"你現在覺得下一個詞是什麼?"。如果這一層已經很接近最終答案,說明模型在這一層就基本"想明白了"。結果很直觀:有Engram的模型,在很早的層就"想明白了";沒有Engram的模型,要到很深的層才行。為什麼?因為沒有字典的模型,前面幾層都在忙著做一件事:搞清楚"亞歷山大大帝"是誰。它得一層一層地拼湊——這是個人名,是個歷史人物,是個國王,是馬其頓的國王...等它終於搞清楚這是誰了,已經用掉了5、6層。剩下的層才能開始真正的推理。但有字典的模型不一樣。第2層的時候,Engram直接告訴它:"亞歷山大大帝 = 馬其頓國王,征服者"。好了,搞定,後面20多層全部用來推理。這就像兩個學生做同一張卷子:一個學生得先花20分鐘背公式,再用40分鐘做題。另一個學生帶了公式表,60分鐘全用來做題。誰的推理題做得更好?顯然是第二個。DeepSeek還做了一個更精確的測量:Engram模型第5層的"思考深度",相當於普通模型第12層的水平。換句話說,Engram相當於免費給模型加了7層深度。這就解釋了為什麼推理能力提升這麼大——不是Engram本身能推理,而是它把推理的空間讓出來了。長上下文能力也炸了還有個意外收穫:處理長文章的能力暴漲。有個測試叫"大海撈針"——在一篇很長的文章裡藏一句關鍵資訊,看模型能不能找到。為什麼字典能幫助處理長文章?想像你在讀一本很長的小說。如果你每次看到"福爾摩斯"都要停下來想"這是誰來著...",讀到後面肯定記不住前面的劇情。但如果"福爾摩斯 = 偵探,住貝克街221B"這個資訊已經存在字典裡,你的注意力就可以全部用來追蹤劇情——誰殺了誰,線索在那,凶手是誰。Engram處理了"這是誰"的問題,Attention就可以專注於"發生了什麼"的問題。相當於給大腦減負了。系統設計:字典可以放在抽屜裡這裡體現了DeepSeek一貫的風格:理論創新和工程落地並重。繼續用考試的比喻。MoE(專家模型)的問題是:每道題都要"現場"決定找那個專家來答,這個決定本身就要花時間。但字典不一樣。你看到"亞歷山大大帝",就知道要翻到A開頭那一頁。你不需要先讀完整道題,才知道去查那個詞條。這意味著什麼?意味著字典可以提前準備好。模型還在處理第1層的時候,系統就已經知道第2層要查什麼詞條了。所以可以提前把那一頁準備好,等模型算到第2層的時候,字典已經翻開擺在那兒了。更妙的是:字典不需要放在桌上,放在抽屜裡也行。GPU視訊記憶體很貴,就像桌面空間有限。但CPU記憶體便宜得多,就像抽屜容量大得多。既然可以提前知道要查什麼,那就提前從抽屜裡把那一頁拿出來,等用的時候已經在桌上了。DeepSeek做了個實驗:把一本1000億參數的"字典"放在抽屜裡(CPU記憶體),結果:只慢了2% ,但多了1000億參數的知識。這就是為什麼Engram可以做得很大——字典放抽屜裡就行,不佔桌面。門控可視化:確實在識別固定模式論文最後有個很直觀的可視化:紅色表示門控值高(Engram被啟動),白色表示門控值低(Engram被忽略)。可以看到,門控在這些地方啟動:"Alexander the Great"(亞歷山大大帝)"the Milky Way"(銀河系)"Princess of Wales"(威爾士王妃)"四大發明""張仲景""傷寒雜病論"全是命名實體和固定搭配。Engram確實在做它該做的事:識別靜態模式。往大了說:DeepSeek在開一條新路回到開頭的問題:這篇論文的意義是什麼?過去幾年,大家都在一個方向上卷:怎麼讓模型算得更聰明。MoE讓不同的專家處理不同的問題,Attention讓模型看到更遠的上下文,更深的網路讓推理更複雜。但不管怎麼卷,本質上都是在最佳化"計算"。DeepSeek說:等等,有些問題根本不需要算,查一下就行了。這個思路其實很符合直覺:人腦也不是什麼都靠推理,很多時候就是直接呼叫記憶。你看到"1+1"不需要推理,直接輸出"2"就行。論文最後一句話很有意思:"We envision conditional memory as an indispensable modeling primitive for next-generation sparse models."翻譯過來:我們認為條件記憶會成為下一代稀疏模型的基礎元件。DeepSeek在押注一個新的架構方向。最後:記憶與思考的平衡回到開頭的問題:記憶和思考是什麼關係?博爾赫斯用富內斯告訴我們:完美的記憶會殺死思考。認知心理學告訴我們:人腦用組塊來平衡記憶和思考的負擔。現在DeepSeek用實驗資料告訴我們:最優的比例大約是75%計算 + 25%記憶。這個數字讓我覺得很有意思。它意味著,即使是"智能"系統,也不能全靠"聰明"——你得記住一些東西,才能把腦力用在更值得思考的地方。這篇論文給我最大的啟發是:有時候最好的最佳化不是讓計算更快,而是把計算變成查表。O(1)的查表永遠比O(n)的計算快。如果一個問題的答案是固定的、可以預先算好存起來的,那就沒必要每次都重新算。這個道理在電腦科學裡叫"空間換時間"。但在大模型領域,過去幾年大家都在卷MoE、卷Attention、卷更深的網路,似乎忘了還有"記憶"這條路。DeepSeek的Engram提醒我們:大模型不是越大越好、也不是越深越好,關鍵是把合適的任務分配給合適的模組。靜態知識 → 查表(Engram)動態推理 → 計算(MoE)就像人腦一樣:你不需要每次看到"1+1"都重新推導,直接從記憶裡調出"2"就行了。省下來的腦力,用來思考更有價值的問題。富內斯記住了一切,卻無法思考。純MoE模型能夠思考,卻要浪費算力重建記憶。最聰明的系統,是知道什麼該記住、什麼該思考的系統。 (花叔)
梁文鋒署名新論文深夜炸場!DeepSeek-V4 新架構曝光:提出新的稀疏化方向,與MoE互補,長上下文能力顯著擴展,推理程式碼能力更強了
一覺醒來,DeepSeek又發新論文了!仔細一看作者,梁文鋒的名字也赫然出現在其中。這篇論文題為《通過可擴展尋找實現的條件記憶:大型語言模型稀疏性的新維度》,重點在於提出了 Engram ——這是一種條件記憶模組,旨在通過將靜態模式儲存與動態計算在結構上分離,來增強 Transformer 骨幹網路。論文的給出的實驗資料也相當驚豔:1、Engram 在知識、推理、程式碼和數學任務上能夠帶來顯著性能提升,均超過純MoE模型。2、存在U形擴展規律:純 MoE性能次優,將 20–25% 的稀疏參數分配給 Engram,效果最佳。3、長上下文能力提升明顯,能釋放注意力用於全域模式和複雜推理。程式碼和論文全文均已開源:論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf程式碼地址:https://github.com/deepseek-ai/Engram為什麼大語言模型需要 Engram ?稀疏性(sparsity)一直是智能系統的核心設計原則,無論是生物大腦的神經回路,還是現代大語言模型都在用它來“省資源”。在 AI 裡,這個思想最常見的體現就是混合專家模型(MoE)——也就是通過“條件計算”讓模型只啟動部分參數,從而在不增加太多計算量的情況下,把模型容量放大好幾倍。MoE 是目前推進參數規模和能力擴展的關鍵技術之一,DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也採用了先進的 MoE 方法進行擴展訓練。但 MoE 也有其侷限性。語言本身非常複雜,至少包含兩類截然不同的任務:組合式推理:需要深層、動態的神經計算,比如理解複雜句子結構或推理問題;知識檢索:大量文字都是高度固定、重複的內容,比如命名實體、固定表達、程式化模式。論文中提出,經典的𝑁-gram 模型已經證明,處理這種局部、重複的語言規律,用“查表”效率最高,幾乎不需要動深層神經網路。然而現在的 Transformer 並沒有這種原生“查表能力”,所以模型每次要識別一個常見的多 token 實體,都要消耗好幾層注意力和前饋網路,這就像在執行階段重複重建一個靜態字典,既浪費計算,又佔用模型的“序列深度”,原本可以用來做更高級的推理。Engram是如何實現的?為瞭解決上述問題,DeepSeek提出了一個新的稀疏化方向——條件記憶,專門用來儲存和尋找固定知識。它和 MoE 的條件計算完全互補:MoE 負責動態推理和組合邏輯;Engram 負責靜態知識,直接查表就行。Engram是神經科學中的一個核心概念,意為“記憶痕跡”,它是一個可擴展、可尋找的記憶模組,用於語言模型在推理過程中過去可能已經見過的模式或片段。在具體實現上,Engram模組通過 O(1) 的尋找複雜度將靜態模式儲存從動態計算中分離出來,採用了四項核心技術:現代化的雜湊 N-gram 嵌入、分詞器壓縮、上下文門控以及多分支融合技術。具體來看:1、分詞器壓縮:預先計算對應函數,將語義等價但 ID 不同的詞項(如 "Apple" 和 "apple")折疊為統一識別碼,將有效詞表大小減少了 23%。· 多頭2、雜湊檢索:利用局部上下文(N-grams)作為鍵,通過雜湊函數在巨大的嵌入表中檢索靜態向量。3、上下文感知門控:這是 Engram 的關鍵創新。利用當前層的隱藏狀態作為 Query,與檢索到的記憶體進行語義匹配。如果檢索內容與上下文矛盾,門控值會趨近於零,從而抑制雜湊衝突帶來的噪聲。4、混合分枝整合:專門針對多分枝架構(如 mHC)進行了最佳化,通過參數共享策略(共享 Embedding 表和 Value 投影,保持獨立 Key 投影)平衡了表達能力與計算效率。Engram 通常會插在 Transformer 的前期層,比如 Layer 2 或 Layer 6。這樣做的好處是:一方面可以把靜態模式的重建工作解除安裝掉,減輕骨幹網路的負擔;另一方面又能保留足夠的上下文資訊,讓門控機制更聰明地判斷那些記憶該用,那些該忽略。Engram 的記憶容量並不是越大越好,它需要和 MoE 專家容量精心配比。按照 Sparsity Allocation(稀疏性分配)法則,合理劃分兩者比例,既保證大模型的參數利用率,又最大化計算效率——簡單來說,就是讓每一份記憶和每一位專家都發揮最大作用。實驗結果很驚豔:推理、程式碼、長上下文能力顯著提升論文把 Engram 擴展到 270 億參數,嚴格對齊 MoE 基線的參數和 FLOPs。結果顯示:知識密集型任務(MMLU、CMMLU、MMLU-Pro):性能提升 1.8–4.0 分不等;通用推理任務(BBH、ARC-Challenge、DROP):提升更明顯,最高 +5 分;程式碼和數學能力(HumanEval、MATH、GSM8K):平均提升 2–3 分。值得注意的是,Engram 在知識密集型任務中明顯優於純 MoE 模型。原因很直觀:它把靜態模式的記憶交給了高效的尋找機制,而不是每次都用神經網路“重算”,減少了淺層的重複計算。更重要的是,Engram也顯著擴展了長上下文能力,在長文字任務(如 LongPPL、RULER)表現突出,尤其是在多跳檢索、鏈式推理等場景中。例如 Multi-Query NIAH 指標從 84.2 提升到 97.0,Variable Tracking 從 77.0 提升到 89.0。原因是 Engram 處理了大量局部、靜態的依賴,釋放了注意力機制去處理全域上下文,從而在長序列中更穩、更準。此外,團隊還發現了 MoE 和 Engram 容量分配中的U形擴展規律:當 Engram 記憶容量太小或太大時,性能都不理想將 20–25% 的稀疏參數分配給 Engram,效果最佳網友:Engram 可能是 DeepSeek-V4 型號的基礎技術!在Reddit、X等平台上,DeepSeek的新論文也立刻引發了網友的熱烈討論。其中最廣泛的一個猜測就是:Engram 可能是即將推出的 DeepSeek-V4 的基礎技術。很多網友認為,Engram這個方法很有趣,其特點在於讓模型架構處理“記憶模式尋找”和“神經計算推理”兩塊職責分離,從而開啟了新的稀疏性方向。也有網友表示,這種方法比線性注意力機制要好得多。DeepSeek的深夜放大招,也讓部分網友直言:中國大模型團隊的創新性真令人害怕。 (51CTO技術堆疊)
DeepSeek-V4核心公開?梁文鋒署名新論文發佈,實習生挑大樑
這一記憶架構有望成為新的Scaling路徑。智東西1月13日報導,昨晚,DeepSeek又開源了,還發佈一篇新論文。這次,他們提出了一種全新的“條件記憶”機制——Engram,旨在讓MoE模型在保持巨量參數的同時,更高效地處理語言資訊。DeepSeek創始人兼CEO梁文鋒、北大王選電腦研究所的趙東岩和張輝帥教授都在論文中署名。Engram架構的核心優勢在於以更低成本實現更優性能。訓練計算量較MoE減少18%的情況下,在32768個token的長上下文任務中,Engram在RULER基準測試中反超同參數量MoE模型。並且,其淺層部署的記憶模組接管局部依賴與靜態知識儲存,為注意力機制騰出容量以專注全域推理,1000億參數記憶表解除安裝後使H800推理吞吐量降幅不足3%。DeepSeek還觀察到,增加記憶槽位數量能持續、穩定地降低驗證損失,這意味著Engram提供了一個可預測的Scaling新手段:增大記憶容量持續帶來收益,而無需增加計算量。那這種效果究竟是如何實現的呢?如今的MoE模型雖然在計算層面做到了稀疏化,但是它處理資訊的方式仍然很費勁:有些老生常談的事實性內容,比如常見的名字、公式或固定表達,模型卻要重複計算,非常耗時間。DeepSeek的做法是,把這些“固定知識”提前整理成一個可以快速查詢的表格,這樣就能把更多精力放在真正需要深度思考的任務上,比如複雜推理或者理解長段文字。值得一提的是,論文的第一作者Xin Cheng(程信)目前在北京大學智能學院攻讀博士學位,主要研究大模型的高效參數化方法和機制。他同時也在DeepSeek工作,R1、V3的研究都參與了,很有可能是實習生。在論文摘要中,DeepSeek提出,條件記憶(conditional memory)將成為下一代稀疏模型中不可或缺的建模原語。這或許意味著DeepSeek-V4有望整合條件記憶機制,實現知識高效檢索與推理能力的飛躍。論文連結:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf項目連結:https://github.com/deepseek-ai/Engram01. Transformer缺乏知識檢索機制 經典𝑁-gram架構提供啟發在正式介紹新型記憶機制前,DeepSeek團隊首先提出了一項重要的觀察。稀疏性已經成為了智能系統的核心設計原則,在大模型領域,其具體實現就是MoE(混合專家模型)。但是,現有的標準Transformer本質上沒有真正的知識檢索機制,導致現有大模型不得不在早期層中通過昂貴計算來“重建”靜態知識,浪費了寶貴的模型深度。因此,DeepSeek認為有必須要提出第二個與條件計算互補的稀疏維度:條件記憶。條件記憶則依賴稀疏的尋找操作,為固定知識檢索靜態嵌入表示,適合命名實體、固定表達等靜態且高度模式化的語言表示。DeepSeek他們向經典的𝑁-gram結構引入了現代化的條件記憶模組,包括分詞器壓縮、多頭雜湊、上下文化門控以及多分支整合等,最終提出了Engram。下圖是Engram的基本架構,通俗地說,Engram就是給Transformer加個外接記憶庫,並把當前token附近的一小段內容,用快速、省參數的方式,去一個超大的靜態記憶表裡查到對應內容。02. 多管齊下打造新型記憶機制 天然支援參數儲存與計算資源解耦這個記憶庫該如何具體實現呢?首先,DeepSeek團隊對分詞器(tokenizer)進行了壓縮。普通的分詞器會把Apple、apple、APPLE這些單詞當成完全不同的東西,但是對人來說其實差別不大。Engram先把詞表清洗了一遍,全部轉小寫,Unicode規範化(NFKC)。最後,一個原本128k的詞表,實際只剩下77%,有23%的token ID被合併了。這讓N-gram記憶的密度明顯提升了。不過,直接對所有𝑁-gram進行建模是不可行的,參數會指數級增長。DeepSeek團隊引入了多頭雜湊記憶(Multi-Head Hashing),在固定參數預算下近似大規模𝑁-gram表,降低雜湊碰撞引入的語義噪聲。上述檢索機制提供的記憶是靜態的,缺乏上下文適應性,易受歧義與衝突的影響,這一問題可通過上下文感知門控(Context-aware Gating)來解決。為進一步擴大感受野並增強非線性建模能力,模型還引入了一個深度可分離因果摺積。DeepSeek團隊採用多分支架構作為默認主幹網路,而非標準的單流殘差連接(這是何愷明此前的研究成果)。多分支架構把殘差流擴展為M個平行分支,但共享記憶表和輸出對應。這樣設計的好處是,它可以一次性用矩陣乘法搞定多條分支的計算,GPU用得非常高效。Engram的核心優勢在於記憶檢索完全依賴輸入token,而非執行階段的隱藏狀態。這種確定性機制實現了參數儲存與計算資源的解耦,支援訓練和推理階段採取專門的最佳化策略:▲Engram訓練和推理階段可採用不同最佳化策略訓練最佳化:通過將超大嵌入表分片至多張GPU,利用All-to-All通訊按需收集對應行,使總記憶容量隨GPU數量線性擴展。推理最佳化:由於可提前確定待查詢記憶,系統可從主機記憶體非同步預取,同時在前幾層計算期間隱藏通訊延遲,實現預取與計算的重疊,避免GPU停頓。硬體-演算法協同設計:Engram在模型中的放置位置需平衡建模性能與系統延遲。較早引入有助於局部模式重建,較深放置則延長延遲隱藏窗口,需兼顧二者最佳化。層次化儲存:基於自然語言𝑁-gram的Zipf分佈特性,可採用多級快取策略,高頻嵌入存放於GPU HBM或主機DRAM,低頻嵌入置於SSD。這使Engram能擴展至超大規模記憶,同時保持低延遲與高效率。03. 兩個模組資源二八分成 互補性獲驗證接下來,DeepSeek團隊研究了另一個關鍵問題——條件計算和條件記憶這兩種稀疏模式該怎麼配合,才能發揮最佳效果?實驗發現,在有限資源下,把所有空閒參數都給MoE(也就是純MoE模型)不是最優解,最好的效果是大約75%-80%給MoE,其餘20%-25%給Engram。如果完全由MoE主導,模型缺乏靜態模式的專用記憶,只能靠計算反覆重建,效率低。而如果完全由Engram主導,模型失去了動態計算能力,無法應對需要上下文理解的任務。這條U型曲線,驗證了兩個模組的結構互補性:前面這一實驗探索的是在固定參數參數預算下的分配最佳化,那麼如果把記憶大幅度擴展,會發生什麼?實驗發現,在MoE主幹網路不變的情況下,附加Engram表。結果顯示,增加記憶槽位數量能持續、穩定地降低驗證損失。在探索範圍內,曲線嚴格遵循冪律(對數空間線性)。DeepSeek認為,這意味著Engram提供了一個可預測的Scaling新手段:增大記憶持續帶來收益,而無需增加計算量。同時,相比別的只做簡單平均的記憶方法(比如OverEncoding),Engram的Scaling潛力更大,性能提升更明顯。這些結果驗證了條件記憶作為稀疏容量的獨立可擴展維度,與MoE的條件計算形成互補。04. 架構訓練計算量少18% 性能反超MoE驗證了架構、技術路徑的可行性,DeepSeek團隊的下一步就是進行大規模的Scale,驗證這種方式在實際語言模型預訓練中的有效性。具體而言,DeepSeek訓練了四個模型:Dense-4B、MoE-27B、Engram-27B、Engram-40B。訓練時的語料庫、分詞器都使用了相同的設定,而後兩個模型引入了Engram機制,用於研究在模型大小不變和Engram進一步擴展後的特性。結果顯示,在相同算力和參數量的情況下,Engram-27B能在MoE-27B的基線上去取得持續提升,並且這些增益並不僅限於知識密集型任務。通用推理任務、程式碼與數學推理任務從中得到的提升甚至更為顯著,這些結果支援了DeepSeek的假設:引入專門的知識尋找原語(knowledge lookup primitive)能夠提升表示效率,這超出了僅將整個稀疏預算用於條件計算所能達到的效果。最後,將模型擴展到Engram-40B進一步降低了預訓練損失,並在大多數基準上提升了性能。雖然它尚未在每個任務上嚴格優於Engram-27B,但這很可能是訓練不足的結果。DeepSeek團隊觀察到,在訓練結束時,Engram-40B與基線模型之間的訓練損失差距仍在擴大,這表明在當前的token預算下,擴展的記憶容量尚未完全發揮其潛力。接著,DeepSeek團隊用MoE-27B與Engram-27B作為對照組,均使用了5000步(約300億token)的高品質長上下文資料進行微調,然後他們採用DeepSeek-V3中的YaRN技術,將模型的上下文窗口擴展到32768個token。實驗結果顯示,由於Engram模組接管了局部依賴的建模,它為模型的注意力機制騰出了容量,使其能更專注於處理全域上下文。因此,Engram架構在處理超長文字和長程推理任務上比傳統架構表現更好,具體表現如下:在架構方面,在排除了基礎模型能力差異的情況下,Engram-27B依然顯著優於MoE-27B。在複雜的檢索任務RULER基準測試中,Engram表現出了更強的長程依賴處理能力。例如在多查詢Multi-Query NIAH任務中,Engram精準率大幅領先。▲長上下文性能比較基準測試計算效率方面,即使只用了82%的預訓練計算量,Engram-27B的表現依然能與完全訓練的MoE-27B基線模型持平,甚至在RULER基準上實現超越。這證明了Engram架構具有極高的訓練效率,能用更少的計算資源達到同等或更好的長上下文性能。05. Engram淺層效果更好 對事實性知識影響較大而後,DeepSeek團隊對Engram模型進行了深入的機制分析和消融實驗。核心目的是回答“Engram到底是如何工作的?它的各個元件有什麼用?”這兩個問題。首先是模型深度與表徵分析,DeepSeek團隊通過LogitLens分析顯示,Engram模型在早期層就能更快地收斂到最終預測結果,因為它通過查表直接獲取了靜態知識,不需要像傳統模型那樣通過多層計算來重組基礎特徵。▲表徵對齊和收斂速度分析中心核對齊分析發現,Engram的淺層在表徵上與純MoE模型的深層高度相似。這意味著Engram讓模型在更少的層數內完成了同等複雜的特徵提取,在功能上等同於增加了模型的有效深度。在架構消融實驗中,研究人員發現將Engram模組放在較淺的層,如第2層,效果最好。這樣可以儘早解除安裝模型背負的局部模式重建任務,讓後面的深層網路專注於複雜的全域推理。▲結構消融實驗結果研究人員還發現,分支特定融合、上下文感知門控和分詞器壓縮對性能影響最大,去掉任何一個都會導致驗證損失顯著上升,而次要元件輕量級摺積層的影響則較小。如果把Engram“關掉”,模型在那些任務上會崩潰?為回答這個問題,DeepSeek團隊進行了功能敏感性分析。他們測試在推理時強制遮蔽Engram模組的輸出,觀察性能下降情況。結果顯示,在事實性知識方面,模型性能災難性下降,僅保留約29-44%的性能。這證明Engram是模型儲存參數化知識的主要倉庫。️但在閱讀理解方面,模型性能幾乎不受影響,保留約81-93%。這證明涉及上下文推理的任務主要由Transformer的骨幹網路處理,而非記憶模組。▲功能敏感性分析結果在系統效率與推理吞吐上,由於Engram的訪問模式是預先可知的,不像MoE需要根據隱藏狀態動態路由,系統可以提前從記憶體中預取資料。即使將一個1000億參數的Engram表解除安裝到主機記憶體,其在H800硬體上的推理吞吐量下降也不到3%,這證明了Engram能以極低的代價實現參數量的大幅擴展。此外,Engram的門控機制會在遇到靜態模式時被啟動,即變紅。具體表現為當模型遇到多詞實體、固定短語或中文成語以及歷史名詞時,Engram會被啟動進行檢索;而在處理需要動態推理的文字時,其門控則保持關閉。▲門控機制啟動06. Engram內化記憶 與Attention機制互補最後,DeepSeek團隊將Engram與MoE、外部記憶與檢索增強、長上下文建模以及表徵學習與知識蒸餾進行了對比。傳統MoE是Engram的“前輩”,它通過稀疏啟動來擴展模型容量。Engram解決了傳統MoE在超大規模下路由成本高、訓練不穩定的問題,提供了一種更高效的擴展路徑。對比外部記憶與檢索增強(RAG)這類工作通常是在模型外部掛一個資料庫,在推理時即時檢索。而Engram是內化的記憶,它在預訓練階段就把海量知識消化並固化到了參數化的記憶表中,這使得它比傳統RAG具有更低的延遲和更強的知識一致性。長上下文建模這一領域的研究則主要關注如何讓模型的注意力機制處理更長的序列。DeepSeek團隊強調,Engram並不是要取代注意力機制,而是與之互補。Engram負責處理局部的、靜態的上下文依賴,從而讓注意力機制能更專注於處理全域的、動態的長程依賴。對於表徵學習與知識蒸餾來說,Engram提供了一種新的視角——將模型的知識解耦為通用推理能力和特定知識庫。這種解耦結構天然適合進行知識蒸餾,因為未來的研究團隊可以選擇只蒸餾輕量級的骨幹網,而將龐大的知識庫作為可插拔的附件。07. 結語:Engram將實現 低成本超大規模擴展,逼近AGIEngram架構的核心思想就是通過解耦來實現效率與性能的平衡。它成功地將“局部模式重建”從複雜的Transformer骨幹網中剝離出來,交由專門的記憶模組處理。這種設計使得模型在保持強大推理能力的同時,能夠以極低的成本擴展到超大規模。DeepSeek團隊認為,Engram不僅僅是一個學術上的新模型,它具有很強的工程落地價值。由於記憶模組的訪問具有確定性,Engram可以進行高效的預取和硬體最佳化,非常適合大規模部署。而且,既然知識集中在Engram表中,未來或許可以通過直接修改這個表來修正模型的知識錯誤,而無需進行昂貴的微調。但目前的Engram是在預訓練時“固化”的。未來的一個重要方向是讓這個記憶模組具備線上學習或動態更新的能力,讓模型能即時獲取新知識。例如,未來的研究可以將Engram擴展到多模態領域,建立一個通用的多模態記憶庫。研究人員還可以繼續探索是否能將模型解耦為更多專用模組,以進一步逼近AGI(通用人工智慧)的效率。 (智東西)
梁文鋒署名新論文,DeepSeek V4架構首曝?直擊Transformer致命缺陷
【新智元導讀】深夜,梁文鋒署名的DeepSeek新論文又來了。這一次,他們提出全新的Engram模組,解決了Transformer的記憶難題,讓模型容量不再靠堆參數!剛剛 ,DeepSeek新論文發佈了,梁文鋒署名!這一次,他們聯手北大直接瞄準了「記憶」,是Transformer最致命的關鍵難題。如今,MoE成為大模型主流架構,但本質仍是Transformer,因其缺少原生「知識尋找」機制,很多檢索能力被迫用大量計算去模擬。33頁論文中,團隊提出了 MoE 互補的「條件記憶」稀疏軸,並通過一種全新的Engram模組去實現:將經典雜湊N-gram嵌入現代化,提供近似O(1)的確定性知識尋找。論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf通過「稀疏分配」(Sparsity Allocation)建模,他們意外發現MoE與Engram之間,存在「U形scaling law」。這意味著,需調整兩者之間資源比例,讓計算與靜態記憶間找到最優權衡。沿著這個規律,將Engram擴展到27B參數後,並在嚴格等參數、等FLOPs下優於MoE基線。直白講,MoE只解決「怎麼少算」,Engram直接解決「別瞎算」。它把該查的交給 O(1)記憶,把注意力從局部瑣碎中解救出來,結果不只是更會背知識,同時推理、程式碼、數學一起變強。這可能成為稀疏LLM下一條主流路線,更重要的是,下一代V4或將整合這一新方法。不再苦算,給Transfomer插入「電子腦」當前,LLM越做越大已成為「鐵律」,一條熟悉的路徑是——把參數做大,把計算做「稀疏」。混合專家模型(MoE)就是典型代表,每個token只需啟動少量專家,用「條件計算」讓參數規模飆升,FLOPs還能控住。從Artifical Analysis榜單中可以看出,現有的稀疏大模型,主流都是MoE。但問題在於,Transformer缺少一種「原生的知識尋找」能力,所以很多本該像檢索一樣 O(1)解決的事,被迫用一堆計算去「模擬檢索」,效率很不划算。北大和DeepSeek新論文帶來一個很有意思的觀點:稀疏化不只服務「計算」,也可以服務「記憶」。由此,團隊提出了Engram,把語言建模中大量「固定、局部、刻板」的模式,交給一個可擴展的查表模組去承擔。這樣一來,可以讓Transformer主幹把注意力和深度用在更需要「組合與推理」的地方。語言建模,兩類任務論文中,作者明確將語言建模拆成兩類子任務:一部分任務需「組合與推理」:上下文關係、長程依賴、邏輯推理、鏈式推理。另一部分任務更像「模式檢索」:實體名、固定搭配、常見短語、語法片段、重複出現的局部結構後者的一個共同點很明顯,即它們往往局部、穩定、重複出現。若是用多層注意力和FFN去「算」他們,模型做得到,但成本極高,還會擠佔早期層的表達空間。為了識別實體「戴安娜,威爾士王妃」(Diana,Princess of Wales),LLM必須消耗多層注意力和FFN來逐步組合特徵,這個過程理論上是可以通過一次知識尋找操作來完成的。而Engram想做的事情很直接——把這類「局部靜態模式」轉移到一個廉價的知識尋找原語。它用確定性的查表快速給出候選資訊,再由上下文決定是否採納。Engram核心架構:暴力查表+記憶開關Engram一詞源於神經學,本意為「記憶痕跡」,是一種可擴展、可檢索的記憶單元。它可以用於儲存LLM在推理過程中,可能已接觸過的模式、資訊片段。可以將Engram理解為,把經典「雜湊N-gram嵌入」現代化,做成插在Transformer中間層的一個「可擴展查表模組」。如圖1所示,Engram是一個條件記憶模組,旨在通過從結構上將靜態模式儲存與動態計算分離開來,從而增強Transformer骨幹網路。形式化地說,給定輸入序列X=(x_1,...,x_T)和第l層的隱藏狀態H^(l)∈R^Txd,該模組分兩個功能階段來處理每個位置t:檢索和融合。接下來,一起看看Engram的關鍵設計點。基於雜湊N-gram的稀疏檢索第一階段主要負責將局部上下文對應到靜態的記憶條目中,這通過分詞器壓縮(tokenizer compression)和確定性雜湊檢索嵌入來實現。分詞器壓縮為了最大化語義密度,作者引入了一個詞表投影層。他們預先計算了一個滿射函數P:V→V',利用歸一化的文字等價性(比如NFKC、小寫化等手段)將原始Token ID坍縮成規範識別碼。這個過程能讓128k大小的分詞器有效詞表大小減少23%。多頭雜湊要想直接參數化所有可能的N-grams組合空間,計算上是行不通的。作者採用了一種基於雜湊的方法。為了減少沖突,給每個N-gram階數n分配了K個不同的雜湊頭。每個頭k通過一個確定性函數φ_n,k,將壓縮後的上下文對應到嵌入表E_n,k中的一個索引:上下文感知門控檢索到的嵌入e_t充當的是上下文無關的先驗資訊。不過,它們容易受到雜湊衝突或多義詞帶來的噪聲干擾。為了增強表達力並解決這種歧義,作者採用了一套受注意力機制啟發的上下文感知門控機制。他們利用當前的隱藏狀態h_t作為動態的Query,而檢索到的記憶e_t則作為Key和Value投影的來源:其中W_K,W_V是可學習的投影矩陣。為了保證梯度穩定性,他們在計算標量門α_t∈(0,1)之前,先對Query和Key進行RMSNorm處理:最後,為了擴大感受野並增強模型的非線性,作者還引入了一個短的深度因果摺積:門控可視化為了實證驗Engram是否按預期行為,作者在圖7中可視化了Engram-27B在各種樣本上的門控標量α_t。結果展示了,明顯的選擇性模式。門控機制在完成局部、靜態模式時一致地啟動(顯示為紅色)。在英文中,觀察到在多Token命名實體(如Alexander the Great、the Milky Way)和固定短語(如By the way,Princess of Wales)上有強烈的啟動。關鍵是,這種行為有效地跨語言泛化。在中文demo中,Engram識別並檢索獨特的習語表達和歷史實體,比如「四大發明」和「張仲景」。這些定性結果證實,Engram成功識別並處理了固定的語言依賴關係,有效地將Transformer骨幹網路從記憶這些靜態關聯中解放出來。系統效率:計算與儲存解耦擴展記憶增強型模型往往受限於GPU高頻寬記憶體(HBM)的容量。然而,Engram的確定性檢索機制天生就支援將參數儲存與計算資源解耦。與依賴執行階段隱藏狀態進行動態路由的混合專家模型(MoE)不同,Engram的檢索索引僅取決於輸入的Token序列。這種可預測性為訓練和推理提供了專門的最佳化策略,如圖2所示。訓練階段,為了容納大規模嵌入表,他們採用標準的模型平行策略,將表分片儲存在可用的GPU上。推理階段,這種確定性特性使得「預取和重疊」策略成為可能。U型Scaling Law,揭秘最優分配比Engram作為條件記憶的一種實現形式,在結構上與MoE專家提供的條件計算是互補的。這裡,主要研究了以下兩個關鍵問題:1. 有限約束下的分配2. 無限記憶體場景作者通過三個參數指標來分析MoE和Engram之間的權衡:P_tot:總可訓練參數,不包括詞表嵌和LM頭。P_act:每個Token的啟動參數量。這個數值決定了訓練成本(FLOPs)。P_sparse≜P_tot-P_act:非啟動參數,這代表了「免費」的參數預算,可用於在不增加計算成本的情況下擴展模型規模。作者將分配比例ρ∈[0,1]定義為分配給MoE專家容量的非啟動參數預算的比例:直觀來說:ρ=1對應純MoE模型(所有非啟動參數都是參與路由的專家)。ρ<1則減少路由專家的數量,並將釋放出來的參數重新分配給Engram嵌入槽位。結果與分析圖3(左)展示了驗證損失與分配比例ρ之間存在一致的U型關係。這種U型關係證實了兩個模組之間的結構互補性:MoE主導(ρ→100):模型缺乏用於儲存靜態模式的專用記憶體,迫使它只能通過增加深度和計算量來低效地重建這些模式。Engram主導(ρ→0%):模型失去了條件計算能力,從而損害了那些需要動態、上下文依賴推理的任務;在這種場景下,記憶無法替代計算。接下來,作者探索了一種互補的設定:激進的記憶體擴展。圖3(右)表明,擴充記憶體槽位的數量能帶來清晰且一致的驗證損失改善。在探索的範圍內,曲線遵循嚴格的冪律,這表明Engram提供了一種可預測的擴展調節手段:更大的記憶體能持續帶來收益,而無需額外的計算量。關於擴展效率關鍵的一點是:雖然OverEncoding的直接平均方法也能受益於更大的記憶體表,但Engram在相同的記憶體預算下解鎖了更大的擴展潛力。結合分配定律,這些結果驗證了——條件記憶可以作為稀疏容量的一個獨特且可擴展的維度,與MoE的條件計算相輔相成。爆殺傳統MoE,知識推理數學全面漲基於Engram架構以及實驗得出的分配定律,作者將Engram擴展到了數十億參數的等級,以此來驗證其在現實世界LLM預訓練中的有效性。他們訓練了以下四個模型:Dense-4B (總參數4.1B)MoE-27B (總參數26.7B)Engram-27B (總參數26.7B)Engram-40B (總參數39.5B)實驗結果首先,與先前的文獻結論一致,稀疏架構表現出了優於密集模型的擴展定律。在相同的訓練計算預算下,所有三個稀疏變體(MoE-27B,Engram-27B/40B)在所有基準測試中都顯著擊敗了等FLOPs的Dense-4B基線。更重要的是,Engram-27B始終優於等參數且等FLOPs的MoE-27B基線。有趣的是,這些收益並不僅限於知識密集型任務(MMLU:+3.0,MMLU-Pro:+1.8,CMMLU:+4.0)。在通用推理領域(BBH:+5.0,ARC-Challenge:+3.7,DROP:+3.3),以及程式碼和數學推理(HumanEval:+3.0,MBPP:+1.6,GSM8K:+2.2,MATH:+2.4)中,提升更為顯著。這些結果支援了他們的假設:引入一個專用的知識尋找原語所帶來的表示效率提升,要超過將所有稀疏預算都分配給條件計算的效果。最後,擴展到Engram-40B進一步降低了預訓練損失,並在大多數基準測試中提升了性能。可以觀察到,Engram-40B與基線之間的訓練損失差距在訓練後期仍在持續擴大,這表明擴大的記憶體容量在當前的Token預算內尚未完全飽和。注意力徹底解放,32k上下文性能狂飆通過將局部依賴建模的任務解除安裝給靜態尋找,Engram架構保留了寶貴的注意力容量來管理全域上下文。通過長上下文擴展訓練,作者證明了Engram在長程檢索和推理任務上帶來了顯著的提升。實驗結果1. 超越注意力機制的長上下文能力雖然注意力機制和位置編碼提供了處理上下文的結構基礎,但結果表明,長上下文性能並非僅由架構先驗決定。軌跡可見,長上下文性能與基座模型的通用建模能力本質上是掛鉤的。因此,嚴格的架構比較必須通過對齊基座模型的Loss來控制這一干擾變數,而不僅僅是簡單地對齊訓練步數。2. 受控設定下的架構優越性在上述原則的指導下,作者將Engram與MoE 基線進行了對比。當控制了基座能力後,Engram模組的效率增益就變得非常明顯:等Loss設定(46k vs. 基線):當對比預訓練Loss對齊的Engram-27B(46k)和完全訓練的MoE-27B(50k)時,Engram 展現出了顯著的增益。等FLOPs設定(50k vs. 基線):在標準的等計算預算下,Engram-27B(50k)進一步拉大了這一差距,確立了全面的最佳性能。極端設定(≈82%計算量):即便是提前停止訓練的Engram-27B(41k),在面對完全訓練的MoE-27B(50k)時依然極具競爭力。這凸顯了Engram架構內在的優越性。計算+記憶雙軸時代,直接融入V4?DeepSeek最新論文,打開了稀疏化的第二條路,是一條非常具有啟發性的路線:稀疏化模型進入了「計算+記憶」雙軸時代。MoE繼續負責動態計算與推理Engram負責儲存與檢索靜態知識與局部模式如上的U型scaling law證明了,稀疏預算全部給MoE,不是全域最優,留出一部分給Engram整體更強。1. 稀疏化目標變得更豐富了條件計算解決了FLOPs,條件記憶解決了容量與模式檢索,兩線均可互補。2. Engram收益帶有結構性它讓LLM知識能力暴漲同時,也間接提升了推理、數學、程式碼的性能,因為Transfomer主幹的深度和注意力計算效用更「值錢」了。3. 確定性查表,很適合系統最佳化模型預取和解除安裝很大,為「更大參數、同等吞吐」提供了一種可行的工程路線。如今,全網都在猜測,春節檔的V4有很大機率會把Engram融入主幹架構。回看此前DeepSeek路線:DeepSeek V2曾引入MLA,大幅提升了推理效率和KV快取友好度;DeepSeek V3持續最佳化MoE,實現無損負載平衡,訓練更穩定,成本更低。若是V4真的把Engram落地,那將不僅是參數規模的提升,更是架構範式的又一次躍遷。再加上,此前爆出,V4程式碼實力可能趕超Claude、ChatGPT系列。今年的春節大禮,真是讓人期待。(新智元)
MIT發現讓AI變聰明的秘密,竟然和人類一模一樣
【新智元導讀】你有沒有發現,你讓AI讀一篇長文章,結果它讀著讀著就忘了前面的內容? 你讓它處理一份超長的文件,結果它給出來的答案,牛頭不對馬嘴? 這個現象,學術界有個專門的名詞,叫做上下文腐化。 這也是目前AI的通病:大模型的記憶力太差了,文章越長,模型越傻!2025年最後一天,麻省理工學院(MIT)丟了一篇重磅論文,就是要解決這個問題的。這篇論文叫《Recursive Language Models》,也就是遞迴語言模型。看起來很學術,但說人話就一句:讓AI再做一遍,效果直接起飛。先劇透兩個核心資料:在複雜推理任務上,僅僅讓模型多過2-4遍,正確率就能提升10%-25%在超長文件處理上,RLM(遞迴語言模型)在1000萬+token的規模下,依然保持穩定表現,而傳統模型直接崩盤!這啥概念?以前我們覺得,AI不夠聰明,那就給它堆參數、加顯示卡、買更多GPU。MIT這篇論文直接掀桌子:別堆參數了,讓它返工重寫一遍,效果可能更好。(真就是人類監工了)原來解決問題的方法就是這麼簡單!並且X上很多大佬紛紛點贊~從一個讓人崩潰的問題說起你有沒有這種經歷:讓ChatGPT幫你寫一篇文章,它洋洋灑灑寫了三千字,你一看——臥槽,離題萬里。或者讓它幫你寫程式碼,它寫完了,一運行——全是bug。但神奇的是,你讓它再檢查一遍、重新想想,有時候它就突然能改對了。MIT的研究人員發現,這不是玄學,這是有規律的。大多數AI犯的錯,不是因為它不懂,而是因為它初稿寫太快了。就像你寫論文,第一稿總是稀爛,但改個三四遍,就像換了個人寫的。AI也是一樣。問題是:現在的大模型基本都是一遍過的模式,你輸入問題,它輸出答案,完事。它自己不會主動返工、不會自我檢查、不會反覆推敲。或者換一個思路來理解大模型原先的思路:假設你是一個剛進公司的實習生,領導給你發了一份500頁的資料,讓你整理出一份報告。你會怎麼做?正常人的做法是:先翻一翻,找到重點章節,然後一章一章地讀,讀完一章做個總結,最後把所有總結串起來。對吧?但大模型不是這麼幹的。大模型的做法是:直接把500頁資料從頭到尾一口氣讀完,然後嘗試憑記憶回答問題。這能記住才有鬼了。這就是大模型面臨的困境。它不是不聰明,它是記不住。MIT這篇論文干的事兒,就是給AI裝上了一個返工的能力。AI的真正瓶頸:不是腦子不夠大,是記性太差在聊MIT的解決方案之前,我得先跟你說清楚,為什麼這件事這麼重要。你可能聽說過一個詞,叫上下文窗口。啥意思呢?你可以把AI大模型想像成一個天才,但是這個天才有個致命缺陷——他的工作台太小了。你給他一份超長的資料,讓他幫你分析,但他只能把資料的一小部分放到工作台上看。超過工作台大小的部分?看不到,直接忽略。現在最牛逼的GPT-5,工作台能放27萬個token(大約相當於20萬字中文)。聽著挺厲害的對吧?但問題來了。就是說,那怕是在這27萬token的限制之內,模型的表現也會隨著輸入變長而急劇下降。當你給它8000個token的時候,它表現賊棒。給它8萬個token的時候,它開始有點迷糊。給它27萬個token的時候,它直接開始胡說八道。為什麼?因為資訊太多了,它處理不過來了,腦子亂了。就像讓一個人同時記住一整本百科全書然後回答問題——記是記住了,但找不到了。這就是大模型現在的困境:不是上下文窗口不夠長,而是長了也用不好。MIT的天才想法:把資料放到抽屜裡好了,問題講清楚了,現在來看MIT的解決方案。傳統做法是:你把資料直接塞進AI的腦子裡。MIT的做法是:別塞進去了,放抽屜裡吧。他們發明了一個叫RLM的東西。RLM的核心思路是:不要讓AI直接讀那份巨長的資料,而是讓AI用程式碼去翻那份資料。打個比方。以前的AI,就像一個學生,你把一整本教科書拍在他面前說:看完,然後回答我的問題。學生:???我看不完啊,我能不能看一部分?然後他就硬著頭皮看前面的一部分,後面的直接放棄。RLM的做法不一樣。它更像是給這個學生配了一個目錄系統和搜尋引擎。資料還是那份資料,但學生不用從頭到尾讀了。他可以先翻目錄,看看大概結構,然後針對問題去搜尋相關段落,把有用的資訊摘出來。更牛的是,這個學生可以把一個複雜問題拆成好幾個小問題,然後——注意重點來了——他可以召喚自己的分身,讓分身去同時處理各個小問題,最後彙總答案。這就是遞迴的意思:AI可以呼叫自己的分身,讓自己幫自己幹活。或者再降維一下理解就是:它把這份超長的文件,當成一個放在外面的資料庫,而不是直接塞進腦子裡。然後,模型可以寫程式碼,自己去查這個資料庫。需要第一章的內容?寫個程式碼去查。需要第十章的內容?再寫個程式碼去查。需要把第一章和第十章的內容對比?那就先查第一章,做個總結,再查第十章,做個總結,最後把兩個總結合起來。這就像是一個有無限容量的外接硬碟。模型的腦子裡裝不下那麼多東西,沒關係。可以隨時去硬碟裡查,用到什麼查什麼。這樣一來,理論上,模型可以處理無限長的文件。具體怎麼做的?MIT的實現方式其實挺優雅的。他們給AI配了一個Python程式設計環境(REPL),把那份超長的資料存成一個變數。然後AI不再直接去讀這份資料,而是用程式碼去操作它。比如:想看資料有多長?寫一行程式碼len(input_text)就知道了想看資料的前1000個字元?寫input_text[:1000]想在資料裡搜尋關鍵詞?寫個正規表示式更厲害的是,AI可以把這份資料分段,把每一段交給一個子AI去處理,然後自己彙總結果。這個子AI,用的其實是同一個模型,只不過是遞迴呼叫自己。這個設計有兩個巨大的好處:第一,AI不用在腦子裡記住那份超長資料了。資料就放在外面的抽屜裡,需要的時候用程式碼去取。這就意味著,理論上,資料可以無限長——只要抽屜夠大。第二,AI可以自己判斷需要看什麼、不需要看什麼。它不會傻乎乎地從頭讀到尾,而是會聰明地挑重點看。這大大節省了計算成本,也提高了準確率。效果到底有多猛?MIT在論文裡做了一堆實驗,結果還是挺震撼的。實驗一:超長文件理解他們用了很多測試機,其中一個叫OOLONG的測試集,這個測試需要AI理解超長文件,並回答需要綜合全文資訊才能回答的問題。結果:GPT-5基座模型的精準率44%,而RLM達到了56.5%。而在CodeQA中,GPT-5基座模型的精準率24%,而RLM達到了62%,直接提升了2.7倍!實驗二:超超超長文件(1000萬+token)他們還把文件長度一路拉到1000萬token以上(相當於幾十本書的長度)。GPT-5?壓根處理不了,直接爆炸。RLM(GPT-5)?穩穩當當,表現基本不掉。這是一個質的飛躍。實驗三:成本對比你可能會想:這麼牛逼的東西,是不是巨貴?神奇的是,並沒有。在BrowseComp-Plus基準測試中,讓GPT-5-mini直接處理600萬-1100萬token的輸入,成本大約是1.5-2.75美元。而RLM(GPT-5)的平均成本只有0.99美元。更便宜,效果還更好。為什麼?因為RLM不會傻傻地把所有內容都讀一遍,它唯讀需要的部分。這個發現為什麼重要?MIT這篇論文的意義,遠不止於讓AI處理更長的文件。它揭示了一個更根本的道理:AI的能力邊界,不只取決於模型本身有多大、參數有多多,還取決於你怎麼使用它。以前我們的思路是:模型不夠強——那就加參數。MIT告訴我們:等等,也許不用加參數,讓它多想幾遍就夠了。回到開頭提到的那個發現:在多步推理任務中,僅增加2-4次遞迴處理,正確率就能提升10%-25%。大約4次迭代後,收益逐漸趨於平緩。這說明什麼?大多數AI犯的錯,都是初稿錯誤:不是它不懂,是它第一遍太草率了。讓它返工幾次,就能改對。(所以有時候,你在使用AI時,還真的當個監工,讓AI多輸出幾次)這跟人類其實一模一樣。任何牛逼的程式設計師都知道,第一版程式碼永遠是最爛的,程式碼質量是改出來的,不是寫出來的。任何牛逼的作家都知道,第一稿永遠是廢稿,好文章是改出來的,不是寫出來的。現在,AI也一樣了。未來展望MIT在論文最後提到,這只是一個開始。目前的RLM還有很多可以最佳化的地方:1.非同步呼叫:目前子任務是一個接一個執行的,如果能平行執行,速度會更快。2.更深的遞迴:目前只允許一層遞迴(AI呼叫自己的分身),如果允許分身再呼叫分身,理論上能處理更複雜的任務。3.專門訓練:目前RLM用的是現成的大模型,如果專門為遞迴思考訓練一個模型,效果可能更猛。MIT的研究者們相信,這可能代表了大模型能力擴展的一個新方向:不是一味地堆參數、堆算力,而是讓模型學會更聰明地思考。彩蛋MIT這篇論文,讓我想起了一個老笑話:客戶問程式設計師:這個bug你修了多久?程式設計師說:5分鐘。客戶說:那為什麼收我500塊?程式設計師說:找出問題在那,花了我3天。AI也是一樣。它的思考時間遠比我們想像的更重要。給它一點返工的機會,它可能就能從還行變成牛逼。這也許就是下一代AI進化的方向:不是更大的腦子,而是更深度的思考。 (新智元)
這個假期,DeepSeek又刷屏!有啥敘事性?
Deepseek 的這個論文,幾點 takeaway1. 牛不牛?牛,架構層面的改良,海外討論度高+風評好。2. 有沒有即時的資本市場影響?未必。第一,這是更加學術性,實驗性的論文,真正的影響可能在DeepSeek v4 出來的時候才有。第二,大家經過deepseek1.0,已經能夠理解,突破會帶來更多的模型能力突破,帶來更多的模型應用,而非“零和遊戲”3. 有啥敘事性?第一,deepseek 喜歡假期發佈。壞習慣可能預示著...春節假期有什麼發佈也不足為奇。deepseek 的每一次論文發佈,v4 就應該越近。第二,這份mHC 論文是建立在之前字節 HC 論文之上,做的一個實驗性改良版。開源生態,導致了這個飛輪能夠更快的轉動。海外封閉模型,在路線技術上的改良,很難有這種“複利效應”;第三,跑分是一回事,實驗室能力是另一回事。deepseek 的論文繼續給學術界帶來新的觀點,對於開源人才生態的影響也能有正向循環。DeepSeek mHC演算法刷屏!產業與技術新趨勢是?2026年1月DeepSeek發佈《DeepSeek mHC: Manifold - Constrained  Hyper - Connections》(論文水印25-12-31),引發產業刷屏,我們仔細閱讀原始論文:背景與效果何愷明resnet(殘差訓練)在2016年名聲大噪(CVPR 2016 最佳論文),超連接HC(Hyper-Connection)加強殘差。本篇mHC(Manifold-contrained HC)顯著提升,解決訓練擴展性、不穩定問題(典型值最佳化3個數量級)。有限硬體成本增加(典型增記憶體6.7%,一貫DeepSeek風格)大家關心的趨勢和投資問題1)利多AI應用訓練。特別適合殘差高頻領域,如圖像視訊和複雜特徵邏輯推理(複雜難題)2)高普適性,尤其訓練,尤其端側。普適很多模型(論文裡3B/9B/27B都有),低成本端側訓練/推理容易被視訊記憶體佔用問題緩解。此前殘差訓練容易梯度爆炸或記憶體等待3)記憶體/快取/光器件/計算開銷?(不大的新增計算開銷。論文裡的n流殘差流水線延遲,和Lr層mHC核心重計算,用流水線DualPipe 最佳化。論文典型值記憶體增加6.7%)。(新增快取,如各階段初始啟動值Xlo本地快取。但不大,因整計算丟棄核心中間啟動值)(光器件幾無變化。光模組頻寬與之前一致)(減少儲存io次數。大大提高訓練穩定性,降低訓練中斷的重複IO。利多企業級ssd,減少高速ssd依賴)4)GPU利用率提升?(GPU利用率大幅提高,典型值90%+。解決記憶體牆等待。本來殘差計算不收斂,不穩定)(論文提出,原HC雖然最佳化殘差,但易導致訊號 / 梯度失控,多流平行放大記憶體壓力。mHC論文從Sinkhorn-Knopp演算法開始最佳化)本篇涉及的DeepSeek關鍵技術(尤其線性代數+通訊+AI_Infra)1)承認transformer+稀疏的FFNs(前饋網路)2)基於Sinkhorn-Knopp演算法。將非負矩陣迭代縮放為雙隨機矩陣,本論文中,是解決超連接訓練不穩定的關鍵技術3)融合核,緩解記憶體頻寬翻倍問題4)Amax Gain Magnitude衡量殘差流爆炸5)流形約束超連接,把殘差約束到特定流形,保證穩定性6)伯克霍夫多面體(Birkhoff Polytope),上述5的理論基石7)混合精度策略。本次AI infra技巧,最大化數值精度CALLBACK一貫的DeepSeek創新風格,努力最佳化一切AI Infra,對應用/訓練/模型/GPU使用率利多,對記憶體/快取/光器件/AI infra等整體非利空,也利於滲透率再提高,繼續推薦所有科技!DeepSeek發佈mHC (流形約束超連接)新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題DeepSeek提出了一種名為 mHC (流形約束超連接)的新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益。值得注意的是,DeepSeek創始人&CEO梁文鋒也在作者名單中。近期,以Hyper-Connections(HC)為代表的研究,通過擴展殘差流寬度和多樣化連接模式,拓展了過去十年中廣泛應用的殘差連接範式。雖然這些方法帶來了顯著的性能提升,但但也帶來了兩個嚴重問題:數值不穩定性:原始的HC中,連接矩陣是自由學習的,沒有約束。這導致訊號在經過多層傳播後,數值會「爆炸」或「消失」,破壞了恆等對應的特性,模型越深越難訓練。系統開銷大:通道變寬意味著視訊記憶體讀寫(I/O)和通訊成本成倍增加,也就是所謂的「視訊記憶體牆」問題。為瞭解決這些挑戰,DeepSeek的研究團隊提出了 Manifold-ConstrainedHyper-Connections(mHC,流形約束超連接)。這是一個通用框架,它將HC的殘差連接空間投影到一個特定的流形上,以恢復恆等對應屬性,同時結合嚴格的基礎設施最佳化以確保效率。它的核心目的是:在保留「加寬殘差流」帶來的性能提升的同時,解決其導致的訓練不穩定和視訊記憶體消耗過大的問題。實證表明,mHC不僅解決了穩定性問題,且在大規模訓練中(如27B模型)表現出卓越的可擴展性。在n=4的擴展倍率下,僅增加了6.7%的訓練時間開銷,卻換來了顯著的性能提升。mHC為基礎模型的拓撲架構演進指明了方向。(有道調研)
DeepSeek新年第一天硬核論文上線:Transformer殘差連接迎來十年來最大升級「梁文鋒署名」
自大神何愷明的ResNet誕生以來,“殘差連接”(Residual Connection)就已成為深度學習架構的基石,貫穿了從摺積網路到如今大行其道的Transformer。這一簡潔的設計通過“恆等對應”(identity mapping)特性,保證了資訊在深層網路中的穩定傳遞,有效緩解了梯度消失問題然而,十年來,儘管殘差連接內部的計算模組(如注意力、FFN)日新月異,其“A+B”式的拓撲結構本身卻鮮有變化。最近,一項名為 超連接(Hyper-Connections, HC) 的研究試圖打破這一常規。通過將單通道的殘差流擴展為多通道,並引入可學習的連接模式,HC在不顯著增加計算量(FLOPs)的前提下,提升了模型的拓撲複雜度和性能潛力。但這種自由度的提升也帶來了一把雙刃劍:不受約束的連接方式從根本上破壞了殘差連接賴以成功的恆等對應屬性。這導致了嚴重的訓練不穩定、模型難以擴展,並帶來了巨大的記憶體訪問開銷,限制了其在真實大規模訓練中的應用。現在DeepSeek的研究團隊提出了一個全新的解決方案:流形約束超連接(Manifold-Constrained Hyper-Connections, mHC)。核心思路是把 Transformer 裡原本只有一條“殘差高速路”的結構,升級成多條平行通道,讓每一層都能在通道之間重新分配資訊,並用“雙隨機矩陣”約束,避免梯度爆炸或消失。更重要的是,團隊通過一系列嚴謹的底層架構最佳化,使其在真實的大規模訓練中高效可行實驗證明,mHC不僅解決了HC的訓練穩定性問題,還表現出更強的性能和擴展性,為基礎模型的架構設計提供了新的思路。論文名稱:mHC: Manifold-Constrained Hyper-Connections論文地址:arXiv:2512.24880v1超連接要理解mHC的創新,我們首先需要回顧一下殘差連接的演進。1. 標準殘差連接 (a)其結構可以表示為 x_l+1 = x_l + F(x_l,w_l。x_l是輸入,F是計算層(如Transformer Block)。核心在於x_l這一項,它確保了無論F如何變化,總有一條“高速公路”能讓資訊無損地從淺層傳遞到深層。當把這個公式遞迴展開時,深層特徵x_L總是包含了淺層特徵x_l的原始資訊2. 超連接 (HC) (b)HC將殘差流的維度從C擴展到了n x C,相當於建立了n條平行的殘差“車道”。同時,它引入了三個可學習的矩陣來控制資訊流動:H_pre: 從n條車道中“讀出”資訊,匯聚後送入計算層F。H_post: 將計算層F的輸出“寫入”回n條車道。H_res: 在n條車道之間直接進行資訊互動和更新。初步消融實驗表明,在三個矩陣中,負責殘差流內部資訊交換的H_res對性能提升的貢獻最大。然而,問題也恰恰出在這個H_res上。由於H_res是一個不受約束的可學習矩陣,當網路層數加深時,訊號在殘差流中的傳播由多個H_res矩陣的連乘(Π H_res)決定。這個連乘積會嚴重偏離恆等矩陣,導致訊號在傳播過程中被無限放大或衰減,最終造成訓練崩潰27B模型的實驗資料清晰地揭示了這一問題。與mHC相比,HC的損失在訓練約12k步時出現了異常飆升。其梯度范數也極不穩定。進一步分析訊號傳播的增益幅度(Amax Gain Magnitude),可以發現HC的復合對應(多層H_res連乘)增益峰值達到了驚人的3000,而理想值應為1。這證實了殘差流中存在嚴重的訊號爆炸除了數值不穩定,HC還帶來了巨大的系統開銷。擴寬的殘差流(n倍寬度)意味著記憶體讀寫(I/O)成本急劇增加,這在現代GPU架構中是主要的性能瓶頸。此外,在流水線平行訓練中,通訊開銷也增加了n倍,嚴重影響訓練效率。mHC:用“流形約束”馴服超連接為瞭解決上述挑戰,DeepSeek-AI團隊提出了mHC框架,其核心思想是:對H_res施加流形約束。具體來說,mHC將H_res約束為一個雙隨機矩陣這是一種特殊的非負矩陣,其每行之和與每列之和均為1。這種約束帶來了三個關鍵的理論優勢:保范性:雙隨機矩陣的譜范數有界(小於等於1),這意味著對應是非擴張的,從根本上杜絕了梯度爆炸的風險。復合閉包性:兩個雙隨機矩陣的乘積仍然是雙隨機矩陣。這保證了無論網路多深,Π H_res的復合對應始終保持穩定。幾何解釋:所有n x n雙隨機矩陣構成的集合是一個“伯克霍夫多面體”(Birkhoff Polytope),它是所有n x n置換矩陣的凸包。這意味著H_res的作用可以被看作是不同流之間特徵的一種“柔性”置換和融合。為了實現這一約束,mHC採用了經典的Sinkhorn-Knopp演算法。該演算法通過對矩陣進行交替的行、列歸一化迭代,可以有效地將任意一個正矩陣投影到雙隨機矩陣流形上。對於H_pre和H_post,mHC也施加了非負性約束,以防止正負係數的組合導致訊號抵消。高效的系統工程實現一個好的架構思想,離不開高效的工程實現。為了讓mHC能夠在大規模訓練中真正落地,研究團隊進行了三項關鍵的底層最佳化:1. Kernel Fusion(核函數融合)針對mHC引入的額外操作(如RMSNorm、矩陣變換、啟動函數等)會帶來大量小規模、高延遲的GPU Kernel呼叫和記憶體讀寫,團隊開發了高度最佳化的融合核函數。例如,將多個對共享資料進行的操作合併到一個CUDA Kernel中,並利用TileLang等工具高效開發,極大地減少了記憶體頻寬瓶頸和Kernel啟動開銷。2. Recomputing(重計算)擴寬的殘差流會佔用大量視訊記憶體來儲存中間啟動值,以備反向傳播使用。為緩解這一問題,mHC採用了一種選擇性的重計算策略。在前向傳播後,只保留每個重計算塊的初始輸入x_l0,而塊內的其他中間啟動值則被丟棄。在反向傳播時,利用已儲存的x_l0即時重新計算這些值。團隊還推匯出了最優重計算塊大小的公式,以最小化總視訊記憶體佔用3. Overlapping Communication in DualPipe(在DualPipe中重疊通訊)在大規模流水線平行訓練中,mHC引入的通訊和重計算開銷可能阻塞訓練流程。團隊擴展了現有的DualPipe調度策略,通過設定高優先順序計算流和解耦重計算與通訊依賴,實現了計算、通訊和重計算的深度重疊,最大限度地隱藏了額外開銷。通過這一系列最佳化,mHC(當n=4時)帶來的額外訓練時間開銷被控制在了 6.7% 以內,使其成為一個既強大又實用的架構。實驗效果:穩定、高效、可擴展團隊在3B、9B和27B等不同規模的MoE模型上,對基線模型、HC和mHC進行了全面的對比實驗。穩定性驗證27B模型訓練過程中的損失差距和梯度范數。mHC成功地解決了HC的訓練不穩定性,最終取得了比基線模型低0.021的損失。其梯度范數曲線也與基線模型一樣平滑穩定對訊號傳播的分析也證實了mHC的有效性。其單層和復合對應的增益幅度都穩定在1附近(最大約1.6),相比HC的~3000,穩定性提升了三個數量級HC中出現大量絕對值很大的元素,而mHC的矩陣則非常穩定,接近於一個柔性的置換。下游任務性能在涵蓋了常識推理、程式碼、數學等多個領域的8個下游基準測試中,27B的mHC模型性能全面領先。它不僅顯著優於基線模型,並且在大多數任務上超越了原始的HC模型。特別是在BBH和DROP等考驗推理能力的任務上,mHC相比HC分別取得了2.1%和2.3%的提升擴展性分析擴展性是衡量一個架構是否有潛力的關鍵。計算擴展曲線顯示,從3B到27B模型,mHC相較於基線模型的性能優勢一直穩定保持。Token擴展曲線則展示了在單次訓練中,mHC的優勢隨著訓練的進行而持續存在這些結果共同證明,mHC是一個在各種規模下都穩定有效、且具備良好擴展性的架構設計寫在最後deepseek 這項工作指出了超連接(HC)在擴展殘差連接範式時,因破壞恆等對應而導致的內在不穩定性。通過引入流形約束超連接(mHC),研究團隊成功地將訊號傳播轉化為一種穩定的凸組合,恢復了訓練的穩定性與可擴展性。更重要的是,通過精細的系統級最佳化,mHC在實現了性能提升的同時,保持了極低的計算開銷mHC框架的提出,不僅為超連接這一新興方向提供了實用的解決方案,也為宏觀架構設計開闢了新的可能性。未來,研究人員可以探索除雙隨機矩陣外的其他流形約束,以適應不同的學習目標,在模型的可塑性與穩定性之間找到更優的平衡點。這項工作或許將重新激發社區對網路拓撲結構設計的興趣。總的來說,本文的真正亮點並非在於證明超連接能夠大規模運行,而在於:DeepSeek擁有內部能力,可以圍繞高度實驗性的研究理念,在各個層面(核心、記憶體管理、節點間通訊)重構整個訓練環境 (AI寒武紀)