#梁文鋒署名
【梁文鋒署名】DeepSeek再發新論文:75%思考+25%記憶,這是他們算出來的最優解
DeepSeek又發論文了。這次的主題有點意思:他們發現,現在的大模型在浪費大量算力做一件很傻的事——用計算來模擬查字典。論文叫《Conditional Memory via Scalable Lookup》,核心是一個叫Engram的模組。這個名字有點意思。Engram是神經科學術語,最早由德國生物學家Richard Semon在1904年提出,指的是大腦中儲存記憶痕跡的物理結構——當你記住"巴黎是法國首都"這個事即時,這條資訊就以某種物理形式(可能是特定的神經連接模式)儲存在你的大腦裡,這個物理痕跡就叫engram。DeepSeek用這個名字,顯然是想說:我們要給大模型裝上真正的"記憶"。說實話,看完之後我挺興奮的——這篇論文的思路非常優雅,而且解決的是一個很根本的問題。更重要的是,它觸及了一個認知科學的經典命題:記憶和思考是什麼關係?先說問題:大模型在浪費算力做"背書"你有沒有想過,當大模型看到"Diana, Princess of Wales"(戴安娜王妃)這個詞的時候,它內部發生了什麼?DeepSeek在論文裡引用了一個很有意思的研究(PatchScope):模型需要消耗多層Attention和FFN,才能逐步把這個實體識別出來。具體來說,模型處理"Wales"這個詞時的內部狀態演變:看到沒?模型用了6層計算,才把一個固定的歷史人物識別出來。問題在於:這個資訊是靜態的、固定的,根本不需要每次都"計算"出來。"亞歷山大大帝"就是"亞歷山大大帝","四大發明"就是"四大發明","張仲景"就是"張仲景"。這些固定搭配、命名實體、慣用表達,每次都用神經網路重新計算一遍,是不是有點傻?這就像你每次需要查"中國首都是那"的時候,不是直接查字典,而是從頭推理一遍——中國是個國家,國家有首都,中國的政治中心在...DeepSeek的核心觀點是:大模型浪費了大量的"網路深度"在做這種重複性的靜態知識重建。這些算力本來可以用來做更有價值的事——比如推理。Engram的核心思想:給模型發一本字典想像你在考試。以前的規則是:什麼都不能帶,全靠腦子現場推。"亞歷山大大帝是誰?"你得從頭想——亞歷山大,希臘名字,大帝說明是君主,歷史上有名的希臘君主...現在新規則:允許帶一本字典進考場。字典裡寫著"亞歷山大大帝 = 馬其頓國王,公元前356-323年,征服了波斯帝國"。你直接翻到這一頁,抄上去,省下來的時間做後面的推理題。Engram就是這本字典。具體怎麼查?很簡單:模型看到"Alexander the Great"這三個詞連在一起,就像看到字典的索引詞條。它用一個很快的方法(雜湊)定位到字典裡對應的那一頁,直接把預先存好的資訊拿出來用。整個過程不需要"思考",只需要"翻頁"。但這裡有個問題:同一個詞在不同場合意思不一樣。比如"蘋果",可能是水果,也可能是那家科技公司。字典裡存的是那個意思?Engram的解決方案很聰明:查完字典之後,先看看上下文,再決定用不用。如果前面在聊水果,字典裡查出來的"蘋果公司"就不太對勁,模型會自動忽略這個查表結果,繼續用自己的推理。如果前面在聊手機,那字典裡的資訊就很有用,直接採納。這就像一個聰明的學生:帶了字典進考場,但不是無腦抄,而是先判斷字典裡的答案和題目對不對得上。關鍵發現:U型縮放定律這裡是論文最有意思的部分。DeepSeek研究了一個問題:如果總參數量固定,應該把多少參數分配給MoE專家,多少分配給Engram記憶?他們定義了一個"分配比例"ρ:ρ = 100% 表示純MoE(所有稀疏參數都給專家)ρ < 100% 表示把部分參數從專家轉移到Engram實驗結果讓人驚訝:驗證損失呈現U型分佈:純MoE(ρ=100%)不是最優的分配約20-25%給Engram(ρ≈75-80%)效果最好把太多參數給Engram(ρ<50%)效果又變差這個U型曲線說明了什麼?MoE和Engram是互補的:MoE擅長動態的、需要上下文推理的任務Engram擅長靜態的、固定模式的識別兩者缺一不可。純MoE缺少記憶能力,純Engram缺少推理能力。插一段:博爾赫斯早就寫過這個看到這個U型曲線的時候,我突然想起博爾赫斯的一個短篇:**《博聞強記的富內斯》**(Funes the Memorious)。故事講的是一個叫富內斯的阿根廷青年,從馬上摔下來之後,獲得了"完美記憶"的能力——他能記住一切。每一片葉子的形狀,每一朵雲的變化,甚至能記住1882年4月30日黎明時分南方天空的雲綵排列。但博爾赫斯寫道:富內斯無法思考。"思考就是忘記差異,就是概括,就是抽象。在富內斯塞滿了東西的世界裡,只有細節,幾乎是直接感知的細節。"富內斯能記住三個不同時刻看到的同一條狗,但他無法理解"狗"這個概念——因為每一條狗、每一個瞬間的狗,對他來說都是完全不同的東西。他記住了一切,卻失去了抽象的能力。這不就是論文裡U型曲線的左端嗎?當ρ趨近於0(全是Engram,沒有MoE)時,模型有無限的記憶,但失去了推理能力。它能記住"亞歷山大大帝"是誰,但無法用這些知識進行推理。反過來,當ρ=100%(全是MoE,沒有Engram)時,模型有強大的推理能力,但要浪費大量算力重建那些本可以直接記住的東西。博爾赫斯在1942年就洞察到了這一點:記憶和思考是互補的,但也是對立的。完美的記憶會殺死思考,而純粹的思考則需要不斷重新發明輪子。最優解在中間——既有記憶,又有思考。DeepSeek的實驗資料給出了一個驚人精確的答案:大約75-80%給思考,20-25%給記憶。這讓我想到另一個認知心理學的經典概念:**組塊(Chunking)**。1956年,心理學家George Miller發表了著名的論文《神奇的數字7±2》,指出人類工作記憶的容量是有限的,但我們可以通過"組塊"來擴展它。比如記電話號碼138-8888-6666,你不是記11個數字,而是記3個組塊。N-gram本質上就是語言的組塊。"亞歷山大大帝"不是5個字,而是1個組塊。Engram做的事情,就是把這些組塊預先存好,省得每次都要重新計算。人腦早就在這麼幹了。DeepSeek只是讓大模型學會了同樣的技巧。實驗結果:推理能力提升比知識提升更大這是讓我最驚訝的部分。你可能會想:Engram是個"記憶模組",應該主要提升知識類任務吧?確實,知識任務有提升:MMLU:+3.4CMMLU:+4.0MMLU-Pro:+1.8但推理任務的提升更大:BBH:+5.0ARC-Challenge:+3.7DROP:+3.3甚至程式碼和數學也有顯著提升:HumanEval:+3.0MATH:+2.4GSM8K:+2.2等等,一個"記憶模組"為什麼能提升推理能力?機制分析:為什麼"記憶模組"能提升推理?這是我最想搞明白的問題。DeepSeek做了一個很有意思的實驗:他們"偷看"模型每一層在想什麼。具體方法是:把每一層的中間結果拿出來,問它"你現在覺得下一個詞是什麼?"。如果這一層已經很接近最終答案,說明模型在這一層就基本"想明白了"。結果很直觀:有Engram的模型,在很早的層就"想明白了";沒有Engram的模型,要到很深的層才行。為什麼?因為沒有字典的模型,前面幾層都在忙著做一件事:搞清楚"亞歷山大大帝"是誰。它得一層一層地拼湊——這是個人名,是個歷史人物,是個國王,是馬其頓的國王...等它終於搞清楚這是誰了,已經用掉了5、6層。剩下的層才能開始真正的推理。但有字典的模型不一樣。第2層的時候,Engram直接告訴它:"亞歷山大大帝 = 馬其頓國王,征服者"。好了,搞定,後面20多層全部用來推理。這就像兩個學生做同一張卷子:一個學生得先花20分鐘背公式,再用40分鐘做題。另一個學生帶了公式表,60分鐘全用來做題。誰的推理題做得更好?顯然是第二個。DeepSeek還做了一個更精確的測量:Engram模型第5層的"思考深度",相當於普通模型第12層的水平。換句話說,Engram相當於免費給模型加了7層深度。這就解釋了為什麼推理能力提升這麼大——不是Engram本身能推理,而是它把推理的空間讓出來了。長上下文能力也炸了還有個意外收穫:處理長文章的能力暴漲。有個測試叫"大海撈針"——在一篇很長的文章裡藏一句關鍵資訊,看模型能不能找到。為什麼字典能幫助處理長文章?想像你在讀一本很長的小說。如果你每次看到"福爾摩斯"都要停下來想"這是誰來著...",讀到後面肯定記不住前面的劇情。但如果"福爾摩斯 = 偵探,住貝克街221B"這個資訊已經存在字典裡,你的注意力就可以全部用來追蹤劇情——誰殺了誰,線索在那,凶手是誰。Engram處理了"這是誰"的問題,Attention就可以專注於"發生了什麼"的問題。相當於給大腦減負了。系統設計:字典可以放在抽屜裡這裡體現了DeepSeek一貫的風格:理論創新和工程落地並重。繼續用考試的比喻。MoE(專家模型)的問題是:每道題都要"現場"決定找那個專家來答,這個決定本身就要花時間。但字典不一樣。你看到"亞歷山大大帝",就知道要翻到A開頭那一頁。你不需要先讀完整道題,才知道去查那個詞條。這意味著什麼?意味著字典可以提前準備好。模型還在處理第1層的時候,系統就已經知道第2層要查什麼詞條了。所以可以提前把那一頁準備好,等模型算到第2層的時候,字典已經翻開擺在那兒了。更妙的是:字典不需要放在桌上,放在抽屜裡也行。GPU視訊記憶體很貴,就像桌面空間有限。但CPU記憶體便宜得多,就像抽屜容量大得多。既然可以提前知道要查什麼,那就提前從抽屜裡把那一頁拿出來,等用的時候已經在桌上了。DeepSeek做了個實驗:把一本1000億參數的"字典"放在抽屜裡(CPU記憶體),結果:只慢了2% ,但多了1000億參數的知識。這就是為什麼Engram可以做得很大——字典放抽屜裡就行,不佔桌面。門控可視化:確實在識別固定模式論文最後有個很直觀的可視化:紅色表示門控值高(Engram被啟動),白色表示門控值低(Engram被忽略)。可以看到,門控在這些地方啟動:"Alexander the Great"(亞歷山大大帝)"the Milky Way"(銀河系)"Princess of Wales"(威爾士王妃)"四大發明""張仲景""傷寒雜病論"全是命名實體和固定搭配。Engram確實在做它該做的事:識別靜態模式。往大了說:DeepSeek在開一條新路回到開頭的問題:這篇論文的意義是什麼?過去幾年,大家都在一個方向上卷:怎麼讓模型算得更聰明。MoE讓不同的專家處理不同的問題,Attention讓模型看到更遠的上下文,更深的網路讓推理更複雜。但不管怎麼卷,本質上都是在最佳化"計算"。DeepSeek說:等等,有些問題根本不需要算,查一下就行了。這個思路其實很符合直覺:人腦也不是什麼都靠推理,很多時候就是直接呼叫記憶。你看到"1+1"不需要推理,直接輸出"2"就行。論文最後一句話很有意思:"We envision conditional memory as an indispensable modeling primitive for next-generation sparse models."翻譯過來:我們認為條件記憶會成為下一代稀疏模型的基礎元件。DeepSeek在押注一個新的架構方向。最後:記憶與思考的平衡回到開頭的問題:記憶和思考是什麼關係?博爾赫斯用富內斯告訴我們:完美的記憶會殺死思考。認知心理學告訴我們:人腦用組塊來平衡記憶和思考的負擔。現在DeepSeek用實驗資料告訴我們:最優的比例大約是75%計算 + 25%記憶。這個數字讓我覺得很有意思。它意味著,即使是"智能"系統,也不能全靠"聰明"——你得記住一些東西,才能把腦力用在更值得思考的地方。這篇論文給我最大的啟發是:有時候最好的最佳化不是讓計算更快,而是把計算變成查表。O(1)的查表永遠比O(n)的計算快。如果一個問題的答案是固定的、可以預先算好存起來的,那就沒必要每次都重新算。這個道理在電腦科學裡叫"空間換時間"。但在大模型領域,過去幾年大家都在卷MoE、卷Attention、卷更深的網路,似乎忘了還有"記憶"這條路。DeepSeek的Engram提醒我們:大模型不是越大越好、也不是越深越好,關鍵是把合適的任務分配給合適的模組。靜態知識 → 查表(Engram)動態推理 → 計算(MoE)就像人腦一樣:你不需要每次看到"1+1"都重新推導,直接從記憶裡調出"2"就行了。省下來的腦力,用來思考更有價值的問題。富內斯記住了一切,卻無法思考。純MoE模型能夠思考,卻要浪費算力重建記憶。最聰明的系統,是知道什麼該記住、什麼該思考的系統。 (花叔)
梁文鋒署名新論文,DeepSeek V4架構首曝?直擊Transformer致命缺陷
【新智元導讀】深夜,梁文鋒署名的DeepSeek新論文又來了。這一次,他們提出全新的Engram模組,解決了Transformer的記憶難題,讓模型容量不再靠堆參數!剛剛 ,DeepSeek新論文發佈了,梁文鋒署名!這一次,他們聯手北大直接瞄準了「記憶」,是Transformer最致命的關鍵難題。如今,MoE成為大模型主流架構,但本質仍是Transformer,因其缺少原生「知識尋找」機制,很多檢索能力被迫用大量計算去模擬。33頁論文中,團隊提出了 MoE 互補的「條件記憶」稀疏軸,並通過一種全新的Engram模組去實現:將經典雜湊N-gram嵌入現代化,提供近似O(1)的確定性知識尋找。論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf通過「稀疏分配」(Sparsity Allocation)建模,他們意外發現MoE與Engram之間,存在「U形scaling law」。這意味著,需調整兩者之間資源比例,讓計算與靜態記憶間找到最優權衡。沿著這個規律,將Engram擴展到27B參數後,並在嚴格等參數、等FLOPs下優於MoE基線。直白講,MoE只解決「怎麼少算」,Engram直接解決「別瞎算」。它把該查的交給 O(1)記憶,把注意力從局部瑣碎中解救出來,結果不只是更會背知識,同時推理、程式碼、數學一起變強。這可能成為稀疏LLM下一條主流路線,更重要的是,下一代V4或將整合這一新方法。不再苦算,給Transfomer插入「電子腦」當前,LLM越做越大已成為「鐵律」,一條熟悉的路徑是——把參數做大,把計算做「稀疏」。混合專家模型(MoE)就是典型代表,每個token只需啟動少量專家,用「條件計算」讓參數規模飆升,FLOPs還能控住。從Artifical Analysis榜單中可以看出,現有的稀疏大模型,主流都是MoE。但問題在於,Transformer缺少一種「原生的知識尋找」能力,所以很多本該像檢索一樣 O(1)解決的事,被迫用一堆計算去「模擬檢索」,效率很不划算。北大和DeepSeek新論文帶來一個很有意思的觀點:稀疏化不只服務「計算」,也可以服務「記憶」。由此,團隊提出了Engram,把語言建模中大量「固定、局部、刻板」的模式,交給一個可擴展的查表模組去承擔。這樣一來,可以讓Transformer主幹把注意力和深度用在更需要「組合與推理」的地方。語言建模,兩類任務論文中,作者明確將語言建模拆成兩類子任務:一部分任務需「組合與推理」:上下文關係、長程依賴、邏輯推理、鏈式推理。另一部分任務更像「模式檢索」:實體名、固定搭配、常見短語、語法片段、重複出現的局部結構後者的一個共同點很明顯,即它們往往局部、穩定、重複出現。若是用多層注意力和FFN去「算」他們,模型做得到,但成本極高,還會擠佔早期層的表達空間。為了識別實體「戴安娜,威爾士王妃」(Diana,Princess of Wales),LLM必須消耗多層注意力和FFN來逐步組合特徵,這個過程理論上是可以通過一次知識尋找操作來完成的。而Engram想做的事情很直接——把這類「局部靜態模式」轉移到一個廉價的知識尋找原語。它用確定性的查表快速給出候選資訊,再由上下文決定是否採納。Engram核心架構:暴力查表+記憶開關Engram一詞源於神經學,本意為「記憶痕跡」,是一種可擴展、可檢索的記憶單元。它可以用於儲存LLM在推理過程中,可能已接觸過的模式、資訊片段。可以將Engram理解為,把經典「雜湊N-gram嵌入」現代化,做成插在Transformer中間層的一個「可擴展查表模組」。如圖1所示,Engram是一個條件記憶模組,旨在通過從結構上將靜態模式儲存與動態計算分離開來,從而增強Transformer骨幹網路。形式化地說,給定輸入序列X=(x_1,...,x_T)和第l層的隱藏狀態H^(l)∈R^Txd,該模組分兩個功能階段來處理每個位置t:檢索和融合。接下來,一起看看Engram的關鍵設計點。基於雜湊N-gram的稀疏檢索第一階段主要負責將局部上下文對應到靜態的記憶條目中,這通過分詞器壓縮(tokenizer compression)和確定性雜湊檢索嵌入來實現。分詞器壓縮為了最大化語義密度,作者引入了一個詞表投影層。他們預先計算了一個滿射函數P:V→V',利用歸一化的文字等價性(比如NFKC、小寫化等手段)將原始Token ID坍縮成規範識別碼。這個過程能讓128k大小的分詞器有效詞表大小減少23%。多頭雜湊要想直接參數化所有可能的N-grams組合空間,計算上是行不通的。作者採用了一種基於雜湊的方法。為了減少沖突,給每個N-gram階數n分配了K個不同的雜湊頭。每個頭k通過一個確定性函數φ_n,k,將壓縮後的上下文對應到嵌入表E_n,k中的一個索引:上下文感知門控檢索到的嵌入e_t充當的是上下文無關的先驗資訊。不過,它們容易受到雜湊衝突或多義詞帶來的噪聲干擾。為了增強表達力並解決這種歧義,作者採用了一套受注意力機制啟發的上下文感知門控機制。他們利用當前的隱藏狀態h_t作為動態的Query,而檢索到的記憶e_t則作為Key和Value投影的來源:其中W_K,W_V是可學習的投影矩陣。為了保證梯度穩定性,他們在計算標量門α_t∈(0,1)之前,先對Query和Key進行RMSNorm處理:最後,為了擴大感受野並增強模型的非線性,作者還引入了一個短的深度因果摺積:門控可視化為了實證驗Engram是否按預期行為,作者在圖7中可視化了Engram-27B在各種樣本上的門控標量α_t。結果展示了,明顯的選擇性模式。門控機制在完成局部、靜態模式時一致地啟動(顯示為紅色)。在英文中,觀察到在多Token命名實體(如Alexander the Great、the Milky Way)和固定短語(如By the way,Princess of Wales)上有強烈的啟動。關鍵是,這種行為有效地跨語言泛化。在中文demo中,Engram識別並檢索獨特的習語表達和歷史實體,比如「四大發明」和「張仲景」。這些定性結果證實,Engram成功識別並處理了固定的語言依賴關係,有效地將Transformer骨幹網路從記憶這些靜態關聯中解放出來。系統效率:計算與儲存解耦擴展記憶增強型模型往往受限於GPU高頻寬記憶體(HBM)的容量。然而,Engram的確定性檢索機制天生就支援將參數儲存與計算資源解耦。與依賴執行階段隱藏狀態進行動態路由的混合專家模型(MoE)不同,Engram的檢索索引僅取決於輸入的Token序列。這種可預測性為訓練和推理提供了專門的最佳化策略,如圖2所示。訓練階段,為了容納大規模嵌入表,他們採用標準的模型平行策略,將表分片儲存在可用的GPU上。推理階段,這種確定性特性使得「預取和重疊」策略成為可能。U型Scaling Law,揭秘最優分配比Engram作為條件記憶的一種實現形式,在結構上與MoE專家提供的條件計算是互補的。這裡,主要研究了以下兩個關鍵問題:1. 有限約束下的分配2. 無限記憶體場景作者通過三個參數指標來分析MoE和Engram之間的權衡:P_tot:總可訓練參數,不包括詞表嵌和LM頭。P_act:每個Token的啟動參數量。這個數值決定了訓練成本(FLOPs)。P_sparse≜P_tot-P_act:非啟動參數,這代表了「免費」的參數預算,可用於在不增加計算成本的情況下擴展模型規模。作者將分配比例ρ∈[0,1]定義為分配給MoE專家容量的非啟動參數預算的比例:直觀來說:ρ=1對應純MoE模型(所有非啟動參數都是參與路由的專家)。ρ<1則減少路由專家的數量,並將釋放出來的參數重新分配給Engram嵌入槽位。結果與分析圖3(左)展示了驗證損失與分配比例ρ之間存在一致的U型關係。這種U型關係證實了兩個模組之間的結構互補性:MoE主導(ρ→100):模型缺乏用於儲存靜態模式的專用記憶體,迫使它只能通過增加深度和計算量來低效地重建這些模式。Engram主導(ρ→0%):模型失去了條件計算能力,從而損害了那些需要動態、上下文依賴推理的任務;在這種場景下,記憶無法替代計算。接下來,作者探索了一種互補的設定:激進的記憶體擴展。圖3(右)表明,擴充記憶體槽位的數量能帶來清晰且一致的驗證損失改善。在探索的範圍內,曲線遵循嚴格的冪律,這表明Engram提供了一種可預測的擴展調節手段:更大的記憶體能持續帶來收益,而無需額外的計算量。關於擴展效率關鍵的一點是:雖然OverEncoding的直接平均方法也能受益於更大的記憶體表,但Engram在相同的記憶體預算下解鎖了更大的擴展潛力。結合分配定律,這些結果驗證了——條件記憶可以作為稀疏容量的一個獨特且可擴展的維度,與MoE的條件計算相輔相成。爆殺傳統MoE,知識推理數學全面漲基於Engram架構以及實驗得出的分配定律,作者將Engram擴展到了數十億參數的等級,以此來驗證其在現實世界LLM預訓練中的有效性。他們訓練了以下四個模型:Dense-4B (總參數4.1B)MoE-27B (總參數26.7B)Engram-27B (總參數26.7B)Engram-40B (總參數39.5B)實驗結果首先,與先前的文獻結論一致,稀疏架構表現出了優於密集模型的擴展定律。在相同的訓練計算預算下,所有三個稀疏變體(MoE-27B,Engram-27B/40B)在所有基準測試中都顯著擊敗了等FLOPs的Dense-4B基線。更重要的是,Engram-27B始終優於等參數且等FLOPs的MoE-27B基線。有趣的是,這些收益並不僅限於知識密集型任務(MMLU:+3.0,MMLU-Pro:+1.8,CMMLU:+4.0)。在通用推理領域(BBH:+5.0,ARC-Challenge:+3.7,DROP:+3.3),以及程式碼和數學推理(HumanEval:+3.0,MBPP:+1.6,GSM8K:+2.2,MATH:+2.4)中,提升更為顯著。這些結果支援了他們的假設:引入一個專用的知識尋找原語所帶來的表示效率提升,要超過將所有稀疏預算都分配給條件計算的效果。最後,擴展到Engram-40B進一步降低了預訓練損失,並在大多數基準測試中提升了性能。可以觀察到,Engram-40B與基線之間的訓練損失差距在訓練後期仍在持續擴大,這表明擴大的記憶體容量在當前的Token預算內尚未完全飽和。注意力徹底解放,32k上下文性能狂飆通過將局部依賴建模的任務解除安裝給靜態尋找,Engram架構保留了寶貴的注意力容量來管理全域上下文。通過長上下文擴展訓練,作者證明了Engram在長程檢索和推理任務上帶來了顯著的提升。實驗結果1. 超越注意力機制的長上下文能力雖然注意力機制和位置編碼提供了處理上下文的結構基礎,但結果表明,長上下文性能並非僅由架構先驗決定。軌跡可見,長上下文性能與基座模型的通用建模能力本質上是掛鉤的。因此,嚴格的架構比較必須通過對齊基座模型的Loss來控制這一干擾變數,而不僅僅是簡單地對齊訓練步數。2. 受控設定下的架構優越性在上述原則的指導下,作者將Engram與MoE 基線進行了對比。當控制了基座能力後,Engram模組的效率增益就變得非常明顯:等Loss設定(46k vs. 基線):當對比預訓練Loss對齊的Engram-27B(46k)和完全訓練的MoE-27B(50k)時,Engram 展現出了顯著的增益。等FLOPs設定(50k vs. 基線):在標準的等計算預算下,Engram-27B(50k)進一步拉大了這一差距,確立了全面的最佳性能。極端設定(≈82%計算量):即便是提前停止訓練的Engram-27B(41k),在面對完全訓練的MoE-27B(50k)時依然極具競爭力。這凸顯了Engram架構內在的優越性。計算+記憶雙軸時代,直接融入V4?DeepSeek最新論文,打開了稀疏化的第二條路,是一條非常具有啟發性的路線:稀疏化模型進入了「計算+記憶」雙軸時代。MoE繼續負責動態計算與推理Engram負責儲存與檢索靜態知識與局部模式如上的U型scaling law證明了,稀疏預算全部給MoE,不是全域最優,留出一部分給Engram整體更強。1. 稀疏化目標變得更豐富了條件計算解決了FLOPs,條件記憶解決了容量與模式檢索,兩線均可互補。2. Engram收益帶有結構性它讓LLM知識能力暴漲同時,也間接提升了推理、數學、程式碼的性能,因為Transfomer主幹的深度和注意力計算效用更「值錢」了。3. 確定性查表,很適合系統最佳化模型預取和解除安裝很大,為「更大參數、同等吞吐」提供了一種可行的工程路線。如今,全網都在猜測,春節檔的V4有很大機率會把Engram融入主幹架構。回看此前DeepSeek路線:DeepSeek V2曾引入MLA,大幅提升了推理效率和KV快取友好度;DeepSeek V3持續最佳化MoE,實現無損負載平衡,訓練更穩定,成本更低。若是V4真的把Engram落地,那將不僅是參數規模的提升,更是架構範式的又一次躍遷。再加上,此前爆出,V4程式碼實力可能趕超Claude、ChatGPT系列。今年的春節大禮,真是讓人期待。(新智元)