梁文鋒署名新論文，DeepSeek V4架構首曝？直擊Transformer致命缺陷

2026/01/13

•

【新智元導讀】深夜，梁文鋒署名的DeepSeek新論文又來了。這一次，他們提出全新的Engram模組，解決了Transformer的記憶難題，讓模型容量不再靠堆參數！

剛剛，DeepSeek新論文發佈了，梁文鋒署名！

這一次，他們聯手北大直接瞄準了「記憶」，是Transformer最致命的關鍵難題。

如今，MoE成為大模型主流架構，但本質仍是Transformer，因其缺少原生「知識尋找」機制，很多檢索能力被迫用大量計算去模擬。

33頁論文中，團隊提出了 MoE 互補的「條件記憶」稀疏軸，並通過一種全新的Engram模組去實現：

將經典雜湊N-gram嵌入現代化，提供近似O(1)的確定性知識尋找。

論文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

通過「稀疏分配」（Sparsity Allocation）建模，他們意外發現MoE與Engram之間，存在「U形scaling law」。

這意味著，需調整兩者之間資源比例，讓計算與靜態記憶間找到最優權衡。

沿著這個規律，將Engram擴展到27B參數後，並在嚴格等參數、等FLOPs下優於MoE基線。

直白講，MoE只解決「怎麼少算」，Engram直接解決「別瞎算」。

它把該查的交給 O(1)記憶，把注意力從局部瑣碎中解救出來，結果不只是更會背知識，同時推理、程式碼、數學一起變強。

這可能成為稀疏LLM下一條主流路線，更重要的是，下一代V4或將整合這一新方法。

不再苦算，給Transfomer插入「電子腦」

當前，LLM越做越大已成為「鐵律」，一條熟悉的路徑是——

把參數做大，把計算做「稀疏」。

混合專家模型（MoE）就是典型代表，每個token只需啟動少量專家，用「條件計算」讓參數規模飆升，FLOPs還能控住。

從Artifical Analysis榜單中可以看出，現有的稀疏大模型，主流都是MoE。

但問題在於，Transformer缺少一種「原生的知識尋找」能力，所以很多本該像檢索一樣 O(1)解決的事，被迫用一堆計算去「模擬檢索」，效率很不划算。

北大和DeepSeek新論文帶來一個很有意思的觀點：稀疏化不只服務「計算」，也可以服務「記憶」。

由此，團隊提出了Engram，把語言建模中大量「固定、局部、刻板」的模式，交給一個可擴展的查表模組去承擔。

這樣一來，可以讓Transformer主幹把注意力和深度用在更需要「組合與推理」的地方。

語言建模，兩類任務

論文中，作者明確將語言建模拆成兩類子任務：

一部分任務需「組合與推理」：上下文關係、長程依賴、邏輯推理、鏈式推理。

另一部分任務更像「模式檢索」：實體名、固定搭配、常見短語、語法片段、重複出現的局部結構後者的一個共同點很明顯，即它們往往局部、穩定、重複出現。

若是用多層注意力和FFN去「算」他們，模型做得到，但成本極高，還會擠佔早期層的表達空間。

為了識別實體「戴安娜，威爾士王妃」（Diana，Princess of Wales），LLM必須消耗多層注意力和FFN來逐步組合特徵，這個過程理論上是可以通過一次知識尋找操作來完成的。

而Engram想做的事情很直接——

把這類「局部靜態模式」轉移到一個廉價的知識尋找原語。

它用確定性的查表快速給出候選資訊，再由上下文決定是否採納。

Engram核心架構：暴力查表+記憶開關

Engram一詞源於神經學，本意為「記憶痕跡」，是一種可擴展、可檢索的記憶單元。

它可以用於儲存LLM在推理過程中，可能已接觸過的模式、資訊片段。

可以將Engram理解為，把經典「雜湊N-gram嵌入」現代化，做成插在Transformer中間層的一個「可擴展查表模組」。

如圖1所示，Engram是一個條件記憶模組，旨在通過從結構上將靜態模式儲存與動態計算分離開來，從而增強Transformer骨幹網路。

形式化地說，給定輸入序列X=(x_1,...,x_T)和第l層的隱藏狀態H^(l)∈R^Txd，該模組分兩個功能階段來處理每個位置t：檢索和融合。

接下來，一起看看Engram的關鍵設計點。

基於雜湊N-gram的稀疏檢索

第一階段主要負責將局部上下文對應到靜態的記憶條目中，這通過分詞器壓縮（tokenizer compression）和確定性雜湊檢索嵌入來實現。

分詞器壓縮

為了最大化語義密度，作者引入了一個詞表投影層。

他們預先計算了一個滿射函數P:V→V'，利用歸一化的文字等價性（比如NFKC、小寫化等手段）將原始Token ID坍縮成規範識別碼。

這個過程能讓128k大小的分詞器有效詞表大小減少23%。

多頭雜湊

要想直接參數化所有可能的N-grams組合空間，計算上是行不通的。作者採用了一種基於雜湊的方法。

為了減少沖突，給每個N-gram階數n分配了K個不同的雜湊頭。

每個頭k通過一個確定性函數φ_n,k,將壓縮後的上下文對應到嵌入表E_n,k中的一個索引：

上下文感知門控

檢索到的嵌入e_t充當的是上下文無關的先驗資訊。不過，它們容易受到雜湊衝突或多義詞帶來的噪聲干擾。

為了增強表達力並解決這種歧義，作者採用了一套受注意力機制啟發的上下文感知門控機制。

他們利用當前的隱藏狀態h_t作為動態的Query，而檢索到的記憶e_t則作為Key和Value投影的來源：

其中W_K，W_V是可學習的投影矩陣。

為了保證梯度穩定性，他們在計算標量門α_t∈(0,1)之前，先對Query和Key進行RMSNorm處理：

最後，為了擴大感受野並增強模型的非線性，作者還引入了一個短的深度因果摺積：

門控可視化

為了實證驗Engram是否按預期行為，作者在圖7中可視化了Engram-27B在各種樣本上的門控標量α_t。

結果展示了，明顯的選擇性模式。門控機制在完成局部、靜態模式時一致地啟動（顯示為紅色）。

在英文中，觀察到在多Token命名實體（如Alexander the Great、the Milky Way）和固定短語（如By the way，Princess of Wales）上有強烈的啟動。

關鍵是，這種行為有效地跨語言泛化。

在中文demo中，Engram識別並檢索獨特的習語表達和歷史實體，比如「四大發明」和「張仲景」。

這些定性結果證實，Engram成功識別並處理了固定的語言依賴關係，有效地將Transformer骨幹網路從記憶這些靜態關聯中解放出來。

系統效率：計算與儲存解耦

擴展記憶增強型模型往往受限於GPU高頻寬記憶體（HBM）的容量。

然而，Engram的確定性檢索機制天生就支援將參數儲存與計算資源解耦。

與依賴執行階段隱藏狀態進行動態路由的混合專家模型（MoE）不同，Engram的檢索索引僅取決於輸入的Token序列。

這種可預測性為訓練和推理提供了專門的最佳化策略，如圖2所示。

訓練階段，為了容納大規模嵌入表，他們採用標準的模型平行策略，將表分片儲存在可用的GPU上。

推理階段，這種確定性特性使得「預取和重疊」策略成為可能。

U型Scaling Law，揭秘最優分配比

Engram作為條件記憶的一種實現形式，在結構上與MoE專家提供的條件計算是互補的。

這裡，主要研究了以下兩個關鍵問題：

1. 有限約束下的分配

2. 無限記憶體場景

作者通過三個參數指標來分析MoE和Engram之間的權衡：

P_tot:總可訓練參數，不包括詞表嵌和LM頭。
P_act：每個Token的啟動參數量。這個數值決定了訓練成本（FLOPs）。
P_sparse≜P_tot-P_act：非啟動參數，這代表了「免費」的參數預算，可用於在不增加計算成本的情況下擴展模型規模。

作者將分配比例ρ∈[0,1]定義為分配給MoE專家容量的非啟動參數預算的比例：

直觀來說：

ρ=1對應純MoE模型（所有非啟動參數都是參與路由的專家）。

ρ＜1則減少路由專家的數量，並將釋放出來的參數重新分配給Engram嵌入槽位。

結果與分析

這種U型關係證實了兩個模組之間的結構互補性：

MoE主導（ρ→100）：模型缺乏用於儲存靜態模式的專用記憶體，迫使它只能通過增加深度和計算量來低效地重建這些模式。

Engram主導（ρ→0%）：模型失去了條件計算能力，從而損害了那些需要動態、上下文依賴推理的任務；在這種場景下，記憶無法替代計算。

接下來，作者探索了一種互補的設定：激進的記憶體擴展。

圖3（右）表明，擴充記憶體槽位的數量能帶來清晰且一致的驗證損失改善。

在探索的範圍內，曲線遵循嚴格的冪律，這表明Engram提供了一種可預測的擴展調節手段：更大的記憶體能持續帶來收益，而無需額外的計算量。

關於擴展效率關鍵的一點是：雖然OverEncoding的直接平均方法也能受益於更大的記憶體表，但Engram在相同的記憶體預算下解鎖了更大的擴展潛力。

結合分配定律，這些結果驗證了——

條件記憶可以作為稀疏容量的一個獨特且可擴展的維度，與MoE的條件計算相輔相成。

爆殺傳統MoE，知識推理數學全面漲

基於Engram架構以及實驗得出的分配定律，作者將Engram擴展到了數十億參數的等級，以此來驗證其在現實世界LLM預訓練中的有效性。

他們訓練了以下四個模型：

Dense-4B （總參數4.1B）
MoE-27B （總參數26.7B）
Engram-27B （總參數26.7B）
Engram-40B （總參數39.5B）

實驗結果

首先，與先前的文獻結論一致，稀疏架構表現出了優於密集模型的擴展定律。

在相同的訓練計算預算下，所有三個稀疏變體（MoE-27B，Engram-27B/40B）在所有基準測試中都顯著擊敗了等FLOPs的Dense-4B基線。

更重要的是，Engram-27B始終優於等參數且等FLOPs的MoE-27B基線。

有趣的是，這些收益並不僅限於知識密集型任務（MMLU：+3.0，MMLU-Pro：+1.8，CMMLU：+4.0）。

在通用推理領域（BBH：+5.0，ARC-Challenge：+3.7，DROP：+3.3），以及程式碼和數學推理（HumanEval：+3.0，MBPP：+1.6，GSM8K：+2.2，MATH：+2.4）中，提升更為顯著。

這些結果支援了他們的假設：引入一個專用的知識尋找原語所帶來的表示效率提升，要超過將所有稀疏預算都分配給條件計算的效果。

最後，擴展到Engram-40B進一步降低了預訓練損失，並在大多數基準測試中提升了性能。

可以觀察到，Engram-40B與基線之間的訓練損失差距在訓練後期仍在持續擴大，這表明擴大的記憶體容量在當前的Token預算內尚未完全飽和。

注意力徹底解放，32k上下文性能狂飆

通過將局部依賴建模的任務解除安裝給靜態尋找，Engram架構保留了寶貴的注意力容量來管理全域上下文。

通過長上下文擴展訓練，作者證明了Engram在長程檢索和推理任務上帶來了顯著的提升。

實驗結果

1. 超越注意力機制的長上下文能力

雖然注意力機制和位置編碼提供了處理上下文的結構基礎，但結果表明，長上下文性能並非僅由架構先驗決定。

軌跡可見，長上下文性能與基座模型的通用建模能力本質上是掛鉤的。

因此，嚴格的架構比較必須通過對齊基座模型的Loss來控制這一干擾變數，而不僅僅是簡單地對齊訓練步數。

2. 受控設定下的架構優越性

在上述原則的指導下，作者將Engram與MoE 基線進行了對比。當控制了基座能力後，Engram模組的效率增益就變得非常明顯：

等Loss設定（46k vs. 基線）：當對比預訓練Loss對齊的Engram-27B（46k）和完全訓練的MoE-27B（50k）時，Engram 展現出了顯著的增益。

等FLOPs設定（50k vs. 基線）：在標準的等計算預算下，Engram-27B（50k）進一步拉大了這一差距，確立了全面的最佳性能。

極端設定（≈82%計算量）：即便是提前停止訓練的Engram-27B（41k），在面對完全訓練的MoE-27B（50k）時依然極具競爭力。這凸顯了Engram架構內在的優越性。

計算+記憶雙軸時代，直接融入V4？

DeepSeek最新論文，打開了稀疏化的第二條路，是一條非常具有啟發性的路線：

稀疏化模型進入了「計算+記憶」雙軸時代。

MoE繼續負責動態計算與推理

Engram負責儲存與檢索靜態知識與局部模式

如上的U型scaling law證明了，稀疏預算全部給MoE，不是全域最優，留出一部分給Engram整體更強。

1. 稀疏化目標變得更豐富了

條件計算解決了FLOPs，條件記憶解決了容量與模式檢索，兩線均可互補。

2. Engram收益帶有結構性

它讓LLM知識能力暴漲同時，也間接提升了推理、數學、程式碼的性能，因為Transfomer主幹的深度和注意力計算效用更「值錢」了。

3. 確定性查表，很適合系統最佳化

模型預取和解除安裝很大，為「更大參數、同等吞吐」提供了一種可行的工程路線。

如今，全網都在猜測，春節檔的V4有很大機率會把Engram融入主幹架構。

回看此前DeepSeek路線：

DeepSeek V2曾引入MLA，大幅提升了推理效率和KV快取友好度；

DeepSeek V3持續最佳化MoE，實現無損負載平衡，訓練更穩定，成本更低。

若是V4真的把Engram落地，那將不僅是參數規模的提升，更是架構範式的又一次躍遷。

再加上，此前爆出，V4程式碼實力可能趕超Claude、ChatGPT系列。

今年的春節大禮，真是讓人期待。

(新智元)