梁文鋒署名！DeepSeek再發炸裂論文：提出“條件記憶”新範式，徹底打破GPU推理視訊記憶體牆

2026/01/13

•

當業界紛紛湧入MoE（Mixture-of-Experts）架構以實現高效擴容時，一個根本性的低效問題卻始終存在：

強大的Transformer模型，本質上缺乏一種原生的“知識尋找”機制。它們被迫通過複雜的“動態計算”來模擬簡單的“靜態檢索”過程。例如，為了識別“戴安娜王妃”這樣的實體，模型需要消耗多層注意力與前饋網路資源，逐步建構其內部表徵。這無異於用高射炮打蚊子，浪費了寶貴的計算深度

來自DeepSeek 的最新論文，為解決這一難題提出了一個全新的稀疏性維度：條件記憶（Conditional Memory）

他們推出名為Engram的新模組，它以O(1)的恆定時間複雜度實現了可擴展的知識尋找，作為對MoE“條件計算”的有力補充。

通過系統性研究，團隊揭示了一條指導兩種稀疏性權衡的U形縮放定律。依據該定律，他們建構了一個270億參數的Engram模型，在總參數量與計算量（FLOPs）完全相同的情況下，其性能全面超越了純MoE基線。

令人矚目的是，這種提升不僅體現在知識密集型任務上（MMLU +3.4），更在通用推理（BBH +5.0）、程式碼（HumanEval +3.0）和數學（MATH +2.4）等領域取得了更大的收益。

機理分析表明，Engram通過接管早期層的靜態模式重構任務，有效“加深”了網路，為複雜推理釋放了更多計算資源。同時，它將局部依賴關係的處理委託給尋找操作，從而解放了注意力機制，使其能更專注於全域上下文，極大地提升了模型的長文字處理能力（如Multi-Query NIAH任務得分從84.2提升至97.0）。

更重要的是，Engram的設計充分考慮了系統效率。其確定性的尋找機制支援在執行階段從低速的主機記憶體預取資料，幾乎不產生額外開銷，從而打破了GPU視訊記憶體的瓶頸。

論文地址：https://github.com/deepseek-ai/Engram

語言模型的雙重任務：計算與檢索

語言建模包含兩種性質截然不同的子任務：一是需要深度動態計算的組合推理，二是對本地、靜態、高度模式化的文字片段（如命名實體、慣用語）的知識檢索。

經典的N-gram模型證明了，後一種任務通過廉價的尋找操作就能高效完成。然而，當前的LLM架構缺少這種原生尋找功能，導致它們必須通過計算來模擬檢索，造成了資源浪費。

為了讓模型架構與語言訊號的這種二元性對齊，DeepSeek提出了“條件記憶”這一新的稀疏軸，與MoE的“條件計算”形成互補。

• 條件計算 (MoE)：稀疏啟動參數，處理動態邏輯。

• 條件記憶 (Engram)：稀疏尋找操作，檢索靜態知識。

研究團隊提出的Engram模組，正是這一理念的具體實現。它以經典的N-gram結構為基礎，並融入了分詞器壓縮、多頭雜湊、上下文門控和多分支整合等現代化改造。

Engram架構：兩階段實現高效尋找與融合

Engram作為一個條件記憶模組，旨在將靜態模式儲存與動態計算在結構上分離。其工作流程分為兩個核心階段：檢索與融合

1. 稀疏檢索：通過雜湊N-grams定位記憶

首先，模組需要將局部上下文對應到靜態記憶條目。這包括兩個步驟：

分詞器壓縮 (Tokenizer Compression)：標準的分詞器常為語義等價的詞分配不同ID（如Apple vs. apple）。為提升語義密度，Engram首先通過一個預計算的對應函數，將原始Token ID壓縮為規範化的ID。

多頭雜湊 (Multi-Head Hashing)：直接參數化所有N-gram組合是不現實的。Engram採用基於雜湊的方法，為每個N-gram階數（如2-gram, 3-gram）配備K個獨立的雜湊頭，將上下文雜湊到不同嵌入表中的索引，以降低衝突。最終，所有檢索到的嵌入向量被拼接成一個記憶向量et。

2. 上下文感知門控與融合

檢索到的記憶向量et是靜態的、上下文無關的先驗知識，可能存在雜湊衝突或歧義。為瞭解決這個問題，Engram引入了受注意力機制啟發的上下文感知門控

它將當前層的隱藏狀態ht（已聚合了全域資訊）作為Query，將記憶向量et投影為Key和Value。通過計算Query與Key的相似度，生成一個門控標量αt。這個標量決定了檢索到的資訊與當前上下文的匹配程度：如果匹配度低，門控值趨近於0，有效抑制噪聲。

最後，通過門控的Value向量會經過一個輕量級的深度因果摺積，以擴大感受野並增強非線性。最終的輸出通過殘差連接融入到Transformer主幹網路中

核心發現：稀疏性分配的U形定律

為了量化MoE（計算）與Engram（記憶）之間的協同作用，研究人員提出了稀疏性分配問題：在固定的總參數和計算預算下，應如何在這兩者之間分配“稀疏容量”？

他們定義了一個分配比例ρ，其中ρ=1代表純MoE模型，ρ<1則代表將一部分原用於MoE專家的參數轉而分配給Engram的嵌入表。

實驗在兩個不同的計算規模（2e20和6e20 FLOPs）下進行，結果揭示了一條清晰的U形縮放定律：

MoE主導 (ρ → 100%)：模型缺乏專門的記憶模組，被迫低效地通過計算重構靜態模式

Engram主導 (ρ → 0%)：模型喪失了條件計算能力，無法處理需要動態、上下文相關推理的任務

最佳平衡點：將大約20%-25%的稀疏參數預算分配給Engram時，模型性能達到最優。

這一穩定的U形關係證明了條件計算和條件記憶在結構上的互補性。此外，在“無限記憶體”設定下，單獨增加Engram的記憶槽數量，模型性能也呈現出可預測的對數線性提升，證明了Engram是一個有效的、可獨立擴展的性能提升手段。

大規模預訓練：性能全面超越，推理提升更顯著

基於上述定律，研究團隊訓練了一系列模型，並與嚴格對等的基線進行比較。所有模型均在262B Tokens上訓練，並保持啟動參數量（3.8B）一致。

Engram-27B：總參數26.7B，與MoE-27B基線相同。它將MoE專家的數量從72個減少到55個，並將節約的參數（5.7B）用於建構Engram記憶模組。

Engram-40B：在Engram-27B基礎上，進一步將Engram記憶擴展至18.5B參數，總參數達到39.5B。

實驗結果（Table 1）表明：

1.稀疏模型優於密集模型：所有稀疏變體（MoE與Engram）均顯著優於同等計算量的Dense-4B模型

2.Engram全面超越MoE：在參數和計算量完全匹配的情況下，Engram-27B在所有評估維度上都優於MoE-27B

3.推理與程式碼數學領域增益尤為突出：雖然Engram在知識任務（如MMLU +3.4, CMMLU +4.0）上表現出色，但其在通用推理（BBH +5.0, ARC-Challenge +3.7）和程式碼數學（HumanEval +3.0, MATH +2.4）上的優勢更為顯著

這證明了引入專用的知識尋找原語，能夠極大地提升模型的表徵效率，其益處遠不止於知識檢索本身。

Engram如何工作？機理分析揭示“有效深度”增加

為了探究Engram的內部工作機制，研究團隊使用了LogitLens和CKA（中心核對齊）兩種可解釋性工具。

加速預測收斂：LogitLens分析顯示，與MoE基線相比，Engram模型的淺層網路就能生成更接近最終預測結果的表徵（KL散度更低）。這表明，通過直接尋找知識，Engram減少了模型逐步建構特徵所需的計算步驟

提升有效深度：CKA分析則揭示了Engram模型與MoE模型之間的層間表徵相似性。結果顯示，Engram模型的淺層（如第5層）在功能上等價於MoE模型的深層（如第12層）

結論很明確：Engram通過顯式尋找繞過了早期的特徵組合階段，在功能上等價於增加了模型的有效深度

系統效率：解耦計算與儲存，打破GPU視訊記憶體牆

Engram的一個關鍵優勢在於其系統設計。與依賴執行階段隱藏狀態進行動態路由的MoE不同，Engram的尋找索引完全由輸入Token序列決定，具有嚴格的確定性

這一特性使得在推理時可以實現高效的 預取-重疊（prefetch-and-overlap） 策略：

系統可以在GPU計算前序Transformer塊的同時，非同步地從大容量、低成本的主機記憶體（DRAM）甚至NVMe SSD中預取後續Engram層所需的嵌入。

實驗在一個1000億參數的Engram層上進行了驗證。結果顯示，將整個嵌入表解除安裝到主機記憶體，所帶來的吞吐量懲罰峰值僅為2.8%，幾乎可以忽略不計。這證明了Engram能夠有效繞過GPU視訊記憶體限制，以極小的開銷實現參數規模的激進擴展。

這意味著可以用較少/較低配的GPU（視訊記憶體有限）來運行一個總參數量極大的模型。這大大降低了模型的部署和使用成本

寫在最後

DeepSeek AI的Engram工作，為大模型稀疏化設計開闢了一個全新的、與MoE互補的軸線——條件記憶。通過將靜態知識檢索從動態計算中剝離，Engram不僅在知識任務上取得優勢，更在推理、程式碼、數學等複雜任務上實現了超預期的性能提升。

這項研究的核心貢獻包括：

1. 提出Engram模組：一個可擴展、系統高效的條件記憶實現。

2. 發現稀疏分配的U形定律：為平衡計算與記憶提供了理論指導。

3. 驗證了架構優勢：在同等參數和計算成本下，混合模型全面超越純MoE模型。

4. 揭示了工作機理：Engram通過提升模型的“有效深度”來最佳化表徵效率。

研究人員認為，條件記憶應成為下一代稀疏大模型不可或缺的建模原語，為建構更強大、更高效的智能系統鋪平了道路。

我彷彿已經看到了v4的影子 (AI寒武紀)

科技