梁文鋒署名新論文深夜炸場！DeepSeek-V4 新架構曝光：提出新的稀疏化方向，與MoE互補，長上下文能力顯著擴展，推理程式碼能力更強了

2026/01/13

•

一覺醒來，DeepSeek又發新論文了！

仔細一看作者，梁文鋒的名字也赫然出現在其中。

這篇論文題為《通過可擴展尋找實現的條件記憶：大型語言模型稀疏性的新維度》，重點在於提出了 Engram ——這是一種條件記憶模組，旨在通過將靜態模式儲存與動態計算在結構上分離，來增強 Transformer 骨幹網路。

論文的給出的實驗資料也相當驚豔：

1、Engram 在知識、推理、程式碼和數學任務上能夠帶來顯著性能提升，均超過純MoE模型。

2、存在U形擴展規律：純 MoE性能次優，將 20–25% 的稀疏參數分配給 Engram，效果最佳。

3、長上下文能力提升明顯，能釋放注意力用於全域模式和複雜推理。

程式碼和論文全文均已開源：

論文地址：

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

程式碼地址：

https://github.com/deepseek-ai/Engram

為什麼大語言模型需要 Engram ？

稀疏性（sparsity）一直是智能系統的核心設計原則，無論是生物大腦的神經回路，還是現代大語言模型都在用它來“省資源”。

在 AI 裡，這個思想最常見的體現就是混合專家模型（MoE）——也就是通過“條件計算”讓模型只啟動部分參數，從而在不增加太多計算量的情況下，把模型容量放大好幾倍。MoE 是目前推進參數規模和能力擴展的關鍵技術之一，DeepSeek 自家系列模型（如 DeepSeek V2、DeepSeek V3 等）也採用了先進的 MoE 方法進行擴展訓練。

但 MoE 也有其侷限性。語言本身非常複雜，至少包含兩類截然不同的任務：

組合式推理：需要深層、動態的神經計算，比如理解複雜句子結構或推理問題；
知識檢索：大量文字都是高度固定、重複的內容，比如命名實體、固定表達、程式化模式。

論文中提出，經典的𝑁-gram 模型已經證明，處理這種局部、重複的語言規律，用“查表”效率最高，幾乎不需要動深層神經網路。

然而現在的 Transformer 並沒有這種原生“查表能力”，所以模型每次要識別一個常見的多 token 實體，都要消耗好幾層注意力和前饋網路，這就像在執行階段重複重建一個靜態字典，既浪費計算，又佔用模型的“序列深度”，原本可以用來做更高級的推理。

Engram是如何實現的？

為瞭解決上述問題，DeepSeek提出了一個新的稀疏化方向——條件記憶，專門用來儲存和尋找固定知識。它和 MoE 的條件計算完全互補：

MoE 負責動態推理和組合邏輯；
Engram 負責靜態知識，直接查表就行。

Engram是神經科學中的一個核心概念，意為“記憶痕跡”，它是一個可擴展、可尋找的記憶模組，用於語言模型在推理過程中過去可能已經見過的模式或片段。

在具體實現上，Engram模組通過 O(1) 的尋找複雜度將靜態模式儲存從動態計算中分離出來，採用了四項核心技術：現代化的雜湊 N-gram 嵌入、分詞器壓縮、上下文門控以及多分支融合技術。

具體來看：

1、分詞器壓縮：預先計算對應函數，將語義等價但 ID 不同的詞項（如 "Apple" 和 "apple"）折疊為統一識別碼，將有效詞表大小減少了 23%。· 多頭

2、雜湊檢索：利用局部上下文（N-grams）作為鍵，通過雜湊函數在巨大的嵌入表中檢索靜態向量。

3、上下文感知門控：這是 Engram 的關鍵創新。利用當前層的隱藏狀態作為 Query，與檢索到的記憶體進行語義匹配。如果檢索內容與上下文矛盾，門控值會趨近於零，從而抑制雜湊衝突帶來的噪聲。

4、混合分枝整合：專門針對多分枝架構（如 mHC）進行了最佳化，通過參數共享策略（共享 Embedding 表和 Value 投影，保持獨立 Key 投影）平衡了表達能力與計算效率。

Engram 通常會插在 Transformer 的前期層，比如 Layer 2 或 Layer 6。這樣做的好處是：一方面可以把靜態模式的重建工作解除安裝掉，減輕骨幹網路的負擔；另一方面又能保留足夠的上下文資訊，讓門控機制更聰明地判斷那些記憶該用，那些該忽略。

Engram 的記憶容量並不是越大越好，它需要和 MoE 專家容量精心配比。按照 Sparsity Allocation（稀疏性分配）法則，合理劃分兩者比例，既保證大模型的參數利用率，又最大化計算效率——簡單來說，就是讓每一份記憶和每一位專家都發揮最大作用。

實驗結果很驚豔：推理、程式碼、長上下文能力顯著提升

論文把 Engram 擴展到 270 億參數，嚴格對齊 MoE 基線的參數和 FLOPs。結果顯示：

知識密集型任務（MMLU、CMMLU、MMLU-Pro）：性能提升 1.8–4.0 分不等；
通用推理任務（BBH、ARC-Challenge、DROP）：提升更明顯，最高 +5 分；
程式碼和數學能力（HumanEval、MATH、GSM8K）：平均提升 2–3 分。

值得注意的是，Engram 在知識密集型任務中明顯優於純 MoE 模型。原因很直觀：它把靜態模式的記憶交給了高效的尋找機制，而不是每次都用神經網路“重算”，減少了淺層的重複計算。

更重要的是，Engram也顯著擴展了長上下文能力，在長文字任務（如 LongPPL、RULER）表現突出，尤其是在多跳檢索、鏈式推理等場景中。例如 Multi-Query NIAH 指標從 84.2 提升到 97.0，Variable Tracking 從 77.0 提升到 89.0。

原因是 Engram 處理了大量局部、靜態的依賴，釋放了注意力機制去處理全域上下文，從而在長序列中更穩、更準。

此外，團隊還發現了 MoE 和 Engram 容量分配中的U形擴展規律：

當 Engram 記憶容量太小或太大時，性能都不理想
將 20–25% 的稀疏參數分配給 Engram，效果最佳

網友：Engram 可能是 DeepSeek-V4 型號的基礎技術！

在Reddit、X等平台上，DeepSeek的新論文也立刻引發了網友的熱烈討論。

其中最廣泛的一個猜測就是：Engram 可能是即將推出的 DeepSeek-V4 的基礎技術。

很多網友認為，Engram這個方法很有趣，其特點在於讓模型架構處理“記憶模式尋找”和“神經計算推理”兩塊職責分離，從而開啟了新的稀疏性方向。

也有網友表示，這種方法比線性注意力機制要好得多。

DeepSeek的深夜放大招，也讓部分網友直言：中國大模型團隊的創新性真令人害怕。 (51CTO技術堆疊)