DeepSeek-V4核心公開?梁文鋒署名新論文發佈,實習生挑大樑

這一記憶架構有望成為新的Scaling路徑。

智東西1月13日報導,昨晚,DeepSeek又開源了,還發佈一篇新論文。這次,他們提出了一種全新的“條件記憶”機制——Engram,旨在讓MoE模型在保持巨量參數的同時,更高效地處理語言資訊。

DeepSeek創始人兼CEO梁文鋒、北大王選電腦研究所的趙東岩和張輝帥教授都在論文中署名。

Engram架構的核心優勢在於以更低成本實現更優性能。訓練計算量較MoE減少18%的情況下,在32768個token的長上下文任務中,Engram在RULER基準測試中反超同參數量MoE模型。

並且,其淺層部署的記憶模組接管局部依賴與靜態知識儲存,為注意力機制騰出容量以專注全域推理,1000億參數記憶表解除安裝後使H800推理吞吐量降幅不足3%。

DeepSeek還觀察到,增加記憶槽位數量能持續、穩定地降低驗證損失,這意味著Engram提供了一個可預測的Scaling新手段:增大記憶容量持續帶來收益,而無需增加計算量。

那這種效果究竟是如何實現的呢?如今的MoE模型雖然在計算層面做到了稀疏化,但是它處理資訊的方式仍然很費勁:有些老生常談的事實性內容,比如常見的名字、公式或固定表達,模型卻要重複計算,非常耗時間。

DeepSeek的做法是,把這些“固定知識”提前整理成一個可以快速查詢的表格,這樣就能把更多精力放在真正需要深度思考的任務上,比如複雜推理或者理解長段文字。

值得一提的是,論文的第一作者Xin Cheng(程信)目前在北京大學智能學院攻讀博士學位,主要研究大模型的高效參數化方法和機制。他同時也在DeepSeek工作,R1、V3的研究都參與了,很有可能是實習生。

在論文摘要中,DeepSeek提出,條件記憶(conditional memory)將成為下一代稀疏模型中不可或缺的建模原語。這或許意味著DeepSeek-V4有望整合條件記憶機制,實現知識高效檢索與推理能力的飛躍。

論文連結:

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

項目連結:

https://github.com/deepseek-ai/Engram

01. Transformer缺乏知識檢索機制 經典𝑁-gram架構提供啟發

在正式介紹新型記憶機制前,DeepSeek團隊首先提出了一項重要的觀察。

稀疏性已經成為了智能系統的核心設計原則,在大模型領域,其具體實現就是MoE(混合專家模型)。但是,現有的標準Transformer本質上沒有真正的知識檢索機制,導致現有大模型不得不在早期層中通過昂貴計算來“重建”靜態知識,浪費了寶貴的模型深度。

因此,DeepSeek認為有必須要提出第二個與條件計算互補的稀疏維度:條件記憶。條件記憶則依賴稀疏的尋找操作,為固定知識檢索靜態嵌入表示,適合命名實體、固定表達等靜態且高度模式化的語言表示。

DeepSeek他們向經典的𝑁-gram結構引入了現代化的條件記憶模組,包括分詞器壓縮、多頭雜湊、上下文化門控以及多分支整合等,最終提出了Engram。

下圖是Engram的基本架構,通俗地說,Engram就是給Transformer加個外接記憶庫,並把當前token附近的一小段內容,用快速、省參數的方式,去一個超大的靜態記憶表裡查到對應內容。

02. 多管齊下打造新型記憶機制 天然支援參數儲存與計算資源解耦

這個記憶庫該如何具體實現呢?

首先,DeepSeek團隊對分詞器(tokenizer)進行了壓縮。普通的分詞器會把Apple、apple、APPLE這些單詞當成完全不同的東西,但是對人來說其實差別不大。

Engram先把詞表清洗了一遍,全部轉小寫,Unicode規範化(NFKC)。最後,一個原本128k的詞表,實際只剩下77%,有23%的token ID被合併了。這讓N-gram記憶的密度明顯提升了。

不過,直接對所有𝑁-gram進行建模是不可行的,參數會指數級增長。DeepSeek團隊引入了多頭雜湊記憶(Multi-Head Hashing),在固定參數預算下近似大規模𝑁-gram表,降低雜湊碰撞引入的語義噪聲。

上述檢索機制提供的記憶是靜態的,缺乏上下文適應性,易受歧義與衝突的影響,這一問題可通過上下文感知門控(Context-aware Gating)來解決。為進一步擴大感受野並增強非線性建模能力,模型還引入了一個深度可分離因果摺積。

DeepSeek團隊採用多分支架構作為默認主幹網路,而非標準的單流殘差連接(這是何愷明此前的研究成果)。多分支架構把殘差流擴展為M個平行分支,但共享記憶表和輸出對應。這樣設計的好處是,它可以一次性用矩陣乘法搞定多條分支的計算,GPU用得非常高效。

Engram的核心優勢在於記憶檢索完全依賴輸入token,而非執行階段的隱藏狀態。這種確定性機制實現了參數儲存與計算資源的解耦,支援訓練和推理階段採取專門的最佳化策略:

▲Engram訓練和推理階段可採用不同最佳化策略

訓練最佳化:通過將超大嵌入表分片至多張GPU,利用All-to-All通訊按需收集對應行,使總記憶容量隨GPU數量線性擴展。

推理最佳化:由於可提前確定待查詢記憶,系統可從主機記憶體非同步預取,同時在前幾層計算期間隱藏通訊延遲,實現預取與計算的重疊,避免GPU停頓。

硬體-演算法協同設計:Engram在模型中的放置位置需平衡建模性能與系統延遲。較早引入有助於局部模式重建,較深放置則延長延遲隱藏窗口,需兼顧二者最佳化。

層次化儲存:基於自然語言𝑁-gram的Zipf分佈特性,可採用多級快取策略,高頻嵌入存放於GPU HBM或主機DRAM,低頻嵌入置於SSD。這使Engram能擴展至超大規模記憶,同時保持低延遲與高效率。

03. 兩個模組資源二八分成 互補性獲驗證

接下來,DeepSeek團隊研究了另一個關鍵問題——條件計算和條件記憶這兩種稀疏模式該怎麼配合,才能發揮最佳效果?

實驗發現,在有限資源下,把所有空閒參數都給MoE(也就是純MoE模型)不是最優解,最好的效果是大約75%-80%給MoE,其餘20%-25%給Engram。

如果完全由MoE主導,模型缺乏靜態模式的專用記憶,只能靠計算反覆重建,效率低。而如果完全由Engram主導,模型失去了動態計算能力,無法應對需要上下文理解的任務。

這條U型曲線,驗證了兩個模組的結構互補性:

前面這一實驗探索的是在固定參數參數預算下的分配最佳化,那麼如果把記憶大幅度擴展,會發生什麼?

實驗發現,在MoE主幹網路不變的情況下,附加Engram表。結果顯示,增加記憶槽位數量能持續、穩定地降低驗證損失。

在探索範圍內,曲線嚴格遵循冪律(對數空間線性)。DeepSeek認為,這意味著Engram提供了一個可預測的Scaling新手段:增大記憶持續帶來收益,而無需增加計算量。

同時,相比別的只做簡單平均的記憶方法(比如OverEncoding),Engram的Scaling潛力更大,性能提升更明顯。

這些結果驗證了條件記憶作為稀疏容量的獨立可擴展維度,與MoE的條件計算形成互補。

04. 架構訓練計算量少18% 性能反超MoE

驗證了架構、技術路徑的可行性,DeepSeek團隊的下一步就是進行大規模的Scale,驗證這種方式在實際語言模型預訓練中的有效性。

具體而言,DeepSeek訓練了四個模型:Dense-4B、MoE-27B、Engram-27B、Engram-40B。訓練時的語料庫、分詞器都使用了相同的設定,而後兩個模型引入了Engram機制,用於研究在模型大小不變和Engram進一步擴展後的特性。

結果顯示,在相同算力和參數量的情況下,Engram-27B能在MoE-27B的基線上去取得持續提升,並且這些增益並不僅限於知識密集型任務。通用推理任務、程式碼與數學推理任務從中得到的提升甚至更為顯著,

這些結果支援了DeepSeek的假設:引入專門的知識尋找原語(knowledge lookup primitive)能夠提升表示效率,這超出了僅將整個稀疏預算用於條件計算所能達到的效果。

最後,將模型擴展到Engram-40B進一步降低了預訓練損失,並在大多數基準上提升了性能。雖然它尚未在每個任務上嚴格優於Engram-27B,但這很可能是訓練不足的結果。

DeepSeek團隊觀察到,在訓練結束時,Engram-40B與基線模型之間的訓練損失差距仍在擴大,這表明在當前的token預算下,擴展的記憶容量尚未完全發揮其潛力。

接著,DeepSeek團隊用MoE-27B與Engram-27B作為對照組,均使用了5000步(約300億token)的高品質長上下文資料進行微調,然後他們採用DeepSeek-V3中的YaRN技術,將模型的上下文窗口擴展到32768個token

實驗結果顯示,由於Engram模組接管了局部依賴的建模,它為模型的注意力機制騰出了容量,使其能更專注於處理全域上下文。因此,Engram架構在處理超長文字和長程推理任務上比傳統架構表現更好,具體表現如下:

在架構方面,在排除了基礎模型能力差異的情況下,Engram-27B依然顯著優於MoE-27B。

在複雜的檢索任務RULER基準測試中,Engram表現出了更強的長程依賴處理能力。例如在多查詢Multi-Query NIAH任務中,Engram精準率大幅領先。

▲長上下文性能比較基準測試

計算效率方面,即使只用了82%的預訓練計算量,Engram-27B的表現依然能與完全訓練的MoE-27B基線模型持平,甚至在RULER基準上實現超越

這證明了Engram架構具有極高的訓練效率,能用更少的計算資源達到同等或更好的長上下文性能。

05. Engram淺層效果更好 對事實性知識影響較大

而後,DeepSeek團隊對Engram模型進行了深入的機制分析和消融實驗。核心目的是回答“Engram到底是如何工作的?它的各個元件有什麼用?”這兩個問題。

首先是模型深度與表徵分析,DeepSeek團隊通過LogitLens分析顯示,Engram模型在早期層就能更快地收斂到最終預測結果,因為它通過查表直接獲取了靜態知識,不需要像傳統模型那樣通過多層計算來重組基礎特徵。

▲表徵對齊和收斂速度分析

中心核對齊分析發現,Engram的淺層在表徵上與純MoE模型的深層高度相似。這意味著Engram讓模型在更少的層數內完成了同等複雜的特徵提取,在功能上等同於增加了模型的有效深度

在架構消融實驗中,研究人員發現將Engram模組放在較淺的層,如第2層,效果最好。這樣可以儘早解除安裝模型背負的局部模式重建任務,讓後面的深層網路專注於複雜的全域推理。

▲結構消融實驗結果

研究人員還發現,分支特定融合、上下文感知門控和分詞器壓縮對性能影響最大,去掉任何一個都會導致驗證損失顯著上升,而次要元件輕量級摺積層的影響則較小。

如果把Engram“關掉”,模型在那些任務上會崩潰?為回答這個問題,DeepSeek團隊進行了功能敏感性分析。他們測試在推理時強制遮蔽Engram模組的輸出,觀察性能下降情況。

結果顯示,在事實性知識方面,模型性能災難性下降,僅保留約29-44%的性能。這證明Engram是模型儲存參數化知識的主要倉庫。

️但在閱讀理解方面,模型性能幾乎不受影響,保留約81-93%。這證明涉及上下文推理的任務主要由Transformer的骨幹網路處理,而非記憶模組。

▲功能敏感性分析結果

在系統效率與推理吞吐上,由於Engram的訪問模式是預先可知的,不像MoE需要根據隱藏狀態動態路由,系統可以提前從記憶體中預取資料。

即使將一個1000億參數的Engram表解除安裝到主機記憶體,其在H800硬體上的推理吞吐量下降也不到3%,這證明了Engram能以極低的代價實現參數量的大幅擴展。

此外,Engram的門控機制會在遇到靜態模式時被啟動,即變紅。具體表現為當模型遇到多詞實體、固定短語或中文成語以及歷史名詞時,Engram會被啟動進行檢索;而在處理需要動態推理的文字時,其門控則保持關閉。

▲門控機制啟動

06. Engram內化記憶 與Attention機制互補

最後,DeepSeek團隊將Engram與MoE、外部記憶與檢索增強、長上下文建模以及表徵學習與知識蒸餾進行了對比。

傳統MoE是Engram的“前輩”,它通過稀疏啟動來擴展模型容量。Engram解決了傳統MoE在超大規模下路由成本高、訓練不穩定的問題,提供了一種更高效的擴展路徑。

對比外部記憶與檢索增強(RAG)這類工作通常是在模型外部掛一個資料庫,在推理時即時檢索。而Engram是內化的記憶,它在預訓練階段就把海量知識消化並固化到了參數化的記憶表中,這使得它比傳統RAG具有更低的延遲和更強的知識一致性

長上下文建模這一領域的研究則主要關注如何讓模型的注意力機制處理更長的序列。DeepSeek團隊強調,Engram並不是要取代注意力機制,而是與之互補。Engram負責處理局部的、靜態的上下文依賴,從而讓注意力機制能更專注於處理全域的、動態的長程依賴。

對於表徵學習與知識蒸餾來說,Engram提供了一種新的視角——將模型的知識解耦為通用推理能力和特定知識庫。

這種解耦結構天然適合進行知識蒸餾,因為未來的研究團隊可以選擇只蒸餾輕量級的骨幹網,而將龐大的知識庫作為可插拔的附件。

07. 結語:Engram將實現 低成本超大規模擴展,逼近AGI

Engram架構的核心思想就是通過解耦來實現效率與性能的平衡。

它成功地將“局部模式重建”從複雜的Transformer骨幹網中剝離出來,交由專門的記憶模組處理。這種設計使得模型在保持強大推理能力的同時,能夠以極低的成本擴展到超大規模。

DeepSeek團隊認為,Engram不僅僅是一個學術上的新模型,它具有很強的工程落地價值。

由於記憶模組的訪問具有確定性,Engram可以進行高效的預取和硬體最佳化,非常適合大規模部署。

而且,既然知識集中在Engram表中,未來或許可以通過直接修改這個表來修正模型的知識錯誤,而無需進行昂貴的微調。

但目前的Engram是在預訓練時“固化”的。未來的一個重要方向是讓這個記憶模組具備線上學習或動態更新的能力,讓模型能即時獲取新知識。

例如,未來的研究可以將Engram擴展到多模態領域,建立一個通用的多模態記憶庫。研究人員還可以繼續探索是否能將模型解耦為更多專用模組,以進一步逼近AGI(通用人工智慧)的效率。 (智東西)