Google剛掀了模型記憶的桌子，輝達又革了注意力的命

2026/01/20

•

近期，Google的 Nested Learning 引發了一場模型界的記憶地震。

很多人重新意識到，大模型不必永遠是「訓練完就封存」的唯讀權重，它也可以在推理過程中繼續變化。在 Nested Learning 裡，當模型讀到新的上下文時，它不只是把文字塞進注意力的快取裡臨時翻找，而是允許自己在推理過程中更改參數，讓新資訊變成它內部記憶的一部分。

但就在人們還在消化這個想法時，輝達在2025年12月28日給出了一個更激進的答案，一篇名為《End-to-End Test-Time Training for Long Context》的論文。Google的記憶增強路線，還在努力解決記憶問題，把過去重要的東西保存得更完整。但輝達的研究人員則認為，記憶其實就是學習，「記住」就是「繼續訓練」。

就像人不會記得小學時的課文字句，但像《豐碑》這種文章當時給我們的感受，會深深塑造我們之後的價值觀。

輝達和史丹佛的研究者們相信，AI也應該這樣工作。

01. 用學習，替代注意力式的記憶

如果沿著時間線往回翻，你會發現 TTT（test-time training）並不是憑空出現的發明。

早在2013年，Mikolov 等人就在語言模型裡嘗試過 dynamic evaluation。當時放的是讓模型解除凍結，在測試文字上繼續用下一詞預測的交叉熵損失 CE（也就是我們最經常理解的大語言模型的參數學習損失目標）做小步梯度更新，讓參數對當前文體、主題、局部統計規律發生適應。Krause 等人在 2018 年把它完善得更系統，更可行。

也就是說，在大語言模型的早期，大家已經發現了模型在推理時動參數，即不違背語言建模的基本邏輯，甚至能帶來收益。

在分析Nested Learning時候，大家都在討論記憶力的革新。但很少人會注意到它在上下文這個語境下，對注意力層的替代。但TTT-E2E 的出現，更明確的提出這個可能性。

過去十年，Transformer 的輝煌建立在很大程度建立在注意力機制上。它把讀過的每一句話都做成索引（KV Cache），每次回答問題都要回過頭去精準翻閱舊書。這種機制精確，但非常耗費記憶體。因此也有了各種群組注意力、線性注意力的改良方針，試圖壓縮其記憶體佔用，提升模型的上下文長度。

而TTT的方案，則是直接放棄通過「內化」（權重更新）知識，來解決上下文處理的問題。無論上下文多長，它的推理狀態大小和計算量都是永遠不變的。

因此在TTT家族中，不論上下文如何增長，其Latency（生成延遲）都不會有任何變化。

這是TTT帶來的，足以在推理階段替代的注意力的核心能力：無延遲的記住近乎無限的上下文。

但dynamic evaluation 那條線一直沒真正變成主流部署範式。這是因為它當時在工程上還很稚嫩，很難被有效地使用。這裡的主要Gap存在於訓練階段和推理階段無法對齊。

訓練階段最佳化的是「凍結參數時開箱即用的表現」，卻沒有把「推理時將進行若干步更新」這件事當作模型行為的一部分寫進目標函數。這就導致工程現實中充滿了不穩定性，模型在沒有約束的情況下持續更新，災難性遺忘（學新的忘了舊的）、參數漂移（模型參數分佈變得很怪）、對異常片段的過擬合（會重複說奇怪話）就會變成默認風險。

早期方法能緩解的手段主要是「小學習率、少步數、勤重設」，它們能讓系統勉強可用，但也幾乎把 TTT 鎖死在“短暫適應”的尺度上，很難發展成真正的長期記憶。

而Nested Learning / Titans所做的，正是把這套邏輯從架構層面上變得可行。通過分開不同更新頻率的層級，讓各層獨自更新這種方式，穩定了參數更新。這也讓TTT從短微調發展成長期內部記憶的方式。因此，我們可以說它帶來了穩定的長程記憶更新方式。

不過這是有代價的。輝達在論文裡把Nested Learning、Titans 這一支，歸到 TTT‑KVB 上。因為它們的更新目標其實和傳統TTT有些不同。它們更像是在教模型「怎麼存」，而不是直接教它「怎麼預測」。

我們都知道，大語言模型的最終目標是「預測下一個token」，這是原初的學習目的。而Nested Learning的更新目標通常是讓模型從某種壓縮表示（如 key）重構出對應的 value，或者讓隱狀態在層內自洽地演化，這些都是為了建構可快速索引的內部記憶結構。這樣做確實可以間接幫助語言模型完成任務，因為更好的內部關聯記憶可能帶來更好的預測。但它與最終目標之間始終隔著一層距離。

而輝達提出的TTT‑E2E 則更像最原初的dynamic evaluation，它的測試時更新目標就是整個網路末端的下一詞預測交叉熵 CE。為了做到只有一個目標，這個方法端到端的，不分層，從頭到尾只更新這一個CE。當損失函數就是最終任務本身時，模型在上下文裡學到的任何東西，都更直接地最佳化了後續預測。與模型的最終目標完全對齊。

為了把這個差別說明白，他們在論文裡設計了一個「玩具模型」，在Transformer中移除了所有的自注意力層，只留下多層感知機(MLP)。這基本上把模型降級成了一個只能記住前一個詞的「二元語法模型」(bigram)，在這種設定下，任何長程記憶能力都不可能來自注意力或快取，只能來自「你在測試時更新權重，把上下文壓進參數」這件事本身。

然後在測試時，他們讓模型在讀到 x1 ,x2 ,x3 ,… 時不斷做練習：用 xt−1 預測 xt ，計算 CE，並對這個損失做一次小步梯度下降。

這像是一個只能看清腳下一米的探險者，只能憑剛邁出的那一步來猜下一步。而你需要穿越一個10公里的洞穴（歷遍所有上下文及更改）。

每走一步，你會先預測"根據我的方向感，下一步我應該看到岩石還是水坑？"
然後走一步，看預測對不對。
如果錯了，你就調整身體的姿態和步伐（梯度更新）。
在「預測—糾正—調整」的循環裡改變了你的「肌肉記憶」（權重）

走到第1000步時，你雖然看不到第1步那裡的巨石，但那塊巨石的資訊已經編碼在你此刻的步態、重心和方向感裡了。它通過999次的「預測-糾正-調整」傳遞下來，融入了你的身體。

結果，這個沒有任何注意力快取的模型，靠著「訓練對一下詞的預測」這個目標Loss 曲線（藍色）隨著閱讀長度的增加迅速下降。它幾乎緊貼著全注意力 Transformer 的曲線（橙色線）。

這意味著，它單純靠修改自己的神經網路參數（MLP權重），就完美編碼了上下文資訊，達到了和把所有字都存下來（Full Attention）幾乎一樣的效果。

相比之下，TTT‑KVB 的設計初衷是作為一個自注意力層的直接替代品。它的核心思想仍然是「鍵值繫結」（Key-Value Binding）。也就是說，它雖然不用傳統的注意力機制去儲存 KV Cache，但它試圖用神經網路去學習 Key 和 Value 之間的對應關係。

這就像希望把洞穴每塊石頭都畫在地圖上，去隨時呼叫。甚至巨石的紋理這種和走出洞穴無關的資訊也會畫進去。它的訓練效率相對就比較慢。

論文在過渡實驗結果中證明了這一點。研究人員把 TTT‑KVB 的層內鍵值繫結這個目標取代為預測端到端的 next-token 目標後，語言建模的評估 loss 明顯下降。

從實驗資料看，這個改變確實帶來了實質性的提升。在760M參數的模型上，TTT-KVB在8K上下文的loss為2.818，而將其簡化版本改用next-token prediction損失後(TTT-E2E all layers MH)，loss降至2.806。

這提升的0.012，在語言模型評估中其實是顯著的差距。這說明了，經過端到端的改造，模型對於預測下一個token這件事確實更確信，更擅長了。而且長上下文能力真的可以純靠測試時學習獲得，而不必依賴注意力快取。

在這個邏輯下，記憶不再被設計成一套儲存結構，而被重新定義為一次持續發生的學習過程。記憶的價值不在於把過去保存得多完整，而在於它能否改變你下一步的判斷。

但是，過去的dynamic evaluation的問題就在於沒有穩定的工程模式，既然要用一樣的思路，TTT‑E2E怎麼克服這些問題呢？

這正是輝達接下來要做的第二件事：用元學習與一整套工程護欄把這種端到端的測試時學習做成穩定、可擴展的上下文記憶系統。

02. 元學習的迴響，和工程的穩定

元學習，這個概念和實踐實際上也出現的很早。其中有一支顯性元學習的想法一直到去年發佈的Deepmind DiscoRL 都被繼承著。

這就是2017 年Finn 的 MAML體系。它是由內外兩個循環巢狀而成，內循環負責適應學習（梯度下降），外循環負責把適應學習變得更有效（學習梯度的梯度）。這樣，外面那層循環更像是對內循環步驟的反思，通過它，就可以學會如何高效的學習。

TTT‑E2E所做的，正是利用這一套元學習的體系，幫助它去穩定端到端的資料。

輝達的研究人員認為，過去dynamic evaluation的問題，主要在「訓練-測試不匹配」上。如果只用傳統方式訓練一個凍結的語言模型，然後在測試時突然要求它邊讀邊更新參數，那整體肯定穩定不了，災難性的漂移、遺忘都是常事。因此，訓練階段就要把測試階段的學習流程包含進去，讓模型在出廠時就習慣在推理時繼續學。

這就是元學習入場的時候。它要在訓練時幫助模型學會怎樣更新自己，才能更會回答接下來的問題。具體的操作，就是利用元學習，讓模型自己找到最適合推理時更新的初始參數W0。

把它寫成更直觀的過程，就是兩段循環套在一起。

內循環：就是模型讀到一段上下文時，給出下一個詞的猜測。然後立刻對照實際上出現的下一個詞，去更新自己的參數。這和傳統的下一個token 預測模型的訓練一致。
外循環：是在訓練階段給內循環反覆模擬「上崗狀態」。它給內循環的模型很多段文字，讓它按同樣的復盤方式做幾次小校正，然後檢查校正之後，內循環後面的預測是不是確實更準、更穩。只有當內循環的參數更新真的帶來收益時，外循環才獎勵它，如果這種更新方式會造成漂移或遺忘，外循環就懲罰它。久而久之，模型學到了一種更合適的出廠狀態。帶著這些初始參數去上崗，內循環的小校正（梯度更新）就不容易把自己改壞。

外循環的教師，在這裡學到的是在測試時更新中，那些方向的梯度更新是穩定的（防止梯度爆炸），那些更新能在不破壞通用能力的前提下快速吸收上下文規律（防止災難性遺忘），那些初始化讓同樣的學習率、同樣的步數能產生更可靠的收益（提升訓練效率）。再把這些都融合到模型初始的參數里。

一個元學習，直接讓模型自己解決核心的工程困境，使得端到端的模式變為了可能。

但這僅僅是可能，並不是達到了穩定。為了進一步確保工程上的可能性，TTT‑E2E還是在工程中做了多重折中的安全閥。

第一個安全閥是 mini‑batch 化和滑動窗口注意力。理論上講，在測試時每讀一個 token 就更新一次參數，是最細粒度、最完美的線上學習，但它可成本太高了。但每次給他的的token batch太大，模型又根本沒有短期記憶，那麼它在更新之前對一個batch裡吼main的 token 就根本記不住，梯度也會越來越錯。

所以，TTT‑E2E一方面把batch的大小做到相對較小。而且還保留滑動窗口注意力作為短期記憶的方法。窗口注意力像手電筒，保證你在一個更新塊內至少還看得見最近的上下文，從而讓 block 內的預測不至於崩壞。

論文明確提出了一個窗口大小和batch大小的規範，即窗口大小 k 最好不小於測試時更新的塊大小 b，否則你會在塊內變回「局部失憶」的模型。

第二個安全閥，目標是防止。他們沒有非常激進的把所有層都改成TTT層。而是凍結了 embedding、歸一化和注意力層，只更新 MLP。並且每次不更新整個神經網路，只更新最後 1/4 的 blocks。

這樣底層的通用語言能力、注意力的讀寫通道保持不動，TTT只在上層做一種可控的學習模組。為了進一步防止線上更新把預訓練知識沖掉，他們還在可更新的 blocks 裡加了一套靜態的第二 MLP。有一套MLP 負責寫入當下上下文，另一套負責保住出廠能力。

這是在結構上給災難性遺忘劃了一片隔離區。參數可以漂移抹去過去的記憶，但只能在一塊被圈起來的可寫區裡漂移。

當這些部件拼好時，TTT-E2E終於實現了最早版本TTT未竟的目標，為它帶來了完整的工程化軀體。

那麼它的結果如何呢？

03. 用Loss證明自己

我們看模型訓練效果，最主要的是看模型的loss變化。loss 指的是語言模型在下一詞預測任務上的平均損失，一般就是上面說的交叉熵CE的大小。它越小，說明模型預測越準。

而在記憶中，則是看loss在上下文中的變化。如果 loss 在更長上下文裡持續下降，說明模型確實把更早的資訊用起來了，預測的更好了。反之，如果上下文變長但 loss 不降反升，說明資訊雖然記住了，但沒用，屬於學而不思則惘了。

在這一項上，TTT‑E2E的優勢非常明顯。當上下文一路加到 64K、128K時，其他類型的架構，比如Mamba 2、Gated DeltaNet 這些線性時間模型就開始掉隊了，甚至連 TTT‑KVB，在更長上下文裡也沒能把曲線拉回來。

只有 TTT‑E2E 的線幾乎像釘住了一樣，從 8K 到 128K 沒有出現優勢稀釋的跡象。這說明別人是上下文越長越難學到，而TTT‑E2E 則是越跑越會用上下文。

而且，它也延續了學習參數最大的優勢，就是成本壓縮。如果用全注意力，上下文越長，prefill 的延遲就會一路飆升，因為它每生成一步都要掃描更長的歷史。相反，SWA、RNN/SSM、TTT‑KVB、TTT‑E2E 的延遲幾乎是平的。它是靠學進去，而不是一直看著舊上下文去處理新的上下文的。在 H100 上，128K prefill 時，TTT‑E2E 大約比 full attention 快 2.7×。

另一項，則是看Loss的收斂速度，Loss收斂的越快，說明模型越高效的在學習。在 32K 和 128K 兩種長度下，TTT‑E2E 是唯一一種在整個上下文範圍裡都能壓過 full attention 的方法，而且它的總體優勢有很大一部分來自序列更早的位置。

這正是「學習而非儲存」發揮特長的地方。模型不是等到最後才靠記憶取回某個細節，而是從一開始就讓每一段上下文都在把模型推向更適合下一段預測的參數區域。它是在背書，更是在邊讀邊形成更適合這本書的閱讀習慣。

當然，這種方法並非面面俱到。TTT‑E2E 在海底尋針這種需要精確檢索的測試上仍然被full attention碾壓，包括 TTT‑E2E在內的線性路線一直在長上下文檢索上表現並不好。

這並不矛盾，當記憶被定義為「學習帶來的預測收益」時，它就更像壓縮和概括，而不是逐字存檔。對寫作連貫性、長文理解、風格約束這種任務，這種壓縮很划算。用學習壓縮換取長上下文的可擴展性，讓模型在 128K 這樣的尺度上既跑得動，跑得省，又確實變得更會預測。

這就是TTT的核心意義之一。

另外一個可能制約這種架構落地的因素，是訓練成本。即使有了各種最佳化,TTT-E2E的訓練延遲仍然比標準Transformer高出50-100%。這在學術研究的規模上可以接受,但當擴展到工業級的數兆token訓練時,這個額外成本就有點略高了。

04. 回歸原初的學習，可能才更符合持續學習的期待

Nested Learning 這場革命的意義，是再一次把「推理時更新」從過去的沉寂中帶入了當下的討論的範疇，讓持續學習找到了新發力點。

TTT-E2E 的意義，不只是又一個長上下文方案，而是重新定義了記憶這件事。記憶不是把過去搬進現在，而是讓過去改變未來。

在注意力機制因二次方成本而逼近物理極限的今天，這種'把資訊學進參數'的路線，可能是唯一能讓模型真正從百萬 token 上下文裡持續成長的工程答案。

在一個上下文窗口越來越長、資訊越來越多、但人們越來越不願意為傳統注意力二次方成本買單的時代，這種把記憶當作學習、把學習當作壓縮的路線，可能會在相當長一段時間裡成為持續學習最現實的工程答案之一。

它不一定無所不能，但它比當下的任何記憶方案都更接近我們對智能的本質期待：「不是記住一切，而是能從一切中學會變聰明」。 (騰訊科技)