#GPU訓練
上下文即權重,Google找到了繞過GPU訓練的新範式|DeepMind新論文解讀
如果說2024年是長文字的軍備競賽,那到了25年年末,隨著自進化模型、持續學習成為模型下一步核心瓶頸,戰場已經轉到了對記憶能力的全面加強上。而在這場戰爭中,Google DeepMind 左右出擊,在一個月內發佈了兩篇論文,試圖在兩條截然不同的路線上攻克這一難題。11月初,DeepMind 發佈了關於 Nested Learning(巢狀學習) 的重磅研究,提出了 HOPE 架構。這是一場典型的重工業革命,Google試圖通過重構 Transformer 的底層,讓AI擁有永久的長期記憶和臨時的短期突觸,讓它從死的知識庫記憶體,變成活體的學習者。從價值上講,作為第一個全開放權重的模型,它絕對稱得上是一種範式革命。但要落地,得對現有的 AI 基礎設施進行一場傷筋動骨的手術,舊模型是完全不相容的。然而,僅僅幾周後,11月27日,DeepMind的另一個團隊聯合UIUC拋出了另一篇論文《Evo-Memory》 。這篇論文沒有試圖去動那怕一個模型參數,卻找到了一條新路,賦予模型持續學習的能力。它向整個行業提出了一個新可能:一個被凍結的LLM大腦,能夠通過不斷反思和重構自己的記憶,表現得像是一個被訓練過的模型。雖然看起來它沒那麼底層,但從工程和應用角度來講,這無疑也是一場範式革新。在過去,我們認為,上下文工程只是人類教 AI 做事的權宜之計。但Evo-Memory證明了,當上下文具備了自我反思、自我修剪、自我沉澱的能力時,它就不再是靜態的提示詞,它變成了流動的權重。具體來說,它意味著記憶不再是固定不變的上下文提示詞,而是能夠在推理過程中主動檢索、修剪和重組的可編輯對象,就像神經網路中的權重參數一樣可以動態調整和最佳化。而且,靠著它,我們不需要等待遙遠的架構重構,也能讓模型持續學習。通過元推理,我們現在就可以讓那個參數凍結的AI,在每一次互動中生長出新的智慧。(一圖讀懂)01 RAG 的困境說到AI的記憶系統,就繞不開RAG(檢索增強生成)。過去兩年,RAG幾乎成了大模型應用的標配。無論是客服機器人、程式碼助手還是知識問答系統,背後都離不開這套架構。在很長一段時間裡,RAG 被視為解決大模型健忘和幻覺的解藥。它的邏輯簡單粗暴:模型記不住私有資料?沒關係,把資料切塊存進向量資料庫。使用者問什麼,我們就檢索什麼,喂給模型照著念。然而一個可檢索的筆記本,並不是記憶。因為記憶不是錄影,而是壓縮。傳統的 RAG 系統就像是一個沒有辨別能力的圖書管理員,只管把所有的對話歷史、操作日誌一股腦地存進倉庫。它不會學習,只會按關鍵字檢索。所以當你第一次問AI“如何解一元二次方程”,它會從知識庫裡檢索到公式,給你正確答案。第一百次、第一千次,依然如此。它永遠不會因為回答過一千次同類問題,就形成某種經驗性的快速響應機制。更可怕的是,它檢索到的內容可能包含矛盾、過時或無關的資訊,但它沒有能力判斷那些記憶是有價值的,那些是噪音。遇到同樣的問題,系統檢索到十條相關記錄,其中三條是已解決的舊問題,兩條是誤報,剩下五條才真正有用。但RAG會把這十條一股腦塞給模型,讓模型在混亂的資訊中自己摸索。這說明,現有的記憶系統大多停留在對話回憶(Conversational Recall) 的層面,它只記得說了什麼,卻不記得學到了什麼。這種靜態的、被動的召回機制,導致智能體在面對連續的任務流時,無法積累經驗,只能機械地重複過去 。在這個範式下,RAG作為一個只增加不減少、只儲存不反思的記憶庫,最終註定會被噪音淹沒。資料越多,RAG反而可能越多錯。02 什麼叫學習?就是給記憶加上反思的濾網那怎麼能讓這些放在RAG裡的資訊更有用,更像學習?這裡需要參考人類是如何變強的路徑。如果在打遊戲中,我們死於一次埋伏,下一次絕不會原樣再死一次。人類會思考,會總結。這就叫學習而來的熟練。學習的本質就是真正的記憶。它不是儲存,而是篩選、組織和進化。論文設計了一個名為ReMem的框架,它的運作方式顛覆了傳統RAG的檢索和生成二段式流程。它引入了一個全新的維度Refine(最佳化)。在每次任務執行過程中,AI不再只是被動檢索和應用記憶,而是主動評估、重組甚至修剪自己的記憶庫。在增加新記憶的過程中,模型會歷遍這樣幾個步驟:經歷: 智能體在環境中執行任務(比如在 AlfWorld 裡找東西)。反饋: 環境告訴它是成功還是失敗。元推理(Refine): 在存入記憶之前,智能體必須進行一次內省。系統會問它:“基於剛才的結果,那一步是廢話?那一步是關鍵?如果你失敗了,原因是什麼?” 。沉澱: 智能體執行 Pruning(修剪) 和 Reorganizing(重組),把 20 步的曲折探索,壓縮成一句“直接去櫃檯找杯子”的黃金法則,存入資料庫 。這不僅僅是加了一個步驟,這是賦予了智能體編輯自己大腦的權利。這種機制的效果是立竿見影的。 在Alf World這個虛擬家居環境中,把冷藏過的番茄放進微波爐這個任務,基準模型平均需要22.6步才能完成。而配備了ReMem的模型,只需要11.5步。因為它學會了識別那些過往任務的經驗可以遷移,那些細節差異需要警惕,從而少走了近一半的彎路。在ToolBench資料集上,配備經驗檢索的ExpRAG模型,API呼叫精準率從61%提升到73%。模型不僅學會了呼叫API,還學會了如何思考呼叫API。它能從過去失敗的嘗試中總結教訓,從成功的案例中抽象策略。更有意思的是記憶修剪率的差異。在GPQA這種跨學科科學問答資料集上,模型會主動刪除36.8%的記憶條目。因為這些記錄來自不同領域,對當前問題沒有參考價值。而在AIME數學競賽資料集上,修剪率只有17.5%,因為數學題之間的解題策略往往是相通的。通過ReMem,RAG不再是那個只會照單全收的圖書管理員,它學會了學習中最重要的部分,提純和遺忘。人類專家之所以高效,不是因為他們記住了所有細節,而是因為他們知道什麼時候該忽略什麼。ReMem讓AI通過記憶,獲得了這種選擇性注意的能力。03 它帶來的真正範式轉變,是上下文即權重如果說這個論文帶來的只是上面所說的對RAG的升級,那它的價值似乎非常有限。但它其實揭示了一個足以改變整個訓練模式的轉變。即上下文可以成為新的權重(Context is the new Weight)。在過去,我們認為只有通過反向傳播(Backpropagation)修改了模型權重的參數,模型才算學到了東西。這就是訓練、後訓練、SFT等做的工作。一旦訓練完成,模型就被"凍結"了,它在部署階段不會再記住任何新東西,所有適應都通過調整輸入的上下文來實現。但過去的上下文工程本質上是人類教AI規則。我們精心設計少樣本示例,編寫詳細的指令,試圖通過上下文窗口向模型灌輸正確的行為模式。這種上下文雖然確實可以改變模型的行為,但仍然是外部的、靜態的,不會隨著模型的使用而進化。但ReMem證明了,如果一個凍結的模型能夠通過反思,不斷重構輸入給自己的上下文,那麼上下文在數學效果上,就等同於權重。之所以這麼說,首先是因為上下文的積累實際上就是無監督訓練。在這個新範式中,上下文不再是靜態的規則不再依賴人類提供的標準答案。它自己在環境中試錯,通過與環境的互動(Interactions),自己生成資料,並自我強化。其次,這個自我強化的方法也和訓練過程非常相似。在一般的訓練階段,模型依靠梯度下降(Gradient Descent) 降低錯誤路徑的權重,提升正確路徑的權重。而 ReMem 在推理階段,則是通過對記憶的沉澱與修剪調節了其選擇權重,完美復刻了這一過程。比如,當模型在任務中失敗,ReMem 通過元推理分析原因,會將失敗路徑標記為反面教材或直接修剪掉。在下一次檢索中,這段被處理過的上下文會在注意力機制中產生強烈的抑製作用,迫使模型避開錯誤選項。這在效果上,等同於對該路徑進行了 RLHF(人類反饋強化學習)的負向懲罰。而當模型總結出一條捷徑並存入記憶,這條經驗在未來的推理中會被高優召回,直接提升生成正確動作的機率。論文中的資料也支撐了這一觀點。在引入包含失敗經驗的資料集時,普通的 RAG 系統因為無法區分好壞,性能直接下降;而 ReMem 卻能通過反思機制變廢為寶,保持極高的成功率 。這證明了上下文已經具備了權重的核心屬性:抗噪性、糾錯性和泛化性。模型在沒有更新任何參數的情況下,通過在記憶中沉澱經驗,實現了行為的永久性矯正。在以後,我們也許不需要真的去算梯度,不需要更新參數。僅僅通過自然語言層面的反思和沉澱,就能讓模型表現出好像被訓練過一樣的行為矯正。元推理(Meta-Reasoning)是Google這篇論文的另一個重點概念。什麼是元推理?在傳統的 Chain-of-Thought (CoT) 中,模型是在推理任務本身。這依然是在做題。而ReMem 引入的元推理,是對推理過程的推理。它要求模型跳出任務本身,以第三視角的上帝視角審視剛才的思維鏈路,指出錯誤,提煉正確路徑。(Evo Memory的記憶Prompt,元思考的配方)這個邏輯本身並不是什麼新鮮事。早在23年,就已經有人在研究相關的領域,提出了Reflexion架構,用來引導模型的元認知能力。今年,Karpathy也曾經多次講過模型需要一個反思能力。而反思的過程,正是元推理。這種能力此前之所以沒有被充分利用,是因為以前的模型大多隻是優秀的做題家,而缺乏成為出題人(評價指令)所需的深刻內省能力。ReMem 證明了,當今的 SOTA 模型(如 Gemini 2.5 和 Claude 3.7)已經具備了這種能力。它們不僅能生成答案,還能評價答案的質量,並將其轉化為策略知識而非僅僅是事實知識。另外一個元推理在過去無法應用的原因,是策略知識的特殊屬性。策略是由經驗歸納出來的產物,比如遊戲的技巧。這種知識絕不可能從單次經歷中產生,必須有足夠多的例子,才能歸納出一條策略。在 Evo-Memory 之前,記憶系統往往是短視的。受限於上下文窗口或簡單的檢索邏輯,模型往往只能看到最近的一兩次互動。它也許能記住剛才撞牆了,但它記不住上周、昨晚、大前天都撞牆了。沒有足夠多的例子,元推理就失去了燃料。ReMem 的成功,某種程度上是因為它利用了現代大模型對長上下文的處理能力和結構化記憶的積累,讓模型終於湊齊了歸納策略所需的臨界樣本量。它讓這種元推理能力變成了一種真正能起到遠期效果的語義壓縮演算法。這是使得上下文即權重成立的核心邏輯。04 系統2的完整拼圖這一範式的確立,讓我們終於看清了下一代 AI 的完整形態。最近大火的 DeepSeek V3.2 在工具使用中展示了行動前的規劃能力,它會在呼叫 API 之前進行大量的思維鏈推導。而 ReMem 展示了行動後的反思能力,它會在任務結束後進行深度的復盤。這兩者結合,構成了完整的系統 2思維閉環。以前我們認為 RAG 是外掛的硬碟,但現在它其實是個計算問題。只有經過元推理(清洗、壓縮、結構化後)的資訊,才有資格進入上下文,進而在這個凍結的神經網路中扮演權重的角色。Evo-Memory 告訴我們,我們不需要等到 Nested Learning 這種重型架構普及的那一天。只要底座模型足夠聰明,能夠理解反思的指令,我們現在就可以通過讓模型在記憶中自我訓練,實現某種程度上的 AGI(通用人工智慧)原型:一個參數不變,但智慧隨時間持續生長的數字生命。 (騰訊科技)