剛剛,Google發佈了一項名為“巢狀學習”(Nested Learning)的全新機器學習範式,它將模型視為巢狀最佳化問題,從而增強對長上下文的處理能力。基於巢狀學習的概念驗證模型 Hope 在語言建模方面展現出更優異的性能,Google的野心是緩解乃至徹底解決LLM遺忘問題,實現類似人腦的持續學習能力
相關論文《Nested Learning: The Illusion of Deep Learning Architectures》已在NeurIPS 2025上發表
在過去十年,機器學習取得了巨大進步,但LLM的成功之下,一些根本性挑戰依然存在,尤其是在持續學習方面。
人腦是持續學習的黃金標準,其通過神經可塑性不斷調整自身結構以適應新體驗。相比之下,當前LLM的知識侷限於其輸入窗口的即時上下文或預訓練期間學到的靜態資訊。
最直接的解決方法——用新資料持續更新模型參數,往往會導致“災難性遺忘”(Catastrophic Forgetting, CF)。傳統上,研究人員通過調整架構或最佳化規則來對抗CF,但長期以來,模型架構與最佳化演算法被視為兩個獨立部分,阻礙了真正統一高效的學習系統誕生。
Google提出的“巢狀學習”則打破了這一壁壘。
巢狀學習範式提出,一個複雜的ML模型並非單一的連續過程,而是一個由相互關聯、多層次的學習問題組成的系統,這些問題被巢狀或平行地同時最佳化。
該理論認為,模型架構和訓練規則(即最佳化演算法)本質上是同一概念,它們只是處於不同“層級”的最佳化問題,每個層級都有其自身的資訊流(“上下文流”)和更新速率
通過識別這種內在結構,“巢狀學習”為設計更強大的AI提供了一個全新的、此前不可見的維度,允許建構具有更深計算深度的學習元件,從而最終解決災難性遺忘等問題。
為了闡釋這一範式,研究人員以“聯想記憶”(associative memory)為例。
他們指出,訓練過程本身(尤其是反向傳播)就可以被建模為一個聯想記憶。模型學習將給定資料點對應到其局部誤差值,該誤差值衡量了資料點的“意外”程度。同樣,像Transformer中的注意力機制等關鍵架構元件,也可以被形式化為學習序列中Token之間對應關係的簡單聯想記憶模組。
通過為每個元件定義一個“更新頻率”,即權重調整的頻率,這些相互關聯的最佳化問題就可以被排列成不同的“層級”。這個有序集合構成了巢狀學習範式的心臟。
研究人員表示,人腦中統一且可復用的結構以及多時間尺度的更新,是人類持續學習的關鍵。巢狀學習允許模型的每個元件進行多時間尺度更新,並證明了Transformer等知名架構實際上是具有不同更新頻率的線性層。
基於“巢狀學習”的視角,可以直接獲得改進現有演算法和架構的原則性方法:
1. 深度最佳化器 (Deep optimizers)
由於巢狀學習將最佳化器(如動量最佳化器)也視為聯想記憶模組,因此可以將聯想記憶的原理應用於最佳化器設計。研究人員觀察到,許多標準最佳化器依賴於簡單的點積相似度,其更新並未考慮不同資料樣本之間的關聯。通過將最佳化器的底層目標更改為更標準的損失度量,例如L2回歸損失,他們為動量等核心概念推匯出了新的公式,使其對不完美資料更具魯棒性。
2. 連續譜記憶系統 (Continuum memory systems, CMS)
在標準Transformer中,序列模型充當短期記憶,保存即時上下文;前饋網路則充當長期記憶,儲存預訓練知識。巢狀學習將這一概念擴展為一個“連續譜記憶系統”,其中記憶被視為由一系列模組組成的光譜,每個模組都以特定的不同頻率進行更新,為持續學習創造了更豐富、更有效的記憶系統。
作為概念驗證,研究團隊利用巢狀學習原理設計了一款名為“Hope”的自修改架構。
Hope是Titans架構的一個變體。Titans架構是一種長期記憶模組,能根據記憶的“意外”程度確定其優先順序,但它只有兩個參數更新層級。
而Hope是一個自修改的循環架構,它能夠利用無限層級的上下文學習,並通過CMS模組增強,以擴展到更大的上下文窗口。它本質上可以通過一個自引用過程來最佳化自身的記憶,從而創造出一個具有無限循環學習層級的架構。
在語言建模、長上下文推理、持續學習和知識整合等一系列任務上的實驗證明了巢狀學習、連續譜記憶系統和自修改Titans架構的有效性。
通用性能:在一系列公開的語言建模和常識推理任務上,Hope架構展現出比現代循環模型(如Titans、Samba)和標準Transformer更低的困惑度和更高的精準率
長上下文處理:在“大海撈針”(Needle-In-Haystack, NIAH)下游任務中,Hope展示了卓越的記憶管理能力,證明了CMS是處理擴展資訊序列的一種更高效的方式,其性能在不同難度的任務上均優於Titans、TTT和Mamba2
Google研究團隊認為,“巢狀學習”範式代表了對深度學習理解的一次飛躍。通過將架構和最佳化視為一個統一、連貫的巢狀最佳化問題系統,它為模型設計解鎖了一個新的維度
像Hope這樣的模型證明,採用原則性方法統一這些元素,可以帶來表達能力更強、功能更強大、效率更高的學習演算法。
團隊相信,“巢狀學習”為彌合當前LLM的遺忘特性與人腦卓越的持續學習能力之間的鴻溝,提供了一個堅實的基礎,並期待研究社區能共同探索這一新維度,以建構下一代自我完善的AI (AI寒武紀)