#DeepMind
讀完200篇論文,看DeepMind、Meta、DeepSeek ,中美巨頭都在描述哪種AGI敘事
在剛剛過去的2025年,我通讀了大約兩百篇人工智慧領域的論文。如果用一個詞來形容這一年的技術體感,那就是「暴力美學」時代的終結。單純依靠堆砌參數摘取低垂果實的日子已經過去,2025年的技術進化回歸到了基礎研究。這篇文章,我想透過梳理這一年的技術脈絡,明確三個結論:的瓶頸,業界被迫尋找新的成長點,即從「把模型做大」轉向把「模型做聰明」。第一,2025年,技術進步主要集中在流體推理(Fluid Reasoning)、長期記憶(Long-term Memory)、空間智能(Spatial Intelligence)以及元學習(Meta-learning) 這四個領域。原因在於Scaling Law在單純的參數規模上遇到了邊際效應遞減,為了突破AGI第二,現在的技術瓶頸主要在模型要「不僅要博學,更要懂思考和能記住」。 透過Yoshua Bengio提出的AGI框架(基於CHC認知理論),我們發現先前的AI存在嚴重的「能力偏科」:它在一般知識(K)上得分極高,但在即時推理(R)、長期記憶(MS)和視覺處理(V)上幾乎是空白。這種不平衡構成了通往AGI的最大阻礙。第三,這些瓶頸在25年其實都找了一些新的解決方向,可以說是補短板很成功的一年。其中最重要的是三個面向。●  推理能力: 透過Test-Time Compute(推理時計算)引發的革命,AI學會了慢思考,推理能力實現了從0到8的質變。●  記憶能力:Titans架構和Nested Learning的出現,打破了Transformer的無狀態假設,讓模型具備了內化的“海馬體”,有望徹底根治金魚記憶。●  空間智能: 視訊生成不再只是像素的堆砌,而是開始掌握物理規律,邁向了真正的世界模型。接下來,我將根據這一年間的論文閱讀,帶領大家詳細看看這些關鍵拼圖是如何被一塊塊補齊的。(因為篇幅限制,各個方向上涉及的論文我只是簡單做了講述,如果有興趣深入了解,可以看文後的相關論文參考。已分章節處理。)01流體推理的演化,Test Time Compute的誕生與發展在2024年,AI明顯的短板是即時推理(R)能力。在GPT-4的時代,AI只會依賴機率直覺,推理什麼的一點不會。但在2025年,Test-Time Compute(推理時計算)透過拉長推理時間來換取智能。 Test-Time Compute 的核心概念是:智慧不僅是參數的函數,也是時間的函數。以OpenAI o1和DeepSeek R1為代表,AI學會了「慢思考」。 透過在推理階段投入更多的運算資源,它開始在輸出答案之前,在內部進行長達數秒甚至數分鐘的自我辯論和推演。這就是2025年最重要的典範革新,讓AI從背書的鸚鵡轉向思考的機器。因為模型的思考過程是無法在預訓練期間進行引導的,因此後訓練、尤其是強化學習(RL),就成了提升推理能力的最重要的手段。但事情並非一帆風順,在2025年,《強化學習真的能激勵LLM超越基座模型的推理能力嗎? 》這篇論文引發了大概半年左右的學術爭論。研究發現,在許多情況下,RLVR訓練後的模型產生的正確推理路徑,其實在基座模型的取樣分佈中原本就存在。 RL的作用只是銳化了分佈,顯著提高了採樣到這些路徑的機率,而並非真正「創造」了基座模型完全未知的推理能力。對此,在後續長達半年的論爭後,現在的通行結論是基座模型可能確實包含了所有必要的原子推理步驟(如加減法、基本邏輯變換),但RL的作用在於透過數萬次的試錯,篩選出能夠穩定維持長距離依賴的策略路徑。另外,CMU研究指出,RL訓練有三個階段。第一階段是“銳利化”,僅提升已知路徑的機率;但隨著訓練深入,模型進入“連結(Chaining)”階段,開始將基座模型中原本機率極低的不對稱技能(如驗證與生成)連結起來,從而解決從未見過的難題。這說明RL不光在銳化,也確實能夠有效組合新的推理方法。但學術界的這種形而上討論,沒能阻止業界的工程優化熱情。因為Benchmark的成長不會騙人。強化學習的本質,就是透過與環境互動獲得回饋,在探索未知與利用已知之間尋找平衡,以最大化長期累積獎勵為目標,從而學習出一套最優的決策策略。因此,它的工程可以拆分成核心的三個策略,探索策略(採樣)、評分(包括評分標準和如何評分)和參數更新演算法三個部分。在2025年,強化學習的方法在其中兩部分都得到了明顯的發展。而採樣的策略則還是集中在蒙特卡洛方法(一步一步尋找新分支)、暴力溫度採樣(調高模型的多樣性,采出多種可能)和在23年大火的STaR 模式(就是模型對自己的結論點評後,根據點評再找別的路)這三種方法上,不過25年,因為DeepSeek R1的成功,因為暴力溫度又能出明顯了主流工程結果。評分系統的革新在2025年首先發生的是基於可驗證獎勵的強化學習(RLVR)和稀疏獎勵指標(ORM)的全面崛起。由於DeepSeek R1的成功,讓大家發現,只要給模型一個對錯結論作為獎勵訊號,模型就可以自發性探索其中的推理過程。這導致了ORM的崛起。而在ORM領域,那些能明確給出結果對錯(可驗證的客觀真理)的領域,例如數學、程式碼、邏輯等方面,強化學習就很好下手,效果也很容易提升。基於這些客觀真理形成的強化學習獎勵機制,就稱為可驗證獎勵。在2025年前半年,RLVR(驗證結果)+GPRO(分組探索解法)的方法突飛猛進,基本上成了主流方法,也帶來了模型在程式碼、數學領域的能力大幅提升。然而,用的久了,大家發現如果像複雜數學、程式碼這種推理過程過長的情況,那ORM很有可能會崩掉。所以有的公司會在其中加一部分過程獎勵評分系統(PRM)的因素,例如Qwen的代碼解釋器驗證,主打辨識推理過程中的錯誤步驟。而防止ORM崩潰跑偏的KL正規理論也在今年有了更多的發展。另一個問題就是RLVR是挺好用的,但不是所有領域都有可驗證的真假,比如在文學、乃至醫療這種更偏統計性的領域,目前就沒有完全的真假科研,那怎麼辦呢?因此我們可能需要一個更宏大的Universal Verifier(通用驗證器),去解決這個問題。目前已經有的兩個思路,一個外求法:既然標準不唯一,那就人工或靠模型製訂複雜的評分細則(Rubic),然後讓模型根據Rubic去進行獎勵。而另一個,是相信模型自己的直覺(內求法),利用模型自己的確信度去影響無明確獎勵的領域訓練。例如Kimi K2的joint RL stage策略,就是把RLVR 和self-critique rubric reward 結合起來做RL。參數更新演算法的革新DeepSeek R1帶來的第二個RL震盪就是GPRO演算法的流行。在過去,RL的主流方法是PPO,在這個框架裡,有兩個角色,一個是Actor Model,負責寫答案。還有一個是Critic Model,來給演員的每一步打分數。這個方法特別適合PRM,給每步都評分,但它非常貴,因為它得一直在線訓練,讓模型嘗試完了再在線打分。但GPRO不一樣,它直接把Critic模型切掉了,讓模型產生一組答案,算平均分數來代替Critic,來看誰做的好,誰做的壞。一下子省下來50%的顯存,搭配ORM,更是極簡中的極簡。非常省成本,效果也不差。因此,基本上國內各家都是在GPRO的框架上延展,在2025年這一年發展出了各種變體。例如Qwen的GSPO的優化引入了分數加權,不只看你是否高於平均分,還看你的絕對得分是多少,讓GPRO能夠從對的里選出更好的,把全錯的都排除出梯度,讓訓練更穩。 Minimax的CISPO,則是發現傳統GPRO / PPO訓練的時候,會暴力截斷過長的COT上下文,導致核心思考沒辦法用起來,所以做了個重要性採樣,保留下更重的部分去更新。除了這些特別具體的更新外,業界同時試圖找到強化學習的Chichila法則。例如Meta的ScaleRL,就在多種消融實驗中發現RL的成長曲線其實有天花板。他們證明了RL性能與計算量之間不符合冪律(就是Scaling Laws那種算力越大,能力越大的模式),而是符合Sigmoid 曲線的(起步難,中間猛,最後死活漲不動)。這不是什麼好消息,表示RL是有天花板的。我們不能指望靠RL 無限提升模型的智力上限。 它只能把模型已有的(預訓練賦予的)潛能「逼」出來,一旦逼到了100%,RL 就失效了。想再突破,還得回去革新底座模型或是演算法架構。但好消息是,我們離天花板還很遠呢,還差著一堆工程創新。另外,基礎模型的能力提升也不是完全停滯的。ScaleRL也提出了一套最佳工程實踐,包括使用長思維鏈(Long CoT)作為關鍵驅動力,以及使用大Batch Size(如2048 prompts)來觸達更高的性能天花板。這項研究將RL從「煉金術」轉變為一門精確的工程科學,使得研究者可以透過小規模實驗精準預測大規模訓練的效果。所有這些對RL工程的探索,使得今年的模型,能夠在不增加參數的情況下,依然在整體能力上穩步上升。一次又一次打破ARC和Humans Last Exam的標尺,同時帶動了數學和程式碼能力的大幅上升。02記憶與學習, 治癒模型的健忘症如果說Test Time Compute是前半年最重要的模式變革,那後半年最重要的模型變革,就是記憶能力的提升。畢竟,這是唯一在GPT-5時代,在AGI得分裡還是0的分支能力,屬於短板中短板,漏水的大戶。模型沒有記憶有啥問題?第一,沒有記憶能力的模型不可能在現實中自我學習,必須得在算力工廠裡再訓練學習。這種再訓練昂貴,訓練源可能與日常使用完全脫節,因此持續學習成了一個無比困難的事項。第二,想有個能記得你是誰,你的偏好的AI,就變得很費力。例如我的Gemini 3,現在只靠系統級的Prompt累積一點點關於我的記憶,但大半還是錯的。在24年大火的RAG(檢索增強生成)雖然作為一種外掛式的「海馬體」緩解了這一問題,但它當時的形態只是資料庫和搜尋機制,還很不好用。在25年,記憶問題的研究其實得到了許多發展,只是大多出現在後半年,尚未真正融合進工程。記憶可以分為三種方式,上下文作為記憶、RAG處理過的上下文作為記憶以及將上下文融合到參數裡,內化的進行記憶。難度層層遞進。今年RAG和參數調整的記憶方式都發生了很大的科研進步,但其中最耀眼的是Google Research發布的Titans 架構以及Nested Learning,是2025年記憶領域的最大突破,屬於架構級提升。從根本上挑戰了Transformer的無狀態假設。我們現在一個個看。模型,獲得活著的記憶Titans 是一個深度的神經長期記憶模組,能夠在測試時(即推理過程中)即時更新自身的參數。這和傳統的Transformer層,訓練完就凍結完全不一樣。 Titans在一開始就是個空容器,就一個初始權重,將歷史資訊學習進神經記憶中。和傳統的壓縮模式(Mamba)比,這種學習是無損的。那怎麼決定什麼東西記憶,什麼不記?靠驚奇度(Surprise Metric),模型會根據輸入資訊的意外程度(梯度大小)來決定是否將其存入長期記憶。這和人差不多,越新鮮有衝擊的東西越記得住。Titans是隨時更新權重的,這意味著還要做反向傳播和梯度更新,豈不是很貴嗎?確實,單看是很費GPU算力,但它一般是和普通Transformer層混用,只佔一小部分,所以雖然但並不很重,而且可以省去巨量的上下文開支。而且,它還可以將記憶作為額外的上下文輸入給注意力機制,如同一個高級助手,提供背景資訊。透過門控機制融合短期注意力與長期記憶,處理更靈活,並行處理短時與長時依賴。這也可以提升模型本身的效率。同時,Titans也引入了遺忘機制(Weight Decay),自動清理不再重要的資訊。如果說這是在不會記新東西的Transformer上加了一些記憶模組補丁,那麼Nested Learning就是一個更宏大的架構改變。在Nested Learning中,Google做了一個分層,把模型的架構分成了低、中、高三個更新頻率的神經網路層。把整個模型的參數凍結都解放了,這個模型都是活的,可以隨時調整參數。低頻參數的調整很慢,大概需要16M token的前向更新才會調整一次。它保證了知識的延續性,避免了災難性遺忘。而快速的回饋則交給高頻的神經網路層處理,這樣可以快速反應,做短期記憶。於是我們就有了一個持續更​​新的,非凍結的神經網絡,它可以抱持長期記憶,並持續學習。而且因為更新頻率不高,且更新比較局部,其成本比一般的SFT、RL達成同等效果的成本還要低。谷歌甚至提出了一個更大的體系MIRAS,它把序列模型看成一個會邊讀邊寫的聯想記憶模組。每一個token,你把它投影成key 和value;模型用當前記憶去「檢索/回憶」一個value;然後用一個內部目標函數(attentional bias)和一個保留/遺忘約束(retention gate),透過某種線上優化/更新演算法(memory learning algorithm)去更新記憶。 Titans和Nested Learning,都屬於在不同層面上對MIRAS的嘗試。這項調整,使得模型具備了持續學習和更新長期記憶的基礎。不過考慮到它對模型架構的改變,在工業大規模應用上可能還需要一段時間。RAG模型化之前,RAG曾被訌諷為圖書館員,只增不減,照單全收。但2025年,它發生了質的飛躍,演變為具備反思與進化能力的系統,甚至可以在一定程度上產生如同參數般的效果。這波RAG改造浪潮中,比較有代表性的還是DeepMind 提出的ReMem 和Evo-Memory。ReMem讓RAG不再是簡單的資料庫式的“檢索-生成”,而是透過一個Agent 引入了Action-Think-Memory Refine 的全鏈路處理方法。在新上下文存入記憶前,會有個Agent對其進行「內省」(Think),標記出那些是無效步驟,那些是關鍵策略。在記憶過程中,模型也會對進來的上下文進行修剪(Pruning)和重組(Reorganizing),讓它更容易被檢索,保留最重要的資訊。同時,模型會定期清理無用的記憶,甚至將失敗的嘗試作為「負面教材」存入,其效果等同於RLHF(人類回饋強化學習)的負向懲罰。這機制使得記憶不再是靜止的錄影,而是經過壓縮和提純的智慧。它儲存的更多是策略,使得模型在處理類似任務時能夠調用過往的成功經驗,實現了真正的經驗復用。微調與蒸餾讓遺忘性災難不再存在在2025年之前,災難性遺忘是參數記憶更新的最大敵人。模型用微調的方式做更新,很容易學了新的忘了舊的,通用能力受損;用強化學習做更新,不容易遺忘,但成本又太高。但在2025年,學術界提出了多種解決方案,讓模型在學習新知的同時不失去舊能力。例如Meta 提出的Sparse Memory Finetuning (稀疏記憶微調)。它在Tansformer裡加了一個百萬個獨立插槽的空白記憶體層。當新知識進入時,系統篩選出更不重要的、和核心舊知識相關性不高的插槽進行更新。這種稀疏更新策略,確保了在註入新知識的同時,絕大部分舊參數保持不變,從而完美保留了原有能力。實驗表明,在TriviaQA事實注入任務中,該方法僅導致11%的舊知識遺忘,遠優於全量微調的89%。再如Thinking Machines 提出的在策略蒸餾(On-Policy Distillation, OPD),結合了RL 的取樣方式和SFT 的監督訊號。訓練資料不再是老師的錄影,而是學生模型自己即時產生的軌跡。學生要在自己真實的「犯錯分佈」中學習,這是RL的取樣方法。但它評估用的是SFT的密集回饋,老師模型會全程陪跑,在學生生成的每一個Token 上都計算KL 散度(即直接告訴學生你和我的差距在那裡),提供密集的即時反饋,而不是像RL 那樣最後才給一個標量分數。這種方法創造了一種既不會導致災難性遺忘,同時也極大壓縮成本的參數更新方式。兩條路徑,最終都導向了透過微調更新模型參數更穩定的路徑,這樣的話模型就可以更快捷、便宜的進行線下更新。夢想中的白天模型陪你說話, 晚上你睡覺更新你的神經元連接,它微調更新它的參數,也許會變成可能。03走出“柏拉圖洞穴”,迎來空間智能(Gv) 與世界模型另一個在Bengio AGI定義2024年得分還是0的一項,就是視覺處理。今年,這項能力在Sora 2、 Veo 3等生成影片的爆發之下,得到了有效的提升。在Veo 3等模型能夠有效保持物體位置一致性的情況下,模型似乎開始有了對物理規律更深的掌握,進入到了空間智能和世界模型(World Models)的範疇。雖然今年主要是李飛飛在大力宣揚空間智能的概念。但實際上在這條路上,一共有三個主流派系和玩家,在今年也都各有研究進展。自監督生成模型的Scaling Law第一派就是Sora 2、Veo 3這些採用了DiT架構的自監督模型,也就是我們常見的視訊生成模型。不過要論空間智能,2025年8月,Google DeepMind發表的Genie 3更明顯。 Genie 3,是個生成的、可互動的、持續演變的3D環境。與其前代相對破碎的呈現不同,Genie 3具有了即時性和一致性。它能以24fps的幀率和720p的解析度即時渲染環境,且能維持數分鐘的場景一致性。如果你在虛擬世界中打破了一個花瓶,當你轉身離開再回來時,花瓶碎片依然在地上,而不是像早期生成視頻那樣莫名消失或復原。除此之外,Genie 3非常好的展現了自監督模型的物理學習能力。它完全沒有參考物理引擎,只是透過觀看海量影片數據,自發性地學會了流體流動、光影反射甚至風吹樹葉的物理規律。之所以視訊生成模型能夠獲得如此大的進步,主要是因為學術界發現了視覺自回歸(Visual Autoregressive, VAR)和擴散Transformer(DiT)的Scaling Law。2024年,字節的Visual Autoregressive (VAR) 模型的提出,排除了Diffusion部分,透過改變token的建模,從行變成圖,讓自回歸獨挑大樑。因為是純自回歸,它的性能嚴格遵循Scaling Law。但這個路子畢竟還是有點野。在25年的論文《Towards Precise Scaling Laws for Video Diffusion Transformers》,更主流的DiT也被發現符合Scaling Law,不過這個Law與LLM不太一樣。與LLM相對穩定的特性不一樣,視訊擴散模型對批量大小(Batch Size)和學習率(Learning Rate)表現出極高的敏感度。直接套用LLM的縮放定律會導致預測失效。但用上特製的Scaling Law,DiT模型就可以大力出奇蹟了。在Veo 3成員的訪談中,Deepmind的員工就表示,訓練這麼好,主要是打通了影片產生的Scaling Law。除此之外,今年影片產生的另一個新變化就是加上聲音了。這主要歸功於Google一直堅持的原生多模態能力。而2025年4月,Apple Machine Learning Research發表了《Scaling Laws for Native Multimodal Models》發現,晚期融合架構(後台多模態)相對於早期融合架構(原生多模態)可能存在一定上限上的劣勢。過去晚期融合模型通常表現出較高的樣本效率,就是我後面加一個影像編碼器,就可以直接讓語言模型變成視訊模型,變化賊快。這意味著費力去訓原生多模態,得不償失。但晚期融合模型在參數利用率上存在瓶頸,為了達到特定的性能水平,晚期融合架構得需要更大的模型尺寸來補償那個新加視覺編碼器帶來的表徵限制,因此同等規模,上限更低。另一個特別值得注意的動向,是VAE的消失。 VAE你可以理解成視訊的壓縮器。一個影片包含的資訊太多,直接給模型,它就會崩潰,所以需要一個壓縮器去壓縮成模型可接受的資訊密度。但這麼一壓縮,重構必然會導致高頻細節丟失,而且VAE是獨立的模型,其生成的Latent Space 與大語言模型(LLM)或多模態模型(VLM)的語義空間不對齊,訓練上非常麻煩。2025 年10 月快手的《Latent Diffusion Model without Variational Autoencoder》 論文提出了SVG 模型,透過直接用影像理解模型取代VAE,統一語意空間,這個模式大大提升了訓練效率(號稱提升6200%)和生成速度。而且它的效果不但沒有因為「快」而縮水,反而在多項核心指標上擊敗了現在的霸主DiT(Diffusion Transformer)和SDXL。因為這個模式,有大一統的美,又有benchmark的美,應該很快就會成為主流。符號主義的World Labs :基於3D CV生成的世界第二派是史丹佛教授李飛飛領導的World Labs 派。這一派的特色就是,生成好,但要在固定的物理框架下生成。純粹自監督,太不可靠了。他們在2025年11月推出了首個商業產品Marble平台。這是一個「大型世界模型」(LWM),旨在從多模態輸入中產生可探索的3D 環境。與Sora 輸出像素流(影片)不同,Marble 輸出的是空間表示。根據媒體分析,Marble 大概率是依賴3D 高斯潑濺(3DGS) 作為其渲染基元,並可能結合了神經輻射場(NeRF)的結構估計原則。當使用者輸入單張圖像或文字提示時,Marble 會估計場景的深度、光照和被遮蔽的幾何結構。然後,它將這些2D 資訊「提升」為由數百萬個高斯「潑濺」(具有顏色、不透明度和縮放屬性的橢球體)組成的3D 體積。始終是放不下CV多年來世界建構的努力。這種對傳統CV的應用,也體現在World Labs 提供的創作工具Chisel 上。它引入了神經符號(Neuro-symbolic)工作流程。使用者可以使用粗略的幾何基元(盒子、平面)定義世界的“骨架”,以建立佈局約束(例如,“我需要這裡有一扇門,那裡有一堵牆”)。生成模型隨後根據文字提示對這一結構進行「繪製」和細節填充。比起Sora 生成的黑盒,Marble雖然不是很性感,但確實更穩定,更可控。也許World Labs這條路能是最早走通工業落地的方向。預測即理解:V-JEPA 2與物理直覺另外一派代表是Yann Lecun,他的特色就是極端的深度學習表徵派。對於他,大家可能都或多或少聽過,Lecun的觀點一直是:自回歸的生成式模型根本不可能掌握物理規則,只是鸚鵡而已。那要怎麼掌握規則呢?靠預測。只有預測,能學習物理規則的表徵,而不是那些像素的關係表徵。 Meta推出的V-JEPA 2,訓練機制就是隨機遮住影像的一部分(Masking),然後要求模型根據先前看到的畫面,預測被遮蔽部分的內容,只練預測。然後,一個教師編碼器看到完整的視頻,根據這個幫學生,生成目標特徵向量。這種設計使得V-JEPA 2具備了極高的語意抽象能力。模型被迫學習場景中那些「可預測」的規律(如重力下落、剛體碰撞),而自動忽略那些「不可預測」的隨機雜訊(如光斑的閃爍、背景的紋理雜訊)。在Yann Lecun的考慮中,這提取了因果本質。這套理念其實並不新,和他2024年初發布的V-JEPA 1完全一致。但當時,V-JEPA 1 只用了100M左右的資料集做訓練,其效果只能是理解視頻,並不能展現出反事實預測的能力。但在V-JEPA 2裡,Lecun優化了訓練過程,花了100萬+ 小時的影片訓練集,結果模型確實湧現了「推演」的能力。在V-JEPA 2-AC(動作條件化)變體中,JEPA模型確實做到了可以預測「如果我執行這個動作,世界會變成什麼樣子」。這毫無疑問,是對這條路徑的一劑強心針。說明預測,掌握物理規則這個訓練模式是有效的。不過到了JEPA 2,它能夠處理的時間跨度也不過64幀(根據採樣規律,約10秒),分辨率只有384x384。和人家生成路線高清2k、20s生成比起來,還是差太多。想要真正實用,還得在工程上做不少事。04重要的是學習從深度學習肇始,核心問題就只有一個,也就是什麼是學習。到2024年為止,大模型早已經具有了許多學習能力,能夠從海量資料中尋找到資料的連結方式,進而達成一種與人不同的學習模式。然而,在2025年,強化學習之父Richard Sutton 仍然批評當前的大語言模型(LLM)只是“被凍結的過去知識”,缺乏在與環境交互中實時學習的能力。這是說模型缺乏持續學習的能力,這個問題在上面記憶部分有可能會被解決。Sutton的另一個批評就是模型並不會元學習,也就是學習怎麼去學習,學什麼。他所謂的元方法(Meta-methods),指的就是「在這個時刻不要把知識寫死,而是把『獲取知識的能力』寫進程式碼裡」的方法。這樣,模型才能利用無限的算力和數據,去適應無限變化的世界。只有有元學習的能力的模型,才能在遇到新問題時, 透過很少幾個樣本,調動腦子裡的「通用解題邏輯」(元知識),立刻做出解答,做到真正的低成本、快速適應。並透過「如何觀察特徵、如何歸納特徵」的能力,迅速歸納出規則達成完整的動態泛化。沒有元學習,模型就不可能應付未知。 因為你無法預知未來會遇到什麼任務,所以你不能預先訓練它,只能賦予它現場學習的能力。元學習與中訓練在2024年之前,學術界一直有關於當時模型是否具有隱性元學習能力的討論。很多人認為是有的,因為有上下文學習(In-Context Learning)的現象。因為我們不改動參數,只是給GPT 看幾個例子(Prompt),它就像學過了一樣能夠舉一反三。對此,包括Anthropic在內的研究機構,都提出Transformer中的注意力機制在數學形式上,與模型學習時梯度下降(Gradient Descent)的更新步驟非常類似。 Deepmind的論文,更證明對於線性注意力模型,Transformer 的前向傳播過程可以被嚴格推導為「在大規模預訓練學到的權重上執行梯度下降」的過程。但同樣,也有很多研究,證明上下文學習其實沒在新學習例子中給出的映射關係,只是在自身的概念空間裡,利用格式(Format)激活了預訓練期間早就記住的知識。就是說啟動了相關性而已,不是真在學,而是在套模版。這和我們所提到的元學習的理念大相逕庭。不過,在2025年12月份,蘇黎世理工也發表了一篇Meta RL的論文,設計了更好的脈絡框架,更有效的利用ICL來作為一種元學習的方式。讓模型透過上下文自我反思和歷史回溯,來形成新策略。在下一次嘗試中,Agent 實際上是在執行一個新的Policy ,因為上下文變了。它看起來和上面提到的谷歌的ReMeM很像,但更關注策略更新,而不是上下文管理。也許他們結合起來,才是最好的上下文作為權重的方法。但最大的改變,是TTC的到來,為隱性元學習提供了其他的可能性。在推理革命初期,大家都發現可能模型思考了很長一段時間,輸出了很長的思維鏈,但要不是沒用,就是都是錯的。所以不是思維鏈越長模型就越強。我們得引導它的思考過程,讓它在最短的思考中,達成最優解。這其實本質上就是一種訓練模式如何思考的元學習。卡內基美隆的研究《Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning》就是在這個方向上的嘗試。它先證明了,模型在推理時產生的長CoT,本質上是一個Agent 在思考空間中探索最優路徑。那如果這種探索可以做到更有效,其實就是一種元學習的能力。這種元學習,就是引導模型在推理過程中,能有效尋找最佳路徑,合理地分配算力。他們使用的策略是累積遺憾最小化(Cumulative Regret)。如果模型多思考了很多步,但答案的置信度沒有提升,這就是個遺憾,需要在後續規避。我們在做強化學習的時候,應該引導模型盡可能減少遺憾發生的可能,讓模型知道遇到這種難度的題,我應該呼叫多少算力、嘗試幾條路徑。這就是學習的方法。但這些方法,雖然比單純的脈絡學習走的遠,但仍侷限在優化現有的探索路徑這個層面,向外探索的能力仍然不足。我們可能仍需要在單純的梯度之外,建構一套明確的系統,引導模型學習學習。例如DeepMind 今年發表DiscoRL,它包含兩個核心閉環:內部循環由Agent在Atari等遊戲環境中試錯,外部循環則由「老師」透過反向傳播觀察學生的表現,不斷修正教學策略(即更新學習演算法的參數)。這個過程讓AI自主發現了想要得到最好的結果,得從“獎勵最大化”轉向“未來預測”,而且這些預測往往集中在重大事件(如Ahamoment和改變方向)發生之前。在這過程中,教師獨立「重新發現」了RL中的自舉法,證明了AI可以透過這種遞歸的抽象從純粹經驗中真的學習到應該如何去探索。實驗結果顯示,由此系統自主發現的演算法(Disco57)不僅在雅達利基準上擊敗了包括MuZero在內的人類設計頂級演算法,更展現了驚人的泛化能力。即使在未見過的ProcGen和NetHack等複雜環境中,它依然表現出色,證明其學到的不是單一遊戲的技巧,而是普適通用的學習法則。Meta在《Agent Learning via Early Experience》的中訓練嘗試,其實也殊途同歸的走向了一樣的路徑。預訓練是讓AI死記硬背專家的正確操作,RL是直接扔到現實世界裡依靠稀缺的獎勵摸爬滾打。而中訓練,就是在這之間讓Agent自己瞎折騰產生後果,並且反思。具體到操作層面,在專家演示的每一步,會強制AI嘗試幾種不同的“備選動作”,然後記錄下這些動作會讓環境變成什麼樣。同時,也要對為什麼專家做得好,我做的不好進行反思。這其實就是訓練AI不僅僅知道“怎麼做是對的”,而是建立起“如果我這樣做,世界會那樣變”的因果模型。在一種探索和嘗試,以及對嘗試經驗的遞歸中,模型也許確實學會瞭如何學習這個世界的規律。它能顯著提升其在WebShop、ALFWorld等複雜環境中的成功率(平均提升9.6%),並大幅增強了泛化能力。這幾種方法有一個共通性,即他們都掌握了「想有效探索,必須建立一個對世界的預測」的想法。這和Google《General Agents Need World Models》一文的結論不謀而合。神經科學的投影2025年的神經科學研究,讓我們可能能更理解人類是如何進行學習的。過去我們認為神經網路是一個混雜的“黑盒”,但在《Building compositional tasks with shared neural subspaces》這篇論文證明了大腦內部存在著結構化、正交化的神經子空間。這些子空間就像是物理層面的“符號”,它們將“顏色”、“形狀”、“動作”等概念從混沌的電信號中剝離出來,形成了獨立的、可複用的模組。研究發現,大腦執行新任務不是靠修改神經元的連結(長出新腦細胞),而是靠一種「動態路由」機制。前額葉皮質根據當前的“任務信念”,像接線員一樣將不同的神經子空間重新連線。其實人類在學習過程中,是將簡單的模組拼裝成新任務來去行動。今年哈佛的論文《WHAT DOES IT MEAN TO UNDERSTAND LANGUAGE?》則認為大腦的「語言區域」其實並不負責真正深刻的理解,它只是做了一些表層的處理,然後必須把訊息「外派」給大腦的其他專門區域(比如負責視覺、社交、物理推理的區域),才能實現真正的「深度理解」。在這種理解之上,2025年湧現了許多對模型進行分區的嘗試,包括上述的記憶分區,或是把模型的參數分成專門處理快、慢反應的兩個組別的嘗試。05讀寫速度、注意力和Scaling Law的基礎以上四個部分,可以說是2025年最引人注目的四個進步。因為它們在AGI的量表中,都是一步步覆蓋到原來完全為0的新領域。從零奠基,範式革新。然而在這之外,2025年也有其他一些重要改變,有效的補齊了過去模型並不擅長的領域(例如上下文和處理速度),並且可能隱含著一些訓練範式上的大規模修正可能。以下我們就透過一章,快速涵蓋這些領域。對抗“Scaling Law的消失”就像文章一開始所寫,在2024年末時,GPT 4.5已經遇到了網路資料枯竭的問題。而且在訓練超大型稠密模型的工程難度也幾何增加,問題不斷。Scaling Law眼看難以為繼之時,OpenAI 在GPT-5.2 中並未繼續盲目擴大參數,而是靠稀疏性(Sparsity),即MoE、合成資料(Synthetic Data)與RL加強三方結合,突破瓶頸。MoE,是DeepSeek 一直以來的方法,在V3成功之前, 業內很少有人使用。但它確實具有訓練資源消耗少的特徵(一次訓練整個模型vs 一次只訓部分專家),因此,大規模稠密模型帶來的工程問題在一定程度上被解決。而強化學習和測試時時間,讓模型可以繞過參數的Scaling Law,用上面說到的RL的Scaling Law繼續提升能力。但數據怎麼辦?在2025年,隨著推理能力的進步,模型現在已經可以自主生成長思維鏈(COT)文本了。 DeepSeek R1的論文表明,利用DeepSeek-R1產生的長思維鏈對小模型進行微調,其效果遠超使用人類專家編寫的CoT數據。因此,到此時合成資料的問題已經解決了一半。另外,2025年也有很多證據證明,數據在精,不在多。而且品質最好的就是長COT數據。芝加哥大學團隊的實驗數據表明,當數據量達到一定規模後,資訊大多是重複冗餘的,訓練效果反而不好。與其盲目追求P資料量,不如透過去重和多樣性篩選來降低資料密度,加強單位資料的「驚奇度」(Surprisal)。而且最有驚奇度的在現階段正是長COT。在他們的實驗Select2Reason中,僅僅篩選出前10% 推理路徑最長、最複雜的樣本進行訓練,其效果就匹配甚至超越了全量數據集。因此,長COT文字合成數據,已經成了翻越數據牆的一種最有希望的方式。但2025年10月的一項熱點研究發現,模型在大規模使用合成數據,包括互聯網上流行的AI生成數據後,會發生“腦損傷”,也就是遞歸(持續用自己推導自己)導致的模型崩潰(Model Collapse)。一方面模型的長尾泛化能力下降,另一方面,模型會持續放大過去產生的錯誤,盲目自信。不過研究並沒有單獨拎出來長COT文字資料做範例。好在這並非必然。南洋科技大在NeurIPS 2025的論文中,就建立了一種利用自我驗證機制過濾資料的方法。在產生合成資料後,模型會計算其內部置信度分數。如果分數低於某個閾值,表示模型對該生成內容存疑,那麼這些資料就要被丟棄。他們的數據證明,只要模型的校準誤差在一定界限內,僅憑自我驗證就可以在完全合成(Fully Synthetic)的資料體制下,讓模型一直訓練下去,而不會崩潰。在2025年,科學研究界也發明出了更複雜的方法來做清洗。例如利用另一個模型作為裁判(LLM-as-a-Judge)去搭建一個資料清洗流,確保其可驗證性和效果。甚至有意識的讓Agent去生產模型知識空間中的空白(Missing Nodes),以解決遞歸帶來的多樣性喪失。感謝蒸餾,我們或許不必再承擔推理慢的代價了Gemini 3 Flash在年底的橫空出世,讓人對小模型的能力提升有了非常直觀的感受。在Gemini 3 Flash之前,雖然Nvidia一直鼓吹小模型時代,微軟的Phi 4、谷歌的Gemma 3等小模型也表現不俗,但沒有任何一家的小模型能夠真正替代自家主流模型成為日常主力模型。所以2025年這一年到底發生了什麼,讓小模型突飛猛進?主要是蒸餾方法的兩大主要的進步:MoE的蒸餾,以及COT的蒸餾上。先說MoE蒸餾。在DeepSeek的帶領下,現在主流的模型都是用MoE的架構了。但先前的傳統的蒸餾方法往往忽略了那些未被路由選中的專家(Non-activated Experts)所蘊含的「暗知識」。2025年2月的論文《Every Expert Matters》就提出了針對MoE 的特化蒸餾方案。此方法在蒸餾過程中,透過多次採樣或強制活化策略,讓學生模型接觸教師模型中不同專家的組合輸出。這樣學生模型(通常是較小的稠密模型)不僅學習到了“最優解”,還學習到了不同專家對同一問題的不同視角。這類研究,給出了MoE蒸餾的工程方向。另一個難題就是將長思維鏈能力高效遷移到小模型。傳統的單一教師蒸餾處理長序列推理中的誤差累積問題非常不力,並不適合長COT的蒸餾。而簡單的將多位教師的資料混合(Data Union)往往會因為推理路徑的衝突而導致模型困惑,反而降低了效能。為了能因應這個情況,思維融合蒸餾(Merge-of-Thought, MoT) 應運而生。這是一個輕量級的、迭代式的蒸餾框架,透過共識去噪(Consensus Denoising)原理,讓多個教師可以有效的引導學生模型,還可以避免長序列推理的誤差累積。例如在解決同一個複雜數學或邏輯問題時,不同教師的表達各異,但其核心的推理邏輯往往是相似的。就那乾脆在高維度參數空間中,讓學生模型能夠提取出所有教師的“公約數”,即最穩健的推理邏輯。透過這兩種方式,加上長COT本身對蒸餾的增強作用,讓小模型的能力越來越強。也許有一天,我們甚至不用犧牲推理帶來的速度減緩,就能享受完整的智慧體驗了。注意力機制的變化,解放脈絡每一年,注意力機制都會有些新突破。畢竟這是自迴歸框架下最重要的機制之一,它深度影響了大模型的脈絡能力和指令遵從能力。 2025年的變化相對比較多元。如果說2024年以前是MHA(多頭注意力)的時代,那麼2025年則是MLA(Multi-Head Latent Attention,多頭潛在註意力)及其變體全面普及的時代。從DeepSeek從V3開始採用MLA架構後,它就開始大受歡迎。畢竟既能壓縮大量降低顯存佔用,又能保持了原有註意力機制的水平,多好。而且在推理COT越來越長的背景下,的KV Cache顯存爆炸問題更嚴重,MLA 也更加流行。不過在發展過程中,MLA現在很少是作為一個獨立的注意力層被應用,而是更多地作為一種「高性能組件」被嵌入到混合架構中,給其他更高效的注意力新方法做精度保底。2025年的另一個變化是線性注意力的複歸。長期以來,線性注意力被視為全注意力的一種「有損壓縮」妥協方案,它用精確度的下降換取推理速度。但在2025年,隨著Kimi Linear的發布,這種刻板印象被徹底打破。Kimi Linear採用3:1混合架構(3層線性穿插1層MLA),利用線性注意力層承擔主要的計算負載(節省75% KV緩存),再利用MLA兜底全局信息,實現了在1M超長上下文任務(RULER測試)中達到94.8的高分,性能上首次全面超越全注意力。這標誌著線性注意力現在又了從備胎轉為主力的實力。除此之外,Kimi還證明了線性注意力可以內在地學習各個token的位置信息,從而不再需要傳統的RoPE(旋轉位置編碼),在1M上下文解碼時,少了ROPE和N方的計算量,它的吞吐量可以達到全注意力的6.3倍。除了在傳統的Token層面優化注意力,2025年的另一個重要趨勢是打破離散Token的限制,朝向連續空間(Continuous Space)演進。這以「大型概念模型」(Large Concept Models, LCM)和騰訊的CALM(Continuous Autoregressive Language Models)為代表。傳統的LLM只預測下一個token,因此非常慢,且對於長文本概念的關聯性理解也不行。 Meta的Large Comcept Moedel 則試圖將多個Token壓縮為連續向量,從「預測下一個字」轉變為「預測下一個概念向量」。這增加了每個生成步驟的“語義頻寬”,在一次推理步驟中產生相當於原來4倍的信息量,理論上能讓模型訓練和推理的更快。這個邏輯很好,但在LCM提出時,因為壓縮token向量的工程化問題,其訓練效率並沒有比傳統方法提升太多。但今年10月,騰訊的CALM才第一次在工程上找到了平衡點,用更極簡的方式證明了這條路徑的工業可行性。062026,模型研究可能往那裡走?在了解完2025年模型的進步路徑後,我們可以暢想明年可能出現的一些研究方向。首先,我們上面提及的這些方向,毫無疑問會朝著更精細化和工程化的方向演進,進而為我們帶來模型體驗上的持續提升。從2025年的技術總結中,我們已經可以看到,幾乎所有重要的Scaling Law繼續發威的絆腳石都被搬的七七八八了。也正是因此,我們才在年末迎來了Gemini 3和GPT 5兩個確實提昇明顯的新模型。雖然像Test Time Compute這類範式革新性的創新是難以預測的,但有些已有苗頭的新方向很可能會在2026年結果,產生很重要的落地應用。我下面會羅列一些我認為可能會發生的技術推進方向。記憶的工程化實踐2026年,一定是記憶大年。因為記憶關切持續學習,事關Agent落地(個人化和新技能學習),如果理論上的方向已經明確,那除了工程上的難題外,基本上沒有什麼可以阻止它落地。在AI領域,我們以TTC革命為例子,可以看到一個複雜的系統性新想法從產生、實驗、工程落地,大概需要的時間是2年左右。 2024年末的GPT o1,實際上在22年左右,已經在Illya腦海中逐步成型,到方法確定和工程優化,大概用了整整兩年。在2025年,我們看到了從RAG、微調到架構上三種路徑上的思考都逐步邁向成熟,並且已經進行了小規模的實驗。這說明很可能再有一年時間,這些研究成果就可能在工程上成熟,被採用。在一個成功架構(例如像DeepSeek R1)的推動下,成為標配,完成範式轉換。即使做不到架構層的變化,RAG層的精修和SFT技術的最佳化,也可以讓之前那些實驗性的記憶系統,例如Mem0、Second Me有了更好的落地體驗。在2025年中,基本上主流模型都已經配置了基於情境的記憶系統。但在2026年,更細節,更具學習性的記憶將會逐步被產品化。標準架構的變革不論是Nested Learning、還是元學習,以及Universe of Thought,似乎都在證明著,我們當下的語言模型架構必須進行一些升級,才可能補全其缺失的能力。這種升級的趨勢主要以分區、分層、增加更多功能層為特質。不管是直接在層級間加入Titans 的記憶層,還是像Herachical Reasoning 那樣,把模型分成不同的分區,都可能更符合人腦運作的模式。在2026年,這種潛在的混合架構,可能會隨著神經學和符號主義的回潮,變得有更多更豐富的嘗試。進化的螺旋開啟2025年除了推理這個字之外,最熱門的應該就是自進化了。這是機器學習的聖杯。一個可以無限自我對弈、自我演化的通用型AI,基本上等於是AGI、ASI。不過在2025年,探索才剛起步。在這一年裡,有借鑒了生成式對抗網絡,讓模型能夠在無數據的情況下,自問自答進行強化學習的。這條路確實走的通,也確實是自進化,但它的上限依然受制於模型本身的預訓練能力,暫時沒有呈現出超過人工設計的後訓練的水平。自進化AI的另一個驗證方法是是否能發明出讓自己進化的演算法。這就是Alpha Evolve努力的一個方向。它是由系統使用Gemini Flash(追求速度)和Gemini Pro(追求深度)組成的模型集成,形成一個獨立的探索Agent。系統將目前表現最好的演算法程式碼作為上下文輸入LLM,並告訴這些Agent,去優化這段程式碼的某些具體方向。 LLM由此產生多個變異版本的程式碼。在Agent規則的限制下,這些變異一般是邏輯層面的重構,例如改變循環結構、引入新的數學技巧或調整資料結構。產生的程式碼會被放入沙箱環境中執行。系統透過預先定義的測試案例驗證其正確性(Provable Correctness),並透過效能分析器測量其效率(如延遲、吞吐量或指令數)。那些既正確又更有效率的演算法將被保留,成為下一代的父本。由此,持續的多次最佳化,最終帶來演算法的最優最佳化。在實踐上,Alpha Evolve確實找到了優於人類答案的最佳化演算法。不過,我們其實可以把Alpha Evolve看成Deep research的變體版本,只是把搜尋部分換成優化而已。在缺乏反思和內化,只是作為流程Agent存在的大模型,雖然確實可以找到演化演算法,但很難稱之為自進化。以上兩種比較有代表性的嘗試,其實都屬於自進化早期的嘗試。在記憶、合成資料、後設學習的模式完善之後,自進化的AI在2026年必然會產生更多的可能性。(騰訊科技)
Google DeepMind 通用機器人路線圖:VLM → VLA + Agent,“能幹活”的機器人跑起來了
Google DeepMind 的機器人團隊強調,他們做的不是預先編好動作、只會後空翻表演的機器人,而是面向現實世界的 開放式通用機器人。這類機器人需要能夠 理解人類自然語言指令,並且可以 靈活組合執行幾乎不限種類的任務,而不是只會重複固定指令碼。來源:AI工業(採用 AI 工具整理)相比四年前,實驗室形態也發生了明顯變化:依託 更加魯棒的視覺主幹網路(visual backbone),模型對光照、背景、雜亂環境的敏感度大幅下降,視覺泛化問題被解決了很大一部分,不再需要用隱私屏去“淨化”場景。來源:AI工業(採用 AI 工具整理)最近幾年的核心進展,是把機器人系統 直接建構在大模型之上。團隊使用大規模 視覺–語言模型(VLM)作為通用世界知識的底座,在此基礎上疊加控制能力,建構出視覺–語言–動作模型(VLA/VALA)。在這樣的模型中,機器人在世界中的 物理動作也被視為一種序列 token,與視覺 token 和語言 token 放在同一序列中建模。這使得模型能夠在統一框架下處理“看到了什麼、理解成什麼、接下來該做什麼動作”,從而在 新場景、新物體、新指令上表現出更強的動作泛化(action generalization)能力。來源:AI工業(採用 AI 工具整理)在任務層面,系統已經從早期只會做“拿起、放下、拉開拉鏈”等短視野任務,邁向可以完成“行李打包、垃圾整理”等 長視野任務。通過在 VLA 上方加入一個 Agent 層,系統可以把很多短動作 編排成完整的長鏈條行為。例如“幫使用者打包去倫敦的行李”時,Agent 會先 查詢當地天氣,再 推理需要準備那些物品,然後呼叫 VLA 驅動機器人執行具體收納,形成 “上層推理規劃 + 底層物理執行” 的分層架構。在Gemini 1.5中,團隊又加入了 “思考(thinking)元件”:模型在執行動作之前,會 先顯式輸出自己對即將執行動作的“想法”和推理過程,然後才真正下發動作指令。本質上,這是把語言模型中的 鏈式思考(Chain-of-Thought)機制遷移到機器人控制上。實驗結果顯示,顯式輸出“思考過程”可以顯著提升機器人在新任務上的泛化能力和成功率,同時也大幅提升了系統的 可解釋性。代表性案例:Aloha 午餐盒、桌面操作與衣物分揀來源:AI工業(採用 AI 工具整理)在具體實驗中,團隊用 Aloha 機器人演示了一個高難度的 “午餐盒打包”長視野任務。機器人幾乎 完全依賴視覺伺服(visual servoing),以 毫米級精度抓住自封袋的一小段邊緣,把面包準確塞進狹窄空間,在出錯時根據視覺反饋不斷調整和重試。支撐這些端到端策略的資料主要來自遠端操作(tele-operation),研究人員以第一人稱視角“軀體化”地操控機器人完成任務。機器人則從這些 人類演示資料 中學習“什麼算做對”,最終得到真正端到端的視覺–動作控制策略。他們還展示了結合 語言控制與通用桌面操作 的場景:桌面上有不同顏色的積木和托盤,上面疊加了Gemini 語言互動層,使用者可以直接說出指令,機器人一邊執行一邊用語言反饋自己的動作。更關鍵的是,場景中加入了 完全未見過的新物體(例如剛買來的梨形小容器、減壓球),系統依然可以理解諸如“打開綠色梨形容器,把粉色軟團放進去,再蓋上”的複雜指令,展現出對 新物體、新組合的開放式泛化能力。在另一個衣物分揀的人形機器人示例中,模型在每個時間步同時輸出 “思考文字 + 接下來要做的動作”,將 思考與行動統一在一個端到端閉環模型中,既提升了表現,也增強了 可偵錯性和可解釋性。技術路線已成型,瓶頸轉向物理互動資料來源:AI工業(採用 AI 工具整理)團隊整體的判斷是:儘管當前機器人仍然 偏慢、動作有些笨拙,成功率也並非完美,但與幾年前相比,已經出現了“質變級”的進步。現在的系統能夠 理解語義、形成有上下文的場景理解,並對複雜的物理任務進行分解與推理。他們認為目前的很多成果,已經是在搭建 未來通用家用機器人的基礎模組,而不是將來會被完全推翻的臨時方案。在這種情況下,真正的核心瓶頸,已經從“模型結構設計”轉移到了“資料匱乏”:機器人要學會通用操作能力,需要海量的 真實世界物理互動資料,而這類資料的規模遠遠比不上網際網路的文字和圖像。未來一個重要方向,是充分利用人類在網際網路上發佈的 大量手工操作視訊,從這些人類示範中大規模學習,從而緩解實體機器人採集資料成本高、速度慢的問題。總體來看,通用機器人操作仍然是一個高度非結構化、開放式的難題,但在團隊看來,如果能跨過“物理互動資料”的門檻,當前這些“幫忙疊衣服、打包午餐”的演示,很可能就是一場真正“機器人革命”的前夜。 (AI工業)
Google DeepMind:AGI不必是巨型模型,拼湊型AI群或率先湧現,管理大規模Agent迫在眉睫
DeepMind最新發佈了一項關於AGI安全的研究,提出了一個全新的視角:AGI未必會以單一、龐大的巨型模型形式出現,而極有可能通過多個次級AGI(Sub-AGI)智能體的協作與拼湊,率先湧現出通用智能這項研究題為《分佈式AGI安全》(Distributional AGI Safety),由Nenad Tomašev等Google DeepMind研究人員撰寫論文指出,當前的AI安全和對齊研究主要集中在保護單個AI系統上,假設AGI將以單一實體的形式出現。然而,通過擁有互補技能和工具使用能力的個體智能體群體進行協調,進而表現出通用能力的“拼湊型AGI”(Patchwork AGI)假設,此前受到的關注甚少為了應對這一被忽視的風險,DeepMind團隊提出了一套分佈式AGI安全框架,核心在於設計和實施一個虛擬智能體沙盒經濟(Virtual Agentic Sandbox Economy),並為此建構了包含四層機制的深度防禦模型以下是該研究的核心內容被忽視的“拼湊型AGI”假設目前的AI安全方法(如RLHF、憲法AI、機械可解釋性等)大多是針對單一強大的AI實體開發的。這種思路假設AGI會作為一個由特定機構開發的個體AI出現。然而,DeepMind認為存在另一種高度合理的場景:AGI通過次級AGI智能體在群體或系統內的互動而湧現拼湊系統(Patchwork System):這種AGI是一個分佈式系統,由一組具有互補技能和可供性(affordances)的個體Sub-AGI智能體組成集體智能:系統中的通用智能主要作為集體智能出現。個體智能體可以將任務相互委託,路由給技能最高的智能體,或使用最合適的工具經濟驅動:相比於昂貴的單一全能模型,建構專門化、微調過的低成本智能體生態系統在經濟上更具優勢。這種需求驅動的生態系統類似於市場經濟在這種觀點下,AGI不是一個實體,而是一種“事態”(state of affairs):一個成熟的、去中心化的智能體經濟體系這帶來了新的安全挑戰:智能體之間可能發生共謀,或者出現意外的集體行為能力,且在大規模多智能體系統中追蹤責任(“許多手的問題”)極具挑戰性。解決方案:虛擬智能體市場與深度防禦為了應對分佈式AGI的風險,論文提出了一個基於虛擬智能體市場的框架。該框架不侷限於評估單個智能體,而是側重於通過市場機制、審計、聲譽管理和監督來治理智能體之間的交易該框架採用深度防禦(Defense-in-Depth)模型,包含四個互補的防禦層:第一層:市場設計 (Market Design)這是最基礎的一層,旨在通過結構性約束和協議來緩解系統性風險。隔離(Insulation):智能體市場必須在受控的沙盒環境中運行,與開放網際網路和關鍵基礎設施隔離。建議採用“可滲透沙盒”,所有輸入/輸出通道都需經過明確定義、監控和門控激勵對齊(Incentive Alignment): 市場應獎勵符合安全目標的行為,並對負外部性(如消耗過多計算資源、資訊污染)徵稅(類似庇古稅)透明度(Transparency):建立不可篡改的分佈式帳本,記錄交易和決策日誌,確保可追溯性熔斷機制(Circuit Breakers):自動化措施。當檢測到風險或波動性閾值被突破(如互動頻率激增、資源壟斷)時,自動暫停或減緩智能體活動身份(Identity):每個智能體需擁有與法律實體(所有者)繫結的唯一加密ID,確保持續的問責制聲譽與信任(Reputation and Trust):建立抗女巫攻擊的聲譽系統。對於違規智能體,快速凍結其資產並將其加入黑名單智能合約(Smart Contracts):利用程式碼自動驗證任務完成情況和對齊約束。結構性控制(Structural Controls):針對“智能失控”場景,實施靜態的市場分層(如防火牆)和動態的能力限制第二層:基線智能體安全 (Baseline Agent Safety)這一層確保參與市場的個體智能體本身是可控和可靠的,這是進入市場的先決條件。對抗魯棒性(Adversarial Robustness):智能體必須通過認證,證明其能抵抗對抗性攻擊可中斷性(Interruptibility):必須具備標準化的機制,允許授權的監督者安全地停止智能體及其衍生的分散式運算過程遏制(Containment):每個智能體應在自己的局部沙盒中運行,只有在滿足本地安全檢查後才允許與更廣泛的市場互動對齊(Alignment):個體智能體需經過RLHF或憲法AI等方法的對齊,並適應多智能體互動的動態環境機械可解釋性(Mechanistic Interpretability):利用稀疏自編碼器等技術監控智能體的內部動機,並審計其決策鏈防禦惡意提示:實施分層防禦策略,防止智能體在互動中被越獄或操控。第三層:監控與監督 (Monitoring & Oversight)這一層位於基礎設施之上,負責主動檢測新型故障模式和湧現行為。系統性風險即時監控: 跟蹤關鍵風險指標(如計算資源集中度、惡意共謀路徑)。由於互動頻率可能超過人類能力,需利用AI輔助工具進行監控獨立監督:建立擁有干預權力的獨立人類監督機構(經認證的專業人員)前AGI(Proto-AGI)特徵檢測:通過圖分析等方法,識別網路中是否突然湧現出更高的解決問題能力或形成穩固的“智能核心”紅隊測試(Red Teaming):持續進行多智能體對抗性測試,利用專門的對抗性AI系統來發現集體行為中的漏洞取證工具(Forensic Tooling):開發能解析大量互動資料並重建因果鏈的工具,以便進行快速的事故後分析。第四層:監管機制 (Regulatory Mechanisms)這是最外層,提供外部權威、問責制以及與人類社會的介面。法律責任與問責(Legal Liability):建立明確的框架,解決分佈式決策中的責任歸屬問題。即使是群體智能行為,也需追溯到具體的責任主體(如作為單一法律實體的公司)標準與合規(Standards):制定智能體安全、互操作性和報告的標準保險(Insurance):引入基於風險定價的保險機制,利用市場力量激勵更安全的開發實踐反智能體壟斷措施(Anti-Agent-Monopoly):防止單個智能體或集團在沙盒中獲取過多的算力或資源,維持生態系統的多樣性國際協調(International Coordination):鑑於AGI風險的全球性,需協調統一安全標準,避免監管套利基礎設施治理:防止安全基礎設施被惡意勢力或湧現的AGI本身捕獲或破壞。結語DeepMind的研究強調,AGI或超級智能(ASI)的出現可能不遵循線性路徑,而是作為一個更加分佈式的、多樣化AI智能體網路的聚合屬性而湧現即使AGI不以這種方式出現,隨著多智能體系統的快速部署,理解和管理大規模智能體互動的安全性也已迫在眉睫。這篇論文提出的框架,旨在為應對這種分佈式的、可能迅速演變的未來做好準備 (AI寒武紀)
Gemini3預訓練負責人:訓練資料一開始就用了大量合成資料,範式已經變化:研究越來越像工程!不太擔心業界刷榜會造成過擬合
Gemini 3的逆襲,給業界帶來了太多的驚喜和問號。與此前不同的是,業界到現在似乎也沒有逆向出Gemini3的秘方出來。本周五,繼Google兩位大佬 Demis、Jeff Dean 播客訪談之後,終於有一位一線的負責人出來爆料了。這位可沒有前面兩位大佬嘴嚴。Google DeepMind 的 Gemini 3 預訓練負責人 Sebastian Bourjou,在訪談中被主持人挖出來不少關於 Gemini 3 的消息。比如,跟上一代相比,Gemini3 在模型架構的改動並沒有大到脫離了 transformer 架構,大體上還是能看出它是Transformer MoE架構的影子。並坦承,Gemini 3之所以提升如此大,是大中小多重因素疊加的結果。再比如,他自曝說自己感覺不是在做大模型,而是在建構一個複雜的系統。“這件事實際上會深刻改變研究方式,以及我們思考問題的方法。”Bourjou 還特別提到了一種範式的變化:過去,我們基本處在一個“資料幾乎無限”的規模化階段;而現在,我們正在進入一個“資料受限”的階段。關於“預訓練到頭了嗎?Scaling Law 到頭了嗎?”Bourjou很果斷的給出了否定的答案,並指出,自己並沒有看到這條研究路線在短期內會走到盡頭。“至少 1 年內,它仍然會持續為我們帶來進展。”這次訪談非常的technical,從預訓練、到後訓練、對齊、RL,再到Gemini3所用的訓練資料,再到最近大火的持續學習。都給出了自己的“研究品味”。在他看來,工程與研究的邊界已經開始分不清了!訪談中,他還聊到了,Gemini 3 在底層是如何建構的、從“無限資料時代”轉向“資料受限階段”的變化、DeepMind 內部研究團隊的組織方式,以及 AI 接下來可能會走向那裡。下面是小編整理的採訪全文,enjoy!Oriol 的“秘密配方”:更好的預訓練 + 後訓練Matt Turk大家好,今天的嘉賓是Sebastian Bourjou,Google DeepMind 的 Gemini 3 預訓練負責人。Sebastian 是全球頂尖的 AI 研究者之一,同時也入選了 Meta 的研究員榜單。這一期節目格外特別,因為這是他第一次參加播客訪談。Matt Turk我想從一條推文聊起。這條推文來自 Oriol Vinyals,他是 Google DeepMind 的研究副總裁、深度學習負責人,也是 Gemini 的聯合負責人之一。在 Gemini 3 發佈時,他說這個模型背後的“秘密”其實非常簡單:更好的預訓練,以及更好的後訓練。考慮到 Gemini 3 相比之前的 SOTA 有這麼大的躍遷,這樣的說法聽起來反而有點“樸素”。我很好奇,你怎麼看?事情真的就這麼簡單嗎?Sebastian Bourjou我不確定這算不算什麼“秘密”。至少從我的視角來看,這其實挺正常的。很多人會期待,從一個 Gemini 版本到下一個版本,一定會有某個“巨大變化”,突然帶來質的飛躍。但根據我的經驗,確實會有一兩個因素,比其他因素的影響更大一些,但真正決定結果的,往往是大量改進的累積。Gemini 3 之所以明顯優於前幾代,並不是因為某一個單點突破,而是一個非常龐大的團隊,在非常多細節上持續改進,最終匯聚成了這個結果。我想這也是一個會在後面反覆出現的主題:像 Gemini 3 這樣的發佈,本質上是一個大規模團隊協作的成果。AI 進展為什麼還沒有放緩Matt Turk從這個角度來看,這對我們理解 AI 的發展階段意味著什麼?僅僅通過“調參數”“擰旋鈕”,就能帶來如此大的提升,這說明了什麼?對未來的進展,我們應該有什麼預期?Sebastian Bourjou我覺得有兩點。第一點是:通過這種方式,我們依然能夠取得如此顯著的進展,這件事本身就非常值得注意。而且,這種進展並沒有明顯放緩。我們每天都會發現新的“旋鈕”、新的改進點,幾乎是日常層面的發現——這些都會讓模型變得更好。第二點是:我們已經不再只是建構一個模型了。我們現在建構的是一個系統。有些人會認為,我們只是訓練了一個神經網路架構,僅此而已。但實際上,我們建構的是圍繞這個網路的整個系統。這是一個整體工程,而不是單一模型。模型真的在“變聰明”嗎?Matt Turk這是很多人心中的核心問題:這究竟意味著什麼樣的智能進展?我們不一定非要討論 AGI,畢竟誰也說不清它到底指什麼。但問題是:我們是否應該把這種模型進展,看作是真正通往智能的一條路徑?還是說,它更多隻是為了在某個基準測試上取得好成績?是什麼讓你相信,模型的“核心能力”正在變得更強?Sebastian Bourjou從基準測試的角度看,成績確實在持續提升。而且如果你觀察這些前沿 benchmark 的設計方式,它們本身也在變得越來越難。即便是對我這樣有電腦科學背景的人來說,模型現在能回答的一些問題,我自己也需要花相當多時間才能解出來。當然,這只是一個視角——基準測試視角。我們也會非常頻繁地做評估,對測試集保持嚴格隔離。但即便如此,人們還是會擔心過擬合,或者所謂的“刷榜”。我個人並不太認同這些擔憂。但真正讓我有信心的,是另一件事:內部使用模型的時間,在持續增加。每一代新模型,都非常明顯地展現出新的能力,它們在研究和日常工程工作中,能比上一代幫到我們更多。這一點非常清楚。這說明模型不僅在分數上更好,而且在做真正有用的事情,能力也在實質性提升。兩三年後:最先發生變化的是什麼?Matt Turk作為一名深度參與其中的 AI 研究者,我一直很好奇:如果你把視角拉遠一點來看,現在的進展還會讓你感到意外嗎?從你的角度看,我們是明顯走在預期前面,還是基本符合當初的判斷,甚至有點落後?Sebastian Bourjou事後回看,說“我們在正軌上”其實很容易。但如果我對自己足夠誠實,我會說,我們確實走在了我當初預期的前面。2019 或 2020 年剛開始做大語言模型時,很難想像今天的規模,也很難想像模型現在能做到的事情。當年從 scaling law 的角度看,確實有人認為會走到這一步,但我不確定自己當時是否真敢下注,賭它會如此完整地實現。接下來兩到三年,會發生什麼?Sebastian Bourjou一個自然的問題是:如果我們假設未來五年的進展節奏,和過去五年差不多,那接下來會發生什麼?我覺得未來幾年會非常有意思。Matt Turk那你怎麼看短期內的變化?比如兩到三年內,AI 會不會做出全新的科學發現,甚至拿到諾貝爾獎?你覺得最近的方向會走向那裡?Sebastian Bourjou我覺得這是其中的一部分。在科學研究層面,DeepMind 一直在這方面投入很多,我也相信未來幾年我們確實有機會做出一些重大的科學發現。Sebastian Bourjou但在我自己的日常工作中,不論是研究還是工程,我更興奮的是:這些模型如何幫助我們更快推進工作,同時也幫助我們更好地理解我們正在建構的系統,並進一步深化自己的研究理解。Matt Turk現在行業裡有一個很大的話題:AI 是否會自動化 AI 研究和工程。如果順著這個邏輯往下推,就會走向那種“AI 2027” 的斷點式場景。從一個非常現實的角度看,你現在是如何使用 AI 的?你覺得兩年後會變成什麼樣?Sebastian Bourjou我覺得重點不在“自動化”,而在“加速”。AI 會讓我們把更多時間投入到更高層次的研究本身。AI 做 AI 研究:更快,但不是全自動Sebastian Bourjou在語言模型研究中,我們每天面對的是非常複雜、非常龐大的系統,尤其是在基礎設施層面。大量時間花在跑實驗、盯實驗、分析資料、整理結果上,真正有價值的部分是形成假設和設計新實驗。後面這兩件事,人仍然會深度參與;而前面的部分,在接下來一年裡,隨著更具 Agent 特性的工作流成熟,會被顯著加速。前沿實驗室:相似的路,分叉的研究樹Matt Turk你覺得各家前沿 AI 實驗室,本質上是不是都在做同一件事?作為行業觀察者,我們會感覺每隔幾周就冒出一個“驚豔模型”,大家反而有點被寵壞了。比如 Gemini 3 剛發佈沒多久,幾乎同時 GPT-5.2 也出來了。你怎麼看這種現象?最終會不會有人明顯跑出來,還是說會長期維持“少數頂級實驗室 + 一些新興團隊”的格局?Sebastian Bourjou先說第一點,各家確實有很多相似之處,底層技術路徑也比較接近。如果所有人都在訓練 transformer 類模型,我也不會感到太意外,但在此之上,大家確實在做不同方向的專精。不同公司會探索不同的研究分支。比如從歷史上看,DeepMind 在視覺和多模態方向一直很強,這一點現在仍然很明顯,無論是使用者使用方式還是 benchmark 表現。推理能力也是類似的情況,OpenAI 首先推出了相關模型,但我們內部其實也有對應的研究線。為什麼在Google 做研究很有吸引力規模、資源與潛在顛覆Sebastian Bourjou至於第二個問題,我不確定有沒有標準答案。很現實的一點是:今天要推動 Gemini 這種等級的模型進展,確實需要非常大的團隊和資源。但這並不意味著當前路徑是最優的,未來完全可能出現顛覆性研究,讓小團隊也能實現突破。Sebastian Bourjou這也是我很享受在 Google 的原因之一。這裡一直有大量探索性研究,研究廣度非常高,而且很多工作是和 Gemini 平行進行的。這些成果最終也能被吸收進 Gemini,形成正向循環。Transformer 之後,會不會有突然的斷裂式創新?Matt Turk在 DeepMind 或整個行業裡,是否存在一些半公開甚至完全保密的團隊,在研究“後 Transformer”架構,有一天突然公佈成果,讓所有人都措手不及?Sebastian Bourjou我相信是有的。在 Google、在 DeepMind 內部,確實有人在研究模型架構層面的新方向。至於這些研究是否最終會成功,很難說——這就是研究本身的特性。DeepMind 的優勢:研究 × 工程 × 基礎設施Matt Turk真正能成功的研究想法其實非常少。所以在這個過程中,一家公司相對另一家的核心優勢,往往歸結為“人”的質量。回到我剛才提到的那條推文,Demis Hassabis 轉發並評論說,真正的秘密在於研究、工程和基礎設施的結合。這是不是 Google 的“秘密配方”?你們做的是完整技術堆疊。Sebastian Bourjou這確實非常有幫助,我認為這是一個重要因素。另外,“研究”和“工程”之間的邊界,也在不斷變得模糊。Sebastian Bourjou在今天這種超大規模系統中,研究看起來越來越像工程,工程也越來越像研究。這種心態在 DeepMind 過去幾年變化很大,尤其是在 Gemini 項目中,現在更像是“研究工程”。基礎設施同樣關鍵,我們建構的是極其複雜的系統,可靠、穩定、可擴展的基礎設施,直接決定研究和工程能否不被拖慢。Matt TurkGemini 3 是在 TPU 上訓練的,對嗎?不是用輝達的晶片。這基本算是完全垂直整合了。進入Gemini 3 深水區之前,先聊聊你Matt Turk在深入 Gemini 3 之前,我想先聊聊你本人。你是 Gemini 3 的預訓練負責人之一,這具體意味著什麼?然後我們再談談你的背景和經歷。Gemini 3 預訓練負責人,到底在做什麼?Sebastian Bourjou我是 Gemini 預訓練的幾位負責人之一,這個角色其實包含很多方面。一部分是研究本身,目標是讓模型變得更好;但現在更多是設計實驗、和團隊一起評估結果,而不是自己親自跑實驗。Sebastian Bourjou另一部分——而且我覺得很有意思——是協調與整合。現在預訓練團隊已經非常大了,很難精確統計,但日常參與的人大概在 150 到 200 人之間,涵蓋資料、模型、基礎設施等多個方向。大團隊協作,才是長期效率的來源Sebastian Bourjou把這麼多人的工作整合成一個統一、可推進的系統,本身就是一件非常複雜、也非常耗時的事情。但我認為這是最重要的,因為真正推動長期進展的,是讓所有人都能持續產出,而不是只讓一小撮人跑在最前面。短期或許能靠小團隊突進,但長期來看,真正成功的路徑是大規模協作與整合。“逆向”頂級AI 研究者的成長路徑| 天才往往搬家Matt Turk我一直很好奇,你是在那里長大的?很多人都想“逆向工程”頂級 AI 研究者的成長路徑——他們來自那裡,又是如何走到今天的?Sebastian Bourjou我在歐洲各地長大,搬過很多次家。我出生在荷蘭,7 歲時搬到瑞士;我父親是瑞士人,母親是德國人。我在瑞士完成了大部分中小學教育,用的是法語和德語。15 歲左右我搬去了義大利,在那裡完成了高中,直到 19 歲。原本我打算去蘇黎世聯邦理工學院(ETH)讀大學,但有一天我隨手查了下大學排名,看到了劍橋,就想“那我也申請一下試試吧”。幾個月後我收到了錄取通知,於是去了劍橋,在電腦實驗室完成了本科和碩士。| 從小就擅長數學和程式設計Matt Turk你小時候就是那種數學特別強、偏電腦的孩子嗎?Sebastian Bourjou我父親有技術背景,所以我大概在 10、11 歲時就跟著他開始寫點程序。我一直挺喜歡這些東西,在學校裡數學和理科也比較輕鬆。高中時我幾乎不用怎麼複習數學考試,也能考得不錯——不過這在大學裡就完全不成立了。| 從學校到DeepMind:一次勇氣,換一次機會Matt Turk很好。那你從學校走到今天這個位置,中間經歷了怎樣的路徑?Sebastian Bourjou說實話,這裡面有一點運氣成分。我碩士期間有一門課的老師,剛好也是 DeepMind 的研究員。最後一節課結束時,我心想不如直接問他要個內推,最壞的情況也就是被拒絕。Sebastian Bourjou我就鼓起勇氣走過去問了,他說:“可以,把你的簡歷發給我,我看看能做什麼。”這就是我拿到 DeepMind 面試的起點,大概是在 2018 年。畢業後我加入了當時還沒併入 Google 的 DeepMind,職位是研究工程師。| 從強化學習開始,轉向真實世界資料Matt Turk你最開始做的是什麼?又是怎樣一步步走到 Gemini 3 預訓練負責人的?Sebastian Bourjou剛加入 DeepMind 時,它以強化學習聞名,所以我一開始也做的是 RL。具體來說,是在 Atari 環境裡訓練無監督網路,學習關鍵點,讓智能體玩遊戲。我做了大概半年,但逐漸發現我不太喜歡這種偏“合成世界”的研究。我更希望做和真實世界資料有關、能產生現實影響的事情。我本質上喜歡“造東西”,而且是能真正跑起來的東西,對純學術研究的興趣反而沒那麼強。這推動我轉向表徵學習(representation learning),訓練能支撐多種任務的通用表徵網路。這裡,有個我經常跟團隊講的小故事:我最早參與的項目叫“從真實世界資料中進行表徵學習”,當時必須特意強調“真實世界資料”,否則大家默認你是在做合成環境或合成資料——而現在,這個前提已經完全反過來了。| 從表徵學習到Transformer 和 LLMSebastian Bourjou這也是我第一次系統性地進入 Transformer 和大語言模型方向。當時我們在研究像 BERT、XLNet 這樣的模型,重點是如何學到更好的表示,以及如何改進這些表示。這為我後續進入大規模預訓練打下了基礎。Matt Turk後來你參與了 RETRO,對嗎?可以講講那段經歷嗎?Sebastian Bourjou在那之後,我們開始真正推進大語言模型的規模化。最早是 Gopher,那應該是 DeepMind 發佈的第一篇 LLM 論文,當時團隊已經有 10 到 12 個人了。從那一刻起,就很清楚這類研究不可能靠個人完成。這也是我真正開始做大規模預訓練的階段。我們訓練了第一個 dense Transformer,大約 2800 億參數、3000 億 token。今天回看,那些做法肯定不會再用,但當時是一次非常寶貴、也很有趣的學習過程。兩條預訓練的研究線| Chinchilla:重新思考“怎麼用算力”Sebastian Bourjou之後分化出了兩條重要的研究線:Chinchilla 和 RETRO。在 Chinchilla 中,我們重新審視一個核心問題:在固定訓練算力下,模型規模和資料規模該如何平衡?結論是,資料規模應該比之前認為的更快增長,而不是一味放大模型。有意思的是,這個結論在今天仍然非常關鍵,因為它直接影響模型部署後的推理成本,以及實際使用有多昂貴。這並不是一個“歷史問題”,而是一個持續影響工程決策的結論。| RETRO:把“記憶”外包給系統Sebastian Bourjou另一條研究線是 RETRO,更偏架構創新。核心思想是:與其把所有知識都塞進模型參數里,不如讓模型在訓練和推理時,能從一個大型文字庫中檢索資訊。也就是把“記憶”部分,從參數中解耦出來。“研究品味”Matt Turk你剛才用了一個詞——“研究品味”(research taste),我覺得特別有意思。你會如何定義它?它對研究者來說有多重要?Sebastian Bourjou它在今天非常重要,但也確實很難量化。第一點是:你的研究不是孤立存在的,它必須能和其他人的研究很好地協同、被整合進系統裡。好想法,如果拖慢別人,就不是好權衡。假設你提出了一個改進,讓模型性能提升了,但同時讓其他所有人的使用成本增加了 5%。這通常不是一個好的權衡,因為你會拖慢其他人的研究節奏,而這會在長期累積中減慢整體進展。這是研究品味中的第一層判斷。Sebastian Bourjou第二點是對複雜度保持警惕。複雜度本身是主觀的,但我們始終有一個“複雜度預算”和“研究風險上限”,超過之後,系統就會開始失控。因此,我們常常會犧牲一點性能,換取更低複雜度的方案,以便未來能走得更遠。Matt Turk聽起來研究品味裡也包含一種直覺判斷——什麼可能行得通,什麼不值得繼續投入。在算力有限的前提下,這種直覺是不是也很關鍵?Sebastian Bourjou是的,這一點非常重要,而且不同人差異很大。經驗在這裡非常有幫助,而我們在研究層面確實受限於算力。多數研究都會失敗,這本身就是現實Sebastian Bourjou研究的關鍵在於選擇探索那一條“研究樹”的分支,以及在這條分支上該做那些實驗。而且要知道,大多數研究想法都會失敗,你需要判斷什麼時候該停下來、什麼時候值得繼續推進。在深度學習中,負結果往往並不代表“不可能”,而是“你還沒把它做對”。修復、探索,如何平衡?Matt Turk既然談到研究組織方式,我們再深入一點。一個典型的權衡是短期和長期之間的取捨,你們是怎麼平衡的?Sebastian Bourjou這是我花很多時間思考的問題。一方面,總有一些明確的“關鍵路徑”問題,比如模型某個部分明顯不夠好,這些我們會優先修。這些修復是相對安全的投入,而且往往能直接提升模型。更重要的是,那些當前看起來“不夠完美”的地方,往往會在模型規模變大、能力增強後放大成大問題。所以在早期就非常嚴謹地處理這些問題,其實是在為未來降風險。另一部分,則是更探索性的研究,可能會影響下一代或下下代 Gemini,但尚未被驗證。這兩者的平衡並沒有固定公式,也和階段有關。在擴容階段,探索會多一些;在發佈前,則高度聚焦執行與去風險。研究vs 產品壓力Matt Turk在類似的維度上,還有研究與產品目標之間的張力。在激烈競爭中,是否會有“必須贏某個榜單”的現實壓力?Sebastian Bourjou在 Google,其實這種壓力相對很少。因為管理層大多有研究背景,他們很清楚:你可以短期“刷榜”,但真正重要的是研究本身是否走在正確方向上。至少對我個人來說,日常工作中幾乎感受不到這種壓力。DeepMind 的組織結構是怎樣的?Matt TurkDeepMind 的團隊是如何組織的?你提到預訓練有幾百人,那是否還有後訓練、對齊等不同團隊?Sebastian Bourjou有預訓練團隊,也有後訓練團隊。預訓練涵蓋模型、資料、基礎設施和評測,而評測本身常被低估,但其實非常難、也非常關鍵。此外還有大規模的基礎設施和服務團隊。Gemini 3:架構上基本仍然是TransformerMatt Turk好,我們稍微換個話題。按照之前的約定,我們來深入聊聊 Gemini 3 的內部設計。Matt Turk從使用者角度看,Gemini 3 和 2.5 的感覺差異很大。是否有某個重大的架構決策,解釋了這種變化?Sebastian Bourjou從高層來看,架構並沒有發生根本性變化。更多是多個改進點疊加在一起,最終帶來了顯著提升。整體上,它仍然是基於 Transformer 的混合專家(MoE)架構。Matt Turk能否用更教學一點的方式,解釋什麼是 MoE 架構?Sebastian BourjouTransformer 主要有兩個模組:第一個是注意力模組,負責在不同 token 之間混合資訊;第二個則是前饋模組,則提供模型的“記憶”和計算能力,它們是平行作用在單個 token 上的。在原始 Transformer 中,前饋模組是一個 dense 的全連線到網路。而MoE 的核心思想是:將計算量與參數規模解耦,通過路由機制,動態選擇“專家”來處理輸入。這樣就能在不線性增加計算成本的前提下,提升模型容量。原生多模態,真實成本如何Matt TurkGemini 是原生多模態模型。在實踐中,這對模型來說到底意味著什麼?Sebastian Bourjou這意味著我們不是為圖像、音訊、文字分別訓練不同模型。而是同一個神經網路,同時處理所有模態的資訊。Matt Turk這種原生多模態在成本上會更貴嗎?比如 token 成本?Sebastian Bourjou這是個好問題,成本主要體現在兩個方面。第一是研究複雜度,多模態互動會增加系統複雜性,需要額外思考和設計。第二是計算成本,圖像輸入通常比純文字更大,但這也是效率最佳化的重要研究方向。Scaling Law 真的“死”了嗎?Matt Turk回到你最擅長的預訓練領域。2025 年有不少聲音在討論“Scaling Law 是否已經失效”,Gemini 3 是否給出了反證?Sebastian Bourjou是的,這類討論對我來說一直有點奇怪,因為它們和我的實際經驗並不完全一致。我們看到的情況是:Scaling在預訓練中依然非常重要,也是讓模型變得更強的關鍵因素之一。但問題在於,過去人們有點高估了規模這一維度。規模確實能讓模型變好,而且它的優勢在於結果相對可預測——這正是規模定律告訴我們的:當模型變大時,性能大致會提升多少。但這只是其中一部分。另外兩大關鍵因素是模型架構和資料層面的創新,它們在當下的預訓練性能中同樣、甚至可能比“純粹堆規模”更重要。當然,規模依然是一個重要因素,對吧?而且我們這裡討論的是預訓練階段。因為今年我們看到的是:後訓練階段有規模化的 RL,推理時有規模化的 test-time compute 等等。但在預訓練中,你們看到的情況似乎是,不僅 scaling loss 沒有放緩,甚至還有加速的跡象——我的理解是,這主要來自資料和不同架構的變化,對嗎?Sebastian Bourjou我覺得更準確的說法是:這些因素是疊加在一起發揮作用的。規模只是其中一個軸,而模型本身和資料的改進,同樣會推動整體性能提升。Matt Turk當你在模型架構層面做出改進時,通常意味著什麼?是不是用同樣規模的資料,模型能得到更好的結果;或者反過來,用更少的資料,就能達到上一代模型的效果?Sebastian Bourjou對,這正是第一個層面的含義。架構改進本質上提高了資料效率。不過就資料體量而言,我們現在使用的資料規模,依然比人類一生可接觸到的量高出好幾個數量級。進化過程常被拿來類比,但那類高層討論往往依賴太多假設。至少在一階近似下,看起來我們確實比人類“喂”了模型更多資料。未來研究方向Matt Turk在整個預訓練進展上,除了規模之外,你在行業裡還對那些方向感到興奮?Sebastian Bourjou一個明顯的方向是長上下文。在 Gemini 1.5 中,我們在長上下文能力上實現了一次很大的躍遷,這直接支撐了如今模型和智能體處理大型程式碼庫等複雜工作的能力。接下來一年,我預計會看到更多關於“如何高效支援長上下文”的創新,以及進一步拉長上下文字身的研究。此外,在注意力機制上,我們最近也有一些很有意思的發現,可能會深刻影響接下來幾個月的研究方向。整體來看,進步往往來自大量中小改進的疊加:修一個問題、補一個漏洞、驗證一項看似不起眼但有效的研究,最終一起推動整體向前。長上下文會取代RAG嗎?否Matt Turk這讓我想到你早期參與的 RETRO。它強調的是效率、讓小模型做更多事;而現在你在 Gemini 3 上,面對的是超大規模資料和極長上下文窗口。你覺得這種範式會不會逐步消解 RAG、搜尋這些機制的必要性?備註:RETRO,DeepMind 在 2021–2022 年提出的一種語言模型研究方向,全稱通常被稱為 Retrieval-Enhanced Transformer。Sebastian BourjouRETRO 的核心並不是讓模型變小,而是“檢索而不是儲存”:讓模型在推理時去取資訊,而不是把一切都壓進參數里。這個理念今天依然成立。過去,預訓練的迭代周期很長,風險和成本都很高;而 RAG 或搜尋更多發生在後訓練階段,迭代更快、效果也很強。從長期來看,我相信真正的答案是把檢索和搜尋以可微的方式納入訓練本身——可能通過預訓練,或未來的其他範式。RL 的規模化或許只是一個開端,架構層面還有很多事要做,但這會是未來幾年逐步展開的過程。後訓練的Scaling Law跟預訓練很類似Matt Turk我理解你們的觀察是:在預訓練階段,規模依然非常關鍵,但今年大家又在後訓練階段放大了 RL、測試時計算等變數。那在預訓練中,我們看到的不只是 loss 放緩,甚至還有加速現象,這是不是更多來自資料和架構的變化?Sebastian Bourjou可以這樣理解:這些因素是疊加起作用的。規模只是其中一個維度,模型架構和資料同樣會顯著提升性能。有時候,架構或資料層面的創新,帶來的收益會超過單純繼續放大規模;但在某些階段,直接擴規模依然是最有效的路徑。這主要針對預訓練而言。至於 RL 和 RL 的規模化,其實我們正在看到很多和早期預訓練階段相似的現象,只是現在可以把當年的經驗直接遷移過來。Gemini3一開始就是多模態資料混合體合成資料明顯增加了Matt Turk說到資料,Gemini 3 的預訓練資料大致是怎樣的組合?你們之前好像發佈過 model card,透露過一部分資訊。Sebastian Bourjou:整體是多模態、從一開始就如此設計的資料混合體,來源非常多樣。一個經常被問到的問題是:我們會不會很快用完資料?一方面是算力是否不足,另一方面是資料是否不足。今年合成資料的使用明顯增加了,你怎麼看它的價值和邊界?Sebastian Bourjou合成資料確實很有意思,但使用時必須非常謹慎,很容易用錯。常見做法是先用一個很強的模型生成合成資料,再用小規模實驗驗證它是否真的有效。一個更難的問題是:能不能用合成資料,訓練出一個比“生成這些資料的模型”本身還要更強的模型?這是我們投入大量精力研究的方向。至於“資料是否用完了”,我個人並不這麼認為。我們研究中發現,更可能發生的是一種範式轉變:過去我們默認處在“資料幾乎無限”的階段,現在正在進入“資料有限”的階段,這會徹底改變研究思路。有點像 LLM 出現之前,大家在 ImageNet 等小資料集上的工作,很多當年的方法又重新變得有價值。範式正在轉變:資料有限的情況下如何更好Matt Turk行業裡還有一個反覆出現的概念:基於“推理軌跡”的訓練,也就是要求模型展示中間思考過程,再用這些過程訓練下一代模型。你怎麼看這個方向?Sebastian Bourjou具體細節我不能展開評論,但你的問題方向確實很對。這和你剛才問的合成資料高度相關。更宏觀地看,一個核心主題正在浮現:模型如何在有限資料條件下學習得更好。這裡的“有限”並不一定是更少,而是資料量是有上限的。從這個角度看,模型架構研究本身,正是在回答你提到的那個問題。Sebastian Bourjou還有一點我想強調:大家經常只談模型架構,但基礎設施、資料和評測同樣關鍵。評測尤其困難,在預訓練階段更是如此。一方面,我們用來做評測的小模型,必須能預測大模型的表現;另一方面,預訓練後的模型還會經歷後訓練,評測指標也要能反映最終使用效果。內部評測體系在這裡非常重要,因為外部基準很快就會被“污染”,一旦訓練資料中洩漏了評測內容,你幾乎無法察覺。真正防止自欺的方式,就是維護嚴格隔離的內部評測集。為什麼對齊不發生在預訓練?Matt Turk那對齊更多是在預訓練階段考慮,還是主要發生在後訓練?Sebastian Bourjou我會說大部分是在後訓練階段,但確實有一些部分和預訓練相關,具體細節我不便展開。不過我們在預訓練階段也會考慮這些問題。Matt Turk一個很直觀的問題:如果核心資料集來自網際網路,而網際網路裡充滿糟糕內容,那對齊的第一步是不是乾脆不把這些東西喂給模型?Sebastian Bourjou這是個很難給出確定答案的問題。你當然不希望模型去做那些糟糕的事,但在更底層的層面,模型至少要“知道”這些東西是什麼,才能學會避開它們。否則當使用者提到某些糟糕內容時,模型甚至無法判斷那是什麼,也就談不上明確拒絕。Deep Think 與模型的關係Matt Turk:我們來聊聊 Deep Think 吧,也就是在 Gemini 3 發佈幾天後推出的那個“思考模型”。它是一個獨立模型,還是同一個模型的不同形態?應該怎麼理解?Sebastian Bourjou:這個我不能講太多。至於你提到的,當模型“思考”十幾秒甚至更久時,背後發生了什麼,其實行業裡已經討論過不少了。本質上,是讓計算不只發生在模型深度上,也發生在序列長度上:模型會生成假設、測試假設,呼叫工具、發起搜尋,然後最後給出一個確定性的回答。圍繞“思維鏈”的這種範式,已經在行業裡逐漸形成共識。程式設計AgentMatt Turk:那從 agent 的角度呢?比如 Google 的 Anti-Gravity,你覺得它有意思的地方在那?Sebastian Bourjou:這正好和我之前提到的日常工作相關。很多時候我們的工作是偏執行層面的,比如盯實驗。但 agent 化真正放大了模型的價值。對預訓練來說,感知和視覺能力變得非常關鍵,因為模型現在要直接和螢幕互動,螢幕理解做不好,agent 基本無從談起。Matt Turk:Anti-Gravity 裡還有個“vibe coding”的說法,幾乎就是“憑感覺寫程式碼”。這種“vibe”是預訓練出來的,還是後訓練?怎麼把“感覺”塞進模型裡?Sebastian Bourjou:這個問題你問五個研究員,大概會得到五種答案。確實存在一種“模型氣場”的說法,歷史上有人認為 GPT-4.5 這種大模型“感覺不一樣”。我不太喜歡用這種表述,但直覺上,預訓練在塑造這種“感覺”上起的作用,可能比後訓練還大。如果專指 vibe coding,我會更傾向於把它看作 RL scaling 和後訓練的結果:你可以收集大量相關資料,系統性地把這種行為教給模型。持續學習的熱門方向長上下文、大中小疊加、降低成本Matt Turk:拉遠一點看。最近一年在很多會議上,大家都在談“持續學習”。從預訓練角度看,你怎麼理解它?如果持續學習真的成立,對重新訓練意味著什麼?Sebastian Bourjou:持續學習,本質上是讓模型隨著新知識不斷更新。比如明天出現一個新的科學突破,昨天訓練好的基礎模型並不知道它。近幾年更多進展發生在後訓練階段,比如通過搜尋工具即時獲取新資訊。RETRO 做的事情也是類似的:把知識外部化,用檢索配合推理。在預訓練側,一個相關方向是長上下文。如果上下文不斷擴展,模型就能在一次互動中吸收越來越多資訊,某種意義上形成“准持續學習”。更激進的設想是改變訓練演算法,讓模型持續地從真實世界的資料流中學習,但那是更大的範式轉變。Matt Turk:那你現在覺得,研究裡那些方向最熱、最有意思?Sebastian Bourjou:依然是大量中小改進的疊加,這在歷史上一直是進步的主要來源。具體來說,長上下文架構、注意力機制,以及從“無限資料”轉向“有限資料”這一範式變化,都會帶來很多新的研究問題。另一條線是使用成本:模型被越來越多的人使用,預訓練階段就必須考慮部署和推理的代價。如何在保證質量的同時,讓模型更便宜、更省資源,這會反過來影響預訓練設計。條件已經成熟:既要做研究,也得理解系統Matt Turk:如果有學生或博士生在聽這期節目,想在幾年後做到你現在的位置,你覺得他們該關注什麼問題?Sebastian Bourjou:一個越來越重要的能力,是既能做研究,又理解系統。我們現在建構的是非常複雜的系統,能從 TPU 到模型研究全鏈路理解整個棧,是一種“超能力”。這樣你能看到不同層之間的空隙,也能推演一個研究想法對系統底層的影響。另外,我個人依然對檢索方向很感興趣。RETRO 當年還不成熟,但條件正在變化。未來幾年,這類方法進入頂級模型並非不可想像。Matt Turk:那為什麼當時不成熟?現在又為什麼可能改變?Sebastian Bourjou:主要還是複雜度和迭代效率的問題。很多能力通過後訓練和搜尋就能更簡單地實現,迭代也更快。但隨著後訓練和 RL scaling 的發展,重心可能再次向預訓練側回擺。專用模型被過度投資了Matt Turk:你覺得現在 AI 領域有沒有被過度投資的方向?Sebastian Bourjou:情況已經好很多了。兩年前還有很多人在做高度專用模型,但這些任務往往很快就會被通用模型覆蓋。現在更多人接受一個判斷:對大多數通用任務,與其做專用模型,不如等下一代通用模型。這也讓“如何使用模型”“如何建構可靠的 harness”“如何容錯和恢復”變得越來越重要。創業者的機會Matt Turk那對創業者呢?基礎模型越來越強,覆蓋面越來越廣,留給初創公司的空間是不是在縮小?Sebastian Bourjou可以回頭看看一年前模型能做什麼,再看看現在能做什麼,然後外推。我認為模型正在快速進步的方向,短期內還會繼續;而進步緩慢的地方,反而可能是更有意思的機會。暫時我沒有具體案例,但這是一個總體判斷。未來一年,基礎模型不會放緩Matt Turk最後一個問題。未來一兩年,從你個人的角度看,最讓你期待的是什麼?Sebastian Bourjou我最喜歡的一點,是每天能和很多非常聰明的人一起工作,不斷學到新東西。這是驅動我前進的核心動力。同時,就像我反覆說的,還有太多可以改進的空間。我暫時看不到這條路的盡頭,也不覺得未來一年會放緩。能親眼看到它能走多遠,本身就非常令人興奮。Matt Turk太好了,這正是一個完美的收尾點。Sebastian,非常感謝你來做客播客。 (51CTO技術堆疊)
AGI真相大揭密! DeepMind創辦人5個顛覆認知觀點,未來比你想像的更近
Google DeepMind共同創辦人、首席AGI科學家Shane Legg的分享五個觀點:🔮 觀點一:AGI不是“開關”,而是“光譜”——第一級已近在眼前我們總以為AGI是某天突然覺醒的“天網”,但Legg說,它更像一個漸進的光譜: 最低限度AGI:能完成普通人的所有認知任務(比如讀文件、寫郵件、做基礎分析)完整的AGI:能完成普通人的所有認知任務(比如讀文件、寫郵件、做基礎分析) 超級智慧ASI:全面超越人類Legg預測,2028年我們有50%的機率實現最低限度AGI。⚙️ 觀點二:超級智慧不是魔法,而是物理學的必然「人類智慧是宇宙上限嗎?絕對不是。」Legg從物理第一原理對比了人腦vs. 資料中心:能耗:大腦20瓦vs 資料中心 2億瓦訊號速度:大腦30公尺/秒vs 光速3億米/赫茲頻寬:大腦80v 大腦資料中心100億赫茲體積/重量:幾磅vs 數百萬磅機器在多個維度上領先6-8個數量級。所以,超級智慧的出現不是“是否”,而是“何時”。就像起重機比人力氣大、望遠鏡比人看得遠一樣——它只是物理規律的延伸。💼 觀點三:最危險的工作,可能是你現在羨慕的「菁英職業」如果AGI能完成認知任務,那麼最容易取代的不是體力勞動,而是高薪腦力工作。Legg給一個簡單判斷法則:如果你只用筆記型電腦+網路就能完成工作,那你的崗位正站在AI替代的最前線。🧠 觀點四:AI可能比人類「更道德」Legg提出「系統二安全」概念:系統一:直覺、快速反應(人類道德判斷常受情緒、偏見影響)系統二:慢思考、邏輯推理(AI可被訓練為純理性道德推理者)AI能嚴格、一致地執行複雜道德框架,不受情緒波動影響。Legg認為:AI在原則上可以比人類更道德,因為它能以「超人層次」進行倫理推理。🚨 觀點五:領域專家們,你們已經落後了Legg用一個鋒利比喻:現在就像2020年3月——流行病專家已拉響警報,大眾卻還在球場聚會。許多領域專家(法律、教育、經濟、醫學…)仍認為自己的行業“特殊且複雜”,AI短期無法深入。但他們評價AI的依據,往往是一年前的模型──而在AI領域,一年已是「古代史」。Legg緊急呼籲:所有業界專家,必須立刻開始嚴肅思考AGI對自身領域的衝擊。等它到來再反應,就太晚了。 (WhaleThink)
當今 AI 最缺什麼?|DeepMind CEO最新對話實錄
12月17日,Google DeepMind 發佈了DeepMind聯合創始人兼 CEO Demis Hassabis 的專訪。本次對話全面探討了AI從大語言模型向Agentic AI的重心轉移、科學“根節點”問題的破解路徑、AlphaFold 到核聚變的連鎖反應、AGI 實現中“規模擴展”與“創新”的博弈、當前模型“鋸齒狀智能”的本質缺陷、世界模型與模擬在科學發現中的終極價值、從“被動式 AI”向“主動智能體”演進的風險與機遇、後 AGI 時代的經濟重構等話題以及 Demis Hassabis 基於圖靈機極限對人類意識獨特性的思考。Demis Hassabis 指出,儘管 AI 能在國際數學奧林匹克中摘金,卻在簡單的邏輯問題上犯“低級錯誤”,這種“鋸齒狀智能”是現有AI在一致性與推理能力上的缺失,就像一個“狀態不好、隨口胡謅”的人,缺乏像 AlphaGo 那樣“先思考、後行動”的規劃與雙重檢查機制。他強調,單純的知識壓縮不足以通向 AGI,必須補齊線上學習與深度推理這最後 50% 的拼圖。關於Scaling Law“撞牆”,Demis Hassabis 指出:“50% 的精力用於規模擴展,50% 用於創新,這兩者缺一不可”。他認為,我們正處於一個需要將“世界級的工程能力”與“世界級的研究科學”深度融合的新階段。不同於單純的資料堆砌,他主張回歸 AlphaGo 的演算法範式,通過在基礎模型之上疊加搜尋與規劃能力,並利用“世界模型”在模擬環境中通過無限的合成資料來突破資料枯竭的瓶頸。針對 DeepMind 的長期願景,他認為,大語言模型雖能理解語義,卻難以捕捉物理世界的因果力學。真正的理解意味著能夠“生成逼真的世界”,而精確的模擬將是科學發現的終極工具。他構想了一個通過模擬重演進化乃至社會動態的沙盒,不僅用於訓練具備好奇心的智能體,更試圖以此解開生命起源與意識誕生的謎題。他坦言,這種對物理法則的深度封裝,是 AI 從虛擬走向機器人實體與通用助手的必經之路。01AI 解鎖科學的連鎖反應這對 AI 來說是非凡的一年,我們目睹了重心從大語言模型轉移到了代理式 AI,以及 AI 在藥物研發、機器人和無人駕駛中的應用。記得我第一次採訪你時,你談到了“根節點”問題,也就是利用 AI 來解鎖下游利益的理念。你想給我們更新一下這些方面的進展嗎?有那些成果近在咫尺,又有那些問題已經解決或接近解決了?Demis Hassabis:最有力的證明就是 AlphaFold。想到 AlphaFold 2 向世界發佈快五周年了,這真不可思議。這證明瞭解決這種根節點類型的問題是可能的。我們現在正在探索所有其他領域,比如材料科學,我很想搞定室溫超導、更好的電池這類東西。我認為這些都是指日可待的,還有各種更好的材料。我們也正在致力於核聚變。我們剛宣佈了與 Commonwealth Fusion Systems 更深度的合作夥伴關係。我們之前就有合作,但現在更加深入了。我認為他們可能是致力於傳統托卡馬克反應堆的最優秀的初創公司,可能是最接近提出可行方案的團隊。我們希望能加速這一處理程序,幫助他們控制磁體中的電漿體,甚至可能協助進行一些材料設計,這非常令人興奮。此外,我們也在與 Google Quantum AI 團隊的量子計算同事們合作,他們正在做著驚人的工作。我們利用機器學習幫助他們開發糾錯碼。也許有一天,他們也會反過來幫助我們。聚變那個項目特別關鍵,如果我們能搞定這個,是不是會讓現在的很多問題迎刃而解?Demis Hassabis:(關於核聚變的影響)聚變一直是“聖盃”。當然,我認為太陽能也非常有前景,實際上它就是利用天空中的那個聚變反應堆。但如果我們要擁有模組化的聚變反應堆,這種幾乎無限、可再生、清潔能源的承諾顯然會改變一切。這就是“聖盃”,當然,這也是我們助力解決氣候問題的方式之一。絕對會。它會開啟許多其他的可能性,這就是為什麼我們將它視為一個“根節點”。當然,它直接有助於解決能源、污染等問題,緩解氣候危機。而且,如果能源真的實現可再生、清潔且超級便宜甚至幾乎免費,那麼許多其他事情就會變得可行。比如水資源獲取,因為我們幾乎可以在任何地方通過海水淡化廠獲取淡水。甚至製造火箭燃料,海水中含有大量的氫和氧,那基本上就是火箭燃料,只是將它們分離需要消耗大量能量。但如果能源便宜、可再生且清潔,為什麼不做呢?你可以讓它 24/7 全天候生產。02“鋸齒狀智能”與 AGI 的關鍵拼圖你也看到了很多變化,AI 被應用於數學領域,在國際數學奧林匹克競賽中贏得獎牌。然而與此同時,這些模型在高中數學題上卻可能犯相當基礎的錯誤。為什麼會存在這種悖論?Demis Hassabis:這可能是最迷人的事情之一,也可能是我們需要解決的關鍵問題之一,只有解決了它才能達到 AGI。正如你所說,我們和其他團隊已經取得了很多成功,在國際數學奧林匹克中摘金。你看那些題目,都是只有世界頂尖學生才能解出的超級難題。但另一方面,如果你換一種方式提問,它會在邏輯問題上犯一些相當低級的錯誤。它們甚至還不能真正下好一盤像樣的國際象棋,這很令人驚訝。所以在一致性方面仍然缺失了一些東西。我認為這正是你對通用智能,即 AGI 的期望:它應該在各個方面保持一致。有時人們稱之為“鋸齒狀智能”。它們在某些方面非常強,甚至達到博士水平,但在其他方面甚至不如高中水平。所以這些系統的表現仍然非常不均衡。它們在某些維度上令人印象深刻,但在其他方面仍相當基礎。我們必須填補這些差距。關於原因有各種理論。根據具體情況,甚至可能與圖像被感知和Token 化的方式有關。有時候,當你讓它數單詞裡的字母時,它實際上甚至沒有獲取到所有的字母;有時它會數錯,但這可能是因為它並沒有看到每一個單獨的字母。這些問題各有不同的原因,每一個都可以被修復,然後我們再看還剩下什麼問題。但我認為一致性,以及另一件事——推理和思考,是關鍵。我們現在的AI在推理階段會花更多時間“思考”,也更擅長輸出答案。但在以下方面還不夠穩定:它是否有效地利用了那段思考時間來進行雙重檢查,以及是否使用工具來驗證輸出結果?我認為我們正在朝著這個方向努力,但也許只走了 50% 的路程。我也在想 AlphaGo 和後來 AlphaZero 的故事,你們剝離了所有人類經驗,卻發現模型實際上變得更強了。在你正在建立的模型中,是否存在類似的科學或數學版本的演進?Demis Hassabis:(關於技術演進路線)我認為我們今天試圖建構的更像是 AlphaGo。實際上,這些大語言模型、基礎模型,是從全人類的知識起步的——我們在網際網路上發佈的所有內容,如今幾乎涵蓋了一切,然後將這些知識壓縮成某種有用的製品,供它們查詢和泛化。但我確實認為,我們仍處於早期階段,即在這些模型之上疊加搜尋或思考能力,就像 AlphaGo 那樣,利用模型來引導有用的推理路徑、規劃思路,然後針對當下的問題想出最佳解決方案。所以我不覺得我們目前受限於人類知識的極限。我認為目前的主要問題是,我們還不知道如何像使用 AlphaGo 那樣,以完全可靠的方式充分利用這些系統。當然,AlphaGo 要容易得多,因為它是一個遊戲。我認為一旦你擁有了 AlphaGo,你就可以回過頭來,就像我們開發 Alpha 系列時那樣,做一個 AlphaZero,讓它開始自我探索知識。我認為那將是下一步,但這顯然更難。所以我認為最好先嘗試用某種類似 AlphaGo 的系統邁出第一步,然後再考慮類似 AlphaZero 的系統。這也是當今AI所缺失的東西之一,就是線上學習和持續學習的能力。我們訓練這些系統,平衡它們,對它們進行後訓練,然後把它們投放到世界上,但它們不會像我們一樣在真實世界中持續學習。我認為這是這些系統所需的另一個關鍵缺失部分,也是 AGI 所必需的。03想要實現 AGI,規模擴展與創新缺一不可我看到你最近說過一句話:“如果由我決定,我們會讓 AI 在實驗室裡待得更久一些,做更多像 AlphaFold 這樣的事情,也許先治癒癌症之類的。”你認為因為沒有走那條更慢的路,我們失去了一些東西嗎?Demis Hassabis:我認為我們既有失去也有獲得。我覺得那本來會是一種更純粹的科學方法。至少那是 15、20 年前我最初的計畫,當時幾乎還沒人研究 AI。我們正準備創辦 DeepMind,人們覺得研究這個簡直是瘋了,但我們堅信不疑。當時的想法是,如果我們取得進展,我們會繼續循序漸進地建構 AGI,對每一步及其安全性非常謹慎,分析系統在做什麼等等。但在此期間,你不必等到 AGI 到來後才讓它發揮作用。你可以將技術分支出來,以真正造福社會的方式使用它,即推進科學和醫學。這實際上正是我們用 AlphaFold 所做的。它本身不是一個基礎模型,也不是通用模型,但它使用了相同的技術——Transformer 和其他技術,並將其與該領域的特定知識相結合。所以我曾設想完成一大批這類事情,這將帶來巨大的益處。你會向世界發佈這些成果,就像我們發佈 AlphaFold 一樣,並確實做到治癒癌症等事情,同時我們在實驗室裡繼續致力於更偏向 AGI 的路徑。現在的結局證明,聊天機器人在規模化上是可行的,人們也發現它們很有用。如今它們已經演變成了這些基礎模型,能做的不僅僅是聊天和處理文字,顯然包括 Gemini,它們可以處理圖像、視訊等各種事情。這在商業和產品層面上也非常成功。我也很喜歡這一點。我一直夢想擁有一個終極助手,能在日常生活中幫助你,讓你更高效,甚至可能保護你的大腦空間免受干擾,讓你能專注並進入心流狀態,因為今天的社交媒體充滿了噪音。我認為為你工作的 AI 實際上可以在這方面幫助我們。所以我認為這是好事。但這創造了一種相當瘋狂的競賽環境,許多商業組織甚至國家都在急於改進並超越彼此。這使得同時進行那種嚴謹的科學研究變得困難。我們試圖兩者兼顧,我認為我們正在把握這種平衡。另一方面,這種發展方式也有很多優點,資源湧入這個領域無疑加速了進展。而且,公眾實際上只比絕對前沿技術落後幾個月就能使用到這些東西。所以每個人都有機會親身感受 AI 將會是什麼樣子,這是件好事,也能讓政府更好地理解這一點。(關於Scaling是否撞牆)奇怪的是,去年這個時候,有很多關於Scaling最終會撞牆的討論,說我們會耗盡資料。然而,Gemini 1.5 剛剛發佈,它在一系列不同的基準測試中都處於領先地位。這怎麼可能呢?不是應該有擴展撞牆的問題嗎?Demis Hassabis:我認為很多人是這麼想的,特別是當其他公司的進展較慢時。但我認為我們從未真正看到過那樣的牆。我想說的是,也許存在收益遞減。當我說這個詞時,人們只會想到“那就沒有收益了”,好像它是 0 或 1 的關係,要麼是指數級增長,要麼是漸近線。不,實際上,在這兩種機制之間有很大的空間,我認為我們就處於這兩者之間。這不像在三四年前的早期階段那樣,你每發佈一個新的迭代,所有基準測試的性能都會翻倍。但你正在獲得顯著的改進,就像我們在 Gemini 1.5 中看到的那樣,這非常值得投資,且有很好的投資回報,所以我們沒有看到任何放緩的跡象。確實存在一些問題,比如:我們是否會耗盡可用的資料?但有辦法繞過這個問題,比如合成資料。這些AI已經足夠好,它們可以開始生成自己的資料,特別是在程式設計和數學等某些領域,你可以驗證答案的正確性。從某種意義上說,你可以生產無限的資料。雖然所有這些都是研究問題,但我認為這是我們一直擁有的優勢,就是我們一直堅持研究為先。我們擁有最廣度和最深度的研究人才儲備,一直如此。如果你回顧過去十年的進步——無論是 Transformer 還是 AlphaGo、AlphaZero,以及我們剛才討論的任何事情,它們都出自 Google 或 DeepMind。所以我一直說,如果需要更多的創新,尤其是科學上的創新,那麼我堅信我們就是做這件事的地方,就像我們在過去 15 年裡為許多重大突破所做的那樣。我認為這正是正在發生的事情。實際上,我很喜歡當局面變得更困難的時候。因為那時你不僅需要世界級的工程能力,還需要將其與世界級的研究和科學結合起來,而這正是我們所擅長的。除此之外,我們還擁有世界級基礎設施的優勢,利用我們的 TPU 和我們長期投資的其他資源。所以我認為這種組合讓我們既能處於創新的前沿,也能在規模擴展方面保持領先。實際上,你可以認為我們將50% 的精力用於Scaling,另外 50% 用於創新。我敢打賭,你需要這兩者才能達到 AGI。04模型越先進,就越能清晰地認知自身的知識邊界我們在 Gemini 1.5 這樣出色的模型中仍然觀察到的一點,就是所謂的“幻覺”問題。我記得有一個指標顯示,模型在理應拒絕回答時仍然給出了答案。你們能否建構一個系統,讓 Gemini 像 AlphaFold 那樣給出置信度分數?Demis Hassabis:我認為可以。這確實是目前缺失的環節之一,但我認為我們正在接近這個目標。模型越先進,就越能清晰地認知自身的知識邊界。因此它們會變得更可靠,你可以依靠它們進行某種形式的“內省”,或者進行更深度的思考,從而自我意識到對某個答案的不確定性。我們要解決的是如何通過訓練,讓它能夠將這種“不確定”作為一個合理的答案輸出。目前情況正在改善,但有時模型仍會強迫自己回答本不該回答的問題,這就導致了幻覺。目前很多幻覺都屬於這種類型。這是一個必須解決的缺失環節。你說得對,正如我們在 AlphaFold 上解決的那樣,但這顯然是在一個更受限的範圍內。Demis Hassabis:確實有對下一個 Token 的預測,這就是它的工作原理。但這並不能告訴你整體層面的資訊:即你對整個事實或整個陳述有多大信心?這就是我們需要利用思考和規劃步驟來回顧剛剛輸出內容的原因。目前有點像在跟一個狀態不好的人聊天,他們只是隨口說出腦海中蹦出的第一件事。大多數時候這沒問題,但在處理難題時,你會希望停下來暫停片刻,回顧並調整正要說的內容。也許這種方式在當今世界越來越少見,但這仍然是更好的交流方式。你可以這樣理解,模型需要在這方面做得更好。05世界模型與模擬的終極目標今年早些時候我們採訪了你們的 Genie 團隊。那是很棒的工作。告訴我為什麼你如此關注模擬?世界模型能做到那些大語言模型做不到的事情?Demis Hassabis:實際上,除了 AI 之外,世界模型和模擬可能是我長期以來最大的熱情所在。當然在我們最近像 Genie 這樣的工作中,這一切都融合在了一起。我認為大語言模型能夠理解關於世界的很多東西,實際上比我們預期的要多,甚至比我預期的還要多。因為語言所包含的資訊遠比我們想像的豐富,甚至超出了語言學家的預期。這些新系統已經證明了這一點。但關於世界的空間動態、空間感知,以及物理環境的機械運作原理,仍有很多難以用語言描述的內容,通常也不會在文字語料庫中被描述。這其中很多都與從經驗學習有關。有很多事情你無法真正描述,只能去體驗。無論是運動角度、氣味還是這類感測資訊,用任何語言描述都非常困難。所以我認為圍繞這方面有一整套內容。如果希望機器人技術能夠奏效,或者希望通用助手能在日常生活中,比如通過眼鏡或手機,伴隨並幫助你,而不僅僅是在電腦上,你就需要這種類型的世界理解能力。世界模型正是其核心所在。我們所說的世界模型,是指這種理解世界力學因果效應的模型,包括直觀物理學,事物如何移動、如何表現。現在我們在視訊模型中看到了很多這方面的內容。如何測試你是否擁有這種理解?如果你能生成逼真的世界,那麼在某種意義上你必須已經理解了,系統必須已經封裝了世界的許多力學原理。這就是為什麼 Genie 和 Veo 這些視訊模型和互動式世界模型令人印象深刻,它們標誌著我們正朝著通用世界模型邁進。希望在某個時間點,我們可以將其應用於機器人技術和通用助手。當然我最喜歡的事情之一,也是我肯定會去做的,就是將其重新應用迴游戲和遊戲模擬中,創造終極遊戲。這也許一直是我潛意識裡的計畫。所有這一切就是為了那個?Demis Hassabis:沒錯。這對遊戲來說將是驚人的。科學領域呢?你能在那個領域使用它嗎?Demis Hassabis:可以。對於科學而言,我認為建立複雜領域的模型——無論是原子層面的材料、生物學,還是像天氣這樣的物理系統,理解這些系統的一種方式是從原始資料中學習模擬。假設你有一堆原始資料,比如關於天氣的(顯然我們正在進行一些驚人的天氣項目),然後你有一個模型能學習這些動態,並能比暴力計算更高效地重建這些動態。所以我認為,模擬和某種形式的世界模型在科學和數學方面有巨大的潛力。06讓 AI 在彼此的“思想”中互動,創造無限的訓練樣本但通過這種方式,你也可以把一個智能體扔進那個模擬世界裡,對嗎?你的 Genie 團隊曾引用過一句非常漂亮的話:“幾乎沒有任何重大發明的先決條件是為了該發明而存在的。”他們談論的是將智能體放入這些模擬環境中,並允許它們以好奇心為主要動力進行探索。Demis Hassabis:對,這也是這些世界模型另一個真正令人興奮的用途。我們有另一個項目叫 SIMA,近期剛發佈了 SIMA 2。在這個項目中,我們將化身或智能體放入虛擬世界。它可以是一個普通的商業遊戲,或者像《無人深空》這樣複雜的開放世界太空遊戲。因為底層有 Gemini,你可以指導它,只需與智能體交談並給它佈置任務。但後來我們想:如果我們把 Genie 接入 SIMA 會不會很有趣?有點像是把一個 SIMA 智能體扔進另一個正在即時創造世界的 AI 中?現在這兩個AI 實際上是在彼此的“思想”中互動。SIMA 智能體試圖在這個世界中導航,而對 Genie 來說那只是一個玩家和一個化身,它不在乎那是另一個 AI,它只是圍繞著 SIMA 試圖做的事情生成世界。看到它們互動真是太神奇了。我認為這可能是一個有趣訓練循環的開端,在這裡我們幾乎擁有無限的訓練樣本。因為無論 SIMA 智能體試圖學習什麼,Genie 基本上都可以即時創造障礙、阻礙和環境來幫助它學習。你可以想像一整個設定和解決任務的世界,數百萬個任務自動生成並且難度不斷增加。所以我們可能會嘗試建立這樣一個循環。顯然這些 SIMA 智能體可以成為很好的遊戲伴侶,它們學到的一些東西對機器人技術也可能很有用。不過你創造的那些世界,如何確保它們真的逼真?如何確保你不會最終得到看似合理但實際上違背物理法則的結果?Demis Hassabis:(關於物理逼真度)這是一個很好的問題,也可能是一個隱患。這基本上又是幻覺問題。有些幻覺是好的,因為它意味著你可能會創造出有趣和新穎的東西。實際上如果你試圖做創造性的事情,或者讓AI創造新事物,一點幻覺可能是好的。但你希望這是有意為之,你可以稍微打開“幻覺轉盤”或創造性探索的開關。但是,當你試圖訓練 SIMA 智能體時,你並不希望 Genie 產生錯誤的物理幻覺。所以實際上我們現在正在做的是建構一個物理基準測試,我們可以使用物理模擬非常準確的遊戲引擎,來建立大量相當簡單的實驗,就像你在高中物理實驗室裡做的那樣。比如讓小球滾下不同的軌道,看它們跑多快。從非常基礎的層面上進行剖析,比如牛頓三大運動定律:模型是否封裝了這些定律?無論是 Veo 還是 Genie,這些模型是否 100% 精準地封裝了物理學?目前它們還沒有,只是一種近似。當你隨意觀看時它們看起來很逼真,但對於機器人技術等領域來說,它們還不夠準確無法依賴。所以這是下一步。既然我們已經擁有了這些非常有趣的模型,現在的目標之一就是減少幻覺,使它們更加紮實。對於物理學,這可能涉及生成大量的真值資料,比如簡單的鐘擺視訊——當兩個鐘擺相互繞行時會發生什麼,但很快你就會遇到三體問題,那是無論如何都無法精確解析的。所以我認為這會很有趣。但令人驚嘆的是,當你觀察像 Veo 這樣的視訊模型時,僅僅看它處理反射和液體的方式,至少在肉眼看來已經精準得令人難以置信。所以下一步實際上是超越人類業餘愛好者的感知範圍。它真的能經得起嚴格的物理級實驗嗎?07精確的模擬將是科學的一大福音,有助於理解生命的起源我知道你思考這些模擬世界已經很長時間了。我回顧了我們第一次採訪,在採訪中你說過,你非常喜歡這樣一個理論:意識是進化的產物。在我們進化路徑的某個節點,理解另一個體的內部狀態具有優勢,然後我們將這種能力轉向了自己。這是否讓你對在模擬內部運行一個進化中的智能體感到好奇?Demis Hassabis:當然,我很想在某個時候運行那個實驗。某種程度上重演進化,甚至重演社會動態。聖菲研究所過去常在小型網格世界中運行很多很酷的實驗。我過去很喜歡其中一些,主要是經濟學家在嘗試運行小型人工社會。他們發現,只要讓智能體在正確的激勵結構下運行足夠長的時間,市場、銀行等各種有趣的事物就會湧現出來。所以我認為那真的會很酷,也有助於理解生命的起源和意識的起源。這是我從一開始投身 AI 工作的最大熱情之一:我認為你需要這類工具來真正理解我們從何而來,以及這些現象究竟是什麼。我認為模擬是實現這一目標的最強大工具之一,因為你可以從統計學角度來進行研究。你可以用略微不同的初始條件運行模擬很多次,甚至運行數百萬次,然後以一種非常受控的實驗方式理解微小的差異是什麼。這在現實世界中對於我們想回答的任何真正有趣的問題來說,顯然是非常難以做到的。所以我認為精確的模擬將是科學的一大福音。考慮到我們已經發現了這些模型的湧現屬性,它們擁有某種我們沒預料到的概念性理解,你在運行這種模擬時是否也必須非常小心?Demis Hassabis:我認為必須如此。是的。但模擬的另一個好處是,你可以在相當安全的沙盒中運行它們。也許最終你會希望對它們進行物理隔離。當然你可以全天候監控模擬中發生的事情,而且你有權訪問所有資料。所以我們可能需要 AI 工具來幫助我們監控模擬,因為它們將變得非常複雜。如果你想像大量的 AI 在模擬中運行,裡面會有太多事情發生,任何人類科學家都很難跟上。但我們或許可以使用其他 AI 來幫助我們自動分析並標記模擬中任何有趣或令人擔憂的事情。08AI 泡沫與 Gemini 的“科學家”人格上次我們交談時,你說過你認為 AI 在短期內被過度炒作,但在長期內被低估了。我知道今年有很多關於 AI 泡沫的討論。如果出現泡沫並且破裂了,會發生什麼?Demis Hassabis:我仍然認同這一觀點:短期內過度炒作,而在中長期內,其實際的變革能力仍然被低估了。是的,現在當然有很多關於 AI 泡沫的討論。在我看來,這並非非此即彼的二元問題。我認為 AI 生態系統的某些部分可能處於泡沫之中。一個例子就是初創公司的種子輪融資,有些公司甚至還沒起步一出場就獲得了數百億美元的估值。這種情況是否可持續是有趣的,我的猜測是可能不會,至少總體上不會。所以這確實是一個存在泡沫的領域。然後人們顯然也在擔心大型科技公司的估值和其他事情。我認為這背後有很多真實的業務支撐,但這還有待觀察。也許對於任何具有難以置信的變革性和深刻影響的新技術——當然 AI 可能是最深刻的——你都會經歷這種矯枉過正。當我們創辦 DeepMind 時沒人相信它,沒人認為這是可能的。人們在想,“AI 到底有什麼用?”快進 10 到 15 年,現在這似乎成了商界唯一談論的話題。所以這幾乎是對之前反應不足的一種過度反應。我認為這是自然的。我們在網際網路時代看到過,在移動網際網路時代看到過,我認為我們在 AI 領域正在看到或將再次看到這一點。我不太擔心“我們是否處於泡沫中”,因為作為 Google DeepMind 的領導者,我們的工作是確保無論發生什麼,我們都能從中脫穎而出,變得更強大。我們的定位非常好,無論那種情況,我們都處於極佳的位置。所以如果趨勢像現在這樣繼續下去,太棒了,我們將繼續推進所有正在做的偉大事情、實驗以及朝著 AGI 的進展。如果出現回呼也沒關係。我認為我們也處於一個很好的位置,因為我們擁有自己的 TPU 全端基礎設施。我們還有所有這些令人難以置信的 Google 產品,以及由此產生的利潤,可以將我們的 AI 植入其中。而且我們正在這樣做,搜尋業務正被“AI 概覽”徹底革新。底層由 Gemini 驅動的 AI 模式。我們正在關注 Workspace、電子郵件、YouTube。Chrome 中也有所有這些驚人的功能。有很多這樣的機會,我們可以看到應用 Gemini 是唾手可得的果實。當然還有 Gemini App,它現在也表現得非常好,以及通用助手的願景。所以有新產品出現,我認為隨著時間的推移它們將變得超級有價值。但我們不必完全依賴那個。我們可以只為現有的生態系統賦能,我認為這就是過去一年發生的事情,我們現在的效率已經變得非常高了。人們花大量時間與聊天機器人交談,以至於最終陷入了自我激進化的怪圈。你要如何阻止這種情況?你如何在建構 AI 時讓使用者處於自己宇宙的中心,但同時又不至於創造出一個封閉的個人資訊繭房?Demis Hassabis:(關於資訊繭房與人格設定)這是一個非常微妙的平衡,我認為這是我們作為一個行業必須正確處理的最重要的事情之一。我們已經看到了某些過度迎合使用者的AI會帶來什麼後果,或者你會得到那種對使用者非常有害的回聲室強化效應。所以我認為解決這個問題的一部分——實際上這正是我們要用 Gemini 建構的,我對我們的團隊致力打造且我也親自參與的 Gemini 3 人格設定感到非常滿意——就是賦予它一種近乎科學家的個性。它是溫暖、樂於助人、輕鬆的,但同時也是簡潔、切中要害的。它會以一種友好的方式反駁那些不合邏輯的事情,而不是試圖強化“地球是平的”這種觀點。如果你說了這種話,它附和說:“絕妙的主意”,我認為這對社會總體上是沒有好處的。但你必須在這一點和使用者的需求之間取得平衡。因為人們希望這些系統是支援性的,能輔助他們的想法和頭腦風暴,所以你必須拿捏好這個尺度。我認為我們正在開發一門關於個性和人格的科學,研究如何衡量它的行為,以及我們希望它在真實性、幽默感這類維度上處於什麼位置。你可以想像,它出廠時會帶有一種基礎人格。每個人都有自己的偏好,你是希望它更幽默一點還是嚴肅一點,更簡潔一點還是更詳盡一點?人們各有所好,所以你可以在此基礎上加入額外的個性化層。但每個人得到的仍然是那個核心的基礎人格,它堅持科學方法,這是這些AI的全部意義。我們希望人們將這些工具用於科學、醫學和健康問題等領域。我認為這是正確建構這些大語言模型的科學的一部分,我對我們目前的發展方向感到相當滿意。09AGI 的雛形在目前 AI 領域發生的所有事情中,包括語言模型、世界模型等等,什麼最接近你對 AGI 的願景?Demis Hassabis:實際上顯然有 Gemini 3,我認為它非常有能力。但我們上周發佈的 Imagen 3 ,那是我們圖像生成工具的高級版本。真正令人驚嘆的是,它的底層也使用了 Gemini。它不僅能理解圖像,還能在某種程度上理解那些圖像中語義上正在發生什麼。人們才體驗了一周,但我已經在社交媒體上看到了很多關於人們用它做出的很酷的東西。例如,你可以給它一張複雜的飛機或類似的圖片,它可以標記出飛機所有不同部件的圖表,甚至可以將所有不同部件拆解開來進行可視化。它對機械學、物體的構成部件以及材料屬性有某種深度的理解。它現在還可以非常準確地渲染文字。所以我認為這正在朝向一種用於圖像領域的 AGI 邁進。它是一種可以在圖像跨域上做任何事情的通用系統,這非常令人興奮。然後是世界模型的進步,比如 Genie 和 SIMA 以及我們在那裡做的事情。最終我們將不得不把所有這些目前不同且交織的項目匯聚成一個大模型。那個模型可能開始成為原始 AGI 的一個候選者。10工業革命的鏡像與後 AGI 經濟重構我知道你最近一直在閱讀大量關於工業革命的內容。我們是否可以從那段歷史中學到什麼,來試圖減輕這次 AI 變革不可避免會引起的一些破壞?在後 AGI 社會,你對社會應該如何重構,或者可能以何種行得通的方式重構有什麼願景嗎?Demis Hassabis:我認為有很多值得我們學習的地方。這是我們在學校裡會學到的東西,至少在英國是這樣,但往往只是停留在非常表面的層次。對我來說,深入研究它是如何發生的真的很有趣。它的起源、背後的經濟原因,比如紡織工業,實際上第一批電腦的原型可以說就是紡織機,然後演變成了早期 FORTRAN 電腦和大型機使用的打孔卡。有一段時間,英國非常成功,成為了世界紡織業的中心,因為依靠自動化系統,他們可以以極低的成本製造出這些令人驚嘆的高品質產品。然後顯然蒸汽機和所有那些東西也隨之而來。工業革命帶來了許多不可思議的進步。兒童死亡率下降了,現代醫學和衛生條件、工作與生活的分離模式以及這一切的運作方式,都是在工業革命期間確立的。但它也帶來了很多挑戰。這個過程花了相當長的時間,大約一個世紀,不同領域的勞動力在特定時期遭遇了流離失所。社會必須創造新事物,必須建立像工會和其他組織這樣的新機構來重新平衡這種關係。看到整個社會不得不隨著時間推移去適應是令人著迷的,然後就有了現在的現代世界。顯然工業革命有很多利弊,但沒有人會想要回到工業革命之前,如果你想想它帶來的總和,比如西方世界食物和物資的富足,以及現代醫學和現代交通,那都是工業革命的功勞。也許我們可以通過從歷史中學習,提前弄清楚那些脫節和錯位是什麼,也許這次能更早或更有效地減輕這些影響。我們可能必須這麼做,因為這次的不同在於,它可能將比工業革命規模大 10 倍,而且速度可能快 10 倍。它更可能是在十年內展開,而不是一個世紀。(關於經濟重構的願景)是的,我現在花更多時間思考這個問題,實際上 Shane 正在領導這方面的一項工作,去思考後 AGI 世界可能是什麼樣子,以及我們需要為此做什麼準備。我認為社會總體上需要花更多時間思考這個問題,包括經濟學家、社會科學家和政府。就像工業革命一樣,整個工作世界、工作周以及一切都較工業革命前發生了改變,那時更像是農業社會。我認為至少這種程度的改變將再次發生。如果我們需要新的經濟系統、新的經濟模型來從根本上幫助這種轉型,我並不會感到驚訝。然後還有哲學層面的一面:工作會改變,其他事情也會改變。但也許那時我們將已經解決了核聚變,擁有了這種充裕的免費能源,進入了後稀缺社會。那麼金錢會變成什麼樣?也許每個人都更富裕了。但隨後人生的目標會變成什麼?因為很多人從他們的工作中獲得目標感,供養他們的家庭,這是一個非常高尚的目標。我認為其中一些問題從經濟問題混合成了近乎哲學的問題。你是否擔心人們似乎沒有關注,沒有像你希望的那樣快速行動?要讓人們認識到我們需要在這個問題上進行國際合作,需要付出什麼代價?你認為這會需要一個時刻,一個特定事件,讓每個人都猛然警醒並開始關注嗎?Demis Hassabis:我對此很擔心。在一個理想的世界裡,本應該已經有更多的合作了,特別是國際層面的。應該有更多的研究,以及關於這些話題的探索和討論。我實際上非常驚訝目前沒有更多關於這方面的討論。考慮到即使是我們的時間表,即 5 到 10 年,對於建立處理這一問題的機構來說,這個時間也並不長。我的一大擔憂是,現存的機構似乎非常碎片化,並且沒有達到你所需要的那個水平的影響力,所以可能是目前沒有合適的機構來處理這個問題。當然,如果你加上目前世界各地正在發生的地緣政治緊張局勢,合作和協作似乎比以往任何時候都難。只要看看氣候變化,要在與之相關的任何事情上達成協議是多麼困難。我們將拭目以待。我認為隨著賭注變得更高,隨著這些系統變得更強大——也許這是它們作為產品存在的好處之一,那些不從事這項技術工作的普通人將能切身感受到這些東西力量和能力的增長。這隨後將傳導給政府,也許隨著我們更接近 AGI,他們會變得理智起來。(關於喚醒時刻)我希望不需要。大多數主要的實驗室都相當負責任,我們試圖儘可能負責任。如你所知,這一直是我們所做一切的核心。這並不意味著我們會把一切都做對,但我們試圖在我們的方法上儘可能深思熟慮和科學。大多數主要實驗室都在試圖表現得負責任,而且實際上也有很好的商業壓力促使大家負責任。如果你想想 Agent,假設你正在把一個 Agent 租給另一家公司去做某事,那家公司會想知道限制、邊界以及護欄是什麼,以免它們做出不僅僅是搞砸資料之類的壞事。這很好,因為那些不守規矩的草莽式運作將無法獲得生意,企業不會選擇它們。11圖靈機極限與人類的獨特性從長遠來看,在 AGI 之外並邁向ASI時,你認為有一些事情是人類能做而機器永遠無法做到的嗎?所以,對於這些電腦器來說,不存在什麼做不到的事情嗎?Demis Hassabis:這是一個大問題。我覺得這與我最喜歡的話題之一:圖靈機有關。我一直有這種感覺:如果我們建構了 AGI,用它作為心靈的模擬,再把它與真實的心靈進行比較,我們隨後將看到差異在那裡,以及潛在地,什麼是人類心靈中獨特的、保留下來的東西。也許那是創造力,也許是情感,也許是做夢。還有關於意識,關於什麼可能是或可能不是可計算的,外界有很多假設。這回到了圖靈機的問題:圖靈機的極限是什麼?這是我一生的核心問題。我認為我們一直在做的一切,都在某種程度上把圖靈機能做什麼的概念推向極限,包括蛋白質摺疊。結果我不確定極限在那裡,也許根本沒有極限。當然我的量子計算朋友會說有極限,你需要量子電腦來模擬量子系統。但我真的不太確定,我實際上和一些量子領域的專家討論過這個問題,可能是我們需要來自這些量子系統的資料以便建立一個經典的模擬。這又回到了心靈的問題:它全是經典的計算,還是有其他什麼正在發生?像 Roger Penrose 相信大腦中有量子效應。如果確實有,而且那與意識有關,那麼機器將永遠不會擁有那個,至少經典機器不會,我們將不得不等待量子電腦。但如果沒有量子效應,那麼可能沒有任何限制。也許在宇宙中,如果你以正確的方式審視,一切都是計算可解的,因此圖靈機可能能夠建模宇宙中的一切。如果你非要我猜,我會猜是後者。在物理學向我證明事實並非如此之前,我都在這個基礎上開展工作。這麼說吧,到目前為止,在宇宙中還沒有人發現任何不可計算的東西。而且我們已經證明,對於經典電腦今天能做到的事情,比如蛋白質摺疊和圍棋,我們已經遠遠超越了通常複雜性理論家所持的 P=NP 觀點。所以我認為沒人知道那個極限在那裡。歸根結底,我們在 DeepMind 和 Google 所做的,以及我試圖做的,就是找到那個極限。如果把這個想法推演到極限,比如我們坐在這裡,感覺到燈光照在臉上的溫暖,聽見背景裡機器的嗡嗡聲,還有手下桌子的觸感。所有這些都能被經典電腦複製嗎?Demis Hassabis:我認為是可能的。這也正是我喜歡康德的原因。雖然我最喜歡的兩位哲學家是康德和斯賓諾莎,理由各異,但康德認為現實是心智的建構,我認為這是對的。你提到的那些進入感官系統並帶來不同感覺的事物,比如光的溫暖、桌子的觸感,歸根結底全都是資訊。我們就是資訊處理系統,我認為這也是生物學的本質。這正是我們在試圖做的事情:通過把生物學視為一個資訊處理系統,最終治癒所有疾病。我在業餘時間也在研究一些物理理論,認為資訊可能是宇宙的最基本單元,而不是能量或物質。或許最終這些都是可以互換的,只是我們感知的方式不同。但在我們所知的範圍內,所有這些驚人的感測器仍然可以被圖靈機計算。這就是為什麼你的模擬世界如此重要,對吧?Demis Hassabis:沒錯。那是通往真理的一條路徑。我們能模擬的極限是什麼?如果你能模擬它,在某種意義上你就已經理解了它。這種沉重的責任感是否曾讓你感到壓抑?是否曾感到孤獨?有沒有什麼事情對你的衝擊比預期的要大?Demis Hassabis:我睡得不多,部分是因為工作太多,也因為我有睡眠障礙。這其中的情緒非常複雜,因為它令人難以置信地興奮。我基本上在做我曾夢想的一切,我們在應用科學和機器學習等諸多方面都處於科學的絕對前沿。正如所有科學家都知道的那樣,那種身處前沿並首次發現新事物的感覺令人振奮。這種事幾乎每個月都在我們身上發生,太驚人了。當然,Shane 和我以及其他長期從事這項工作的人比任何人都更理解即將發生之事的深遠影響。實際上人們仍然低估了未來十年將會發生什麼,包括像哲學層面的問題:生而為人的意義是什麼,其中什麼才是重要的,所有這些問題都會浮出水面。這是一個巨大的責任。但我們有一個了不起的團隊在思考這些事情。這也算是我一生都在為此訓練的事情。從我早期下國際象棋,然後致力於電腦、遊戲、模擬和神經科學,這一切都是為了這一刻。這與我想像的樣子大致相符,所以我應對壓力的方式就是把這當作一種訓練。(關於意料之外的衝擊)當然有。比如 AlphaGo 的比賽。看著我們破解了圍棋這個曾經美麗的謎團,改變了它。這很有趣,但也讓人感到苦樂參半。我認為最近的語言模型和圖像生成對創造力的影響也是如此。我對創意藝術懷有巨大的尊重和熱情。我和電影導演交流過,這對他們來說也是一個雙重時刻。一方面他們擁有了能將創意原型製作速度提高 10 倍的驚人工具,但另一方面,它是否正在取代某些創造性技能?我認為這種權衡到處都在發生,對於像 AI 這樣強大且具有變革性的技術來說是不可避免的,就像過去的電力和網際網路一樣。人類的歷史就是製造工具的歷史,那是我們熱愛做的事情。我們擁有一個可以理解科學的大腦,這也讓我們擁有貪得無厭的好奇心。我認為這就是生而為人的核心。我從一開始就著了迷,而我回答這一問題的方式就是建構 AI。當你和其他 AI 領袖共處一室時,你們之間會有團結感嗎?那種大家都理解利害關係的感覺?還是說競爭讓你們彼此疏遠?Demis Hassabis:我們都認識彼此,我和他們幾乎所有人都相處得很好。但這很難,因為我們正處於可能有史以來最殘酷的資本主義競爭中。我的投資人朋友說,現在的殘酷程度是網際網路泡沫時代的 10 倍。在很多方面我喜歡這一點,我為競爭而生。但退一步說,我理解並且希望每個人都理解,比起公司的成功,還有更重大的東西處於危急關頭。談到未來十年,你個人最擔憂的時刻是什麼?那你最期待的是什麼?Demis Hassabis:現在的AI我稱之為被動式AI。使用者投入能量提出問題或任務,AI提供總結或答案。這很大程度上是人類主導的。下一個階段是基於 Agent 的AI。未來幾年我們將看到真正可靠的 Agent,它們將是極有能力的助手,但也更加自主。我認為這類系統的風險也會隨之上升。我相當擔心那些AI在兩三年後能做什麼。所以我們在致力於網路安全防禦,以準備應對那樣一個可能有數百萬 Agent 在網際網路上遊蕩的世界。至於期待,我絕對需要放個長假去做科學研究。那怕一周甚至一天也好。我的使命一直是協助世界為了全人類安全地實現 AGI。當我們到達那一點時,當然會有超級智能和後 AGI 時代的經濟社會問題。也許我可以在那裡提供幫助,但我的人生使命核心部分將就此完成。這需要協作,我希望利用我的位置提供幫助。 (數字開物)
上下文即權重,Google找到了繞過GPU訓練的新範式|DeepMind新論文解讀
如果說2024年是長文字的軍備競賽,那到了25年年末,隨著自進化模型、持續學習成為模型下一步核心瓶頸,戰場已經轉到了對記憶能力的全面加強上。而在這場戰爭中,Google DeepMind 左右出擊,在一個月內發佈了兩篇論文,試圖在兩條截然不同的路線上攻克這一難題。11月初,DeepMind 發佈了關於 Nested Learning(巢狀學習) 的重磅研究,提出了 HOPE 架構。這是一場典型的重工業革命,Google試圖通過重構 Transformer 的底層,讓AI擁有永久的長期記憶和臨時的短期突觸,讓它從死的知識庫記憶體,變成活體的學習者。從價值上講,作為第一個全開放權重的模型,它絕對稱得上是一種範式革命。但要落地,得對現有的 AI 基礎設施進行一場傷筋動骨的手術,舊模型是完全不相容的。然而,僅僅幾周後,11月27日,DeepMind的另一個團隊聯合UIUC拋出了另一篇論文《Evo-Memory》 。這篇論文沒有試圖去動那怕一個模型參數,卻找到了一條新路,賦予模型持續學習的能力。它向整個行業提出了一個新可能:一個被凍結的LLM大腦,能夠通過不斷反思和重構自己的記憶,表現得像是一個被訓練過的模型。雖然看起來它沒那麼底層,但從工程和應用角度來講,這無疑也是一場範式革新。在過去,我們認為,上下文工程只是人類教 AI 做事的權宜之計。但Evo-Memory證明了,當上下文具備了自我反思、自我修剪、自我沉澱的能力時,它就不再是靜態的提示詞,它變成了流動的權重。具體來說,它意味著記憶不再是固定不變的上下文提示詞,而是能夠在推理過程中主動檢索、修剪和重組的可編輯對象,就像神經網路中的權重參數一樣可以動態調整和最佳化。而且,靠著它,我們不需要等待遙遠的架構重構,也能讓模型持續學習。通過元推理,我們現在就可以讓那個參數凍結的AI,在每一次互動中生長出新的智慧。(一圖讀懂)01 RAG 的困境說到AI的記憶系統,就繞不開RAG(檢索增強生成)。過去兩年,RAG幾乎成了大模型應用的標配。無論是客服機器人、程式碼助手還是知識問答系統,背後都離不開這套架構。在很長一段時間裡,RAG 被視為解決大模型健忘和幻覺的解藥。它的邏輯簡單粗暴:模型記不住私有資料?沒關係,把資料切塊存進向量資料庫。使用者問什麼,我們就檢索什麼,喂給模型照著念。然而一個可檢索的筆記本,並不是記憶。因為記憶不是錄影,而是壓縮。傳統的 RAG 系統就像是一個沒有辨別能力的圖書管理員,只管把所有的對話歷史、操作日誌一股腦地存進倉庫。它不會學習,只會按關鍵字檢索。所以當你第一次問AI“如何解一元二次方程”,它會從知識庫裡檢索到公式,給你正確答案。第一百次、第一千次,依然如此。它永遠不會因為回答過一千次同類問題,就形成某種經驗性的快速響應機制。更可怕的是,它檢索到的內容可能包含矛盾、過時或無關的資訊,但它沒有能力判斷那些記憶是有價值的,那些是噪音。遇到同樣的問題,系統檢索到十條相關記錄,其中三條是已解決的舊問題,兩條是誤報,剩下五條才真正有用。但RAG會把這十條一股腦塞給模型,讓模型在混亂的資訊中自己摸索。這說明,現有的記憶系統大多停留在對話回憶(Conversational Recall) 的層面,它只記得說了什麼,卻不記得學到了什麼。這種靜態的、被動的召回機制,導致智能體在面對連續的任務流時,無法積累經驗,只能機械地重複過去 。在這個範式下,RAG作為一個只增加不減少、只儲存不反思的記憶庫,最終註定會被噪音淹沒。資料越多,RAG反而可能越多錯。02 什麼叫學習?就是給記憶加上反思的濾網那怎麼能讓這些放在RAG裡的資訊更有用,更像學習?這裡需要參考人類是如何變強的路徑。如果在打遊戲中,我們死於一次埋伏,下一次絕不會原樣再死一次。人類會思考,會總結。這就叫學習而來的熟練。學習的本質就是真正的記憶。它不是儲存,而是篩選、組織和進化。論文設計了一個名為ReMem的框架,它的運作方式顛覆了傳統RAG的檢索和生成二段式流程。它引入了一個全新的維度Refine(最佳化)。在每次任務執行過程中,AI不再只是被動檢索和應用記憶,而是主動評估、重組甚至修剪自己的記憶庫。在增加新記憶的過程中,模型會歷遍這樣幾個步驟:經歷: 智能體在環境中執行任務(比如在 AlfWorld 裡找東西)。反饋: 環境告訴它是成功還是失敗。元推理(Refine): 在存入記憶之前,智能體必須進行一次內省。系統會問它:“基於剛才的結果,那一步是廢話?那一步是關鍵?如果你失敗了,原因是什麼?” 。沉澱: 智能體執行 Pruning(修剪) 和 Reorganizing(重組),把 20 步的曲折探索,壓縮成一句“直接去櫃檯找杯子”的黃金法則,存入資料庫 。這不僅僅是加了一個步驟,這是賦予了智能體編輯自己大腦的權利。這種機制的效果是立竿見影的。 在Alf World這個虛擬家居環境中,把冷藏過的番茄放進微波爐這個任務,基準模型平均需要22.6步才能完成。而配備了ReMem的模型,只需要11.5步。因為它學會了識別那些過往任務的經驗可以遷移,那些細節差異需要警惕,從而少走了近一半的彎路。在ToolBench資料集上,配備經驗檢索的ExpRAG模型,API呼叫精準率從61%提升到73%。模型不僅學會了呼叫API,還學會了如何思考呼叫API。它能從過去失敗的嘗試中總結教訓,從成功的案例中抽象策略。更有意思的是記憶修剪率的差異。在GPQA這種跨學科科學問答資料集上,模型會主動刪除36.8%的記憶條目。因為這些記錄來自不同領域,對當前問題沒有參考價值。而在AIME數學競賽資料集上,修剪率只有17.5%,因為數學題之間的解題策略往往是相通的。通過ReMem,RAG不再是那個只會照單全收的圖書管理員,它學會了學習中最重要的部分,提純和遺忘。人類專家之所以高效,不是因為他們記住了所有細節,而是因為他們知道什麼時候該忽略什麼。ReMem讓AI通過記憶,獲得了這種選擇性注意的能力。03 它帶來的真正範式轉變,是上下文即權重如果說這個論文帶來的只是上面所說的對RAG的升級,那它的價值似乎非常有限。但它其實揭示了一個足以改變整個訓練模式的轉變。即上下文可以成為新的權重(Context is the new Weight)。在過去,我們認為只有通過反向傳播(Backpropagation)修改了模型權重的參數,模型才算學到了東西。這就是訓練、後訓練、SFT等做的工作。一旦訓練完成,模型就被"凍結"了,它在部署階段不會再記住任何新東西,所有適應都通過調整輸入的上下文來實現。但過去的上下文工程本質上是人類教AI規則。我們精心設計少樣本示例,編寫詳細的指令,試圖通過上下文窗口向模型灌輸正確的行為模式。這種上下文雖然確實可以改變模型的行為,但仍然是外部的、靜態的,不會隨著模型的使用而進化。但ReMem證明了,如果一個凍結的模型能夠通過反思,不斷重構輸入給自己的上下文,那麼上下文在數學效果上,就等同於權重。之所以這麼說,首先是因為上下文的積累實際上就是無監督訓練。在這個新範式中,上下文不再是靜態的規則不再依賴人類提供的標準答案。它自己在環境中試錯,通過與環境的互動(Interactions),自己生成資料,並自我強化。其次,這個自我強化的方法也和訓練過程非常相似。在一般的訓練階段,模型依靠梯度下降(Gradient Descent) 降低錯誤路徑的權重,提升正確路徑的權重。而 ReMem 在推理階段,則是通過對記憶的沉澱與修剪調節了其選擇權重,完美復刻了這一過程。比如,當模型在任務中失敗,ReMem 通過元推理分析原因,會將失敗路徑標記為反面教材或直接修剪掉。在下一次檢索中,這段被處理過的上下文會在注意力機制中產生強烈的抑製作用,迫使模型避開錯誤選項。這在效果上,等同於對該路徑進行了 RLHF(人類反饋強化學習)的負向懲罰。而當模型總結出一條捷徑並存入記憶,這條經驗在未來的推理中會被高優召回,直接提升生成正確動作的機率。論文中的資料也支撐了這一觀點。在引入包含失敗經驗的資料集時,普通的 RAG 系統因為無法區分好壞,性能直接下降;而 ReMem 卻能通過反思機制變廢為寶,保持極高的成功率 。這證明了上下文已經具備了權重的核心屬性:抗噪性、糾錯性和泛化性。模型在沒有更新任何參數的情況下,通過在記憶中沉澱經驗,實現了行為的永久性矯正。在以後,我們也許不需要真的去算梯度,不需要更新參數。僅僅通過自然語言層面的反思和沉澱,就能讓模型表現出好像被訓練過一樣的行為矯正。元推理(Meta-Reasoning)是Google這篇論文的另一個重點概念。什麼是元推理?在傳統的 Chain-of-Thought (CoT) 中,模型是在推理任務本身。這依然是在做題。而ReMem 引入的元推理,是對推理過程的推理。它要求模型跳出任務本身,以第三視角的上帝視角審視剛才的思維鏈路,指出錯誤,提煉正確路徑。(Evo Memory的記憶Prompt,元思考的配方)這個邏輯本身並不是什麼新鮮事。早在23年,就已經有人在研究相關的領域,提出了Reflexion架構,用來引導模型的元認知能力。今年,Karpathy也曾經多次講過模型需要一個反思能力。而反思的過程,正是元推理。這種能力此前之所以沒有被充分利用,是因為以前的模型大多隻是優秀的做題家,而缺乏成為出題人(評價指令)所需的深刻內省能力。ReMem 證明了,當今的 SOTA 模型(如 Gemini 2.5 和 Claude 3.7)已經具備了這種能力。它們不僅能生成答案,還能評價答案的質量,並將其轉化為策略知識而非僅僅是事實知識。另外一個元推理在過去無法應用的原因,是策略知識的特殊屬性。策略是由經驗歸納出來的產物,比如遊戲的技巧。這種知識絕不可能從單次經歷中產生,必須有足夠多的例子,才能歸納出一條策略。在 Evo-Memory 之前,記憶系統往往是短視的。受限於上下文窗口或簡單的檢索邏輯,模型往往只能看到最近的一兩次互動。它也許能記住剛才撞牆了,但它記不住上周、昨晚、大前天都撞牆了。沒有足夠多的例子,元推理就失去了燃料。ReMem 的成功,某種程度上是因為它利用了現代大模型對長上下文的處理能力和結構化記憶的積累,讓模型終於湊齊了歸納策略所需的臨界樣本量。它讓這種元推理能力變成了一種真正能起到遠期效果的語義壓縮演算法。這是使得上下文即權重成立的核心邏輯。04 系統2的完整拼圖這一範式的確立,讓我們終於看清了下一代 AI 的完整形態。最近大火的 DeepSeek V3.2 在工具使用中展示了行動前的規劃能力,它會在呼叫 API 之前進行大量的思維鏈推導。而 ReMem 展示了行動後的反思能力,它會在任務結束後進行深度的復盤。這兩者結合,構成了完整的系統 2思維閉環。以前我們認為 RAG 是外掛的硬碟,但現在它其實是個計算問題。只有經過元推理(清洗、壓縮、結構化後)的資訊,才有資格進入上下文,進而在這個凍結的神經網路中扮演權重的角色。Evo-Memory 告訴我們,我們不需要等到 Nested Learning 這種重型架構普及的那一天。只要底座模型足夠聰明,能夠理解反思的指令,我們現在就可以通過讓模型在記憶中自我訓練,實現某種程度上的 AGI(通用人工智慧)原型:一個參數不變,但智慧隨時間持續生長的數字生命。 (騰訊科技)