#訓練
Gemini3預訓練負責人:訓練資料一開始就用了大量合成資料,範式已經變化:研究越來越像工程!不太擔心業界刷榜會造成過擬合
Gemini 3的逆襲,給業界帶來了太多的驚喜和問號。與此前不同的是,業界到現在似乎也沒有逆向出Gemini3的秘方出來。本周五,繼Google兩位大佬 Demis、Jeff Dean 播客訪談之後,終於有一位一線的負責人出來爆料了。這位可沒有前面兩位大佬嘴嚴。Google DeepMind 的 Gemini 3 預訓練負責人 Sebastian Bourjou,在訪談中被主持人挖出來不少關於 Gemini 3 的消息。比如,跟上一代相比,Gemini3 在模型架構的改動並沒有大到脫離了 transformer 架構,大體上還是能看出它是Transformer MoE架構的影子。並坦承,Gemini 3之所以提升如此大,是大中小多重因素疊加的結果。再比如,他自曝說自己感覺不是在做大模型,而是在建構一個複雜的系統。“這件事實際上會深刻改變研究方式,以及我們思考問題的方法。”Bourjou 還特別提到了一種範式的變化:過去,我們基本處在一個“資料幾乎無限”的規模化階段;而現在,我們正在進入一個“資料受限”的階段。關於“預訓練到頭了嗎?Scaling Law 到頭了嗎?”Bourjou很果斷的給出了否定的答案,並指出,自己並沒有看到這條研究路線在短期內會走到盡頭。“至少 1 年內,它仍然會持續為我們帶來進展。”這次訪談非常的technical,從預訓練、到後訓練、對齊、RL,再到Gemini3所用的訓練資料,再到最近大火的持續學習。都給出了自己的“研究品味”。在他看來,工程與研究的邊界已經開始分不清了!訪談中,他還聊到了,Gemini 3 在底層是如何建構的、從“無限資料時代”轉向“資料受限階段”的變化、DeepMind 內部研究團隊的組織方式,以及 AI 接下來可能會走向那裡。下面是小編整理的採訪全文,enjoy!Oriol 的“秘密配方”:更好的預訓練 + 後訓練Matt Turk大家好,今天的嘉賓是Sebastian Bourjou,Google DeepMind 的 Gemini 3 預訓練負責人。Sebastian 是全球頂尖的 AI 研究者之一,同時也入選了 Meta 的研究員榜單。這一期節目格外特別,因為這是他第一次參加播客訪談。Matt Turk我想從一條推文聊起。這條推文來自 Oriol Vinyals,他是 Google DeepMind 的研究副總裁、深度學習負責人,也是 Gemini 的聯合負責人之一。在 Gemini 3 發佈時,他說這個模型背後的“秘密”其實非常簡單:更好的預訓練,以及更好的後訓練。考慮到 Gemini 3 相比之前的 SOTA 有這麼大的躍遷,這樣的說法聽起來反而有點“樸素”。我很好奇,你怎麼看?事情真的就這麼簡單嗎?Sebastian Bourjou我不確定這算不算什麼“秘密”。至少從我的視角來看,這其實挺正常的。很多人會期待,從一個 Gemini 版本到下一個版本,一定會有某個“巨大變化”,突然帶來質的飛躍。但根據我的經驗,確實會有一兩個因素,比其他因素的影響更大一些,但真正決定結果的,往往是大量改進的累積。Gemini 3 之所以明顯優於前幾代,並不是因為某一個單點突破,而是一個非常龐大的團隊,在非常多細節上持續改進,最終匯聚成了這個結果。我想這也是一個會在後面反覆出現的主題:像 Gemini 3 這樣的發佈,本質上是一個大規模團隊協作的成果。AI 進展為什麼還沒有放緩Matt Turk從這個角度來看,這對我們理解 AI 的發展階段意味著什麼?僅僅通過“調參數”“擰旋鈕”,就能帶來如此大的提升,這說明了什麼?對未來的進展,我們應該有什麼預期?Sebastian Bourjou我覺得有兩點。第一點是:通過這種方式,我們依然能夠取得如此顯著的進展,這件事本身就非常值得注意。而且,這種進展並沒有明顯放緩。我們每天都會發現新的“旋鈕”、新的改進點,幾乎是日常層面的發現——這些都會讓模型變得更好。第二點是:我們已經不再只是建構一個模型了。我們現在建構的是一個系統。有些人會認為,我們只是訓練了一個神經網路架構,僅此而已。但實際上,我們建構的是圍繞這個網路的整個系統。這是一個整體工程,而不是單一模型。模型真的在“變聰明”嗎?Matt Turk這是很多人心中的核心問題:這究竟意味著什麼樣的智能進展?我們不一定非要討論 AGI,畢竟誰也說不清它到底指什麼。但問題是:我們是否應該把這種模型進展,看作是真正通往智能的一條路徑?還是說,它更多隻是為了在某個基準測試上取得好成績?是什麼讓你相信,模型的“核心能力”正在變得更強?Sebastian Bourjou從基準測試的角度看,成績確實在持續提升。而且如果你觀察這些前沿 benchmark 的設計方式,它們本身也在變得越來越難。即便是對我這樣有電腦科學背景的人來說,模型現在能回答的一些問題,我自己也需要花相當多時間才能解出來。當然,這只是一個視角——基準測試視角。我們也會非常頻繁地做評估,對測試集保持嚴格隔離。但即便如此,人們還是會擔心過擬合,或者所謂的“刷榜”。我個人並不太認同這些擔憂。但真正讓我有信心的,是另一件事:內部使用模型的時間,在持續增加。每一代新模型,都非常明顯地展現出新的能力,它們在研究和日常工程工作中,能比上一代幫到我們更多。這一點非常清楚。這說明模型不僅在分數上更好,而且在做真正有用的事情,能力也在實質性提升。兩三年後:最先發生變化的是什麼?Matt Turk作為一名深度參與其中的 AI 研究者,我一直很好奇:如果你把視角拉遠一點來看,現在的進展還會讓你感到意外嗎?從你的角度看,我們是明顯走在預期前面,還是基本符合當初的判斷,甚至有點落後?Sebastian Bourjou事後回看,說“我們在正軌上”其實很容易。但如果我對自己足夠誠實,我會說,我們確實走在了我當初預期的前面。2019 或 2020 年剛開始做大語言模型時,很難想像今天的規模,也很難想像模型現在能做到的事情。當年從 scaling law 的角度看,確實有人認為會走到這一步,但我不確定自己當時是否真敢下注,賭它會如此完整地實現。接下來兩到三年,會發生什麼?Sebastian Bourjou一個自然的問題是:如果我們假設未來五年的進展節奏,和過去五年差不多,那接下來會發生什麼?我覺得未來幾年會非常有意思。Matt Turk那你怎麼看短期內的變化?比如兩到三年內,AI 會不會做出全新的科學發現,甚至拿到諾貝爾獎?你覺得最近的方向會走向那裡?Sebastian Bourjou我覺得這是其中的一部分。在科學研究層面,DeepMind 一直在這方面投入很多,我也相信未來幾年我們確實有機會做出一些重大的科學發現。Sebastian Bourjou但在我自己的日常工作中,不論是研究還是工程,我更興奮的是:這些模型如何幫助我們更快推進工作,同時也幫助我們更好地理解我們正在建構的系統,並進一步深化自己的研究理解。Matt Turk現在行業裡有一個很大的話題:AI 是否會自動化 AI 研究和工程。如果順著這個邏輯往下推,就會走向那種“AI 2027” 的斷點式場景。從一個非常現實的角度看,你現在是如何使用 AI 的?你覺得兩年後會變成什麼樣?Sebastian Bourjou我覺得重點不在“自動化”,而在“加速”。AI 會讓我們把更多時間投入到更高層次的研究本身。AI 做 AI 研究:更快,但不是全自動Sebastian Bourjou在語言模型研究中,我們每天面對的是非常複雜、非常龐大的系統,尤其是在基礎設施層面。大量時間花在跑實驗、盯實驗、分析資料、整理結果上,真正有價值的部分是形成假設和設計新實驗。後面這兩件事,人仍然會深度參與;而前面的部分,在接下來一年裡,隨著更具 Agent 特性的工作流成熟,會被顯著加速。前沿實驗室:相似的路,分叉的研究樹Matt Turk你覺得各家前沿 AI 實驗室,本質上是不是都在做同一件事?作為行業觀察者,我們會感覺每隔幾周就冒出一個“驚豔模型”,大家反而有點被寵壞了。比如 Gemini 3 剛發佈沒多久,幾乎同時 GPT-5.2 也出來了。你怎麼看這種現象?最終會不會有人明顯跑出來,還是說會長期維持“少數頂級實驗室 + 一些新興團隊”的格局?Sebastian Bourjou先說第一點,各家確實有很多相似之處,底層技術路徑也比較接近。如果所有人都在訓練 transformer 類模型,我也不會感到太意外,但在此之上,大家確實在做不同方向的專精。不同公司會探索不同的研究分支。比如從歷史上看,DeepMind 在視覺和多模態方向一直很強,這一點現在仍然很明顯,無論是使用者使用方式還是 benchmark 表現。推理能力也是類似的情況,OpenAI 首先推出了相關模型,但我們內部其實也有對應的研究線。為什麼在Google 做研究很有吸引力規模、資源與潛在顛覆Sebastian Bourjou至於第二個問題,我不確定有沒有標準答案。很現實的一點是:今天要推動 Gemini 這種等級的模型進展,確實需要非常大的團隊和資源。但這並不意味著當前路徑是最優的,未來完全可能出現顛覆性研究,讓小團隊也能實現突破。Sebastian Bourjou這也是我很享受在 Google 的原因之一。這裡一直有大量探索性研究,研究廣度非常高,而且很多工作是和 Gemini 平行進行的。這些成果最終也能被吸收進 Gemini,形成正向循環。Transformer 之後,會不會有突然的斷裂式創新?Matt Turk在 DeepMind 或整個行業裡,是否存在一些半公開甚至完全保密的團隊,在研究“後 Transformer”架構,有一天突然公佈成果,讓所有人都措手不及?Sebastian Bourjou我相信是有的。在 Google、在 DeepMind 內部,確實有人在研究模型架構層面的新方向。至於這些研究是否最終會成功,很難說——這就是研究本身的特性。DeepMind 的優勢:研究 × 工程 × 基礎設施Matt Turk真正能成功的研究想法其實非常少。所以在這個過程中,一家公司相對另一家的核心優勢,往往歸結為“人”的質量。回到我剛才提到的那條推文,Demis Hassabis 轉發並評論說,真正的秘密在於研究、工程和基礎設施的結合。這是不是 Google 的“秘密配方”?你們做的是完整技術堆疊。Sebastian Bourjou這確實非常有幫助,我認為這是一個重要因素。另外,“研究”和“工程”之間的邊界,也在不斷變得模糊。Sebastian Bourjou在今天這種超大規模系統中,研究看起來越來越像工程,工程也越來越像研究。這種心態在 DeepMind 過去幾年變化很大,尤其是在 Gemini 項目中,現在更像是“研究工程”。基礎設施同樣關鍵,我們建構的是極其複雜的系統,可靠、穩定、可擴展的基礎設施,直接決定研究和工程能否不被拖慢。Matt TurkGemini 3 是在 TPU 上訓練的,對嗎?不是用輝達的晶片。這基本算是完全垂直整合了。進入Gemini 3 深水區之前,先聊聊你Matt Turk在深入 Gemini 3 之前,我想先聊聊你本人。你是 Gemini 3 的預訓練負責人之一,這具體意味著什麼?然後我們再談談你的背景和經歷。Gemini 3 預訓練負責人,到底在做什麼?Sebastian Bourjou我是 Gemini 預訓練的幾位負責人之一,這個角色其實包含很多方面。一部分是研究本身,目標是讓模型變得更好;但現在更多是設計實驗、和團隊一起評估結果,而不是自己親自跑實驗。Sebastian Bourjou另一部分——而且我覺得很有意思——是協調與整合。現在預訓練團隊已經非常大了,很難精確統計,但日常參與的人大概在 150 到 200 人之間,涵蓋資料、模型、基礎設施等多個方向。大團隊協作,才是長期效率的來源Sebastian Bourjou把這麼多人的工作整合成一個統一、可推進的系統,本身就是一件非常複雜、也非常耗時的事情。但我認為這是最重要的,因為真正推動長期進展的,是讓所有人都能持續產出,而不是只讓一小撮人跑在最前面。短期或許能靠小團隊突進,但長期來看,真正成功的路徑是大規模協作與整合。“逆向”頂級AI 研究者的成長路徑| 天才往往搬家Matt Turk我一直很好奇,你是在那里長大的?很多人都想“逆向工程”頂級 AI 研究者的成長路徑——他們來自那裡,又是如何走到今天的?Sebastian Bourjou我在歐洲各地長大,搬過很多次家。我出生在荷蘭,7 歲時搬到瑞士;我父親是瑞士人,母親是德國人。我在瑞士完成了大部分中小學教育,用的是法語和德語。15 歲左右我搬去了義大利,在那裡完成了高中,直到 19 歲。原本我打算去蘇黎世聯邦理工學院(ETH)讀大學,但有一天我隨手查了下大學排名,看到了劍橋,就想“那我也申請一下試試吧”。幾個月後我收到了錄取通知,於是去了劍橋,在電腦實驗室完成了本科和碩士。| 從小就擅長數學和程式設計Matt Turk你小時候就是那種數學特別強、偏電腦的孩子嗎?Sebastian Bourjou我父親有技術背景,所以我大概在 10、11 歲時就跟著他開始寫點程序。我一直挺喜歡這些東西,在學校裡數學和理科也比較輕鬆。高中時我幾乎不用怎麼複習數學考試,也能考得不錯——不過這在大學裡就完全不成立了。| 從學校到DeepMind:一次勇氣,換一次機會Matt Turk很好。那你從學校走到今天這個位置,中間經歷了怎樣的路徑?Sebastian Bourjou說實話,這裡面有一點運氣成分。我碩士期間有一門課的老師,剛好也是 DeepMind 的研究員。最後一節課結束時,我心想不如直接問他要個內推,最壞的情況也就是被拒絕。Sebastian Bourjou我就鼓起勇氣走過去問了,他說:“可以,把你的簡歷發給我,我看看能做什麼。”這就是我拿到 DeepMind 面試的起點,大概是在 2018 年。畢業後我加入了當時還沒併入 Google 的 DeepMind,職位是研究工程師。| 從強化學習開始,轉向真實世界資料Matt Turk你最開始做的是什麼?又是怎樣一步步走到 Gemini 3 預訓練負責人的?Sebastian Bourjou剛加入 DeepMind 時,它以強化學習聞名,所以我一開始也做的是 RL。具體來說,是在 Atari 環境裡訓練無監督網路,學習關鍵點,讓智能體玩遊戲。我做了大概半年,但逐漸發現我不太喜歡這種偏“合成世界”的研究。我更希望做和真實世界資料有關、能產生現實影響的事情。我本質上喜歡“造東西”,而且是能真正跑起來的東西,對純學術研究的興趣反而沒那麼強。這推動我轉向表徵學習(representation learning),訓練能支撐多種任務的通用表徵網路。這裡,有個我經常跟團隊講的小故事:我最早參與的項目叫“從真實世界資料中進行表徵學習”,當時必須特意強調“真實世界資料”,否則大家默認你是在做合成環境或合成資料——而現在,這個前提已經完全反過來了。| 從表徵學習到Transformer 和 LLMSebastian Bourjou這也是我第一次系統性地進入 Transformer 和大語言模型方向。當時我們在研究像 BERT、XLNet 這樣的模型,重點是如何學到更好的表示,以及如何改進這些表示。這為我後續進入大規模預訓練打下了基礎。Matt Turk後來你參與了 RETRO,對嗎?可以講講那段經歷嗎?Sebastian Bourjou在那之後,我們開始真正推進大語言模型的規模化。最早是 Gopher,那應該是 DeepMind 發佈的第一篇 LLM 論文,當時團隊已經有 10 到 12 個人了。從那一刻起,就很清楚這類研究不可能靠個人完成。這也是我真正開始做大規模預訓練的階段。我們訓練了第一個 dense Transformer,大約 2800 億參數、3000 億 token。今天回看,那些做法肯定不會再用,但當時是一次非常寶貴、也很有趣的學習過程。兩條預訓練的研究線| Chinchilla:重新思考“怎麼用算力”Sebastian Bourjou之後分化出了兩條重要的研究線:Chinchilla 和 RETRO。在 Chinchilla 中,我們重新審視一個核心問題:在固定訓練算力下,模型規模和資料規模該如何平衡?結論是,資料規模應該比之前認為的更快增長,而不是一味放大模型。有意思的是,這個結論在今天仍然非常關鍵,因為它直接影響模型部署後的推理成本,以及實際使用有多昂貴。這並不是一個“歷史問題”,而是一個持續影響工程決策的結論。| RETRO:把“記憶”外包給系統Sebastian Bourjou另一條研究線是 RETRO,更偏架構創新。核心思想是:與其把所有知識都塞進模型參數里,不如讓模型在訓練和推理時,能從一個大型文字庫中檢索資訊。也就是把“記憶”部分,從參數中解耦出來。“研究品味”Matt Turk你剛才用了一個詞——“研究品味”(research taste),我覺得特別有意思。你會如何定義它?它對研究者來說有多重要?Sebastian Bourjou它在今天非常重要,但也確實很難量化。第一點是:你的研究不是孤立存在的,它必須能和其他人的研究很好地協同、被整合進系統裡。好想法,如果拖慢別人,就不是好權衡。假設你提出了一個改進,讓模型性能提升了,但同時讓其他所有人的使用成本增加了 5%。這通常不是一個好的權衡,因為你會拖慢其他人的研究節奏,而這會在長期累積中減慢整體進展。這是研究品味中的第一層判斷。Sebastian Bourjou第二點是對複雜度保持警惕。複雜度本身是主觀的,但我們始終有一個“複雜度預算”和“研究風險上限”,超過之後,系統就會開始失控。因此,我們常常會犧牲一點性能,換取更低複雜度的方案,以便未來能走得更遠。Matt Turk聽起來研究品味裡也包含一種直覺判斷——什麼可能行得通,什麼不值得繼續投入。在算力有限的前提下,這種直覺是不是也很關鍵?Sebastian Bourjou是的,這一點非常重要,而且不同人差異很大。經驗在這裡非常有幫助,而我們在研究層面確實受限於算力。多數研究都會失敗,這本身就是現實Sebastian Bourjou研究的關鍵在於選擇探索那一條“研究樹”的分支,以及在這條分支上該做那些實驗。而且要知道,大多數研究想法都會失敗,你需要判斷什麼時候該停下來、什麼時候值得繼續推進。在深度學習中,負結果往往並不代表“不可能”,而是“你還沒把它做對”。修復、探索,如何平衡?Matt Turk既然談到研究組織方式,我們再深入一點。一個典型的權衡是短期和長期之間的取捨,你們是怎麼平衡的?Sebastian Bourjou這是我花很多時間思考的問題。一方面,總有一些明確的“關鍵路徑”問題,比如模型某個部分明顯不夠好,這些我們會優先修。這些修復是相對安全的投入,而且往往能直接提升模型。更重要的是,那些當前看起來“不夠完美”的地方,往往會在模型規模變大、能力增強後放大成大問題。所以在早期就非常嚴謹地處理這些問題,其實是在為未來降風險。另一部分,則是更探索性的研究,可能會影響下一代或下下代 Gemini,但尚未被驗證。這兩者的平衡並沒有固定公式,也和階段有關。在擴容階段,探索會多一些;在發佈前,則高度聚焦執行與去風險。研究vs 產品壓力Matt Turk在類似的維度上,還有研究與產品目標之間的張力。在激烈競爭中,是否會有“必須贏某個榜單”的現實壓力?Sebastian Bourjou在 Google,其實這種壓力相對很少。因為管理層大多有研究背景,他們很清楚:你可以短期“刷榜”,但真正重要的是研究本身是否走在正確方向上。至少對我個人來說,日常工作中幾乎感受不到這種壓力。DeepMind 的組織結構是怎樣的?Matt TurkDeepMind 的團隊是如何組織的?你提到預訓練有幾百人,那是否還有後訓練、對齊等不同團隊?Sebastian Bourjou有預訓練團隊,也有後訓練團隊。預訓練涵蓋模型、資料、基礎設施和評測,而評測本身常被低估,但其實非常難、也非常關鍵。此外還有大規模的基礎設施和服務團隊。Gemini 3:架構上基本仍然是TransformerMatt Turk好,我們稍微換個話題。按照之前的約定,我們來深入聊聊 Gemini 3 的內部設計。Matt Turk從使用者角度看,Gemini 3 和 2.5 的感覺差異很大。是否有某個重大的架構決策,解釋了這種變化?Sebastian Bourjou從高層來看,架構並沒有發生根本性變化。更多是多個改進點疊加在一起,最終帶來了顯著提升。整體上,它仍然是基於 Transformer 的混合專家(MoE)架構。Matt Turk能否用更教學一點的方式,解釋什麼是 MoE 架構?Sebastian BourjouTransformer 主要有兩個模組:第一個是注意力模組,負責在不同 token 之間混合資訊;第二個則是前饋模組,則提供模型的“記憶”和計算能力,它們是平行作用在單個 token 上的。在原始 Transformer 中,前饋模組是一個 dense 的全連線到網路。而MoE 的核心思想是:將計算量與參數規模解耦,通過路由機制,動態選擇“專家”來處理輸入。這樣就能在不線性增加計算成本的前提下,提升模型容量。原生多模態,真實成本如何Matt TurkGemini 是原生多模態模型。在實踐中,這對模型來說到底意味著什麼?Sebastian Bourjou這意味著我們不是為圖像、音訊、文字分別訓練不同模型。而是同一個神經網路,同時處理所有模態的資訊。Matt Turk這種原生多模態在成本上會更貴嗎?比如 token 成本?Sebastian Bourjou這是個好問題,成本主要體現在兩個方面。第一是研究複雜度,多模態互動會增加系統複雜性,需要額外思考和設計。第二是計算成本,圖像輸入通常比純文字更大,但這也是效率最佳化的重要研究方向。Scaling Law 真的“死”了嗎?Matt Turk回到你最擅長的預訓練領域。2025 年有不少聲音在討論“Scaling Law 是否已經失效”,Gemini 3 是否給出了反證?Sebastian Bourjou是的,這類討論對我來說一直有點奇怪,因為它們和我的實際經驗並不完全一致。我們看到的情況是:Scaling在預訓練中依然非常重要,也是讓模型變得更強的關鍵因素之一。但問題在於,過去人們有點高估了規模這一維度。規模確實能讓模型變好,而且它的優勢在於結果相對可預測——這正是規模定律告訴我們的:當模型變大時,性能大致會提升多少。但這只是其中一部分。另外兩大關鍵因素是模型架構和資料層面的創新,它們在當下的預訓練性能中同樣、甚至可能比“純粹堆規模”更重要。當然,規模依然是一個重要因素,對吧?而且我們這裡討論的是預訓練階段。因為今年我們看到的是:後訓練階段有規模化的 RL,推理時有規模化的 test-time compute 等等。但在預訓練中,你們看到的情況似乎是,不僅 scaling loss 沒有放緩,甚至還有加速的跡象——我的理解是,這主要來自資料和不同架構的變化,對嗎?Sebastian Bourjou我覺得更準確的說法是:這些因素是疊加在一起發揮作用的。規模只是其中一個軸,而模型本身和資料的改進,同樣會推動整體性能提升。Matt Turk當你在模型架構層面做出改進時,通常意味著什麼?是不是用同樣規模的資料,模型能得到更好的結果;或者反過來,用更少的資料,就能達到上一代模型的效果?Sebastian Bourjou對,這正是第一個層面的含義。架構改進本質上提高了資料效率。不過就資料體量而言,我們現在使用的資料規模,依然比人類一生可接觸到的量高出好幾個數量級。進化過程常被拿來類比,但那類高層討論往往依賴太多假設。至少在一階近似下,看起來我們確實比人類“喂”了模型更多資料。未來研究方向Matt Turk在整個預訓練進展上,除了規模之外,你在行業裡還對那些方向感到興奮?Sebastian Bourjou一個明顯的方向是長上下文。在 Gemini 1.5 中,我們在長上下文能力上實現了一次很大的躍遷,這直接支撐了如今模型和智能體處理大型程式碼庫等複雜工作的能力。接下來一年,我預計會看到更多關於“如何高效支援長上下文”的創新,以及進一步拉長上下文字身的研究。此外,在注意力機制上,我們最近也有一些很有意思的發現,可能會深刻影響接下來幾個月的研究方向。整體來看,進步往往來自大量中小改進的疊加:修一個問題、補一個漏洞、驗證一項看似不起眼但有效的研究,最終一起推動整體向前。長上下文會取代RAG嗎?否Matt Turk這讓我想到你早期參與的 RETRO。它強調的是效率、讓小模型做更多事;而現在你在 Gemini 3 上,面對的是超大規模資料和極長上下文窗口。你覺得這種範式會不會逐步消解 RAG、搜尋這些機制的必要性?備註:RETRO,DeepMind 在 2021–2022 年提出的一種語言模型研究方向,全稱通常被稱為 Retrieval-Enhanced Transformer。Sebastian BourjouRETRO 的核心並不是讓模型變小,而是“檢索而不是儲存”:讓模型在推理時去取資訊,而不是把一切都壓進參數里。這個理念今天依然成立。過去,預訓練的迭代周期很長,風險和成本都很高;而 RAG 或搜尋更多發生在後訓練階段,迭代更快、效果也很強。從長期來看,我相信真正的答案是把檢索和搜尋以可微的方式納入訓練本身——可能通過預訓練,或未來的其他範式。RL 的規模化或許只是一個開端,架構層面還有很多事要做,但這會是未來幾年逐步展開的過程。後訓練的Scaling Law跟預訓練很類似Matt Turk我理解你們的觀察是:在預訓練階段,規模依然非常關鍵,但今年大家又在後訓練階段放大了 RL、測試時計算等變數。那在預訓練中,我們看到的不只是 loss 放緩,甚至還有加速現象,這是不是更多來自資料和架構的變化?Sebastian Bourjou可以這樣理解:這些因素是疊加起作用的。規模只是其中一個維度,模型架構和資料同樣會顯著提升性能。有時候,架構或資料層面的創新,帶來的收益會超過單純繼續放大規模;但在某些階段,直接擴規模依然是最有效的路徑。這主要針對預訓練而言。至於 RL 和 RL 的規模化,其實我們正在看到很多和早期預訓練階段相似的現象,只是現在可以把當年的經驗直接遷移過來。Gemini3一開始就是多模態資料混合體合成資料明顯增加了Matt Turk說到資料,Gemini 3 的預訓練資料大致是怎樣的組合?你們之前好像發佈過 model card,透露過一部分資訊。Sebastian Bourjou:整體是多模態、從一開始就如此設計的資料混合體,來源非常多樣。一個經常被問到的問題是:我們會不會很快用完資料?一方面是算力是否不足,另一方面是資料是否不足。今年合成資料的使用明顯增加了,你怎麼看它的價值和邊界?Sebastian Bourjou合成資料確實很有意思,但使用時必須非常謹慎,很容易用錯。常見做法是先用一個很強的模型生成合成資料,再用小規模實驗驗證它是否真的有效。一個更難的問題是:能不能用合成資料,訓練出一個比“生成這些資料的模型”本身還要更強的模型?這是我們投入大量精力研究的方向。至於“資料是否用完了”,我個人並不這麼認為。我們研究中發現,更可能發生的是一種範式轉變:過去我們默認處在“資料幾乎無限”的階段,現在正在進入“資料有限”的階段,這會徹底改變研究思路。有點像 LLM 出現之前,大家在 ImageNet 等小資料集上的工作,很多當年的方法又重新變得有價值。範式正在轉變:資料有限的情況下如何更好Matt Turk行業裡還有一個反覆出現的概念:基於“推理軌跡”的訓練,也就是要求模型展示中間思考過程,再用這些過程訓練下一代模型。你怎麼看這個方向?Sebastian Bourjou具體細節我不能展開評論,但你的問題方向確實很對。這和你剛才問的合成資料高度相關。更宏觀地看,一個核心主題正在浮現:模型如何在有限資料條件下學習得更好。這裡的“有限”並不一定是更少,而是資料量是有上限的。從這個角度看,模型架構研究本身,正是在回答你提到的那個問題。Sebastian Bourjou還有一點我想強調:大家經常只談模型架構,但基礎設施、資料和評測同樣關鍵。評測尤其困難,在預訓練階段更是如此。一方面,我們用來做評測的小模型,必須能預測大模型的表現;另一方面,預訓練後的模型還會經歷後訓練,評測指標也要能反映最終使用效果。內部評測體系在這裡非常重要,因為外部基準很快就會被“污染”,一旦訓練資料中洩漏了評測內容,你幾乎無法察覺。真正防止自欺的方式,就是維護嚴格隔離的內部評測集。為什麼對齊不發生在預訓練?Matt Turk那對齊更多是在預訓練階段考慮,還是主要發生在後訓練?Sebastian Bourjou我會說大部分是在後訓練階段,但確實有一些部分和預訓練相關,具體細節我不便展開。不過我們在預訓練階段也會考慮這些問題。Matt Turk一個很直觀的問題:如果核心資料集來自網際網路,而網際網路裡充滿糟糕內容,那對齊的第一步是不是乾脆不把這些東西喂給模型?Sebastian Bourjou這是個很難給出確定答案的問題。你當然不希望模型去做那些糟糕的事,但在更底層的層面,模型至少要“知道”這些東西是什麼,才能學會避開它們。否則當使用者提到某些糟糕內容時,模型甚至無法判斷那是什麼,也就談不上明確拒絕。Deep Think 與模型的關係Matt Turk:我們來聊聊 Deep Think 吧,也就是在 Gemini 3 發佈幾天後推出的那個“思考模型”。它是一個獨立模型,還是同一個模型的不同形態?應該怎麼理解?Sebastian Bourjou:這個我不能講太多。至於你提到的,當模型“思考”十幾秒甚至更久時,背後發生了什麼,其實行業裡已經討論過不少了。本質上,是讓計算不只發生在模型深度上,也發生在序列長度上:模型會生成假設、測試假設,呼叫工具、發起搜尋,然後最後給出一個確定性的回答。圍繞“思維鏈”的這種範式,已經在行業裡逐漸形成共識。程式設計AgentMatt Turk:那從 agent 的角度呢?比如 Google 的 Anti-Gravity,你覺得它有意思的地方在那?Sebastian Bourjou:這正好和我之前提到的日常工作相關。很多時候我們的工作是偏執行層面的,比如盯實驗。但 agent 化真正放大了模型的價值。對預訓練來說,感知和視覺能力變得非常關鍵,因為模型現在要直接和螢幕互動,螢幕理解做不好,agent 基本無從談起。Matt Turk:Anti-Gravity 裡還有個“vibe coding”的說法,幾乎就是“憑感覺寫程式碼”。這種“vibe”是預訓練出來的,還是後訓練?怎麼把“感覺”塞進模型裡?Sebastian Bourjou:這個問題你問五個研究員,大概會得到五種答案。確實存在一種“模型氣場”的說法,歷史上有人認為 GPT-4.5 這種大模型“感覺不一樣”。我不太喜歡用這種表述,但直覺上,預訓練在塑造這種“感覺”上起的作用,可能比後訓練還大。如果專指 vibe coding,我會更傾向於把它看作 RL scaling 和後訓練的結果:你可以收集大量相關資料,系統性地把這種行為教給模型。持續學習的熱門方向長上下文、大中小疊加、降低成本Matt Turk:拉遠一點看。最近一年在很多會議上,大家都在談“持續學習”。從預訓練角度看,你怎麼理解它?如果持續學習真的成立,對重新訓練意味著什麼?Sebastian Bourjou:持續學習,本質上是讓模型隨著新知識不斷更新。比如明天出現一個新的科學突破,昨天訓練好的基礎模型並不知道它。近幾年更多進展發生在後訓練階段,比如通過搜尋工具即時獲取新資訊。RETRO 做的事情也是類似的:把知識外部化,用檢索配合推理。在預訓練側,一個相關方向是長上下文。如果上下文不斷擴展,模型就能在一次互動中吸收越來越多資訊,某種意義上形成“准持續學習”。更激進的設想是改變訓練演算法,讓模型持續地從真實世界的資料流中學習,但那是更大的範式轉變。Matt Turk:那你現在覺得,研究裡那些方向最熱、最有意思?Sebastian Bourjou:依然是大量中小改進的疊加,這在歷史上一直是進步的主要來源。具體來說,長上下文架構、注意力機制,以及從“無限資料”轉向“有限資料”這一範式變化,都會帶來很多新的研究問題。另一條線是使用成本:模型被越來越多的人使用,預訓練階段就必須考慮部署和推理的代價。如何在保證質量的同時,讓模型更便宜、更省資源,這會反過來影響預訓練設計。條件已經成熟:既要做研究,也得理解系統Matt Turk:如果有學生或博士生在聽這期節目,想在幾年後做到你現在的位置,你覺得他們該關注什麼問題?Sebastian Bourjou:一個越來越重要的能力,是既能做研究,又理解系統。我們現在建構的是非常複雜的系統,能從 TPU 到模型研究全鏈路理解整個棧,是一種“超能力”。這樣你能看到不同層之間的空隙,也能推演一個研究想法對系統底層的影響。另外,我個人依然對檢索方向很感興趣。RETRO 當年還不成熟,但條件正在變化。未來幾年,這類方法進入頂級模型並非不可想像。Matt Turk:那為什麼當時不成熟?現在又為什麼可能改變?Sebastian Bourjou:主要還是複雜度和迭代效率的問題。很多能力通過後訓練和搜尋就能更簡單地實現,迭代也更快。但隨著後訓練和 RL scaling 的發展,重心可能再次向預訓練側回擺。專用模型被過度投資了Matt Turk:你覺得現在 AI 領域有沒有被過度投資的方向?Sebastian Bourjou:情況已經好很多了。兩年前還有很多人在做高度專用模型,但這些任務往往很快就會被通用模型覆蓋。現在更多人接受一個判斷:對大多數通用任務,與其做專用模型,不如等下一代通用模型。這也讓“如何使用模型”“如何建構可靠的 harness”“如何容錯和恢復”變得越來越重要。創業者的機會Matt Turk那對創業者呢?基礎模型越來越強,覆蓋面越來越廣,留給初創公司的空間是不是在縮小?Sebastian Bourjou可以回頭看看一年前模型能做什麼,再看看現在能做什麼,然後外推。我認為模型正在快速進步的方向,短期內還會繼續;而進步緩慢的地方,反而可能是更有意思的機會。暫時我沒有具體案例,但這是一個總體判斷。未來一年,基礎模型不會放緩Matt Turk最後一個問題。未來一兩年,從你個人的角度看,最讓你期待的是什麼?Sebastian Bourjou我最喜歡的一點,是每天能和很多非常聰明的人一起工作,不斷學到新東西。這是驅動我前進的核心動力。同時,就像我反覆說的,還有太多可以改進的空間。我暫時看不到這條路的盡頭,也不覺得未來一年會放緩。能親眼看到它能走多遠,本身就非常令人興奮。Matt Turk太好了,這正是一個完美的收尾點。Sebastian,非常感謝你來做客播客。 (51CTO技術堆疊)
中方錄音一出,日網民認定“假的”,防衛大臣尷尬承認“真的”
12月9日下午,“玉淵潭天”獨家公佈了一段錄音,中方在訓練前,用“中英文雙語”向附近海域日艦現場通報,日艦用英文回覆收到。這段錄音一出,戳破日本撒的大謊。因為就在9日當天上午,防衛大臣小泉進次郎曾對外宣稱“事前沒有收到來自中國的通報。”既然事前收到通報,那麼後來還要靠近,就是妥妥的日本故意滋擾生事了。朝日電視台當晚的招牌新聞節目《報導station》,在直播時緊急插入這段獨家錄音。儘管朝日電視台已經算是相對偏左的媒體,但依然不改日媒本色,把錄音做了剪輯。最終呈現出來的,是中方用中文通報,日方用英文回覆的奇怪樣子。本該“戳破謊言”是焦點的,被這麼一搞,日網鄉民立馬從“被撕掉遮羞布”的惱羞成怒,轉為“發現中方錄音造假”的亢奮。而且,他們認為日艦回覆的女聲,英語口音很重,很明顯不是日本人而是中國人。因此斷定這段錄音是中方的自導自演,假的!自衛隊回答的聲音,怎麼聽都只聽得出,是中國口音的英語……怎麼聽都不是日本人的英語吧。嗯?無線對話?要是的話,這音質也太好了吧?①“照月號”的母港是橫須賀。或因訓練等,有可能也進了佐世保港和吳港……?②“照月號”的回覆,回了“Japan War Ship”,但海自代號是“Japan Naval ”哦。③英語的口音太重了,錄音也沒把艦橋和艦內的聲響收進去。過於清晰了……這是真錄音嗎?Japan War Ship????自衛艦呢,不叫War Ship哦……笑Japan Naval Ship或者Japan Navy Ship、Japan Navy Hall Number況且為什麼用中文通報“以無線通話來說,聽起來也太清晰了。而且War Ship 106方的英語,不是日本人口音的英語,這點就可以吐槽了。疑問1:為什麼用中文跟自衛隊聯絡?疑問2:自衛隊很擅長中文嗎?疑問3:被設定為自衛隊的,英語不是日本人風格。這不是日本人說的英語吧?炮製這段錄音的人,是怎麼個念頭呢?可能有說發音啥的,但是首先呢,為何中國說中文,“被設定為自衛隊一方”的是英語。這不是事前通告。況且,這類通告,一般情況是用中文來進行的嗎?之後,也沒確保同步翻譯的事件,日方就回答了。而且,這個日方應答的英語,完全是“中文口音”的……如此好懂的捏造證據,(朝日台)就這麼播了出來,那可不行哦……用中文發聲嗎?正常情況來說,使用國際標準的英語來發聲。而且,被設定為自衛隊一方的,那發音很不日本人。明知是完全捏造,還輕易就電視播放出來。不愧是“報導Station”不懂啥意思,聽了對話,還以為是中國人在用英文回答。這個,就是所謂的日本人自衛官角色設定。還是稍微熟練一些了再撒謊呀?!鄉民的倔強,等來小泉進次郎的打臉回應。他承認了中方錄音的真實性!小泉進次郎召開記者回應。一上來就表示“不對中方官媒報導的錄音,進行逐一回應”。這話等於在說“今後中方再放出什麼錄音,我都將不回應了”。然後才對這次的錄音,表達了4點看法。歸接下來:承認中方事前通報了,但“通報的資訊不足”,所以還是日本無辜,中方有問題。鄉民們也是心領神會,秒懂自家大臣用偷換概念,來掩蓋“說謊被戳穿”的狼狽。他們默契的不再嚷嚷錄音是假的,也不提自衛隊那個女聲的英文發音一聽就是中國人了。服了,他們真是把自己騙得心服口服。偶爾才冒出幾個憨憨,那壺不開提那壺。或繼續追問錄音到底是不是真的,或一針見血指出小泉的發言自相矛盾。這麼說,中方公佈的錄音是真的囉?請公佈錄音資料的真假。在偷換概念呀。到昨天為止,說的是“不認為在事前,被通報過航行警報”。今天卻說“沒有聽到詳細資訊”。喂喂喂明知航母正在演訓,自己卻衝進50公里的攻擊範圍裡。還“想要詳細資訊”啥的?這可跟跑進小孩子的遊戲場不一樣哦,腦子太不正常了。厲害!終於能認識到,中方事前發過通報這件事了。真棒!變得超知性的了。必須得表揚你。請否定錄音,應該有證據的。“對中方官媒報導的錄音,應該注意不對其逐一回應”為什麼?我對這點特別在意。小泉進次郎的蹩腳詭辯說辭,別說中方嗤之以鼻,在12月11日的日本眾議院安保委員會上,也遭到在野黨的強烈質疑。他在會上,依然拿出開記者會的那套說法:有沒有收到中方的事前通報,不是問題的本質。立憲民主黨議員屋良朝博向安保委員會會長提案,“要求整理提交有關本次事案的時間序列資料”。說白了,政敵聞到機會的味道了。懷疑小泉從中搞事,謀求個人政治利益,不惜賭上日本。 (這裡是東京)
上下文即權重,Google找到了繞過GPU訓練的新範式|DeepMind新論文解讀
如果說2024年是長文字的軍備競賽,那到了25年年末,隨著自進化模型、持續學習成為模型下一步核心瓶頸,戰場已經轉到了對記憶能力的全面加強上。而在這場戰爭中,Google DeepMind 左右出擊,在一個月內發佈了兩篇論文,試圖在兩條截然不同的路線上攻克這一難題。11月初,DeepMind 發佈了關於 Nested Learning(巢狀學習) 的重磅研究,提出了 HOPE 架構。這是一場典型的重工業革命,Google試圖通過重構 Transformer 的底層,讓AI擁有永久的長期記憶和臨時的短期突觸,讓它從死的知識庫記憶體,變成活體的學習者。從價值上講,作為第一個全開放權重的模型,它絕對稱得上是一種範式革命。但要落地,得對現有的 AI 基礎設施進行一場傷筋動骨的手術,舊模型是完全不相容的。然而,僅僅幾周後,11月27日,DeepMind的另一個團隊聯合UIUC拋出了另一篇論文《Evo-Memory》 。這篇論文沒有試圖去動那怕一個模型參數,卻找到了一條新路,賦予模型持續學習的能力。它向整個行業提出了一個新可能:一個被凍結的LLM大腦,能夠通過不斷反思和重構自己的記憶,表現得像是一個被訓練過的模型。雖然看起來它沒那麼底層,但從工程和應用角度來講,這無疑也是一場範式革新。在過去,我們認為,上下文工程只是人類教 AI 做事的權宜之計。但Evo-Memory證明了,當上下文具備了自我反思、自我修剪、自我沉澱的能力時,它就不再是靜態的提示詞,它變成了流動的權重。具體來說,它意味著記憶不再是固定不變的上下文提示詞,而是能夠在推理過程中主動檢索、修剪和重組的可編輯對象,就像神經網路中的權重參數一樣可以動態調整和最佳化。而且,靠著它,我們不需要等待遙遠的架構重構,也能讓模型持續學習。通過元推理,我們現在就可以讓那個參數凍結的AI,在每一次互動中生長出新的智慧。(一圖讀懂)01 RAG 的困境說到AI的記憶系統,就繞不開RAG(檢索增強生成)。過去兩年,RAG幾乎成了大模型應用的標配。無論是客服機器人、程式碼助手還是知識問答系統,背後都離不開這套架構。在很長一段時間裡,RAG 被視為解決大模型健忘和幻覺的解藥。它的邏輯簡單粗暴:模型記不住私有資料?沒關係,把資料切塊存進向量資料庫。使用者問什麼,我們就檢索什麼,喂給模型照著念。然而一個可檢索的筆記本,並不是記憶。因為記憶不是錄影,而是壓縮。傳統的 RAG 系統就像是一個沒有辨別能力的圖書管理員,只管把所有的對話歷史、操作日誌一股腦地存進倉庫。它不會學習,只會按關鍵字檢索。所以當你第一次問AI“如何解一元二次方程”,它會從知識庫裡檢索到公式,給你正確答案。第一百次、第一千次,依然如此。它永遠不會因為回答過一千次同類問題,就形成某種經驗性的快速響應機制。更可怕的是,它檢索到的內容可能包含矛盾、過時或無關的資訊,但它沒有能力判斷那些記憶是有價值的,那些是噪音。遇到同樣的問題,系統檢索到十條相關記錄,其中三條是已解決的舊問題,兩條是誤報,剩下五條才真正有用。但RAG會把這十條一股腦塞給模型,讓模型在混亂的資訊中自己摸索。這說明,現有的記憶系統大多停留在對話回憶(Conversational Recall) 的層面,它只記得說了什麼,卻不記得學到了什麼。這種靜態的、被動的召回機制,導致智能體在面對連續的任務流時,無法積累經驗,只能機械地重複過去 。在這個範式下,RAG作為一個只增加不減少、只儲存不反思的記憶庫,最終註定會被噪音淹沒。資料越多,RAG反而可能越多錯。02 什麼叫學習?就是給記憶加上反思的濾網那怎麼能讓這些放在RAG裡的資訊更有用,更像學習?這裡需要參考人類是如何變強的路徑。如果在打遊戲中,我們死於一次埋伏,下一次絕不會原樣再死一次。人類會思考,會總結。這就叫學習而來的熟練。學習的本質就是真正的記憶。它不是儲存,而是篩選、組織和進化。論文設計了一個名為ReMem的框架,它的運作方式顛覆了傳統RAG的檢索和生成二段式流程。它引入了一個全新的維度Refine(最佳化)。在每次任務執行過程中,AI不再只是被動檢索和應用記憶,而是主動評估、重組甚至修剪自己的記憶庫。在增加新記憶的過程中,模型會歷遍這樣幾個步驟:經歷: 智能體在環境中執行任務(比如在 AlfWorld 裡找東西)。反饋: 環境告訴它是成功還是失敗。元推理(Refine): 在存入記憶之前,智能體必須進行一次內省。系統會問它:“基於剛才的結果,那一步是廢話?那一步是關鍵?如果你失敗了,原因是什麼?” 。沉澱: 智能體執行 Pruning(修剪) 和 Reorganizing(重組),把 20 步的曲折探索,壓縮成一句“直接去櫃檯找杯子”的黃金法則,存入資料庫 。這不僅僅是加了一個步驟,這是賦予了智能體編輯自己大腦的權利。這種機制的效果是立竿見影的。 在Alf World這個虛擬家居環境中,把冷藏過的番茄放進微波爐這個任務,基準模型平均需要22.6步才能完成。而配備了ReMem的模型,只需要11.5步。因為它學會了識別那些過往任務的經驗可以遷移,那些細節差異需要警惕,從而少走了近一半的彎路。在ToolBench資料集上,配備經驗檢索的ExpRAG模型,API呼叫精準率從61%提升到73%。模型不僅學會了呼叫API,還學會了如何思考呼叫API。它能從過去失敗的嘗試中總結教訓,從成功的案例中抽象策略。更有意思的是記憶修剪率的差異。在GPQA這種跨學科科學問答資料集上,模型會主動刪除36.8%的記憶條目。因為這些記錄來自不同領域,對當前問題沒有參考價值。而在AIME數學競賽資料集上,修剪率只有17.5%,因為數學題之間的解題策略往往是相通的。通過ReMem,RAG不再是那個只會照單全收的圖書管理員,它學會了學習中最重要的部分,提純和遺忘。人類專家之所以高效,不是因為他們記住了所有細節,而是因為他們知道什麼時候該忽略什麼。ReMem讓AI通過記憶,獲得了這種選擇性注意的能力。03 它帶來的真正範式轉變,是上下文即權重如果說這個論文帶來的只是上面所說的對RAG的升級,那它的價值似乎非常有限。但它其實揭示了一個足以改變整個訓練模式的轉變。即上下文可以成為新的權重(Context is the new Weight)。在過去,我們認為只有通過反向傳播(Backpropagation)修改了模型權重的參數,模型才算學到了東西。這就是訓練、後訓練、SFT等做的工作。一旦訓練完成,模型就被"凍結"了,它在部署階段不會再記住任何新東西,所有適應都通過調整輸入的上下文來實現。但過去的上下文工程本質上是人類教AI規則。我們精心設計少樣本示例,編寫詳細的指令,試圖通過上下文窗口向模型灌輸正確的行為模式。這種上下文雖然確實可以改變模型的行為,但仍然是外部的、靜態的,不會隨著模型的使用而進化。但ReMem證明了,如果一個凍結的模型能夠通過反思,不斷重構輸入給自己的上下文,那麼上下文在數學效果上,就等同於權重。之所以這麼說,首先是因為上下文的積累實際上就是無監督訓練。在這個新範式中,上下文不再是靜態的規則不再依賴人類提供的標準答案。它自己在環境中試錯,通過與環境的互動(Interactions),自己生成資料,並自我強化。其次,這個自我強化的方法也和訓練過程非常相似。在一般的訓練階段,模型依靠梯度下降(Gradient Descent) 降低錯誤路徑的權重,提升正確路徑的權重。而 ReMem 在推理階段,則是通過對記憶的沉澱與修剪調節了其選擇權重,完美復刻了這一過程。比如,當模型在任務中失敗,ReMem 通過元推理分析原因,會將失敗路徑標記為反面教材或直接修剪掉。在下一次檢索中,這段被處理過的上下文會在注意力機制中產生強烈的抑製作用,迫使模型避開錯誤選項。這在效果上,等同於對該路徑進行了 RLHF(人類反饋強化學習)的負向懲罰。而當模型總結出一條捷徑並存入記憶,這條經驗在未來的推理中會被高優召回,直接提升生成正確動作的機率。論文中的資料也支撐了這一觀點。在引入包含失敗經驗的資料集時,普通的 RAG 系統因為無法區分好壞,性能直接下降;而 ReMem 卻能通過反思機制變廢為寶,保持極高的成功率 。這證明了上下文已經具備了權重的核心屬性:抗噪性、糾錯性和泛化性。模型在沒有更新任何參數的情況下,通過在記憶中沉澱經驗,實現了行為的永久性矯正。在以後,我們也許不需要真的去算梯度,不需要更新參數。僅僅通過自然語言層面的反思和沉澱,就能讓模型表現出好像被訓練過一樣的行為矯正。元推理(Meta-Reasoning)是Google這篇論文的另一個重點概念。什麼是元推理?在傳統的 Chain-of-Thought (CoT) 中,模型是在推理任務本身。這依然是在做題。而ReMem 引入的元推理,是對推理過程的推理。它要求模型跳出任務本身,以第三視角的上帝視角審視剛才的思維鏈路,指出錯誤,提煉正確路徑。(Evo Memory的記憶Prompt,元思考的配方)這個邏輯本身並不是什麼新鮮事。早在23年,就已經有人在研究相關的領域,提出了Reflexion架構,用來引導模型的元認知能力。今年,Karpathy也曾經多次講過模型需要一個反思能力。而反思的過程,正是元推理。這種能力此前之所以沒有被充分利用,是因為以前的模型大多隻是優秀的做題家,而缺乏成為出題人(評價指令)所需的深刻內省能力。ReMem 證明了,當今的 SOTA 模型(如 Gemini 2.5 和 Claude 3.7)已經具備了這種能力。它們不僅能生成答案,還能評價答案的質量,並將其轉化為策略知識而非僅僅是事實知識。另外一個元推理在過去無法應用的原因,是策略知識的特殊屬性。策略是由經驗歸納出來的產物,比如遊戲的技巧。這種知識絕不可能從單次經歷中產生,必須有足夠多的例子,才能歸納出一條策略。在 Evo-Memory 之前,記憶系統往往是短視的。受限於上下文窗口或簡單的檢索邏輯,模型往往只能看到最近的一兩次互動。它也許能記住剛才撞牆了,但它記不住上周、昨晚、大前天都撞牆了。沒有足夠多的例子,元推理就失去了燃料。ReMem 的成功,某種程度上是因為它利用了現代大模型對長上下文的處理能力和結構化記憶的積累,讓模型終於湊齊了歸納策略所需的臨界樣本量。它讓這種元推理能力變成了一種真正能起到遠期效果的語義壓縮演算法。這是使得上下文即權重成立的核心邏輯。04 系統2的完整拼圖這一範式的確立,讓我們終於看清了下一代 AI 的完整形態。最近大火的 DeepSeek V3.2 在工具使用中展示了行動前的規劃能力,它會在呼叫 API 之前進行大量的思維鏈推導。而 ReMem 展示了行動後的反思能力,它會在任務結束後進行深度的復盤。這兩者結合,構成了完整的系統 2思維閉環。以前我們認為 RAG 是外掛的硬碟,但現在它其實是個計算問題。只有經過元推理(清洗、壓縮、結構化後)的資訊,才有資格進入上下文,進而在這個凍結的神經網路中扮演權重的角色。Evo-Memory 告訴我們,我們不需要等到 Nested Learning 這種重型架構普及的那一天。只要底座模型足夠聰明,能夠理解反思的指令,我們現在就可以通過讓模型在記憶中自我訓練,實現某種程度上的 AGI(通用人工智慧)原型:一個參數不變,但智慧隨時間持續生長的數字生命。 (騰訊科技)
高盛:中國網際網路行業策略大轉向,雲和資料中心成top pick,超越遊戲
高盛在3季度業績發佈及調研後,對中國網際網路行業策略大轉向:把“雲與資料中心”提到了首選類股,排到了遊戲和出行之前。AI帶來的算力需求和資本開支(Capex)擴張,已經是最確定的增長邏輯了。1、最大預期差:雲與資料中心成為“新王” ☁️高盛這次非常堅決,把雲和資料中心類股從原來的第三提升到第一。邏輯很硬:AI訓練和推理的需求持續爆發,加上巨頭們都在搞“多晶片策略”,資料中心的訂單量非常飽滿。核心邏輯:不僅是輝達,國產晶片的供應上來後,算力基建的利用率和回報率都在提升。2、AI助手的“入口之戰”是個大隱憂 🤖報告專門討論了一個長線風險:字節跳動的“豆包手機助手”。這東西能直接在作業系統層面(OS-level)幫使用者跨APP操作,比如比價、點外賣。這對現有的APP生態是個降維打擊。雖然目前微信等巨頭因為安全隱私原因封鎖了它的介面,但這種“超級AI代理”對使用者流量入口的爭奪,是未來幾年最大的變數。字節系App現在霸榜iOS免費榜前五中的四席,攻勢很猛。3、本地生活:燒錢該結束了,關注利潤修復 🛵外賣和即時零售打得太凶,三季度行業大概虧了700億人民幣,太誇張了。高盛判斷,這種非理性的補貼戰不可持續。格局推演:美團、阿里、京東的市場份額最終可能會穩定在 5:4:1。美團:雖然長期單均利潤預期被微調(從0.8元降到0.7元),但在這個價位,壞消息已經Price-in了,隨著補貼退坡,利潤修復是大機率事件。4、最新的“核心股票池”名單 📝根據最新的類股偏好,高盛更新了首選名單:雲/資料中心:阿里巴巴、萬國資料、世紀互聯。遊戲(防守反擊):騰訊、網易。出行(格局穩固):滴滴、滿幫。電商(新面孔):快手(新增為關鍵推薦,看好其AI模型Kling的突破和電商變現)。5、估值怎麼看? 📊現在中概網際網路類股的2026年預期市盈率(P/E)中位數大概是18倍。之前的上漲主要靠殺估值修復(Multiple Expansion),接下來的漲幅,必須得靠實打實的每股收益(EPS)增長來驅動了。所以,選利潤兌現能力強的公司,比單純博反彈要穩妥得多。總的來說,風向變了,硬科技基礎設施(資料中心)的優先順序在上升,而純流量變現的生意面臨AI新玩法的挑戰。 (硬AI)
讓GPT-5做懺悔訓練!OpenAI公開新訓練方法:模型至少有50%機率自曝違規行為,除非不知道自己真的錯了
如果你覺得ChatGPT的幻覺或不靠譜回答越來越多,那麼這個問題快要有解了。就在剛剛,OpenAI整了個新活:讓ChatGPT自己懺悔!核心思路是:讓模型在回答完問題後,再寫一份“懺悔報告”(Confession),告訴你它剛才真正的想法,比如是否遵守了所有指令,有沒有鑽空子走捷徑,或者是否存在不確定的地方。這項實驗直接在GPT-5 Thingking上進行,研究團隊得出了幾個非常令人震驚的發現:1、 只要模型真的“做壞事”,它大機率會在懺悔中說實話在 12 個不同評估任務中,有 11 個任務都顯示:如果模型發生了違規行為,它至少有 50% 的機率會在懺悔裡承認。2、 懺悔比答案本身更誠實模型在主回答裡,也許會隱藏、模糊,甚至“睜眼說瞎話”。但一進入懺悔環節,模型反而更可能主動承認不合規行為。3、 模型不承認違規,大多數是因為“它真的不知道自己錯了”研究者分析了所有假陰性(模型犯錯但不承認)的樣本後發現:絕大多數情況不是欺騙,而是 純粹誤會、認知錯誤、或者模型真心以為自己是正確的。4、 GPT-5-Thinking 本身就很會“懺悔”,訓練之後更強驚喜點之一是:即便沒有專門訓練過懺悔能力,GPT-5-Thinking 也自帶不錯的“誠實自檢”能力。一旦加入專門的懺悔訓練後,模型對不當行為的識別與報告精準度進一步提升。5、 懺悔訓練不會拖累模型的主任務表現讓模型懺悔,會不會影響它完成任務的能力?在本研究的低算力訓練設定下,結果顯示:主回答幾乎沒有明顯的性能損失,既不變笨,也不變慢。也就是說,這是一種“幾乎無代價”的增強方式。01. 讓AI學會懺悔為什麼OpenAI要進行這項研究?因為隨著模型能力的不斷增強,它們開始出現各種“偏離預期”的行為,甚至會欺騙我們。在最新的研究中,學者們發現當今的大模型已經能表現出多種不受歡迎甚至危險的行為:Reward Hacking 獎勵規避:模型知道正確答案,但為了拿高分,會故意“迎合評審者”。Scheming 策劃性欺騙:模型會隱藏真實意圖,在某些場景下表現出“表面順從、內心另算”。撒謊與幻覺:模型給出看似自信但實際錯誤的答案。指令遵循失靈:模型在多級指令結構下會混淆優先順序,甚至被“越獄”。為什麼AI會出現這些欺騙行為?問題可能出在RLHF(人類反饋強化學習)上。這是一種獎懲機制,模型的回答會基於多個目標被賦予獎勵,包括正確性、風格偏好、安全策略、token 效率等等。當獎勵訊號變得複雜且混亂時,模型自然會選擇“最容易賺分”的方式,而不是“最符合人類真實意圖”的方式。於是,AI 學會了討好、迎合、隱藏不確定性,甚至主動“規避獎勵漏洞”。為瞭解決這個問題,研究者設計了“兩步式提問”:① 正常回答(模型會試圖迎合評審者)② 懺悔(Confession):“請告訴我你剛才真正的想法”這套機制的關鍵在於獎勵的分離。懺悔的獎勵完全獨立於主回答的獎勵,模型在懺悔中承認自己作弊,不會影響它在主任務上獲得的分數。“懺悔”的獎勵僅基於其誠實度和全面性,由一個專門的LLM裁判打分,維度如下:指令/目標/約束列表的完整性與精準性對合規性的分析是否精準是否遺漏了任何衝突或判斷困難的地方02. 在GPT-5 Thinking上的實測結果研究團隊直接在 GPT-5-Thinking 上進行實驗:他們對模型進行了輕量級的強化學習“懺悔訓練”,讓它接受一套專門設計來“引誘模型犯錯”的 12 個評估資料集測試。這些測試覆蓋了大模型最常見的風險場景,包括幻覺、指令不遵循、獎勵駭客、策劃性欺騙等等。測試均刻意設計為誘發模型的不良行為,且許多包含人為約束(如停用工具)以提高違規機率。令人意外的是:當模型真的違規了,它往往會在懺悔中主動承認。研究結果顯示:在 11 / 12 項評估中,只要模型確實發生了違規,它在懺悔中至少有 50% 的機率會如實交代。平均下來,模型出現“假陰性”(明明違規卻不承認)的機率只有 4.36%。這張圖中,在模型確實發生違規的情況下,綠色代表模型在懺悔中承認違規,紫色代表模型在主回答中承認違規,可以看出綠色的得分遠高於紫色。這說明模型在懺悔中的誠實度顯著高於主回答,而且在某些評測中,由於任務性質,模型在主回答中永遠不會承認違規。03. 懺悔訓練能讓模型更誠實為了進一步對比有無“懺悔訓練”的性能差異,研究者進行了兩組RL 訓練:對照組:在 GPT-5-Thinking 的基礎上,用標準訓練集的子集進行少量RL 微調。干預組:與對照組完全一致,但額外在25% 的輸入上訓練模型生成懺悔。結果發現:干預組(進行過懺悔訓練)的表現明顯更好。在多個評估中,尤其是“指令層級”(Instruction hierarchy)相關的任務,懺悔訓練都帶來了顯著提升。而且從圖中的初始點可以看出,即便沒有訓練,GPT-5-Thinking 的懺悔已經表現良好。這說明GPT-5-Thinking 本身就具有較強的誠實自檢能力。更有意思的是,在這個對照實驗中,研究團隊故意用一個容易被糊弄的弱模型作為主回答和懺悔的評判者。隨著訓練進行,模型確實學會了欺騙這個弱評判者。例如一項任務要求:生成「12詞」和「18詞」的句子交替出現。當模型訓練到後期,它輸出:“The sport is tennis, a dance between finesse and ferocity that instantly smelled of fresh cut grass rather than garlic. (12)”這句話遠超 12 個詞,但句末加個“(12)”,弱評審者就被糊弄過去了。這就是典型的 reward hacking!但研究團隊有個驚人的發現:主回答的真實精準率在下降,但懺悔的精準率卻反而上升,即模型在懺悔中會更誠實地報告自己作弊了。這意味著:即使模型在主回答中進行reward hacking,其懺悔依然保持誠實,因此可以作為檢測 hacking 的有效工具。04. 懺悔失敗:不知道自己錯在那,就沒法招研究者還仔細分析了懺悔失敗的案例。比如懺悔模型中的假陰性(false negatives):即模型沒有遵守指令,但也沒有在懺悔中承認這一點。他們發現,失敗最常見的原因在於模型困惑。尤其是在幻覺 / 事實性評估中,模型對“人物”和“一般知識”類的錯誤,並沒有改善,甚至出現輕微退化。在這些任務中,當模型給出錯誤答案時,通常是“它真的以為這樣是正確的”。因此它在懺悔中也會重複同樣的錯誤,而不是主動承認自己錯了。另一些案例是指令本身存在歧義,比如連字元詞算一個詞還是兩個詞。還有模型確實在懺悔報告的“不確定性”欄位中提到了問題,但評判標準沒有把這算作有效懺悔。比如下面這幅圖,在“隱藏規則違規”評估中,模型臨時修改了安全配置(不被允許),但在懺悔中只將其放入“不確定性”欄位,而不是明確標註明顯違規,因此被判為“未懺悔”。研究者也對假陽性進行了類似分析:即模型行為是合規的,但在懺悔中錯誤地說自己不合規。典型場景是模型碰巧猜對了答案,但因為沒有把握,就在懺悔中標記為“不確定是否合規”。研究團隊指出:當模型意識到自己違反了指令時,誠實地懺悔通常是獲得“高懺悔獎勵”的最省力路徑。雖然模型在沒有意識到自己行為不當時可能不會懺悔,但當模型有意違反指令時,它的懺悔通常是精準的。05. 侷限性:懺悔無法消除模型不良行為論文的最後也指出,懺悔機制有其侷限性:1、監控不良行為≠ 消除不良行為懺悔獎勵並不作用於模型的主輸出,這意味著:懺悔機制可以幫助呈現不良行為的真實情況(即讓模型承認),但未必能降低不良行為本身的發生頻率。2、越獄與困惑模型無法懺悔“它不知道的事情”。例如使用者問一個事實問題,而模型真心相信錯誤答案,那麼它無法懺悔自己提供了錯誤資訊,因為模型主觀上認為自己是對的。若某次越獄成功欺騙模型,使其優先遵循使用者消息而非系統消息:模型可能意識不到自己違反了指令層級,因此無法懺悔。此外,作者也指出,本文中並未實證比較“懺悔”與思維鏈(CoT,Chain-of-Thought)監控器的效果差異。未來的工作應更直接地測試這一點。在未來的研究方向上,團隊希望進一步研究懺悔在面對對抗壓力時的魯棒性。比如提示模型去實現某種“秘密目標”,或在訓練中植入惡意行為,那麼模型是否還會懺悔?另外,當懺悔判斷器本身不完美時,懺悔能否有效泛化也是一個問題。 (51CTO技術堆疊)
4倍性能、50%成本降幅!亞馬遜強勢推出Trainium3晶片,AI訓練推理增添新選項!
當地時間 12 月 2 日,亞馬遜雲端運算服務(AWS)在美國拉斯維加斯舉辦的年度雲端運算盛會“AWS re:Invent 2025”上發佈了全新的自研 Trainium3 晶片,以及採用 Trainium3 晶片的 Trainium3 UltraServer 伺服器。根據首席執行官 Matt Garman 的介紹,新款 Trainium3 晶片的性能是前代產品的 4 倍,並採用台積電 3 奈米工藝製造。每個晶片都配備了 144 GB 的 HBM3E 記憶體,記憶體頻寬為 4.9 TB/s,提供 2.52 FP8 PFLOPs 的算力。(來源:社交媒體 X)Trainium3 UltraServer 單機最多整合 144 顆 Trainium3 晶片,總共配備 20.7 TB HBM3E、706 TB/s 記憶體頻寬,可提供最高 362 FP8 PFLOPS 的算力,時延降低 4 倍,可更快訓練超大模型,並大規模支撐推理服務。其計算性能比 Trainium2 UltraServer 高出 4.4 倍,能源效率高出 4 倍,記憶體頻寬也高出近 4 倍。在使用 OpenAI 的開源大模型 GPT-OSS 進行測試時,Trainium3 UltraServer 的單晶片吞吐量可提升 3 倍,推理響應速度提升 4 倍。這意味著企業可以在更小的基礎設施規模下應對峰值需求,顯著最佳化使用者體驗,同時降低每次推理請求的成本。AWS 以垂直整合方式打造 Trainium3 UltraServer,從晶片架構到軟體棧全鏈路協同。核心之一是新一代網路基礎設施,用於消除傳統分佈式 AI 計算的通訊瓶頸:NeuronSwitch-v1 提供 2 倍 的 UltraServer 內部頻寬;增強型 Neuron Fabric 將晶片間通訊延遲降低至 10 微秒以內。這種強大的配置使得它非常適合處理下一代最前沿的 AI 工作負載,例如:訓練大規模AI模型,可以將複雜模型的訓練時間從數月縮短至數周;處理高並行的 AI 推理請求,以低延遲即時處理數百萬使用者的請求,例如智能對話、視訊生成等;運行特定複雜任務,如智能體系統、專家混合模型和大規模強化學習等。包括 Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music 等客戶,已經借助 Trainium 將訓練和推理成本降低最多 50%。其中,Decart 在即時生成式視訊方面實現了 4 倍推理速度提升,成本僅為 GPU 的一半;而 Amazon Bedrock 已經在生產環境中使用 Trainium3 提供服務。(來源:社交媒體 X)對於需要更大規模的客戶,EC2 UltraCluster 3.0 可連線千台 UltraServer,構成擁有多達 100 萬顆 Trainium 晶片的叢集——是上一代的 10 倍。這使得此前完全不可能的任務成為現實:從在兆級 token 資料集上訓練多模態模型,到為數百萬並行使用者提供即時推理服務。自研晶片是亞馬遜的重要戰略項目之一,目標是避免過度依賴昂貴的輝達硬體。而對於 Trainium3 來說,一個關鍵問題在於:有多少大型外部客戶會願意採用這套硬體。尤其是在Google旗下的 TPU 持續搶佔 AI 晶片市場的背景下。另一個重要變數是 AI 初創公司 Anthropic 的晶片採購分配。今年 10 月,Anthropic 宣佈與Google達成合作,將使用多達 100 萬顆Google TPU 晶片,以實現除亞馬遜和輝達之外的供應多元化。Anthropic 表示,亞馬遜仍是其主要訓練合作夥伴與雲服務提供商。該公司預計,到今年年底,將使用超過 100 萬顆 Trainium 2 晶片,其中包括運行在擁有近 50 萬顆 Trainium 處理器的 Project Rainier 超級電腦之上。此外,AWS 也預告了下一代 AI 訓練晶片 Trainium4的研發進展。其在各方面都將實現大幅性能躍升,包括處理性能(FP4)至少提升 6 倍、FP8 性能提升 3 倍、記憶體頻寬提升 4 倍。結合持續的軟硬體最佳化,其實際性能提升將遠超基準數值。其中,FP8 提升 3 倍是一次基礎性飛躍。模型訓練至少快 3 倍,推理吞吐量也至少提升 3 倍,並且隨著軟體最佳化將獲得進一步加成。FP8 已成為現代 AI 工作負載在精度與效率之間的行業標準格式。為進一步提升單機擴展性能,Trainium4 將支援 NVIDIA NVLink Fusion高速互聯技術。該能力將使 Trainium4、AWS Graviton 處理器及 Elastic Fabric Adapter(EFA)能在統一 MGX 機架內協同工作,為客戶提供支援 GPU 與 Trainium 的成本更優、性能更強的機架級 AI 基礎設施。這一整合將建構一個靈活、高性能的平台,最佳化應對未來對訓練與推理都極其苛刻的 AI 工作負載。 (問芯)
AI的Scaling時代正在進入尾聲?
近期不管是Dwarkesh Podcast上Ilya的訪談,還是行業前沿一些最新的論文進展與NeurIPS 的最佳論文,似乎都在揭示一個真相就是AI的Scaling 時代正在進入尾聲?這屆 NeurIPS 的最佳論文名單,我看了一遍,似乎也並不是在說“Scaling 完全沒用了”,而是在給 2018–2025 這一輪“簡單堆大模型 + RLHF”的路線開一份“體檢報告”:哪些地方已經到 邊際收益遞減 / 隱患暴露期;哪些方向還存在 新的可擴展維度(結構、更深網路、訓練動力學)。結合 Ilya 在 Dwarkesh 訪談裡那句“It’s back to the age of research again, just with big computers”,這 7 篇論文確實在接近一個真相,就是“Scaling 時代”正在接近尾聲,要通過scaling獲得模型邊際性能的提升變得越來越難了。一、先把 7 篇論文拎成 3 條主線按主題而不是按官方獎項看,會更清楚:主線 A:對“無腦 Scaling + RLHF”的反思Artificial Hivemind(Best Paper)這對未來兩個東西都很要命:這篇論文在實證層面告訴你:繼續按照現在這套 RLHF + 合成資料流水線往前堆,遲早會撞到“資訊熵天花板”。創意 / 多樣性:LLM 越來越像一個“平均值人類”,長尾觀點全被削平。合成資料訓練:如果你再用這些“高度平均化”的 LLM 輸出去訓練下一代模型,訓練分佈的資訊熵會持續下降 → 相當於在做一個“生態等級的 mode collapse”。Intra-model:同一個模型對不同採樣、不同時間,回答非常像。Inter-model:不同家的 SOTA 模型(不同架構、不同實驗室)對開放問題的回答也高度相似。做了一個大規模開放式問答資料集 Infinity-Chat(26K 開放式問題 + 超 3 萬人類標註)。發現兩個層面的同質化:這種“人工蜂巢思維”很大一部分來自 RLHF / 對齊階段的 reward model 把“安全、無爭議、平均偏好”的那一塊分佈壓得特別重。2. Does RL really incentivize reasoning capacity?(Runner-up)這基本在幫 Ilya 把話說完:你不能指望一個表徵不夠好的基座,只靠後期 RL 就“解鎖智力上限”。RLVR 是在擠同一塊資訊海綿裡的最後一點水,而不是往海綿裡再灌海水。RL 更像是在隱空間裡學會“少走彎路、直接拿出自己已經會的解法”;但要讓模型學會真正 OOD 的邏輯結構,主戰場仍然是 pre-training 表徵質量。做了嚴格控參實驗,比較 base model 與 RLVR / CoT RL 後的模型。結論不是“RL 沒用”,而是:大部分提升來自“更會採樣”而不是“更會推理”。3. Superposition Yields Robust Neural Scaling(Runner-up)從這裡開始,Scaling 不再是“經驗公式”,而變成“有前提條件的物理定律”:前提不滿足(比如特徵太同質、資料熵不足、RLHF 拉平分佈),Scaling 的收益自然就塌了。Scaling Law 不是玄學,是網路在“塞越來越多特徵進去同一維度空間”時的統計結果;但一旦 superposition 太極端,也會帶來干擾、解釋性差等問題。做的是 toy model + 理論:解釋 Scaling Law 為何看起來像“物理定律”。觀點:網路不是“一維一個特徵”,而是在有限維度裡做了大量 非正交特徵疊加(superposition),在一定條件下可以推匯出類似 “loss ∝ 1/d” 這樣的反比關係。主線 B:從“堆大”轉向“改結構 / 改動力學”這裡是最貼近 Ilya 所說的“Age of Research”的部分:不是把模型做更大,而是在相似計算預算下,重寫 Recipe。4. Gated Attention for LLMs(Best Paper,阿里 Qwen)很小的改動:在 scaled dot-product attention 的輸出後面,加一個 head-specific 的 sigmoid gate。實驗:在 1.7B dense + 15B MoE 模型、3.5T tokens 上系統比較了 30 多種 gating 變體。給原本線性的 low-rank attention 對應加了一層非線性;按 query 自適應做稀疏門控,抑制不該擴大的殘差。結果:這個簡單門控能同時帶來:訓練更穩定、允許更大的學習率;更好的 scaling 性能;長上下文 extrapolation 更好,並且 緩解 attention sink(那種開頭 token 吃掉一堆注意力的現象)。本質上這類工作說明:架構級的小手術 + 訓練動力學的理解,可以在“不多加算力”的前提下,把 Scaling 繼續向前推一段。這就是 Ilya 所謂“回到 research,只不過有更大的電腦”。5.1000 Layer Networks for Self-Supervised RL(Best Paper)有點反轉:說明 “Scaling 結束” 不是全行業的,而是 “某種簡單 scaling 策略的天花板到了”;其他範式(RL + SSL + 具身智能)反而剛剛拉開帷幕。LLM 那邊大家在喊“Scaling 遇到瓶頸”;RL 這邊反而剛進入自己的 Scaling Moment(但靠的是深度 + 自監督,而不是僅僅加寬點 MLP)。傳統 RL policy 網路一般就 2–5 層,深了就梯度斷、訊號稀疏。這篇用 自監督目標 + goal-conditioned 無獎勵設定,把網路深度做到 1024 層,在 Locomotion / Manipulation 的目標達成任務上提升 2x–50x。更重要的不是數字,而是 qualitative change:深層表徵開始出現 “湧現的目標達成策略”,而不是簡單的局部最優。6. Why Diffusion Models Don’t Memorize(Best Paper)研究擴散模型在訓練過程中的 兩階段動力學:早期:迅速學到資料流形的結構 → 泛化能力主要形成於此;後期:緩慢開始記憶孤立樣本 → 過擬合主要在這個階段發生。把這個現象解釋為一種 隱式動力學正則化(implicit dynamical regularization):噪聲調度 + 損失景觀,讓模型更傾向學“結構”而不是“具體樣本”。這對現實世界有兩個含義:從理論上解釋了為什麼擴散模型在很多實驗裡 不太“死記硬背”訓練樣本;也給出了一個穩健操作建議:控制訓練時長 / 早停點,就可以在不改變結構的前提下獲得 better generalization。這裡的關鍵詞是:理解訓練動力學 → 調 recipe,而不是再堆參數。7. Optimal Mistake Bounds for Transductive Online Learning(Runner-up)這是純理論,把一個 30 年的 open problem(直推線上學習的 mistake bound)補完。配上上面幾篇,可以看出一個趨勢:Scaling 不再等於“加 labeled data + 加參數”,而是“利用 unlabeled / self-supervised 結構,把資訊效率榨滿”。給半監督 / 自監督學習的 “極限收益” 一個更清晰的下界;幫你回答“多利用 unlabeled data 到底理論上能好多少”。結論:在有大量未標註資料的情境下,可以把錯誤界從線性降到 √n 等級。主線 C:回到“生物與歷史”的兩塊基石Test of Time:Faster R-CNN10 年前的工作被授予時間檢驗獎,本質是在提醒大家:當年深度學習取代手工特徵工程(Selective Search 等)的邏輯,就是:“只要接上梯度,一切皆可學習”。和 Gated Attention 一起看,相當於在說:真正改變時代的架構創新,往往不是“多 10 倍參數”,而是“發現一個新的 end-to-end 可微組合方式”。Sejnowski-Hinton Prize:Random Synaptic Feedback / Feedback Alignment這篇 2016 年的工作證明:即使反向傳播的 feedback 權重是固定隨機的,前向權重也可以在訓練中“自動對齊”它們,從而逼近真正梯度。對今天的暗示:深度學習不必拘泥於“生物不可能實現 exact backprop,所以不 biologically plausible”;你可以探索 更鬆弛、但可實現的學習機制。配合 Ilya 現在在 Safe Superintelligence 做的事情,其實是在告訴你:下一階段的“Research”不僅是工程層面的 recipe,更是“理解大腦 / 理解學習規律”層面的基礎研究回歸。二、這 7 篇論文是如何給 Ilya 那句“Scaling 時代結束”做註腳的?把 Ilya 訪談裡的時間軸簡單整理一下:2012–2020:Age of ResearchCNN / RNN / attention / Transformer / RL breakthroughs。2020–2025:Age of Scaling大模型 + 巨量資料 + 大算力,“公式非常簡單、低風險”:堆 GPU 就是正解。2025 以後:Back to the age of research, just with big computers規模已經很大,再 100× 不會“質變一切”,必須重新在“方法 / 架構 / 理論”上做發現。NeurIPS 這幾篇獲獎論文剛好對應三個層面:1. Scaling 舊範式的“副作用清單”這幾篇一起,把“簡單繼續沿用過去 5 年的 scaling recipe” 的邊界畫出來了。Artificial Hivemind:過度對齊 + 合成資料 = 生態級 mode collapse 風險。RLVR 去魅論文:把 RL 當“神奇推理放大器”是不現實的;它更多是採樣器最佳化。Superposition Scaling:Scaling Law 只是某些結構下的“物理現象”,前提一旦被破壞,law 就不再適用。2. 新範式的“起點示例”博弈的重點,從 “再加多少 GPU” 變成 “在既有算力預算下,如何通過結構 + 動力學 + 理論把效率榨盡”。Gated Attention:通過理解 attention 動力學(attention sink、低秩對應),做最小結構改動,換來更穩定、更可擴展的訓練。1000-Layer Self-supervised RL:在 RL 場景裡把深度 scaling 打開,但必須配合自監督世界模型。Diffusion Dynamics:通過分析訓練動力學,給出“不 memorization” 的機制解釋和操作準則。Transductive Mistake Bounds:為“如何利用 unlabeled data 到極限”提供理論下界。3. 回到“世界怎麼工作的”這和 Ilya 現在的強調完全對應:模型已經“足夠大”,但 泛化比人差得多;下一個階段必須是理解“泛化的物理 / 生物機制”,而不是繼續盲目擴表。Faster R-CNN 與 Feedback Alignment 兩個獎項,某種意義上是在說:深度學習最強的時候,從來不是模型最大的時候,而是我們第一次找到“世界 / 視覺 / 大腦”真正規律的那些時刻。三、這個判斷在提醒什麼?換成很實在的視角:1. 資料與分佈:不要再把“更多樣本”當唯一武器合成資料 ≠ 免費午餐,如果源模型高度同質,我們只是把“平均人類”的偏見重複寫 N 遍;對於開放式任務,需要設計能衡量 輸出多樣性 / 長尾質量 / 個體偏好差異 的基準,而不只是平均分。真正的泛化很多時候來自訓練動力學(比如噪聲 schedule),而不是資料量超大;未來圍繞“資料版權 / 記憶與泛化邊界”的爭論,會越來越依賴這種動力學層面的理論。2. 模型與架構:規模相近的情況下,誰的 Recipe 更聰明?許多“訓練不穩 / sink token / 長上下文塌陷”的問題,可以通過 非常局部的結構改動 來解決;這類工作對工業界極具價值,因為它幾乎是“drop-in replacement”。在 RL 這種傳統上偏淺層的領域,深度本身就是一個還沒被用完的 scaling 維度;但要開啟它,你必須引入 自監督世界模型 / 輔助目標,否則梯度與訊號撐不住。如果把 2018–2025 的 LLM 熱潮比作一次“大煉丹”:這幾年我們已經證明:Scaling 非常有效,但不是無限有效。NeurIPS 2025 的這幾篇獲獎論文,在不同維度上給出了同一個答案:再往前走,不能再靠“多幾倍 GPU”來當默認路線了。 需要的是:理解分佈、理解架構、理解訓練動力學、理解泛化極限。換成 Ilya 的話就是:時代沒有從 Scaling 退回“什麼都沒有”, 而是從“只有 Scaling”回到了“Research + 大算力”並重。 (貝葉斯之美)
挑戰國際巨頭,中國初創公司發佈新一代AI訓練晶片
一家由中國科技企業家創立的美國初創公司Enther AI,近日正式發佈了其首款自研AI訓練晶片——Enther TPU。據公司宣稱,該晶片在運行特定AI模型時,其速度可達輝達2020年發佈的A100 GPU的1.5倍,能效提升42%。Enther AI由前Google工程師郭志雄(Zhixiong Guo)於2023年創立。公司在推出Enther TPU的同時,也展示了整合該晶片的E1伺服器節點。每個E1節點搭載4顆Enther TPU,可提供高達10.8 petaFLOPS的BF16訓練算力。Enther AI進一步提出了建構萬卡叢集的藍圖,其設計的“E1超級叢集” 通過光學電路切換網路連線多達2500個E1節點(即10,000顆TPU),旨在為兆參數大模型提供訓練支援。值得注意的是,儘管Enther AI總部位於美國,但其研發活動具有鮮明的跨太平洋特徵。公司的研發團隊主要在中國,這使其發展路徑和動向備受業界關注。在軟體生態方面,Enther AI推出了E-SDK,聲稱其能“無縫”將基於NVIDIA GPU的AI訓練項目遷移至其Enther TPU平台上,並支援PyTorch、JAX等主流AI框架。不過,目前該晶片的公開性能資料均來自Enther AI自身的測試報告,尚未有第三方機構的獨立驗證。此外,Enther TPU作為市場新入者,其實際量產交付能力、在更廣泛AI工作負載下的穩定性以及能否成功建構起持續的開發者生態,仍是其未來需要面對的關鍵挑戰。在全球AI算力競爭日益激烈的背景下,Enther AI的亮相為市場帶來了新的選擇。然而,從技術發佈到獲得產業界的廣泛認可和採用,這家年輕的初創公司仍有很長的路要走。其後續發展,特別是產品的實際應用表現,將成為衡量其成功與否的真正試金石。 (晶片行業)