Gemini3預訓練負責人：訓練資料一開始就用了大量合成資料，範式已經變化：研究越來越像工程！不太擔心業界刷榜會造成過擬合

2025/12/21

•

Gemini 3的逆襲，給業界帶來了太多的驚喜和問號。

與此前不同的是，業界到現在似乎也沒有逆向出Gemini3的秘方出來。

本周五，繼Google兩位大佬 Demis、Jeff Dean 播客訪談之後，終於有一位一線的負責人出來爆料了。這位可沒有前面兩位大佬嘴嚴。

Google DeepMind 的 Gemini 3 預訓練負責人 Sebastian Bourjou，在訪談中被主持人挖出來不少關於 Gemini 3 的消息。

比如，跟上一代相比，Gemini3 在模型架構的改動並沒有大到脫離了 transformer 架構，大體上還是能看出它是Transformer MoE架構的影子。並坦承，Gemini 3之所以提升如此大，是大中小多重因素疊加的結果。

再比如，他自曝說自己感覺不是在做大模型，而是在建構一個複雜的系統。

“這件事實際上會深刻改變研究方式，以及我們思考問題的方法。”

Bourjou 還特別提到了一種範式的變化：

過去，我們基本處在一個“資料幾乎無限”的規模化階段；而現在，我們正在進入一個“資料受限”的階段。

關於“預訓練到頭了嗎？Scaling Law 到頭了嗎？”Bourjou很果斷的給出了否定的答案，並指出，自己並沒有看到這條研究路線在短期內會走到盡頭。“至少 1 年內，它仍然會持續為我們帶來進展。”

這次訪談非常的technical，從預訓練、到後訓練、對齊、RL，再到Gemini3所用的訓練資料，再到最近大火的持續學習。都給出了自己的“研究品味”。

在他看來，工程與研究的邊界已經開始分不清了！

訪談中，他還聊到了，Gemini 3 在底層是如何建構的、從“無限資料時代”轉向“資料受限階段”的變化、DeepMind 內部研究團隊的組織方式，以及 AI 接下來可能會走向那裡。

下面是小編整理的採訪全文，enjoy！

Oriol 的“秘密配方”：更好的預訓練 + 後訓練

Matt Turk
大家好，今天的嘉賓是Sebastian Bourjou，Google DeepMind 的 Gemini 3 預訓練負責人。Sebastian 是全球頂尖的 AI 研究者之一，同時也入選了 Meta 的研究員榜單。這一期節目格外特別，因為這是他第一次參加播客訪談。

Matt Turk
我想從一條推文聊起。這條推文來自 Oriol Vinyals，他是 Google DeepMind 的研究副總裁、深度學習負責人，也是 Gemini 的聯合負責人之一。

在 Gemini 3 發佈時，他說這個模型背後的“秘密”其實非常簡單：
更好的預訓練，以及更好的後訓練。

考慮到 Gemini 3 相比之前的 SOTA 有這麼大的躍遷，這樣的說法聽起來反而有點“樸素”。我很好奇，你怎麼看？事情真的就這麼簡單嗎？

Sebastian Bourjou
我不確定這算不算什麼“秘密”。至少從我的視角來看，這其實挺正常的。

很多人會期待，從一個 Gemini 版本到下一個版本，一定會有某個“巨大變化”，突然帶來質的飛躍。但根據我的經驗，確實會有一兩個因素，比其他因素的影響更大一些，但真正決定結果的，往往是大量改進的累積。

Gemini 3 之所以明顯優於前幾代，並不是因為某一個單點突破，而是一個非常龐大的團隊，在非常多細節上持續改進，最終匯聚成了這個結果。

我想這也是一個會在後面反覆出現的主題：像 Gemini 3 這樣的發佈，本質上是一個大規模團隊協作的成果。

AI 進展為什麼還沒有放緩

Matt Turk
從這個角度來看，這對我們理解 AI 的發展階段意味著什麼？僅僅通過“調參數”“擰旋鈕”，就能帶來如此大的提升，這說明了什麼？對未來的進展，我們應該有什麼預期？

Sebastian Bourjou
我覺得有兩點。第一點是：通過這種方式，我們依然能夠取得如此顯著的進展，這件事本身就非常值得注意。而且，這種進展並沒有明顯放緩。

我們每天都會發現新的“旋鈕”、新的改進點，幾乎是日常層面的發現——這些都會讓模型變得更好。

第二點是：我們已經不再只是建構一個模型了。我們現在建構的是一個系統。

有些人會認為，我們只是訓練了一個神經網路架構，僅此而已。
但實際上，我們建構的是圍繞這個網路的整個系統。
這是一個整體工程，而不是單一模型。

模型真的在“變聰明”嗎？

Matt Turk
這是很多人心中的核心問題：這究竟意味著什麼樣的智能進展？我們不一定非要討論 AGI，畢竟誰也說不清它到底指什麼。
但問題是：
我們是否應該把這種模型進展，看作是真正通往智能的一條路徑？還是說，它更多隻是為了在某個基準測試上取得好成績？

是什麼讓你相信，模型的“核心能力”正在變得更強？

Sebastian Bourjou
從基準測試的角度看，成績確實在持續提升。而且如果你觀察這些前沿 benchmark 的設計方式，它們本身也在變得越來越難。

即便是對我這樣有電腦科學背景的人來說，模型現在能回答的一些問題，我自己也需要花相當多時間才能解出來。

當然，這只是一個視角——基準測試視角。我們也會非常頻繁地做評估，對測試集保持嚴格隔離。但即便如此，人們還是會擔心過擬合，或者所謂的“刷榜”。

我個人並不太認同這些擔憂。

但真正讓我有信心的，是另一件事：內部使用模型的時間，在持續增加。每一代新模型，都非常明顯地展現出新的能力，它們在研究和日常工程工作中，能比上一代幫到我們更多。

這一點非常清楚。這說明模型不僅在分數上更好，而且在做真正有用的事情，能力也在實質性提升。

兩三年後：最先發生變化的是什麼？

Matt Turk
作為一名深度參與其中的 AI 研究者，我一直很好奇：如果你把視角拉遠一點來看，現在的進展還會讓你感到意外嗎？
從你的角度看，我們是明顯走在預期前面，還是基本符合當初的判斷，甚至有點落後？

Sebastian Bourjou
事後回看，說“我們在正軌上”其實很容易。但如果我對自己足夠誠實，我會說，我們確實走在了我當初預期的前面。
2019 或 2020 年剛開始做大語言模型時，很難想像今天的規模，也很難想像模型現在能做到的事情。
當年從 scaling law 的角度看，確實有人認為會走到這一步，但我不確定自己當時是否真敢下注，賭它會如此完整地實現。

接下來兩到三年，會發生什麼？

Sebastian Bourjou
一個自然的問題是：如果我們假設未來五年的進展節奏，和過去五年差不多，那接下來會發生什麼？我覺得未來幾年會非常有意思。

Matt Turk
那你怎麼看短期內的變化？比如兩到三年內，AI 會不會做出全新的科學發現，甚至拿到諾貝爾獎？你覺得最近的方向會走向那裡？

Sebastian Bourjou
我覺得這是其中的一部分。在科學研究層面，DeepMind 一直在這方面投入很多，我也相信未來幾年我們確實有機會做出一些重大的科學發現。

Sebastian Bourjou
但在我自己的日常工作中，不論是研究還是工程，我更興奮的是：這些模型如何幫助我們更快推進工作，同時也幫助我們更好地理解我們正在建構的系統，並進一步深化自己的研究理解。

Matt Turk
現在行業裡有一個很大的話題：AI 是否會自動化 AI 研究和工程。如果順著這個邏輯往下推，就會走向那種“AI 2027” 的斷點式場景。
從一個非常現實的角度看，你現在是如何使用 AI 的？你覺得兩年後會變成什麼樣？

Sebastian Bourjou
我覺得重點不在“自動化”，而在“加速”。AI 會讓我們把更多時間投入到更高層次的研究本身。

AI 做 AI 研究：更快，但不是全自動

Sebastian Bourjou
在語言模型研究中，我們每天面對的是非常複雜、非常龐大的系統，尤其是在基礎設施層面。
大量時間花在跑實驗、盯實驗、分析資料、整理結果上，真正有價值的部分是形成假設和設計新實驗。
後面這兩件事，人仍然會深度參與；而前面的部分，在接下來一年裡，隨著更具 Agent 特性的工作流成熟，會被顯著加速。

前沿實驗室：相似的路，分叉的研究樹

Matt Turk
你覺得各家前沿 AI 實驗室，本質上是不是都在做同一件事？
作為行業觀察者，我們會感覺每隔幾周就冒出一個“驚豔模型”，大家反而有點被寵壞了。
比如 Gemini 3 剛發佈沒多久，幾乎同時 GPT-5.2 也出來了。你怎麼看這種現象？
最終會不會有人明顯跑出來，還是說會長期維持“少數頂級實驗室 + 一些新興團隊”的格局？

Sebastian Bourjou
先說第一點，各家確實有很多相似之處，底層技術路徑也比較接近。如果所有人都在訓練 transformer 類模型，我也不會感到太意外，但在此之上，大家確實在做不同方向的專精。
不同公司會探索不同的研究分支。比如從歷史上看，DeepMind 在視覺和多模態方向一直很強，這一點現在仍然很明顯，無論是使用者使用方式還是 benchmark 表現。
推理能力也是類似的情況，OpenAI 首先推出了相關模型，但我們內部其實也有對應的研究線。

為什麼在Google 做研究很有吸引力

規模、資源與潛在顛覆

Sebastian Bourjou
至於第二個問題，我不確定有沒有標準答案。很現實的一點是：今天要推動 Gemini 這種等級的模型進展，確實需要非常大的團隊和資源。
但這並不意味著當前路徑是最優的，未來完全可能出現顛覆性研究，讓小團隊也能實現突破。

Sebastian Bourjou
這也是我很享受在 Google 的原因之一。這裡一直有大量探索性研究，研究廣度非常高，而且很多工作是和 Gemini 平行進行的。這些成果最終也能被吸收進 Gemini，形成正向循環。

Transformer 之後，會不會有突然的斷裂式創新？

Matt Turk
在 DeepMind 或整個行業裡，是否存在一些半公開甚至完全保密的團隊，
在研究“後 Transformer”架構，有一天突然公佈成果，讓所有人都措手不及？

Sebastian Bourjou
我相信是有的。在 Google、在 DeepMind 內部，確實有人在研究模型架構層面的新方向。至於這些研究是否最終會成功，很難說——這就是研究本身的特性。

DeepMind 的優勢：研究 × 工程 × 基礎設施

Matt Turk
真正能成功的研究想法其實非常少。所以在這個過程中，一家公司相對另一家的核心優勢，往往歸結為“人”的質量。

回到我剛才提到的那條推文，Demis Hassabis 轉發並評論說，真正的秘密在於研究、工程和基礎設施的結合。這是不是 Google 的“秘密配方”？你們做的是完整技術堆疊。

Sebastian Bourjou
這確實非常有幫助，我認為這是一個重要因素。另外，“研究”和“工程”之間的邊界，也在不斷變得模糊。

Sebastian Bourjou
在今天這種超大規模系統中，研究看起來越來越像工程，工程也越來越像研究。
這種心態在 DeepMind 過去幾年變化很大，尤其是在 Gemini 項目中，現在更像是“研究工程”。
基礎設施同樣關鍵，我們建構的是極其複雜的系統，可靠、穩定、可擴展的基礎設施，直接決定研究和工程能否不被拖慢。

Matt Turk
Gemini 3 是在 TPU 上訓練的，對嗎？不是用輝達的晶片。
這基本算是完全垂直整合了。

進入Gemini 3 深水區之前，先聊聊你

Matt Turk
在深入 Gemini 3 之前，我想先聊聊你本人。你是 Gemini 3 的預訓練負責人之一，這具體意味著什麼？然後我們再談談你的背景和經歷。

Gemini 3 預訓練負責人，到底在做什麼？

Sebastian Bourjou
我是 Gemini 預訓練的幾位負責人之一，這個角色其實包含很多方面。一部分是研究本身，目標是讓模型變得更好；但現在更多是設計實驗、和團隊一起評估結果，而不是自己親自跑實驗。

Sebastian Bourjou
另一部分——而且我覺得很有意思——是協調與整合。現在預訓練團隊已經非常大了，很難精確統計，但日常參與的人大概在 150 到 200 人之間，涵蓋資料、模型、基礎設施等多個方向。

大團隊協作，才是長期效率的來源

Sebastian Bourjou
把這麼多人的工作整合成一個統一、可推進的系統，本身就是一件非常複雜、也非常耗時的事情。
但我認為這是最重要的，因為真正推動長期進展的，是讓所有人都能持續產出，而不是只讓一小撮人跑在最前面。
短期或許能靠小團隊突進，但長期來看，真正成功的路徑是大規模協作與整合。

“逆向”頂級AI 研究者的成長路徑

| 天才往往搬家

Matt Turk
我一直很好奇，你是在那里長大的？很多人都想“逆向工程”頂級 AI 研究者的成長路徑——他們來自那裡，又是如何走到今天的？

Sebastian Bourjou
我在歐洲各地長大，搬過很多次家。我出生在荷蘭，7 歲時搬到瑞士；我父親是瑞士人，母親是德國人。
我在瑞士完成了大部分中小學教育，用的是法語和德語。15 歲左右我搬去了義大利，在那裡完成了高中，直到 19 歲。
原本我打算去蘇黎世聯邦理工學院（ETH）讀大學，但有一天我隨手查了下大學排名，看到了劍橋，就想“那我也申請一下試試吧”。幾個月後我收到了錄取通知，於是去了劍橋，在電腦實驗室完成了本科和碩士。

| 從小就擅長數學和程式設計

Matt Turk
你小時候就是那種數學特別強、偏電腦的孩子嗎？

Sebastian Bourjou
我父親有技術背景，所以我大概在 10、11 歲時就跟著他開始寫點程序。
我一直挺喜歡這些東西，在學校裡數學和理科也比較輕鬆。高中時我幾乎不用怎麼複習數學考試，也能考得不錯——不過這在大學裡就完全不成立了。

| 從學校到DeepMind：一次勇氣，換一次機會

Matt Turk
很好。那你從學校走到今天這個位置，中間經歷了怎樣的路徑？

Sebastian Bourjou
說實話，這裡面有一點運氣成分。我碩士期間有一門課的老師，剛好也是 DeepMind 的研究員。最後一節課結束時，我心想不如直接問他要個內推，最壞的情況也就是被拒絕。

Sebastian Bourjou
我就鼓起勇氣走過去問了，他說：“可以，把你的簡歷發給我，我看看能做什麼。”
這就是我拿到 DeepMind 面試的起點，大概是在 2018 年。
畢業後我加入了當時還沒併入 Google 的 DeepMind，職位是研究工程師。

| 從強化學習開始，轉向真實世界資料

Matt Turk
你最開始做的是什麼？又是怎樣一步步走到 Gemini 3 預訓練負責人的？

Sebastian Bourjou
剛加入 DeepMind 時，它以強化學習聞名，所以我一開始也做的是 RL。具體來說，是在 Atari 環境裡訓練無監督網路，學習關鍵點，讓智能體玩遊戲。
我做了大概半年，但逐漸發現我不太喜歡這種偏“合成世界”的研究。我更希望做和真實世界資料有關、能產生現實影響的事情。
我本質上喜歡“造東西”，而且是能真正跑起來的東西，對純學術研究的興趣反而沒那麼強。
這推動我轉向表徵學習（representation learning），訓練能支撐多種任務的通用表徵網路。

這裡，有個我經常跟團隊講的小故事：
我最早參與的項目叫“從真實世界資料中進行表徵學習”，當時必須特意強調“真實世界資料”，否則大家默認你是在做合成環境或合成資料——而現在，這個前提已經完全反過來了。

| 從表徵學習到Transformer 和 LLM

Sebastian Bourjou
這也是我第一次系統性地進入 Transformer 和大語言模型方向。
當時我們在研究像 BERT、XLNet 這樣的模型，重點是如何學到更好的表示，以及如何改進這些表示。這為我後續進入大規模預訓練打下了基礎。

Matt Turk
後來你參與了 RETRO，對嗎？可以講講那段經歷嗎？

Sebastian Bourjou
在那之後，我們開始真正推進大語言模型的規模化。最早是 Gopher，那應該是 DeepMind 發佈的第一篇 LLM 論文，當時團隊已經有 10 到 12 個人了。
從那一刻起，就很清楚這類研究不可能靠個人完成。這也是我真正開始做大規模預訓練的階段。
我們訓練了第一個 dense Transformer，大約 2800 億參數、3000 億 token。
今天回看，那些做法肯定不會再用，但當時是一次非常寶貴、也很有趣的學習過程。

兩條預訓練的研究線

| Chinchilla：重新思考“怎麼用算力”

Sebastian Bourjou
之後分化出了兩條重要的研究線：Chinchilla 和 RETRO。
在 Chinchilla 中，我們重新審視一個核心問題：在固定訓練算力下，模型規模和資料規模該如何平衡？結論是，資料規模應該比之前認為的更快增長，而不是一味放大模型。
有意思的是，這個結論在今天仍然非常關鍵，因為它直接影響模型部署後的推理成本，以及實際使用有多昂貴。這並不是一個“歷史問題”，而是一個持續影響工程決策的結論。

| RETRO：把“記憶”外包給系統

Sebastian Bourjou
另一條研究線是 RETRO，更偏架構創新。核心思想是：與其把所有知識都塞進模型參數里，不如讓模型在訓練和推理時，能從一個大型文字庫中檢索資訊。也就是把“記憶”部分，從參數中解耦出來。

“研究品味”

Matt Turk
你剛才用了一個詞——“研究品味”（research taste），我覺得特別有意思。

你會如何定義它？它對研究者來說有多重要？

Sebastian Bourjou
它在今天非常重要，但也確實很難量化。第一點是：你的研究不是孤立存在的，它必須能和其他人的研究很好地協同、被整合進系統裡。

好想法，如果拖慢別人，就不是好權衡。假設你提出了一個改進，讓模型性能提升了，但同時讓其他所有人的使用成本增加了 5%。這通常不是一個好的權衡，因為你會拖慢其他人的研究節奏，而這會在長期累積中減慢整體進展。這是研究品味中的第一層判斷。

Sebastian Bourjou
第二點是對複雜度保持警惕。複雜度本身是主觀的，但我們始終有一個“複雜度預算”和“研究風險上限”，超過之後，系統就會開始失控。

因此，我們常常會犧牲一點性能，換取更低複雜度的方案，以便未來能走得更遠。

Matt Turk
聽起來研究品味裡也包含一種直覺判斷——什麼可能行得通，什麼不值得繼續投入。在算力有限的前提下，這種直覺是不是也很關鍵？

Sebastian Bourjou
是的，這一點非常重要，而且不同人差異很大。經驗在這裡非常有幫助，而我們在研究層面確實受限於算力。

多數研究都會失敗，這本身就是現實

Sebastian Bourjou
研究的關鍵在於選擇探索那一條“研究樹”的分支，以及在這條分支上該做那些實驗。
而且要知道，大多數研究想法都會失敗，你需要判斷什麼時候該停下來、什麼時候值得繼續推進。
在深度學習中，負結果往往並不代表“不可能”，而是“你還沒把它做對”。

修復、探索，如何平衡？

Matt Turk
既然談到研究組織方式，我們再深入一點。一個典型的權衡是短期和長期之間的取捨，你們是怎麼平衡的？

Sebastian Bourjou
這是我花很多時間思考的問題。一方面，總有一些明確的“關鍵路徑”問題，比如模型某個部分明顯不夠好，這些我們會優先修。這些修復是相對安全的投入，而且往往能直接提升模型。

更重要的是，那些當前看起來“不夠完美”的地方，往往會在模型規模變大、能力增強後放大成大問題。所以在早期就非常嚴謹地處理這些問題，其實是在為未來降風險。

另一部分，則是更探索性的研究，可能會影響下一代或下下代 Gemini，但尚未被驗證。這兩者的平衡並沒有固定公式，也和階段有關。在擴容階段，探索會多一些；在發佈前，則高度聚焦執行與去風險。

研究vs 產品壓力

Matt Turk
在類似的維度上，還有研究與產品目標之間的張力。在激烈競爭中，是否會有“必須贏某個榜單”的現實壓力？

Sebastian Bourjou
在 Google，其實這種壓力相對很少。
因為管理層大多有研究背景，他們很清楚：你可以短期“刷榜”，但真正重要的是研究本身是否走在正確方向上。至少對我個人來說，日常工作中幾乎感受不到這種壓力。

DeepMind 的組織結構是怎樣的？

Matt Turk
DeepMind 的團隊是如何組織的？你提到預訓練有幾百人，那是否還有後訓練、對齊等不同團隊？

Sebastian Bourjou
有預訓練團隊，也有後訓練團隊。預訓練涵蓋模型、資料、基礎設施和評測，而評測本身常被低估，但其實非常難、也非常關鍵。此外還有大規模的基礎設施和服務團隊。

Gemini 3：架構上基本仍然是Transformer

Matt Turk
好，我們稍微換個話題。按照之前的約定，我們來深入聊聊 Gemini 3 的內部設計。

Matt Turk
從使用者角度看，Gemini 3 和 2.5 的感覺差異很大。是否有某個重大的架構決策，解釋了這種變化？

Sebastian Bourjou
從高層來看，架構並沒有發生根本性變化。更多是多個改進點疊加在一起，最終帶來了顯著提升。整體上，它仍然是基於 Transformer 的混合專家（MoE）架構。

Matt Turk
能否用更教學一點的方式，解釋什麼是 MoE 架構？

Sebastian Bourjou
Transformer 主要有兩個模組：第一個是注意力模組，負責在不同 token 之間混合資訊；

第二個則是前饋模組，則提供模型的“記憶”和計算能力，它們是平行作用在單個 token 上的。在原始 Transformer 中，前饋模組是一個 dense 的全連線到網路。

而MoE 的核心思想是：將計算量與參數規模解耦，通過路由機制，動態選擇“專家”來處理輸入。這樣就能在不線性增加計算成本的前提下，提升模型容量。

原生多模態，真實成本如何

Matt Turk
Gemini 是原生多模態模型。在實踐中，這對模型來說到底意味著什麼？

Sebastian Bourjou
這意味著我們不是為圖像、音訊、文字分別訓練不同模型。而是同一個神經網路，同時處理所有模態的資訊。

Matt Turk
這種原生多模態在成本上會更貴嗎？比如 token 成本？

Sebastian Bourjou
這是個好問題，成本主要體現在兩個方面。第一是研究複雜度，多模態互動會增加系統複雜性，需要額外思考和設計。第二是計算成本，圖像輸入通常比純文字更大，但這也是效率最佳化的重要研究方向。

Scaling Law 真的“死”了嗎？

Matt Turk

回到你最擅長的預訓練領域。2025 年有不少聲音在討論“Scaling Law 是否已經失效”，Gemini 3 是否給出了反證？

Sebastian Bourjou

是的，這類討論對我來說一直有點奇怪，因為它們和我的實際經驗並不完全一致。我們看到的情況是：Scaling在預訓練中依然非常重要，也是讓模型變得更強的關鍵因素之一。但問題在於，過去人們有點高估了規模這一維度。

規模確實能讓模型變好，而且它的優勢在於結果相對可預測——這正是規模定律告訴我們的：當模型變大時，性能大致會提升多少。但這只是其中一部分。

另外兩大關鍵因素是模型架構和資料層面的創新，它們在當下的預訓練性能中同樣、甚至可能比“純粹堆規模”更重要。

當然，規模依然是一個重要因素，對吧？而且我們這裡討論的是預訓練階段。因為今年我們看到的是：後訓練階段有規模化的 RL，推理時有規模化的 test-time compute 等等。但在預訓練中，你們看到的情況似乎是，不僅 scaling loss 沒有放緩，甚至還有加速的跡象——我的理解是，這主要來自資料和不同架構的變化，對嗎？

Sebastian Bourjou

我覺得更準確的說法是：這些因素是疊加在一起發揮作用的。規模只是其中一個軸，而模型本身和資料的改進，同樣會推動整體性能提升。

Matt Turk
當你在模型架構層面做出改進時，通常意味著什麼？是不是用同樣規模的資料，模型能得到更好的結果；或者反過來，用更少的資料，就能達到上一代模型的效果？

Sebastian Bourjou
對，這正是第一個層面的含義。架構改進本質上提高了資料效率。不過就資料體量而言，我們現在使用的資料規模，依然比人類一生可接觸到的量高出好幾個數量級。進化過程常被拿來類比，但那類高層討論往往依賴太多假設。至少在一階近似下，看起來我們確實比人類“喂”了模型更多資料。

未來研究方向

Matt Turk
在整個預訓練進展上，除了規模之外，你在行業裡還對那些方向感到興奮？

Sebastian Bourjou
一個明顯的方向是長上下文。在 Gemini 1.5 中，我們在長上下文能力上實現了一次很大的躍遷，這直接支撐了如今模型和智能體處理大型程式碼庫等複雜工作的能力。接下來一年，我預計會看到更多關於“如何高效支援長上下文”的創新，以及進一步拉長上下文字身的研究。

此外，在注意力機制上，我們最近也有一些很有意思的發現，可能會深刻影響接下來幾個月的研究方向。整體來看，進步往往來自大量中小改進的疊加：修一個問題、補一個漏洞、驗證一項看似不起眼但有效的研究，最終一起推動整體向前。

長上下文會取代RAG嗎？否

Matt Turk
這讓我想到你早期參與的 RETRO。它強調的是效率、讓小模型做更多事；而現在你在 Gemini 3 上，面對的是超大規模資料和極長上下文窗口。你覺得這種範式會不會逐步消解 RAG、搜尋這些機制的必要性？

備註：RETRO，DeepMind 在 2021–2022 年提出的一種語言模型研究方向，全稱通常被稱為 Retrieval-Enhanced Transformer。

Sebastian Bourjou
RETRO 的核心並不是讓模型變小，而是“檢索而不是儲存”：讓模型在推理時去取資訊，而不是把一切都壓進參數里。這個理念今天依然成立。

過去，預訓練的迭代周期很長，風險和成本都很高；而 RAG 或搜尋更多發生在後訓練階段，迭代更快、效果也很強。從長期來看，我相信真正的答案是把檢索和搜尋以可微的方式納入訓練本身——可能通過預訓練，或未來的其他範式。RL 的規模化或許只是一個開端，架構層面還有很多事要做，但這會是未來幾年逐步展開的過程。

後訓練的Scaling Law跟預訓練很類似

Matt Turk
我理解你們的觀察是：在預訓練階段，規模依然非常關鍵，但今年大家又在後訓練階段放大了 RL、測試時計算等變數。

那在預訓練中，我們看到的不只是 loss 放緩，甚至還有加速現象，這是不是更多來自資料和架構的變化？

Sebastian Bourjou
可以這樣理解：這些因素是疊加起作用的。規模只是其中一個維度，模型架構和資料同樣會顯著提升性能。有時候，架構或資料層面的創新，帶來的收益會超過單純繼續放大規模；但在某些階段，直接擴規模依然是最有效的路徑。這主要針對預訓練而言。至於 RL 和 RL 的規模化，其實我們正在看到很多和早期預訓練階段相似的現象，只是現在可以把當年的經驗直接遷移過來。

Gemini3一開始就是多模態資料混合體

合成資料明顯增加了

Matt Turk
說到資料，Gemini 3 的預訓練資料大致是怎樣的組合？你們之前好像發佈過 model card，透露過一部分資訊。

Sebastian Bourjou：
整體是多模態、從一開始就如此設計的資料混合體，來源非常多樣。一個經常被問到的問題是：我們會不會很快用完資料？一方面是算力是否不足，另一方面是資料是否不足。今年合成資料的使用明顯增加了，你怎麼看它的價值和邊界？

Sebastian Bourjou
合成資料確實很有意思，但使用時必須非常謹慎，很容易用錯。常見做法是先用一個很強的模型生成合成資料，再用小規模實驗驗證它是否真的有效。一個更難的問題是：能不能用合成資料，訓練出一個比“生成這些資料的模型”本身還要更強的模型？這是我們投入大量精力研究的方向。

至於“資料是否用完了”，我個人並不這麼認為。我們研究中發現，更可能發生的是一種範式轉變：過去我們默認處在“資料幾乎無限”的階段，現在正在進入“資料有限”的階段，這會徹底改變研究思路。有點像 LLM 出現之前，大家在 ImageNet 等小資料集上的工作，很多當年的方法又重新變得有價值。

範式正在轉變：資料有限的情況下如何更好

Matt Turk
行業裡還有一個反覆出現的概念：基於“推理軌跡”的訓練，也就是要求模型展示中間思考過程，再用這些過程訓練下一代模型。你怎麼看這個方向？

Sebastian Bourjou
具體細節我不能展開評論，但你的問題方向確實很對。這和你剛才問的合成資料高度相關。更宏觀地看，一個核心主題正在浮現：模型如何在有限資料條件下學習得更好。這裡的“有限”並不一定是更少，而是資料量是有上限的。從這個角度看，模型架構研究本身，正是在回答你提到的那個問題。

Sebastian Bourjou
還有一點我想強調：大家經常只談模型架構，但基礎設施、資料和評測同樣關鍵。評測尤其困難，在預訓練階段更是如此。

一方面，我們用來做評測的小模型，必須能預測大模型的表現；另一方面，預訓練後的模型還會經歷後訓練，評測指標也要能反映最終使用效果。內部評測體系在這裡非常重要，因為外部基準很快就會被“污染”，一旦訓練資料中洩漏了評測內容，你幾乎無法察覺。真正防止自欺的方式，就是維護嚴格隔離的內部評測集。

為什麼對齊不發生在預訓練？

Matt Turk
那對齊更多是在預訓練階段考慮，還是主要發生在後訓練？

Sebastian Bourjou
我會說大部分是在後訓練階段，但確實有一些部分和預訓練相關，具體細節我不便展開。不過我們在預訓練階段也會考慮這些問題。

Matt Turk
一個很直觀的問題：如果核心資料集來自網際網路，而網際網路裡充滿糟糕內容，那對齊的第一步是不是乾脆不把這些東西喂給模型？

Sebastian Bourjou
這是個很難給出確定答案的問題。你當然不希望模型去做那些糟糕的事，但在更底層的層面，模型至少要“知道”這些東西是什麼，才能學會避開它們。否則當使用者提到某些糟糕內容時，模型甚至無法判斷那是什麼，也就談不上明確拒絕。

Deep Think 與模型的關係

Matt Turk：
我們來聊聊 Deep Think 吧，也就是在 Gemini 3 發佈幾天後推出的那個“思考模型”。它是一個獨立模型，還是同一個模型的不同形態？應該怎麼理解？

Sebastian Bourjou：
這個我不能講太多。至於你提到的，當模型“思考”十幾秒甚至更久時，背後發生了什麼，其實行業裡已經討論過不少了。本質上，是讓計算不只發生在模型深度上，也發生在序列長度上：模型會生成假設、測試假設，呼叫工具、發起搜尋，然後最後給出一個確定性的回答。圍繞“思維鏈”的這種範式，已經在行業裡逐漸形成共識。

程式設計Agent

Matt Turk：
那從 agent 的角度呢？比如 Google 的 Anti-Gravity，你覺得它有意思的地方在那？

Sebastian Bourjou：
這正好和我之前提到的日常工作相關。很多時候我們的工作是偏執行層面的，比如盯實驗。但 agent 化真正放大了模型的價值。對預訓練來說，感知和視覺能力變得非常關鍵，因為模型現在要直接和螢幕互動，螢幕理解做不好，agent 基本無從談起。

Matt Turk：
Anti-Gravity 裡還有個“vibe coding”的說法，幾乎就是“憑感覺寫程式碼”。這種“vibe”是預訓練出來的，還是後訓練？怎麼把“感覺”塞進模型裡？

Sebastian Bourjou：
這個問題你問五個研究員，大概會得到五種答案。確實存在一種“模型氣場”的說法，歷史上有人認為 GPT-4.5 這種大模型“感覺不一樣”。我不太喜歡用這種表述，但直覺上，預訓練在塑造這種“感覺”上起的作用，可能比後訓練還大。
如果專指 vibe coding，我會更傾向於把它看作 RL scaling 和後訓練的結果：你可以收集大量相關資料，系統性地把這種行為教給模型。

持續學習的熱門方向

長上下文、大中小疊加、降低成本

Matt Turk：
拉遠一點看。最近一年在很多會議上，大家都在談“持續學習”。從預訓練角度看，你怎麼理解它？如果持續學習真的成立，對重新訓練意味著什麼？

Sebastian Bourjou：
持續學習，本質上是讓模型隨著新知識不斷更新。比如明天出現一個新的科學突破，昨天訓練好的基礎模型並不知道它。近幾年更多進展發生在後訓練階段，比如通過搜尋工具即時獲取新資訊。RETRO 做的事情也是類似的：把知識外部化，用檢索配合推理。
在預訓練側，一個相關方向是長上下文。如果上下文不斷擴展，模型就能在一次互動中吸收越來越多資訊，某種意義上形成“准持續學習”。更激進的設想是改變訓練演算法，讓模型持續地從真實世界的資料流中學習，但那是更大的範式轉變。

Matt Turk：
那你現在覺得，研究裡那些方向最熱、最有意思？

Sebastian Bourjou：
依然是大量中小改進的疊加，這在歷史上一直是進步的主要來源。具體來說，長上下文架構、注意力機制，以及從“無限資料”轉向“有限資料”這一範式變化，都會帶來很多新的研究問題。
另一條線是使用成本：模型被越來越多的人使用，預訓練階段就必須考慮部署和推理的代價。如何在保證質量的同時，讓模型更便宜、更省資源，這會反過來影響預訓練設計。

條件已經成熟：既要做研究，也得理解系統

Matt Turk：
如果有學生或博士生在聽這期節目，想在幾年後做到你現在的位置，你覺得他們該關注什麼問題？

Sebastian Bourjou：
一個越來越重要的能力，是既能做研究，又理解系統。我們現在建構的是非常複雜的系統，能從 TPU 到模型研究全鏈路理解整個棧，是一種“超能力”。這樣你能看到不同層之間的空隙，也能推演一個研究想法對系統底層的影響。

另外，我個人依然對檢索方向很感興趣。RETRO 當年還不成熟，但條件正在變化。未來幾年，這類方法進入頂級模型並非不可想像。

Matt Turk：
那為什麼當時不成熟？現在又為什麼可能改變？

Sebastian Bourjou：
主要還是複雜度和迭代效率的問題。很多能力通過後訓練和搜尋就能更簡單地實現，迭代也更快。但隨著後訓練和 RL scaling 的發展，重心可能再次向預訓練側回擺。

專用模型被過度投資了

Matt Turk：
你覺得現在 AI 領域有沒有被過度投資的方向？

Sebastian Bourjou：
情況已經好很多了。兩年前還有很多人在做高度專用模型，但這些任務往往很快就會被通用模型覆蓋。現在更多人接受一個判斷：對大多數通用任務，與其做專用模型，不如等下一代通用模型。

這也讓“如何使用模型”“如何建構可靠的 harness”“如何容錯和恢復”變得越來越重要。

創業者的機會

Matt Turk
那對創業者呢？基礎模型越來越強，覆蓋面越來越廣，留給初創公司的空間是不是在縮小？

Sebastian Bourjou
可以回頭看看一年前模型能做什麼，再看看現在能做什麼，然後外推。我認為模型正在快速進步的方向，短期內還會繼續；而進步緩慢的地方，反而可能是更有意思的機會。暫時我沒有具體案例，但這是一個總體判斷。

未來一年，基礎模型不會放緩

Matt Turk
最後一個問題。未來一兩年，從你個人的角度看，最讓你期待的是什麼？

Sebastian Bourjou
我最喜歡的一點，是每天能和很多非常聰明的人一起工作，不斷學到新東西。這是驅動我前進的核心動力。同時，就像我反覆說的，還有太多可以改進的空間。我暫時看不到這條路的盡頭，也不覺得未來一年會放緩。能親眼看到它能走多遠，本身就非常令人興奮。

Matt Turk
太好了，這正是一個完美的收尾點。Sebastian，非常感謝你來做客播客。 (51CTO技術堆疊)

科技