#GEMINI3
Gemini3預訓練負責人:訓練資料一開始就用了大量合成資料,範式已經變化:研究越來越像工程!不太擔心業界刷榜會造成過擬合
Gemini 3的逆襲,給業界帶來了太多的驚喜和問號。與此前不同的是,業界到現在似乎也沒有逆向出Gemini3的秘方出來。本周五,繼Google兩位大佬 Demis、Jeff Dean 播客訪談之後,終於有一位一線的負責人出來爆料了。這位可沒有前面兩位大佬嘴嚴。Google DeepMind 的 Gemini 3 預訓練負責人 Sebastian Bourjou,在訪談中被主持人挖出來不少關於 Gemini 3 的消息。比如,跟上一代相比,Gemini3 在模型架構的改動並沒有大到脫離了 transformer 架構,大體上還是能看出它是Transformer MoE架構的影子。並坦承,Gemini 3之所以提升如此大,是大中小多重因素疊加的結果。再比如,他自曝說自己感覺不是在做大模型,而是在建構一個複雜的系統。“這件事實際上會深刻改變研究方式,以及我們思考問題的方法。”Bourjou 還特別提到了一種範式的變化:過去,我們基本處在一個“資料幾乎無限”的規模化階段;而現在,我們正在進入一個“資料受限”的階段。關於“預訓練到頭了嗎?Scaling Law 到頭了嗎?”Bourjou很果斷的給出了否定的答案,並指出,自己並沒有看到這條研究路線在短期內會走到盡頭。“至少 1 年內,它仍然會持續為我們帶來進展。”這次訪談非常的technical,從預訓練、到後訓練、對齊、RL,再到Gemini3所用的訓練資料,再到最近大火的持續學習。都給出了自己的“研究品味”。在他看來,工程與研究的邊界已經開始分不清了!訪談中,他還聊到了,Gemini 3 在底層是如何建構的、從“無限資料時代”轉向“資料受限階段”的變化、DeepMind 內部研究團隊的組織方式,以及 AI 接下來可能會走向那裡。下面是小編整理的採訪全文,enjoy!Oriol 的“秘密配方”:更好的預訓練 + 後訓練Matt Turk大家好,今天的嘉賓是Sebastian Bourjou,Google DeepMind 的 Gemini 3 預訓練負責人。Sebastian 是全球頂尖的 AI 研究者之一,同時也入選了 Meta 的研究員榜單。這一期節目格外特別,因為這是他第一次參加播客訪談。Matt Turk我想從一條推文聊起。這條推文來自 Oriol Vinyals,他是 Google DeepMind 的研究副總裁、深度學習負責人,也是 Gemini 的聯合負責人之一。在 Gemini 3 發佈時,他說這個模型背後的“秘密”其實非常簡單:更好的預訓練,以及更好的後訓練。考慮到 Gemini 3 相比之前的 SOTA 有這麼大的躍遷,這樣的說法聽起來反而有點“樸素”。我很好奇,你怎麼看?事情真的就這麼簡單嗎?Sebastian Bourjou我不確定這算不算什麼“秘密”。至少從我的視角來看,這其實挺正常的。很多人會期待,從一個 Gemini 版本到下一個版本,一定會有某個“巨大變化”,突然帶來質的飛躍。但根據我的經驗,確實會有一兩個因素,比其他因素的影響更大一些,但真正決定結果的,往往是大量改進的累積。Gemini 3 之所以明顯優於前幾代,並不是因為某一個單點突破,而是一個非常龐大的團隊,在非常多細節上持續改進,最終匯聚成了這個結果。我想這也是一個會在後面反覆出現的主題:像 Gemini 3 這樣的發佈,本質上是一個大規模團隊協作的成果。AI 進展為什麼還沒有放緩Matt Turk從這個角度來看,這對我們理解 AI 的發展階段意味著什麼?僅僅通過“調參數”“擰旋鈕”,就能帶來如此大的提升,這說明了什麼?對未來的進展,我們應該有什麼預期?Sebastian Bourjou我覺得有兩點。第一點是:通過這種方式,我們依然能夠取得如此顯著的進展,這件事本身就非常值得注意。而且,這種進展並沒有明顯放緩。我們每天都會發現新的“旋鈕”、新的改進點,幾乎是日常層面的發現——這些都會讓模型變得更好。第二點是:我們已經不再只是建構一個模型了。我們現在建構的是一個系統。有些人會認為,我們只是訓練了一個神經網路架構,僅此而已。但實際上,我們建構的是圍繞這個網路的整個系統。這是一個整體工程,而不是單一模型。模型真的在“變聰明”嗎?Matt Turk這是很多人心中的核心問題:這究竟意味著什麼樣的智能進展?我們不一定非要討論 AGI,畢竟誰也說不清它到底指什麼。但問題是:我們是否應該把這種模型進展,看作是真正通往智能的一條路徑?還是說,它更多隻是為了在某個基準測試上取得好成績?是什麼讓你相信,模型的“核心能力”正在變得更強?Sebastian Bourjou從基準測試的角度看,成績確實在持續提升。而且如果你觀察這些前沿 benchmark 的設計方式,它們本身也在變得越來越難。即便是對我這樣有電腦科學背景的人來說,模型現在能回答的一些問題,我自己也需要花相當多時間才能解出來。當然,這只是一個視角——基準測試視角。我們也會非常頻繁地做評估,對測試集保持嚴格隔離。但即便如此,人們還是會擔心過擬合,或者所謂的“刷榜”。我個人並不太認同這些擔憂。但真正讓我有信心的,是另一件事:內部使用模型的時間,在持續增加。每一代新模型,都非常明顯地展現出新的能力,它們在研究和日常工程工作中,能比上一代幫到我們更多。這一點非常清楚。這說明模型不僅在分數上更好,而且在做真正有用的事情,能力也在實質性提升。兩三年後:最先發生變化的是什麼?Matt Turk作為一名深度參與其中的 AI 研究者,我一直很好奇:如果你把視角拉遠一點來看,現在的進展還會讓你感到意外嗎?從你的角度看,我們是明顯走在預期前面,還是基本符合當初的判斷,甚至有點落後?Sebastian Bourjou事後回看,說“我們在正軌上”其實很容易。但如果我對自己足夠誠實,我會說,我們確實走在了我當初預期的前面。2019 或 2020 年剛開始做大語言模型時,很難想像今天的規模,也很難想像模型現在能做到的事情。當年從 scaling law 的角度看,確實有人認為會走到這一步,但我不確定自己當時是否真敢下注,賭它會如此完整地實現。接下來兩到三年,會發生什麼?Sebastian Bourjou一個自然的問題是:如果我們假設未來五年的進展節奏,和過去五年差不多,那接下來會發生什麼?我覺得未來幾年會非常有意思。Matt Turk那你怎麼看短期內的變化?比如兩到三年內,AI 會不會做出全新的科學發現,甚至拿到諾貝爾獎?你覺得最近的方向會走向那裡?Sebastian Bourjou我覺得這是其中的一部分。在科學研究層面,DeepMind 一直在這方面投入很多,我也相信未來幾年我們確實有機會做出一些重大的科學發現。Sebastian Bourjou但在我自己的日常工作中,不論是研究還是工程,我更興奮的是:這些模型如何幫助我們更快推進工作,同時也幫助我們更好地理解我們正在建構的系統,並進一步深化自己的研究理解。Matt Turk現在行業裡有一個很大的話題:AI 是否會自動化 AI 研究和工程。如果順著這個邏輯往下推,就會走向那種“AI 2027” 的斷點式場景。從一個非常現實的角度看,你現在是如何使用 AI 的?你覺得兩年後會變成什麼樣?Sebastian Bourjou我覺得重點不在“自動化”,而在“加速”。AI 會讓我們把更多時間投入到更高層次的研究本身。AI 做 AI 研究:更快,但不是全自動Sebastian Bourjou在語言模型研究中,我們每天面對的是非常複雜、非常龐大的系統,尤其是在基礎設施層面。大量時間花在跑實驗、盯實驗、分析資料、整理結果上,真正有價值的部分是形成假設和設計新實驗。後面這兩件事,人仍然會深度參與;而前面的部分,在接下來一年裡,隨著更具 Agent 特性的工作流成熟,會被顯著加速。前沿實驗室:相似的路,分叉的研究樹Matt Turk你覺得各家前沿 AI 實驗室,本質上是不是都在做同一件事?作為行業觀察者,我們會感覺每隔幾周就冒出一個“驚豔模型”,大家反而有點被寵壞了。比如 Gemini 3 剛發佈沒多久,幾乎同時 GPT-5.2 也出來了。你怎麼看這種現象?最終會不會有人明顯跑出來,還是說會長期維持“少數頂級實驗室 + 一些新興團隊”的格局?Sebastian Bourjou先說第一點,各家確實有很多相似之處,底層技術路徑也比較接近。如果所有人都在訓練 transformer 類模型,我也不會感到太意外,但在此之上,大家確實在做不同方向的專精。不同公司會探索不同的研究分支。比如從歷史上看,DeepMind 在視覺和多模態方向一直很強,這一點現在仍然很明顯,無論是使用者使用方式還是 benchmark 表現。推理能力也是類似的情況,OpenAI 首先推出了相關模型,但我們內部其實也有對應的研究線。為什麼在Google 做研究很有吸引力規模、資源與潛在顛覆Sebastian Bourjou至於第二個問題,我不確定有沒有標準答案。很現實的一點是:今天要推動 Gemini 這種等級的模型進展,確實需要非常大的團隊和資源。但這並不意味著當前路徑是最優的,未來完全可能出現顛覆性研究,讓小團隊也能實現突破。Sebastian Bourjou這也是我很享受在 Google 的原因之一。這裡一直有大量探索性研究,研究廣度非常高,而且很多工作是和 Gemini 平行進行的。這些成果最終也能被吸收進 Gemini,形成正向循環。Transformer 之後,會不會有突然的斷裂式創新?Matt Turk在 DeepMind 或整個行業裡,是否存在一些半公開甚至完全保密的團隊,在研究“後 Transformer”架構,有一天突然公佈成果,讓所有人都措手不及?Sebastian Bourjou我相信是有的。在 Google、在 DeepMind 內部,確實有人在研究模型架構層面的新方向。至於這些研究是否最終會成功,很難說——這就是研究本身的特性。DeepMind 的優勢:研究 × 工程 × 基礎設施Matt Turk真正能成功的研究想法其實非常少。所以在這個過程中,一家公司相對另一家的核心優勢,往往歸結為“人”的質量。回到我剛才提到的那條推文,Demis Hassabis 轉發並評論說,真正的秘密在於研究、工程和基礎設施的結合。這是不是 Google 的“秘密配方”?你們做的是完整技術堆疊。Sebastian Bourjou這確實非常有幫助,我認為這是一個重要因素。另外,“研究”和“工程”之間的邊界,也在不斷變得模糊。Sebastian Bourjou在今天這種超大規模系統中,研究看起來越來越像工程,工程也越來越像研究。這種心態在 DeepMind 過去幾年變化很大,尤其是在 Gemini 項目中,現在更像是“研究工程”。基礎設施同樣關鍵,我們建構的是極其複雜的系統,可靠、穩定、可擴展的基礎設施,直接決定研究和工程能否不被拖慢。Matt TurkGemini 3 是在 TPU 上訓練的,對嗎?不是用輝達的晶片。這基本算是完全垂直整合了。進入Gemini 3 深水區之前,先聊聊你Matt Turk在深入 Gemini 3 之前,我想先聊聊你本人。你是 Gemini 3 的預訓練負責人之一,這具體意味著什麼?然後我們再談談你的背景和經歷。Gemini 3 預訓練負責人,到底在做什麼?Sebastian Bourjou我是 Gemini 預訓練的幾位負責人之一,這個角色其實包含很多方面。一部分是研究本身,目標是讓模型變得更好;但現在更多是設計實驗、和團隊一起評估結果,而不是自己親自跑實驗。Sebastian Bourjou另一部分——而且我覺得很有意思——是協調與整合。現在預訓練團隊已經非常大了,很難精確統計,但日常參與的人大概在 150 到 200 人之間,涵蓋資料、模型、基礎設施等多個方向。大團隊協作,才是長期效率的來源Sebastian Bourjou把這麼多人的工作整合成一個統一、可推進的系統,本身就是一件非常複雜、也非常耗時的事情。但我認為這是最重要的,因為真正推動長期進展的,是讓所有人都能持續產出,而不是只讓一小撮人跑在最前面。短期或許能靠小團隊突進,但長期來看,真正成功的路徑是大規模協作與整合。“逆向”頂級AI 研究者的成長路徑| 天才往往搬家Matt Turk我一直很好奇,你是在那里長大的?很多人都想“逆向工程”頂級 AI 研究者的成長路徑——他們來自那裡,又是如何走到今天的?Sebastian Bourjou我在歐洲各地長大,搬過很多次家。我出生在荷蘭,7 歲時搬到瑞士;我父親是瑞士人,母親是德國人。我在瑞士完成了大部分中小學教育,用的是法語和德語。15 歲左右我搬去了義大利,在那裡完成了高中,直到 19 歲。原本我打算去蘇黎世聯邦理工學院(ETH)讀大學,但有一天我隨手查了下大學排名,看到了劍橋,就想“那我也申請一下試試吧”。幾個月後我收到了錄取通知,於是去了劍橋,在電腦實驗室完成了本科和碩士。| 從小就擅長數學和程式設計Matt Turk你小時候就是那種數學特別強、偏電腦的孩子嗎?Sebastian Bourjou我父親有技術背景,所以我大概在 10、11 歲時就跟著他開始寫點程序。我一直挺喜歡這些東西,在學校裡數學和理科也比較輕鬆。高中時我幾乎不用怎麼複習數學考試,也能考得不錯——不過這在大學裡就完全不成立了。| 從學校到DeepMind:一次勇氣,換一次機會Matt Turk很好。那你從學校走到今天這個位置,中間經歷了怎樣的路徑?Sebastian Bourjou說實話,這裡面有一點運氣成分。我碩士期間有一門課的老師,剛好也是 DeepMind 的研究員。最後一節課結束時,我心想不如直接問他要個內推,最壞的情況也就是被拒絕。Sebastian Bourjou我就鼓起勇氣走過去問了,他說:“可以,把你的簡歷發給我,我看看能做什麼。”這就是我拿到 DeepMind 面試的起點,大概是在 2018 年。畢業後我加入了當時還沒併入 Google 的 DeepMind,職位是研究工程師。| 從強化學習開始,轉向真實世界資料Matt Turk你最開始做的是什麼?又是怎樣一步步走到 Gemini 3 預訓練負責人的?Sebastian Bourjou剛加入 DeepMind 時,它以強化學習聞名,所以我一開始也做的是 RL。具體來說,是在 Atari 環境裡訓練無監督網路,學習關鍵點,讓智能體玩遊戲。我做了大概半年,但逐漸發現我不太喜歡這種偏“合成世界”的研究。我更希望做和真實世界資料有關、能產生現實影響的事情。我本質上喜歡“造東西”,而且是能真正跑起來的東西,對純學術研究的興趣反而沒那麼強。這推動我轉向表徵學習(representation learning),訓練能支撐多種任務的通用表徵網路。這裡,有個我經常跟團隊講的小故事:我最早參與的項目叫“從真實世界資料中進行表徵學習”,當時必須特意強調“真實世界資料”,否則大家默認你是在做合成環境或合成資料——而現在,這個前提已經完全反過來了。| 從表徵學習到Transformer 和 LLMSebastian Bourjou這也是我第一次系統性地進入 Transformer 和大語言模型方向。當時我們在研究像 BERT、XLNet 這樣的模型,重點是如何學到更好的表示,以及如何改進這些表示。這為我後續進入大規模預訓練打下了基礎。Matt Turk後來你參與了 RETRO,對嗎?可以講講那段經歷嗎?Sebastian Bourjou在那之後,我們開始真正推進大語言模型的規模化。最早是 Gopher,那應該是 DeepMind 發佈的第一篇 LLM 論文,當時團隊已經有 10 到 12 個人了。從那一刻起,就很清楚這類研究不可能靠個人完成。這也是我真正開始做大規模預訓練的階段。我們訓練了第一個 dense Transformer,大約 2800 億參數、3000 億 token。今天回看,那些做法肯定不會再用,但當時是一次非常寶貴、也很有趣的學習過程。兩條預訓練的研究線| Chinchilla:重新思考“怎麼用算力”Sebastian Bourjou之後分化出了兩條重要的研究線:Chinchilla 和 RETRO。在 Chinchilla 中,我們重新審視一個核心問題:在固定訓練算力下,模型規模和資料規模該如何平衡?結論是,資料規模應該比之前認為的更快增長,而不是一味放大模型。有意思的是,這個結論在今天仍然非常關鍵,因為它直接影響模型部署後的推理成本,以及實際使用有多昂貴。這並不是一個“歷史問題”,而是一個持續影響工程決策的結論。| RETRO:把“記憶”外包給系統Sebastian Bourjou另一條研究線是 RETRO,更偏架構創新。核心思想是:與其把所有知識都塞進模型參數里,不如讓模型在訓練和推理時,能從一個大型文字庫中檢索資訊。也就是把“記憶”部分,從參數中解耦出來。“研究品味”Matt Turk你剛才用了一個詞——“研究品味”(research taste),我覺得特別有意思。你會如何定義它?它對研究者來說有多重要?Sebastian Bourjou它在今天非常重要,但也確實很難量化。第一點是:你的研究不是孤立存在的,它必須能和其他人的研究很好地協同、被整合進系統裡。好想法,如果拖慢別人,就不是好權衡。假設你提出了一個改進,讓模型性能提升了,但同時讓其他所有人的使用成本增加了 5%。這通常不是一個好的權衡,因為你會拖慢其他人的研究節奏,而這會在長期累積中減慢整體進展。這是研究品味中的第一層判斷。Sebastian Bourjou第二點是對複雜度保持警惕。複雜度本身是主觀的,但我們始終有一個“複雜度預算”和“研究風險上限”,超過之後,系統就會開始失控。因此,我們常常會犧牲一點性能,換取更低複雜度的方案,以便未來能走得更遠。Matt Turk聽起來研究品味裡也包含一種直覺判斷——什麼可能行得通,什麼不值得繼續投入。在算力有限的前提下,這種直覺是不是也很關鍵?Sebastian Bourjou是的,這一點非常重要,而且不同人差異很大。經驗在這裡非常有幫助,而我們在研究層面確實受限於算力。多數研究都會失敗,這本身就是現實Sebastian Bourjou研究的關鍵在於選擇探索那一條“研究樹”的分支,以及在這條分支上該做那些實驗。而且要知道,大多數研究想法都會失敗,你需要判斷什麼時候該停下來、什麼時候值得繼續推進。在深度學習中,負結果往往並不代表“不可能”,而是“你還沒把它做對”。修復、探索,如何平衡?Matt Turk既然談到研究組織方式,我們再深入一點。一個典型的權衡是短期和長期之間的取捨,你們是怎麼平衡的?Sebastian Bourjou這是我花很多時間思考的問題。一方面,總有一些明確的“關鍵路徑”問題,比如模型某個部分明顯不夠好,這些我們會優先修。這些修復是相對安全的投入,而且往往能直接提升模型。更重要的是,那些當前看起來“不夠完美”的地方,往往會在模型規模變大、能力增強後放大成大問題。所以在早期就非常嚴謹地處理這些問題,其實是在為未來降風險。另一部分,則是更探索性的研究,可能會影響下一代或下下代 Gemini,但尚未被驗證。這兩者的平衡並沒有固定公式,也和階段有關。在擴容階段,探索會多一些;在發佈前,則高度聚焦執行與去風險。研究vs 產品壓力Matt Turk在類似的維度上,還有研究與產品目標之間的張力。在激烈競爭中,是否會有“必須贏某個榜單”的現實壓力?Sebastian Bourjou在 Google,其實這種壓力相對很少。因為管理層大多有研究背景,他們很清楚:你可以短期“刷榜”,但真正重要的是研究本身是否走在正確方向上。至少對我個人來說,日常工作中幾乎感受不到這種壓力。DeepMind 的組織結構是怎樣的?Matt TurkDeepMind 的團隊是如何組織的?你提到預訓練有幾百人,那是否還有後訓練、對齊等不同團隊?Sebastian Bourjou有預訓練團隊,也有後訓練團隊。預訓練涵蓋模型、資料、基礎設施和評測,而評測本身常被低估,但其實非常難、也非常關鍵。此外還有大規模的基礎設施和服務團隊。Gemini 3:架構上基本仍然是TransformerMatt Turk好,我們稍微換個話題。按照之前的約定,我們來深入聊聊 Gemini 3 的內部設計。Matt Turk從使用者角度看,Gemini 3 和 2.5 的感覺差異很大。是否有某個重大的架構決策,解釋了這種變化?Sebastian Bourjou從高層來看,架構並沒有發生根本性變化。更多是多個改進點疊加在一起,最終帶來了顯著提升。整體上,它仍然是基於 Transformer 的混合專家(MoE)架構。Matt Turk能否用更教學一點的方式,解釋什麼是 MoE 架構?Sebastian BourjouTransformer 主要有兩個模組:第一個是注意力模組,負責在不同 token 之間混合資訊;第二個則是前饋模組,則提供模型的“記憶”和計算能力,它們是平行作用在單個 token 上的。在原始 Transformer 中,前饋模組是一個 dense 的全連線到網路。而MoE 的核心思想是:將計算量與參數規模解耦,通過路由機制,動態選擇“專家”來處理輸入。這樣就能在不線性增加計算成本的前提下,提升模型容量。原生多模態,真實成本如何Matt TurkGemini 是原生多模態模型。在實踐中,這對模型來說到底意味著什麼?Sebastian Bourjou這意味著我們不是為圖像、音訊、文字分別訓練不同模型。而是同一個神經網路,同時處理所有模態的資訊。Matt Turk這種原生多模態在成本上會更貴嗎?比如 token 成本?Sebastian Bourjou這是個好問題,成本主要體現在兩個方面。第一是研究複雜度,多模態互動會增加系統複雜性,需要額外思考和設計。第二是計算成本,圖像輸入通常比純文字更大,但這也是效率最佳化的重要研究方向。Scaling Law 真的“死”了嗎?Matt Turk回到你最擅長的預訓練領域。2025 年有不少聲音在討論“Scaling Law 是否已經失效”,Gemini 3 是否給出了反證?Sebastian Bourjou是的,這類討論對我來說一直有點奇怪,因為它們和我的實際經驗並不完全一致。我們看到的情況是:Scaling在預訓練中依然非常重要,也是讓模型變得更強的關鍵因素之一。但問題在於,過去人們有點高估了規模這一維度。規模確實能讓模型變好,而且它的優勢在於結果相對可預測——這正是規模定律告訴我們的:當模型變大時,性能大致會提升多少。但這只是其中一部分。另外兩大關鍵因素是模型架構和資料層面的創新,它們在當下的預訓練性能中同樣、甚至可能比“純粹堆規模”更重要。當然,規模依然是一個重要因素,對吧?而且我們這裡討論的是預訓練階段。因為今年我們看到的是:後訓練階段有規模化的 RL,推理時有規模化的 test-time compute 等等。但在預訓練中,你們看到的情況似乎是,不僅 scaling loss 沒有放緩,甚至還有加速的跡象——我的理解是,這主要來自資料和不同架構的變化,對嗎?Sebastian Bourjou我覺得更準確的說法是:這些因素是疊加在一起發揮作用的。規模只是其中一個軸,而模型本身和資料的改進,同樣會推動整體性能提升。Matt Turk當你在模型架構層面做出改進時,通常意味著什麼?是不是用同樣規模的資料,模型能得到更好的結果;或者反過來,用更少的資料,就能達到上一代模型的效果?Sebastian Bourjou對,這正是第一個層面的含義。架構改進本質上提高了資料效率。不過就資料體量而言,我們現在使用的資料規模,依然比人類一生可接觸到的量高出好幾個數量級。進化過程常被拿來類比,但那類高層討論往往依賴太多假設。至少在一階近似下,看起來我們確實比人類“喂”了模型更多資料。未來研究方向Matt Turk在整個預訓練進展上,除了規模之外,你在行業裡還對那些方向感到興奮?Sebastian Bourjou一個明顯的方向是長上下文。在 Gemini 1.5 中,我們在長上下文能力上實現了一次很大的躍遷,這直接支撐了如今模型和智能體處理大型程式碼庫等複雜工作的能力。接下來一年,我預計會看到更多關於“如何高效支援長上下文”的創新,以及進一步拉長上下文字身的研究。此外,在注意力機制上,我們最近也有一些很有意思的發現,可能會深刻影響接下來幾個月的研究方向。整體來看,進步往往來自大量中小改進的疊加:修一個問題、補一個漏洞、驗證一項看似不起眼但有效的研究,最終一起推動整體向前。長上下文會取代RAG嗎?否Matt Turk這讓我想到你早期參與的 RETRO。它強調的是效率、讓小模型做更多事;而現在你在 Gemini 3 上,面對的是超大規模資料和極長上下文窗口。你覺得這種範式會不會逐步消解 RAG、搜尋這些機制的必要性?備註:RETRO,DeepMind 在 2021–2022 年提出的一種語言模型研究方向,全稱通常被稱為 Retrieval-Enhanced Transformer。Sebastian BourjouRETRO 的核心並不是讓模型變小,而是“檢索而不是儲存”:讓模型在推理時去取資訊,而不是把一切都壓進參數里。這個理念今天依然成立。過去,預訓練的迭代周期很長,風險和成本都很高;而 RAG 或搜尋更多發生在後訓練階段,迭代更快、效果也很強。從長期來看,我相信真正的答案是把檢索和搜尋以可微的方式納入訓練本身——可能通過預訓練,或未來的其他範式。RL 的規模化或許只是一個開端,架構層面還有很多事要做,但這會是未來幾年逐步展開的過程。後訓練的Scaling Law跟預訓練很類似Matt Turk我理解你們的觀察是:在預訓練階段,規模依然非常關鍵,但今年大家又在後訓練階段放大了 RL、測試時計算等變數。那在預訓練中,我們看到的不只是 loss 放緩,甚至還有加速現象,這是不是更多來自資料和架構的變化?Sebastian Bourjou可以這樣理解:這些因素是疊加起作用的。規模只是其中一個維度,模型架構和資料同樣會顯著提升性能。有時候,架構或資料層面的創新,帶來的收益會超過單純繼續放大規模;但在某些階段,直接擴規模依然是最有效的路徑。這主要針對預訓練而言。至於 RL 和 RL 的規模化,其實我們正在看到很多和早期預訓練階段相似的現象,只是現在可以把當年的經驗直接遷移過來。Gemini3一開始就是多模態資料混合體合成資料明顯增加了Matt Turk說到資料,Gemini 3 的預訓練資料大致是怎樣的組合?你們之前好像發佈過 model card,透露過一部分資訊。Sebastian Bourjou:整體是多模態、從一開始就如此設計的資料混合體,來源非常多樣。一個經常被問到的問題是:我們會不會很快用完資料?一方面是算力是否不足,另一方面是資料是否不足。今年合成資料的使用明顯增加了,你怎麼看它的價值和邊界?Sebastian Bourjou合成資料確實很有意思,但使用時必須非常謹慎,很容易用錯。常見做法是先用一個很強的模型生成合成資料,再用小規模實驗驗證它是否真的有效。一個更難的問題是:能不能用合成資料,訓練出一個比“生成這些資料的模型”本身還要更強的模型?這是我們投入大量精力研究的方向。至於“資料是否用完了”,我個人並不這麼認為。我們研究中發現,更可能發生的是一種範式轉變:過去我們默認處在“資料幾乎無限”的階段,現在正在進入“資料有限”的階段,這會徹底改變研究思路。有點像 LLM 出現之前,大家在 ImageNet 等小資料集上的工作,很多當年的方法又重新變得有價值。範式正在轉變:資料有限的情況下如何更好Matt Turk行業裡還有一個反覆出現的概念:基於“推理軌跡”的訓練,也就是要求模型展示中間思考過程,再用這些過程訓練下一代模型。你怎麼看這個方向?Sebastian Bourjou具體細節我不能展開評論,但你的問題方向確實很對。這和你剛才問的合成資料高度相關。更宏觀地看,一個核心主題正在浮現:模型如何在有限資料條件下學習得更好。這裡的“有限”並不一定是更少,而是資料量是有上限的。從這個角度看,模型架構研究本身,正是在回答你提到的那個問題。Sebastian Bourjou還有一點我想強調:大家經常只談模型架構,但基礎設施、資料和評測同樣關鍵。評測尤其困難,在預訓練階段更是如此。一方面,我們用來做評測的小模型,必須能預測大模型的表現;另一方面,預訓練後的模型還會經歷後訓練,評測指標也要能反映最終使用效果。內部評測體系在這裡非常重要,因為外部基準很快就會被“污染”,一旦訓練資料中洩漏了評測內容,你幾乎無法察覺。真正防止自欺的方式,就是維護嚴格隔離的內部評測集。為什麼對齊不發生在預訓練?Matt Turk那對齊更多是在預訓練階段考慮,還是主要發生在後訓練?Sebastian Bourjou我會說大部分是在後訓練階段,但確實有一些部分和預訓練相關,具體細節我不便展開。不過我們在預訓練階段也會考慮這些問題。Matt Turk一個很直觀的問題:如果核心資料集來自網際網路,而網際網路裡充滿糟糕內容,那對齊的第一步是不是乾脆不把這些東西喂給模型?Sebastian Bourjou這是個很難給出確定答案的問題。你當然不希望模型去做那些糟糕的事,但在更底層的層面,模型至少要“知道”這些東西是什麼,才能學會避開它們。否則當使用者提到某些糟糕內容時,模型甚至無法判斷那是什麼,也就談不上明確拒絕。Deep Think 與模型的關係Matt Turk:我們來聊聊 Deep Think 吧,也就是在 Gemini 3 發佈幾天後推出的那個“思考模型”。它是一個獨立模型,還是同一個模型的不同形態?應該怎麼理解?Sebastian Bourjou:這個我不能講太多。至於你提到的,當模型“思考”十幾秒甚至更久時,背後發生了什麼,其實行業裡已經討論過不少了。本質上,是讓計算不只發生在模型深度上,也發生在序列長度上:模型會生成假設、測試假設,呼叫工具、發起搜尋,然後最後給出一個確定性的回答。圍繞“思維鏈”的這種範式,已經在行業裡逐漸形成共識。程式設計AgentMatt Turk:那從 agent 的角度呢?比如 Google 的 Anti-Gravity,你覺得它有意思的地方在那?Sebastian Bourjou:這正好和我之前提到的日常工作相關。很多時候我們的工作是偏執行層面的,比如盯實驗。但 agent 化真正放大了模型的價值。對預訓練來說,感知和視覺能力變得非常關鍵,因為模型現在要直接和螢幕互動,螢幕理解做不好,agent 基本無從談起。Matt Turk:Anti-Gravity 裡還有個“vibe coding”的說法,幾乎就是“憑感覺寫程式碼”。這種“vibe”是預訓練出來的,還是後訓練?怎麼把“感覺”塞進模型裡?Sebastian Bourjou:這個問題你問五個研究員,大概會得到五種答案。確實存在一種“模型氣場”的說法,歷史上有人認為 GPT-4.5 這種大模型“感覺不一樣”。我不太喜歡用這種表述,但直覺上,預訓練在塑造這種“感覺”上起的作用,可能比後訓練還大。如果專指 vibe coding,我會更傾向於把它看作 RL scaling 和後訓練的結果:你可以收集大量相關資料,系統性地把這種行為教給模型。持續學習的熱門方向長上下文、大中小疊加、降低成本Matt Turk:拉遠一點看。最近一年在很多會議上,大家都在談“持續學習”。從預訓練角度看,你怎麼理解它?如果持續學習真的成立,對重新訓練意味著什麼?Sebastian Bourjou:持續學習,本質上是讓模型隨著新知識不斷更新。比如明天出現一個新的科學突破,昨天訓練好的基礎模型並不知道它。近幾年更多進展發生在後訓練階段,比如通過搜尋工具即時獲取新資訊。RETRO 做的事情也是類似的:把知識外部化,用檢索配合推理。在預訓練側,一個相關方向是長上下文。如果上下文不斷擴展,模型就能在一次互動中吸收越來越多資訊,某種意義上形成“准持續學習”。更激進的設想是改變訓練演算法,讓模型持續地從真實世界的資料流中學習,但那是更大的範式轉變。Matt Turk:那你現在覺得,研究裡那些方向最熱、最有意思?Sebastian Bourjou:依然是大量中小改進的疊加,這在歷史上一直是進步的主要來源。具體來說,長上下文架構、注意力機制,以及從“無限資料”轉向“有限資料”這一範式變化,都會帶來很多新的研究問題。另一條線是使用成本:模型被越來越多的人使用,預訓練階段就必須考慮部署和推理的代價。如何在保證質量的同時,讓模型更便宜、更省資源,這會反過來影響預訓練設計。條件已經成熟:既要做研究,也得理解系統Matt Turk:如果有學生或博士生在聽這期節目,想在幾年後做到你現在的位置,你覺得他們該關注什麼問題?Sebastian Bourjou:一個越來越重要的能力,是既能做研究,又理解系統。我們現在建構的是非常複雜的系統,能從 TPU 到模型研究全鏈路理解整個棧,是一種“超能力”。這樣你能看到不同層之間的空隙,也能推演一個研究想法對系統底層的影響。另外,我個人依然對檢索方向很感興趣。RETRO 當年還不成熟,但條件正在變化。未來幾年,這類方法進入頂級模型並非不可想像。Matt Turk:那為什麼當時不成熟?現在又為什麼可能改變?Sebastian Bourjou:主要還是複雜度和迭代效率的問題。很多能力通過後訓練和搜尋就能更簡單地實現,迭代也更快。但隨著後訓練和 RL scaling 的發展,重心可能再次向預訓練側回擺。專用模型被過度投資了Matt Turk:你覺得現在 AI 領域有沒有被過度投資的方向?Sebastian Bourjou:情況已經好很多了。兩年前還有很多人在做高度專用模型,但這些任務往往很快就會被通用模型覆蓋。現在更多人接受一個判斷:對大多數通用任務,與其做專用模型,不如等下一代通用模型。這也讓“如何使用模型”“如何建構可靠的 harness”“如何容錯和恢復”變得越來越重要。創業者的機會Matt Turk那對創業者呢?基礎模型越來越強,覆蓋面越來越廣,留給初創公司的空間是不是在縮小?Sebastian Bourjou可以回頭看看一年前模型能做什麼,再看看現在能做什麼,然後外推。我認為模型正在快速進步的方向,短期內還會繼續;而進步緩慢的地方,反而可能是更有意思的機會。暫時我沒有具體案例,但這是一個總體判斷。未來一年,基礎模型不會放緩Matt Turk最後一個問題。未來一兩年,從你個人的角度看,最讓你期待的是什麼?Sebastian Bourjou我最喜歡的一點,是每天能和很多非常聰明的人一起工作,不斷學到新東西。這是驅動我前進的核心動力。同時,就像我反覆說的,還有太多可以改進的空間。我暫時看不到這條路的盡頭,也不覺得未來一年會放緩。能親眼看到它能走多遠,本身就非常令人興奮。Matt Turk太好了,這正是一個完美的收尾點。Sebastian,非常感謝你來做客播客。 (51CTO技術堆疊)
Deepseek V3.2深度解讀,對行業的影響
Deepseek終於出了大王炸的模型,接近GPT5.1和GEMINI3的水平。在Benchmark居然領先了Chatgpt5.1,僅比Gemini3.0差一點。我問了一個旅行行程規劃的問題,以上的回答其實Deepseek回答的很不錯,大比以前提高,模型水平是不錯的。至少和Chatgpt不相上下(在文末)。這代表什麼呢,代表著肯定是國內最強模型了。去年出來的時候,就對業界產生很大的影響,輝達的股價都跌到90左右,就是因為大家覺得東方魔力使得訓練成本和推理成本急劇降低,從而擔心不需要那麼多算力。這次又是如何呢?一、技術創新根據論文原文,我們推出了 DeepSeek-V3.2 模型,該模型兼顧了高計算效率、卓越的推理能力和智能體性能。DeepSeek-V3.2 的主要技術突破如下:(1)DeepSeek 稀疏注意力機制(DSA):我們引入了 DSA,這是一種高效的注意力機制,能夠在顯著降低計算複雜度的同時保持模型性能。在長上下文場景中。(2) 可擴展的強化學習框架:通過實現穩健的強化學習協議並擴展訓練後計算能力,DeepSeek-V3.2 的性能與 GPT-5 相當。值得注意的是,我們的高計算量變體 DeepSeek-V3.2-Speciale 超越了 GPT-5,並展現出與 Gemini-3.0-Pro 相當的推理能力,在 2025 年國際數學奧林匹克 (IMO) 和……中均獲得了金牌。國際資訊學奧林匹克競賽 (IOI)。(3) 大規模智能體任務合成流程:為了將推理能力融入工具使用場景,我們開發了一種新型合成流程,能夠系統地大規模生成訓練資料。該方法有助於實現可擴展的智能體後訓練,從而在複雜的互動式環境中顯著提高其泛化能力和指令執行魯棒性。通過上文,我們看出,DeepSeek-V3.2引入了多個重要的技術創新,可能會對AI和計算行業產生深遠的影響,尤其是在計算效率和推理能力方面的進展。其主要技術突破和行業影響包括:1、DeepSeek稀疏注意力(DSA):這種新的注意力機制減少了計算複雜度,同時在長上下文場景中保持了高性能,使其比傳統的注意力機制更加高效。這一創新直接解決了AI模型中的低效問題,尤其是在大規模長上下文任務中,能夠更好地利用資源,進而減少大型AI系統的營運成本。原理怎麼理解好呢?想像你正在處理一個非常長的文件,而這個文件中包含成千上萬的資訊,像是無數的句子、段落和細節。如果你要把每一句話和所有其他句子進行對比(就像傳統的“密集注意力”機制那樣),你需要為每個詞或每個句子計算大量的關聯關係,這就像你手裡有一個龐大的篩子,要對每一粒沙子都進行篩選,耗費大量時間和精力。但是,DSA就像是一個智能的篩選器。它不是去計算每一粒沙子的關係,而是只挑選出最重要的一部分,那些對結果最有幫助的“沙子”進行篩選。通過這種篩選機制,DSA只需要關注最關鍵的資訊,從而大大減少了不必要的計算量。為什麼能減少算力需求?稀疏性(Sparsity):傳統的注意力機制(Dense Attention)要計算每個詞與所有其他詞的關係,因此計算量隨著文字長度的增加呈平方增長。而DSA通過引入稀疏注意力,只關注一部分最重要的資訊,減少了計算的總量。換句話說,它從整體中挑選出最關鍵的部分,避免了對不重要部分的無謂計算。動態篩選:DSA通過一種稱為“Top-K篩選”的方式,自動選擇最相關的token(即單詞、詞語或字元),只有這些被篩選出來的關鍵部分才會參與到後續的計算。這種方法比起全量計算,只需處理一小部分資訊,從而降低了算力需求。減少儲存和記憶體負擔:因為只關注最相關的token,DSA不僅減少了計算量,也大幅減少了中間資料儲存的需求。傳統的注意力機制在長文字中需要儲存所有token的關聯資料,而DSA只保存最核心的資訊,減少了記憶體佔用。2、可擴展的強化學習框架:該模型引入了一種可擴展的強化學習(RL)協議,在後訓練階段大幅增加了計算資源。這使得DeepSeek-V3.2在推理任務上與GPT-5相當,而其高計算版本(DeepSeek-V3.2-Speciale)甚至超越了GPT-5,在推理能力方面表現出色,證明其在數學和程式設計比賽中獲得了金牌。為什麼這種學習框架有效呢?想像你是一名運動員,目標是成為世界級的高手(例如數學和程式設計比賽的冠軍)。你有一個基礎的訓練計畫(就像模型的初始訓練),通過不斷的練習提升你的技能,但是,這個計畫的強度和時間有限,無法讓你達到最佳狀態。為了提升你的水平,你決定加入一個“體能訓練營”。這個訓練營是一個特別的地方,它不僅僅提供基礎訓練,而是通過強度逐步提升和增加訓練資源,幫助你在訓練中不斷突破自己的極限。例如,你可以得到更多的教練指導、專業的裝置,甚至有更強的對手來和你一起切磋,通過這些額外的資源和挑戰,不斷提升自己的體能和技術水平。在“體能訓練營”的幫助下,你的技能和體能得到了極大的提升,你最終的表現(例如贏得金牌)遠遠超過了之前僅靠基礎訓練時的水平。這就是可擴展的強化學習在模型中的作用。為什麼它能提升模型的推理能力?1)增加計算資源:在訓練過程中,通過大幅增加計算資源,就像“體能訓練營”中的額外訓練裝置和教練,模型得到了更多的資源去最佳化自己的策略。這意味著它可以處理更多的資料,進行更複雜的推理和決策,逐步提高表現。2)逐步增強能力:在這個擴展的訓練框架下,模型不斷與更複雜的任務進行對抗,逐漸適應並提高自己的推理能力。就像運動員經過反覆的訓練後,逐步突破自己的極限,模型也通過“強化學習”的方式,不斷進行調整和最佳化,最終在推理任務中表現出色。3)高計算版本的優勢:通過高計算版本(如 DeepSeek-V3.2-Speciale),模型得到了更多的訓練資源,相當於訓練營中的“強化訓練”,使得它不僅能夠跟隨其他模型(如 GPT-5)相匹配,甚至能夠超越它們,在數學和程式設計等高難度任務中獲得金牌。3、大規模代理任務合成管道:通過大規模合成不同的任務環境,DeepSeek-V3.2增強了其代理能力,使其在需要工具使用和推理的複雜互動環境中表現更好。這一發展縮小了開源和專有模型之間的差距,為開源解決方案提供了與專有模型相當的任務解決能力,同時降低了成本。為什麼可以用這樣來提高效果呢?假設我們要訓練一個超級智慧型手機器人,它的目標是能夠在各種真實世界中完成複雜任務,比如做飯、修理電器、規劃旅行、打理園藝等。這些任務不僅需要機器人具備知識,還要能夠靈活使用工具、進行推理和決策,才能有效地解決問題。為了訓練機器人,我們在虛擬城市裡建造了成千上萬的模擬環境。這些環境包括了不同的任務、工具和挑戰,就像一個巨大的訓練營,裡面充滿了各種需要解決的問題:有的是解謎、做數學題的任務;有的是需要程式設計和工具使用的任務;有的是模擬的家務活,甚至是規劃一趟旅行的任務。每個任務環境都有特定的目標和規則,機器人必須使用各種工具和方法來完成這些任務。在這個虛擬城市中,機器人可以反覆訓練,不斷解決不同的任務,通過不斷的實踐和反饋提升自己的技能和應變能力。這個虛擬世界就像是一個 “任務合成管道”,它不斷生成新的任務和場景,提供給機器人進行訓練。在這個過程中,機器人不僅學會如何在不同的環境中使用工具和進行推理,還通過這些複雜的場景增強了自己的應變能力和任務解決能力。為什麼它能提升模型能力?1)任務環境多樣化:通過合成大量不同的任務環境,DeepSeek-V3.2就像是讓機器人在一個虛擬世界中不斷碰到新挑戰。這些任務環境可以模擬各種複雜情況(如程式設計任務、推理任務、工具使用任務等),幫助AI提高在多樣化環境中的適應能力。2)提升工具使用和推理能力:在這個訓練營裡,AI不僅僅是“記住”任務,它需要實際使用工具解決問題,同時還要進行推理來判斷如何解決任務。這就像是訓練機器人在一個模擬環境中,不斷提升它使用工具和推理的能力。3)降低成本並與專有模型競爭:通過這種大規模合成任務的方式,DeepSeek-V3.2可以在開源環境下模擬複雜任務,提供與專有模型相似的任務解決能力,而不需要像傳統模型那樣依賴於高昂的計算和硬體成本。這相當於用虛擬城市訓練機器人,而不需要實際去建設複雜的現實世界場景。二、帶來的影響1、對算力的影響,顯著降低因為Dense‑attention在 sequence length = n 時,其 self‑attention 計算量與記憶體需求大致按 O(n²) 規模增長。也就是說,序列越長,計算和記憶體消耗呈二次增長。 稀疏注意力則通過只計算一部分query‑key 互動,把複雜度降到 O(n·k),k ≪ n。DSA 屬於這種“細粒度稀疏+動態選擇”範式。因此第三方評測指出,引入 DSA 後,DeepSeek‑V3.2‑Exp 的訓練和推理「長文字場景」效率“顯著提升”;同時 “輸出質量與前代dense‑attention 的 V3.1 相當”。2、能降低多少呢因為傳統 LLM(ChatGPT、Gemini 等)通常設計時兼顧通用性、對話靈活性,attention是dense的,好處是適合短對話、生成、存在清晰 global attention。但在長上下文 (文件、上下文過往歷史、長對話等) 的場景下,資源和延遲開銷非常大。DeepSeek‑V3.2 的 DSA 是為“長上下文 + 長對話 + 文件 + agentic task”最佳化 —— 也就是說,它最佳化的不是短對話生成的即時響應,而是需要處理大量歷史、文件、context 的任務。對於這種用途,其資源優勢就非常大。相當於傳統模型 “短對話 + 每次幾百 token” vs DeepSeek “幾千到幾十萬 token 長 context”。因此,在這些“重 context、長歷史、長文字分析、生成、記憶、推理、 agent agentic tasks”等場景裡,DeepSeek 的資源成本、效率比傳統 dense attention 模型要低很多。所以有下面的推測,在長上下文下,帶來的影響更大。3、對算力、儲存等帶來的影響呢第一,單模型、單任務所需的GPU 數量下降,長文字的任務,不再必須使用大規模GPU群集,而用少量較輕GPU算子就足夠,所以 GPU 總需求減少。第二,雲服務、模型部署成本下降,對“GPU as a Service”/雲算力服務需求可能上升(因為單位資源更便宜,更多公司願意部署大模型),但“單位任務所需 GPU 量”下降,短期可能壓縮對高端卡的“吃緊需求”。第三,推動“更廣泛、更輕量、大規模部署” ,由於成本,資源下降,更多中小廠商 、初創企業等,邊緣部署可能更容易採用大模型 ,所以最終“整體算力消費總量”可能增長,尤其是大模型、agent、多模態、實體部署、邊緣部署普及會推動“總算力需求指數增長”。故事和去年的故事一樣了,先是大家覺得算力會減少使用,後來覺得不對,這不是推動大規模的企業部署算力,對算力整體又增加了。第四,對儲存的影響也是一樣,局部變少,整體變多。DeepSeek-V3.2通過引入稀疏注意力(DSA)機制顯著減少了計算過程中的記憶體佔用,尤其是在長上下文的任務中。相比傳統的密集注意力模型,DeepSeek-V3.2能夠通過減少計算和儲存需求,降低對高性能GPU記憶體的依賴。在實際應用中,這意味著每個任務所需的記憶體和臨時儲存空間更小,從而減少了大規模推理和訓練時對儲存的需求。由於稀疏注意力機制的引入,DeepSeek-V3.2在處理長序列時不再需要儲存完整的上下文資訊。它只關注最重要的token,從而減少了對儲存快取的需求,特別是在進行長對話或大文件處理時。這在大規模推理任務中,意味著較低的儲存負擔,並減少了對大容量儲存的需求。由於儲存需求的降低,DeepSeek-V3.2使得部署更加靈活,尤其是對於邊緣計算、分佈式儲存和低成本硬體的支援,能夠大大降低儲存方面的成本,提高儲存資源的利用率。在大規模部署時,整體儲存需求減少有助於降低維運成本。但是因為整體部署多了,反而整體的總量的儲存還會進一步增加。第五,對電力的影響。得益於稀疏注意力機制和最佳化的計算框架,DeepSeek-V3.2能夠在減少計算量的同時降低電力消耗,尤其是在推理和長時間運行的場景中,幫助降低資料中心的電力成本。但整體部署多了,電力總消耗其實短期下降,長期還是增長的。三、對美股相關公司的影響3.1輝達:短期有震盪,長期有受益DeepSeek V3.2和Deepseek R1一樣,短期會讓大家認為高端算力量可以減少,但長期只會有更多的企業開源部署,導致更大的卡的訓練和推理量。這個故事已經預演過一次了。這次可能短期小震盪,很快就V回去了。3.2Google:無影響雖然說這個DS 3.2和Google3.0接近,但是,Google有他的優勢,包括多模態等,而且基於TPU已經在自己的路徑上一直發展,對Google應該沒有影響。Google今天說還要再加大TPU的採購量,明年再翻倍。3.3對BE,GEV,SNDK等公司:短期震盪,長期受益對能源公司:如果AI效率提升+更少高端 GPU/硬體資源需求,對電力、資料中心基礎設施需求可能略有下降 。對能源消耗、能源服務需求可能帶來壓力。但另一方面,如果 AI 部署更廣泛、增長爆發,即使單個模型能耗下降,整體算力總量可能上升,對能源需求可能依然增長。總之,影響不確定。對於 Bloom Energy 來說,短期波動較大,長期取決於 AI 行業部署規模,還是長期受益。對 SanDisk / 儲存廠商:類似邏輯。DeepSeek 最佳化可能降低對高端 GPU 的需求,以及可能降低對大規模 GPU‑cluster 的依賴,但大模型依然需要儲存(模型權重、資料、快取等)。如果 AI 部署量上升,儲存需求可能保持穩定或增長。附:以下是我問的問題和具體的回答:————————————————————————————我問了一下Deepseek的官網,回答是:那麼繼續問一個測試問題:問題是:你需要為一位客戶規劃一場為期五天的美國東西海岸旅行,滿足以下要求:客戶的出發地點是紐約市,最終目的地是洛杉磯。客戶希望每天都有不同的城市體驗,但要求每個城市的遊玩時間不超過8小時,且每天的總預算為**$300**。每天的活動預算包括:住宿(最多$150),餐飲(最多$50),景點(最多$50),交通(最多$50)。客戶喜歡文化活動,包括參觀博物館、歷史遺蹟、藝術展覽等,不喜歡戶外極限運動。客戶的飛行時間應儘量減少,因此建議的行程應儘量避免多次長途飛行,最理想的情況是每兩天一次飛行。客戶希望在旅行的最後一天,在洛杉磯的好萊塢區域進行購物和休閒,然後返回紐約。任務:請基於上述要求,為客戶規劃出五天的行程,並提供以下內容:每天的城市和活動安排。每個城市的交通安排(包括飛機、火車或租車)。每日預算分配(住宿、餐飲、景點、交通的具體花費分配)。餐館和景點的推薦(至少三個,適合客戶需求)。附加要求:請計算出整體旅行的總費用(包括所有交通、住宿、餐飲和景點費用)。如果可以,最佳化旅行路線,確保客人體驗最大化,同時符合預算和時間要求。Chatgpt的回答是:根據客戶的需求,我為您規劃了一個五天的美國東西海岸文化之旅。以下是詳細的行程安排,包括城市、活動、預算分配、交通和餐館景點推薦:第一天:紐約市(New York City)活動安排:上午:參觀大都會藝術博物館(Metropolitan Museum of Art),欣賞世界級藝術品。時間:2小時。下午:參觀自由女神像(Statue of Liberty)和埃利斯島博物館(Ellis Island Museum)。時間:4小時。晚上:漫步時代廣場(Times Square),體驗紐約的城市魅力。時間:2小時。交通安排:交通:全天使用公共交通,地鐵、公車,單程費用:$10。預算分配:住宿:$150(選擇市中心的三星級酒店,如Holiday Inn)。餐飲:$50(在當地餐廳就餐,如Shake Shack、Joe's Pizza)。景點:$50(大都會博物館門票約$25,自由女神像渡輪約$25)。交通:$50(地鐵、公車等)。餐館和景點推薦:大都會藝術博物館(Metropolitan Museum of Art)自由女神像(Statue of Liberty)時代廣場(Times Square)第二天:紐約市 → 華盛頓特區(Washington, D.C.)活動安排:上午:乘飛機前往華盛頓特區,飛行時間約1小時30分鐘。下午:參觀國家博物館(National Museum of American History)和林肯紀念堂(Lincoln Memorial)。時間:4小時。晚上:參觀白宮(White House)外觀,沿著國家廣場漫步。時間:2小時。交通安排:飛機:紐約市到華盛頓特區的航班,票價約$100。當地交通:租用公共交通卡,地鐵和巴士,費用:$20。預算分配:住宿:$150(華盛頓特區市中心三星級酒店,如Hyatt Place)。餐飲:$50(如Founding Farmers、Old Ebbitt Grill等)。景點:$50(博物館免費,其他費用用於小型展覽)。交通:$50(公共交通和部分計程車費用)。餐館和景點推薦:國家博物館(National Museum of American History)林肯紀念堂(Lincoln Memorial)白宮(White House)第三天:華盛頓特區 → 芝加哥(Chicago)活動安排:上午:乘飛機前往芝加哥,飛行時間約2小時。下午:參觀芝加哥藝術博物館(Art Institute of Chicago),欣賞著名藝術作品。時間:4小時。晚上:在千禧公園(Millennium Park)享受戶外活動,拍照留念。時間:2小時。交通安排:飛機:華盛頓特區到芝加哥的航班,票價約$150。當地交通:芝加哥城市公車和地鐵,費用:$20。預算分配:住宿:$150(芝加哥市中心三星級酒店,如Best Western Plus)。餐飲:$50(如Giordano's Pizza、The Purple Pig等)。景點:$50(芝加哥藝術博物館門票約$25,千禧公園免費)。交通:$50(公共交通和部分計程車費用)。餐館和景點推薦:芝加哥藝術博物館(Art Institute of Chicago)千禧公園(Millennium Park)芝加哥深盤披薩(Giordano's)第四天:芝加哥 → 洛杉磯(Los Angeles)活動安排:上午:乘飛機前往洛杉磯,飛行時間約4小時。下午:參觀洛杉磯縣藝術博物館(LACMA)和格里菲斯天文台(Griffith Observatory)。時間:4小時。晚上:在好萊塢星光大道(Hollywood Walk of Fame)漫步,參觀好萊塢博物館。時間:2小時。交通安排:飛機:芝加哥到洛杉磯的航班,票價約$200。當地交通:洛杉磯公車和地鐵,費用:$20。預算分配:住宿:$150(洛杉磯市中心三星級酒店,如Holiday Inn)。餐飲:$50(如In-N-Out Burger、The Bazaar等)。景點:$50(洛杉磯藝術博物館門票約$25,天文台免費)。交通:$50(公共交通和部分計程車費用)。餐館和景點推薦:洛杉磯縣藝術博物館(LACMA)格里菲斯天文台(Griffith Observatory)好萊塢星光大道(Hollywood Walk of Fame)第五天:洛杉磯(Los Angeles) → 紐約市(New York City)活動安排:上午:在洛杉磯好萊塢區域進行購物和休閒。時間:4小時。下午:參觀好萊塢博物館,享受最後的旅行時光。時間:4小時。晚上:乘飛機返回紐約市,飛行時間約5小時。交通安排:飛機:洛杉磯到紐約市的航班,票價約$250。預算分配:住宿:$150(洛杉磯的酒店)。餐飲:$50(在洛杉磯餐廳就餐)。景點:$50(好萊塢博物館門票約$25)。交通:$50(機場到酒店的計程車費用)。餐館和景點推薦:好萊塢博物館(Hollywood Museum)好萊塢購物區總費用計算:機票:紐約 → 華盛頓特區 $100 + 華盛頓特區 → 芝加哥 $150 + 芝加哥 → 洛杉磯 $200 + 洛杉磯 → 紐約市 $250 = $700住宿:5晚 × $150 = $750餐飲:5天 × $50 = $250景點:5天 × $50 = $250交通:5天 × $50 = $250整體旅行總費用:$2500旅行路線最佳化建議:通過選擇合適的航班,減少長途飛行次數,最佳化了飛行路線,確保在預算內的情況下最大化客戶的城市體驗。每個城市的活動安排充分考慮了客戶對文化活動的興趣,確保遊玩的同時符合預算限制。這樣客戶可以在有限的時間和預算內,體驗不同城市的文化和歷史遺蹟,同時確保旅行中的每一項活動都儘可能完美,達到預算目標。Deepseek的回答是:根據你的要求,我為你規劃了一條從紐約市出發,最終抵達洛杉磯的5天美國東西海岸“快閃”之旅。這條路線精心選擇了幾個代表性地標城市,並確保行程安排、文化體驗與**每日300美元的嚴格預算**高度契合。### 📅 五日經典快閃行程總覽為了讓行程一目瞭然,以下表格彙總了核心安排,具體預算和活動細節將在後文展開。### 💰 每日詳細行程與預算分配以下是每日行程、活動建議及精確到各項的預算分配,確保總額控制在300美元/天以內。#### **第1天:歷史啟蒙 · 紐約 → 費城***   **活動安排**:上午從紐約乘火車抵達後,參觀**獨立宮**和**自由鐘**(需提前預約免費門票)。下午可遊覽**費城藝術博物館**(門票約25美元),傍晚在歷史老城區漫步。*   **交通**:火車(Amtrak),約1.5小時,票價約**30美元**。*   **預算分配**:*   **住宿**:經濟型酒店或特色民宿, **$120***   **餐飲**:早餐(紐約簡餐)$10,午餐(費城芝士牛肉三明治)$15,晚餐 $25,合計 **$50***   **景點**:費城藝術博物館門票, **$25***   **交通**:紐約-費城火車票 $30,費城市內交通 $20,合計 **$50***   **當日總計:$295**#### **第2天:國家寶藏 · 費城 → 華盛頓特區***   **活動安排**:上午乘火車抵達後,全天遊覽**國家廣場**。可免費參觀**美國國家歷史博物館**、**國家自然歷史博物館**或**國家美術館**。外觀**白宮**、**華盛頓紀念碑**和**國會大廈**。*   **交通**:火車(Amtrak),約2小時,票價約**40美元**。*   **預算分配**:*   **住宿**:特區周邊經濟酒店, **$130***   **餐飲**:早餐 $10,午餐(博物館內簡餐)$15,晚餐 $25,合計 **$50***   **景點**:所有博物館免費, **$0***   **交通**:費城-華盛頓火車票 $40,華盛頓地鐵日票約 $15,合計 **$55***   **當日總計:$290**#### **第3天:風城建築 · 華盛頓 → 芝加哥***   **活動安排**:搭乘早班機飛往芝加哥。下午遊覽**千禧公園**(雲門雕塑),參觀**芝加哥藝術博物館**(門票約$35)。傍晚沿**華麗一英里**散步,欣賞建築和城市夜景。*   **交通**:飛機(早班經濟艙),飛行時間約2小時,票價約**$80-$120**(提前預訂)。*   **預算分配**:*   **住宿**:芝加哥市中心經濟酒店, **$140***   **餐飲**:早餐 $10,午餐 $15,晚餐 $25,合計 **$50***   **景點**:芝加哥藝術博物館門票, **$35***   **交通**:機票 $100(取中值),機場往返市區交通 $30,合計 **$130***   **當日總計:$295**(以機票$100計)#### **第4天:高山門戶 · 芝加哥 → 丹佛 → 洛杉磯***   **活動安排**:上午飛往丹佛作為中轉。下午可參觀**丹佛藝術博物館**(門票約$18)或前往市郊的**紅岩公園**(免費)感受獨特地貌。傍晚飛往洛杉磯,為最後一天養精蓄銳。*   **交通**:兩段飛機(芝加哥-丹佛,丹佛-洛杉磯),總飛行時間約4.5小時,兩段機票合計約**$150**(提前規劃)。*   **預算分配**:*   **住宿**:洛杉磯機場或好萊塢附近經濟酒店, **$120***   **餐飲**:全天餐飲, **$50***   **景點**:丹佛藝術博物館門票, **$18***   **交通**:兩段機票 $150,市內交通 $10,合計 **$160***   **當日總計:$298**#### **第5天:星光落幕 · 洛杉磯休閒購物***   **活動安排**:全天在**好萊塢區域**活動。上午漫步**好萊塢星光大道**、參觀**杜比劇院**(門票約$29)。下午前往**格里菲斯天文台**(免費)俯瞰洛杉磯全景和好萊塢標誌。之後在**格羅夫購物中心**或**農夫市場**休閒購物。晚上根據航班時間前往機場。*   **交通**:以公共交通和拼車為主。*   **預算分配**:*   **住宿**:無(當晚飛返紐約)*   **餐飲**:全天餐飲, **$50***   **景點**:杜比劇院門票 $29, **$29***   **交通**:洛杉磯市內交通 $30,預留機場交通費 $20,合計 **$50***   **當日總計:$129***   **本日備註**:洛杉磯有許多優秀的免費文化活動,如**蓋蒂中心**和**布萊德貝瑞大廈**,你可以根據興趣靈活替換,進一步控制預算。### 💵 整體旅行總費用根據以上每日預算規劃,本次5天旅行的總費用估算如下:*   **交通費總計**:**$445**(含城市間火車、機票及主要市內交通)*   **住宿費總計**:**$510**(4晚)*   **餐飲費總計**:**$250**(5天)*   **景點門票總計**:**$107***   **旅行費用總計**:**$1312**> 註:以上為一人預算估算。**國際段機票(洛杉磯-紐約)** 未包含在內。根據查詢,紐約與洛杉磯間的單程經濟艙機票價格浮動較大,需單獨預算約$150-$300。### ✨ 行程最佳化與體驗提升建議*   **最大化文化體驗**:行程中的華盛頓特區所有國家級博物館、洛杉磯的格里菲斯天文台和蓋蒂中心均為免費,是豐富行程、控制預算的絕佳選擇。*   **節省餐飲開支**:在洛杉磯,你可以嘗試一些富有特色且平價的餐廳。例如,在**北好萊塢的Vegatinos**可以找到約$7.5的純素墨西哥塔可套餐,在**Silver Lake的Hot Tongue披薩店**有$6/片的純素披薩,既能體驗當地多元飲食文化,又符合預算。*   **靈活交通與住宿**:機票和酒店價格波動大。**儘早預訂**、選擇**非周末出行**、關注**火車/航空公司的折扣票**是控制兩大核心支出的關鍵。使用地鐵日票等也能節省市內交通費。### 💎 總結這條路線通過火車與飛機的組合,在滿足“儘量減少飛行”偏好的同時,高效串聯了美國東西海岸的文化地標。所有安排都緊密圍繞你對**歷史、藝術、博物館的喜好**,並確保了嚴格的預算控制。如果你想進一步瞭解某個城市的詳細景點介紹、具體的機票預訂策略,或者希望調整行程節奏,我可以隨時為你提供更深入的分析。 (老王說事)
Gemini3技術深度解析:Google如何用“全端革新”重塑AI競爭格局
01 引言:AI競賽進入“硬核升級”新階段大家好,我是AI學習的楊同學。當整個科技圈還沉浸在OpenAI 11月13日推出的GPT-5.1時,Google在一周後就擲出了真正的“技術核彈”——Gemini 3。這一發佈節奏本身就頗具戰略意味:在競爭對手聚焦“體驗最佳化”時,Google選擇在底層架構、多模態理解、智能體能力三大核心層面實現跨越式突破。Gemini 3的亮相即巔峰:它以1501分登頂LMArena全球排行榜,成為首個突破1500分的模型,並在GPQA Diamond、MATH Apex等博士級推理基準中實現躍升。更關鍵的是,Google首次在模型發佈當天就將其部署至搜尋AI模式、Gemini應用、Vertex AI等核心產品,展現出技術與生態整合的雙重碾壓優勢。02 模型架構:原生多模態與MoE設計的協同進化Gemini3核心架構最佳化了,主要在以下兩個關鍵方面體現出來:1.原生多模態的徹底化與“先文字後拼接視覺模組”的傳統方案有所不同,Gemini3在預訓練階段,便在統一的Transformer中對文字、圖像、音訊和視訊資料進行處理,從而形成跨模態的共享表徵空間。這樣的設計降低了傳統多模態流水線中的資訊損耗,使模型能夠直接理解“語氣+畫面細節”這一複雜組合。實際測試中,Gemini3在MMMU-Pro(專業多模態理解基準)獲得81.0%的得分,在視訊理解任務Video-MMMU中同樣領先,證明了其跨模態推理的優越性。2.稀疏MoE架構的規模化應用根據技術文件披露,Gemini3 Pro採用稀疏專家混合模型(MoE),通過動態路由機制僅啟動部分專家網路,實現了兆參數規模下的高效推理。這種架構使其在保持龐大知識容量的同時,將推理延遲降低高達40%。架構領先性:原生的多模態,與MoE相互結合,這使得Gemini3不但突破了“多模態理解的瓶頸”,還突破了“模型效率的瓶頸”,成為了首個能夠支援端到端多模態互動的兆級模型。03 訓練範式:預訓練與後訓練的“雙重躍遷”GoogleDeepMind研究副總裁Oriol Vinyals指出,Gemini3的性能飛躍源於預訓練和後訓練階段的聯合最佳化:1.預訓練階段使用跨模態課程學習,在混合文字、程式碼、圖像和視訊的資料集上分階段訓練,顯著提升模型對複雜概念的泛化能力。針對長上下文最佳化,通過稀疏注意力機制和動態壓縮儲存技術,實現百萬級token的連貫推理。在MRCRv2基準測試中,Gemini3在128K上下文長度下平均得分77.0%,遠超競爭對手。2.後訓練階段引入多維度強化學習(RLHF),不僅最佳化“有幫助性”,還針對推理步驟正確性、程式碼可執行性等細分目標訓練獎勵模型。大規模應用合成資料,通過教師模型生成高品質數學推理和程式碼資料,建構資料飛輪。訓練突破:從Gemini2.5到3.0的躍升,被團隊稱作“史上最大增量”,這直接對“擴展定律已失效”的行業觀點進行了反駁。04 硬體基石:TPU Ironwood與OCS光交換的“系統級勝利”Google的全端優勢在Gemini3的硬體底座上體現得淋漓盡致:1.第七代TPU Ironwood峰值性能較TPUv5p提升10倍,單晶片記憶體頻寬達7.4TBs,支援9216晶片互聯的超大規模叢集。通過3DTorus拓撲結構與光交換網路(OCS)結合,消除大規模訓練中的資料瓶頸,叢集效率提升約60%。2.軟硬協同最佳化搭載自研Pathways軟體棧,支援數萬晶片的並行調度,動態分配MoE模型中的專家計算任務。與Anthropic簽訂的百萬級TPU訂單反映了其硬體的外部競爭力。硬體領先性:Google憑藉著“晶片-叢集-軟體”這一全鏈路的掌控,達成了那種單一雲廠商很難去複製的算力規模以及能效比。05 性能表現:基準測試與真實場景的“雙重碾壓”Gemini3在多項關鍵測試中刷新紀錄1. 推理能力Humanity‘sLastExam(HLE)得分37.5%(無工具)和45.8%(帶工具),較Gemini2.5接近翻倍。ARC-AGI-2(衡量AGI潛力的基準)得分31.1%,超過GPT-5.1的17.6%。2. 程式碼與智能體能力在終端操作基準Terminal-Bench2.0中取得54.2%的得分,領先第二名11個百分點。在SWE-BenchVerified(真實軟體工程任務)達到76.2%,接近Claude的77.2%但綜合編碼能力更均衡。3. 長上下文理解在百萬token的文件處理中保持連貫性,例如一次性分析50萬token的企業年報後,能關聯歷史資料生成戰略洞察。06 生態整合:從“對話工具”到“工作流引擎”的範式轉移Gemini3的特別之處在於它與Google生態系統的融合更加深入1.發佈即覆蓋數十億使用者整合至搜尋AI Mode、Gmail以及Android系統,使用者無需改變自身習慣,便可呼叫模型能力。例如,在搜尋時查詢“RNA聚合酶工作原理”,能夠直接生成互動式的科學動畫。2.生成式UI與智能體平台推出Antigravity開發環境,支援多智能體協作程式設計:一個智能體寫程式碼,另一個測試,第三個生成文件。根據使用者查詢動態生成定製化介面(如為兒童設計遊戲化學習介面,為成人生成高資訊密度圖表)。3.全端護城河從TPU晶片(算力自主)到搜尋Gmail(資料閉環)再到Workspace(分發管道),形成競爭對手無法快速複製的三重優勢。07 總結:Gemini 3的劃時代意義技術層面:原生多模態+MoE架構+長上下文支援,實現從“感知智能”到“行動智能”的跨越。工程層面:TPU Ironwood以及OCS光交換一同建構超大規模算力叢集,軟體與硬體協同所展現出的效率,將那單一的硬體方案完全地給碾壓了。生態層面:全端能力使AI從獨立工具變為嵌入使用者日常的“數字思維夥伴”。 (AI學習的楊同學)