Google大模型將迎顛覆升級! Gemini負責人爆料:長上下文效率與長度雙重突破在即,注意力機制迎來驚人發現。 Scaling Law未死,正加速演變!
Google又要有重大突破了?
最近,Google DeepMind的Gemini預訓練負責人Sebastian Borgeaud在採訪中給出重磅爆料——
未來一年,大模型預訓練領域將在「長上下文處理效率」和「上下文長度擴展」兩大方向迎來重大技術創新。
同時,Google Gemini三巨頭——Jeff Dean、OriolVinyalsML和Noam Shazeer罕見同台了,他們的對話中,跟Sebastian的內容展現出了驚人的一致。
眾多高瞻遠矚、閃爍著智慧光芒的思想讓人深思。
難怪,Google依然是那個巨人。
Google DeepMind的Gemini預訓練負責人Sebastian Borgeaud在最近的訪談中表示,預計在未來一年內,針對提升長上下文處理效率以及進一步擴展模型上下文長度的預訓練技術,將會有重大創新。
另外他還透露說,最近他們在注意力機制方面取得了一些非常有趣的發現,這可能會在未來幾個月內重塑他們的研究方向。
對此,他表示非常興奮。
而他提出了振聾發聵的一句話:Scaling Law並未消亡,只是正在演變!
Sebastian Borgeaud是Gemini 3的預訓練負責人。
這一次,是他首次接受部落格採訪,帶我們深入理解了Gemini 3背後的實驗室思維——變化究竟發生在那裡,為什麼現在的工作不再是“訓練模型”,而是建構一個完整的系統。
一場意外的飛躍後,一個系統誕生了。
「如果對自己誠實的話,我想……我們比我認為我們能達到的地方,走得更遠了。」
坐在麥克風前的Sebastian Bourjou語氣平靜,但這句話卻像一顆投入湖面的石子,激起無限漣漪。
為何Gemini 3會實現如此巨大的效能飛躍?
Sebastian的回答看似很簡單:「更好的預訓練和更好的後期訓練」。
然而,在這輕描淡寫的背後,卻是一個根本性的認知轉變。
「我們不再只是在建立一個模型了,」他緩緩說道,「我認為,在這一點上,我們真正在建構的是一個系統。」
而這,就是Gemini 3顛覆性進步的關鍵。
人們常常想像,從一個Gemini版本到下一個版本,總有一些石破天驚的「秘密武器」。但Sebastian揭示的真相是:進步源於無數細微改進的聚合。是來自龐大團隊中,日復一日發現的那些「旋鈕」和最佳化。
他還指出,AI發展範式正在經歷的潛在轉移:過去,我們彷彿擁有無限資料,可以隨意擴巨量資料集;而現在,我們正轉向一個「資料有限」體制。
這意味著,未來的AI,必須學會更有效率地利用有限的資料資源,建構更複雜的系統工程。
這也就是模型架構研究的核心價值。
這一轉變,將迫使整個產業從「大力出奇蹟」的粗放模式,轉向「精雕細琢」的精細模式。
未來的競爭焦點,將不再是「誰的資料中心更大」,而是「誰的學習演算法更有效率」、「誰的模型架構更優雅」、「誰能從有限資料中提取更多智慧」。
而Gemini 3的大腦架構-混合專家模型MoE,代表了LLM發展的一條清晰路徑:從追求單純的「大」,轉向追求「大而高效,大而智慧」。
展望未來幾年的技術前沿,Sebastian指出了激動人心的方向,它們將共同塑造下一代AI的能力和形態。
1. 長上下文:從「短記憶」到「海量工作台」
Gemini 1.5帶來的超長脈絡能力,已經是一場變革。 Sebastian預測,這方面的創新將持續加速。 「我認為未來一年左右,將在使長上下文更有效率、並進一步擴展上下文長度方面看到更多創新。」
這不僅僅是“記住更多”這麼簡單。超長上下文將把模型變成一個真正的數字工作台:它可以同時載入整個程式碼庫、多篇科學研究論文、長時間對話歷史,並在其中進行連貫的分析、推理和創作。
這為複雜的多步驟任務、深度研究和創作提供了前所未有的可能,是邁向更強大「智能體」的關鍵基礎設施。
2. 注意力機制的進化
Sebastian特別提到,在注意力機制上,「我們最近有了一些真正有趣的發現,我認為這將塑造未來幾個月的大量研究。」他對此「個人非常興奮」。
這暗示著,被認為是當前大模型基石的注意力機制,仍有巨大的改進空間。
更有效率、更強大或具備新特性的注意力機制,可能從底層顯著提升模型的理解、推理和計算效率,是推動性能邊界的重要槓桿。
3. 檢索的回歸:讓模型學會「查資料」
Sebastian早期曾主導「Retro」項目,研究讓模型在訓練和推理時檢索外部知識庫,而不是將所有知識死記硬背在參數中。他認為,這一方向遠未過時。
「我內心深處相信,長期的答案是以可微分的方式學習這種能力。」這意味著,未來模型可能將檢索與推理更原生地結合,動態地從海量知識源中獲取資訊進行思考,而不是依賴後期「嫁接」的搜尋工具。
這能讓模型更準確、更及時,並可能突破參數規模的知識容量限制。
4. 效率與成本的「革命」
一個日益凸顯的挑戰是:隨著使用者激增,模型的部署和服務成本變得至關重要。未來的研究將不再只追求性能峰值,還必須關注如何讓強大模型變得「便宜又好用」。
採訪臨近尾聲,當我們把鏡頭拉回這位站在AI浪潮之巔的研究者本人時,Sebastian的回答透露著一種沈靜的樂觀與純粹的熱情。
儘管探討了資料瓶頸、成本挑戰等現實問題,但Sebastian對AI進步的整體判斷依然充滿信心。
「我已經多次提到這一點,但確實有如此多不同的事情會復合起來,還有許多有改進空間的方向。我現在真的看不到這類工作停止給我們帶來進步的任何盡頭。」
這種信心並非盲目。它源於他作為一線領航者所目睹的:大量細微但確定的改進空間,以及整個領域尚未枯竭的創造活力。
在他看來,至少在未來幾年,這種進步勢頭不會放緩。
接下來,是Jeff Dean、Noam Shazeer、Oriol Vinyals三位大佬的對話。
在會議中,我們能明顯感受到,Noam不再是那個把油門踩到底的激進派。
他幾乎不主動談論「顛覆」,也很少用那些讓人血脈噴張的宏大詞彙。甚至一反常態,多次談到研發節奏、系統的穩定性,以及如何長期運作。
作為Transformer的開創者,他曾經引領著大模型從無到有;現在,大模型一路高歌猛進,他卻停下來警告:大模型給出的答案太快,自我檢查的次數太少。
他曾在公開場合反覆強調:
現在的模型並不缺乏「聰明」,缺乏的是持續思考,並在複雜任務中反覆修正的能力。
也就是說,大模型的規模依然重要,但它不再是決定一切的唯一變數。
當Noam討論推理時,他明顯將重心從「能不能更強」移向了「能不能更穩定」。
這是他回歸Google後,第一次在公開場合展現這種判斷。
聽起來不像是否定過去,而更像是在承認一個事實:那條單純靠堆參數就能不斷前進的路,已經接近邊界了。
Noam提到一個字:慢思考(Slow Thinking)。
不只是簡單的放慢研發速度,而是反覆追問值不值、貴不貴、能不能被規模化複製。
至此,智慧不再是一項抽象的能力,而是一項需要長期支付的工程開銷,需要和CPU、硬碟一起放進帳本裡討論。
這一步一旦邁出去,許多過去衡量AI的標準,如Benchmark也慢慢失效。
在整場會議中,三位頂級科學家沒有表現出對榜單的興奮,也沒有用「誰贏了誰」來定義進展。
榜單擅長衡量瞬時表現,卻很難回答「能不能一直運行」這類長期問題。
而Noam和Jeff反覆強調的,恰恰是後者:模型是否可靠、是否具備遷移能力、是否能在複雜任務中持續自我修正。
這些能力,很難被壓縮成漂亮的數字。
在這場對話裡,「System」出現的頻率極高,這顯然不是一種修辭。
Noam和Jeff在描述Gemini時,刻意避開了「一個更強的模型」這種表述,而是反覆強調它是一個可以長期運行、不斷迭代的「系統」。
「系統」和「模型」,聽起來差不多,但背後的邏輯天差地別。
「模型」更像是一次性的成果,是在實驗室裡的瞬間表現;而「系統」更像基礎設施,它關心的是穩定性、可擴展性,以及在出現錯誤後能不能快速修復並繼續工作。
對於Noam這類,極度強調架構設計、研發節奏和工程約束的人,天然會更在意一個系統能不能穩健地運行十年、二十年,而不是某一次響應速度有多快。
在他們眼中,Gemini不是勝利者的獎品,而是一種「長期可用」的智慧形態。
正因如此,整場對話沒有急於求成的產品宣發,沒有劍拔弩張的「對標某模型」。
它更像是在對外強調:Google追求的不是曇花一現的成品,而是一套能重複使用、不斷進化的智慧工業體系。 (新智元)