GoogleDeepMind CEO 與Gemini負責人揭秘Gemini 3三大突破(對話實錄)

在Google發佈Gemini 3系列模型之後,《紐約時報》旗下科技播客《Hard Fork》發佈特別節目,由主持人Kevin Roose和Casey Newton專訪GoogleDeepMind首席執行官Demis Hassabis與GoogleGemini團隊負責人Josh Woodward。

在這場獨家對話中,GoogleDeepMind CEO Demis Hassabis和Gemini團隊副總裁Josh Woodward首次全面揭秘了Gemini 3的技術突破、產品策略,以及通往AGI的路徑。

他們坦言,距離AGI仍需要一到兩個重大突破,時間線仍是5-10年,但Gemini 3已經讓人們看到了這個未來的雛形。

以下為對話全文:

Casey:我們今天有一期特別的緊急播客,關於Gemini的發佈。

Kevin:是的,這次備受期待的發佈在矽谷AI圈引發了熱烈討論。我們終於要親手體驗真正的產品了。

Kevin:通常我們不會為了某個大型AI公司發佈新模型就打破周五的發佈計畫,出一期特別節目。他們一直在發佈各種模型。但這周我們認為值得專門談談Gemini 3,有幾個原因。

首先,我們採訪到了Demis Hassabis和Josh Woodward,兩位GoogleAI部門的核心高管,Demis是GoogleDeepMind的CEO,這是他們內部的AI實驗室。

Josh Woodward是Gemini團隊的副總裁,同時負責Google的其他一些項目。所以我們很高興能和他們聊聊這次重大的模型發佈。但我認為我們感興趣的原因還不止這些。

Casey:是的,Kevin,一個重要的原因是,相比其他模型發佈,這次Gemini 3似乎格外引起了Google競爭對手的關注。

我們從其他AI實驗室的員工那裡聽到很多傳言,嗯,看起來Gemini 3在某些方面取得了突破,這可能對他們的業務不利。

我認為整個AI行業都有一種感覺:Google在AI領域掙紮了幾年——他們推出了Bard和第一代Gemini,都遇到了一些問題。

大家一直覺得他們在追趕最先進的技術。現在問題是,這是不是意味著他們要奪回王冠了?

所以我們會和Demis、Josh深入討論這些。但先讓我們聊聊Casey,我們對Gemini 3瞭解多少。

他們本周早些時候舉行了一場簡報會,介紹了這個新模型及其能力。我們瞭解到了什麼?

-1-

Gemini 3的核心能力

Casey:好的,就能力而言,這對我來說永遠是最有趣的部分。Google分享了幾個方面。首先,除了那些你能想到的常規升級,比如編碼能力更強、氛圍程式設計更好之外,它還會在你提問時生成新的互動介面。

現在,你問大多數聊天機器人一個問題,它會用文字回覆,可能會顯示一張圖片。

但據Google的說法,Gemini 3會直接為你建構定製化的介面。

他們展示了一個例子,有人想瞭解畫家梵高,Gemini 3就編寫了一個互動式教學,包含各種圖像和互動元素。

他們還展示了另一個例子,建構了一個針對百萬美元以上房產的抵押貸款計算器,這是Google員工能想像的最低購房預算了。所以這些就是你可以期待在Gemini 3中看到的功能,Kevin。

Kevin:是的。我要說,簡報會和Google在Gemini 3發佈前分享的材料的主題就是:這個模型在幾乎所有方面都比他們上一個模型Gemini 2.5 Pro更好。

有幾個引起我注意的基準測試,一個叫"人類最後的考試"(Humanity's Last Exam),這是一個非常難的跨學科考試,包含一系列問題,基本上是研究生或博士水平的。

他們之前的模型Gemini 2.5 Pro在這個測試中得分約21.6%,而Gemini 3 Pro得分37.5%

基本上所有這些基準測試都是這個趨勢。他們給出了十幾個不同基準測試的例子,新模型都輕鬆擊敗了舊模型。

對很多人來說,這可能無關緊要。大多數使用GoogleAI產品的人可能不會去解決物理學中的新問題。

但他們的基本宣傳就是:這是一個最先進的模型,你能用ChatGPT、Claude或舊版Gemini做的任何事情,用Gemini 3 Pro都能做得更好

他們還談到了正在測試的Gemini智能體,它能做一件我一直期待有人做的事:瀏覽你的收件箱,理解內容,提議回覆,把郵件分類整理,真正幫你控制收件箱。

這是我個人從未做到過的。我們基本上只看到了幾張動圖演示,但這肯定會是我拿到Gemini 3後第一個嘗試的功能。

Casey:是的,我們應該說,他們不會立即向所有人推出。本周它會在Gemini應用中提供,也會在AI模式中提供,那是Google主搜尋引擎旁邊的一個標籤。它也會在各種產品中向開發者提供。

但他們沒有說什麼時候會進入像Google Docs或Gmail中的Gemini整合,這些每天有數十億人使用的非常受歡迎的產品。

但我覺得有趣的是,他們已經把這個模型帶到了Google搜尋,雖然是在AI模式中,而不是主搜尋欄。這對我來說意味著,他們覺得可以以足夠低的成本提供這個模型,使其有可能被數十億人使用,而不會讓他們的伺服器崩潰或產生數十億美元的成本。

Kevin:是的,到目前為止他們說AI概覽(AI Overviews)的使用量一直在增長,每個季度他們都繼續賺更多錢。所以這對他們來說效果不錯,對網際網路其他部分來說不太好,但對Google來說效果很好。

Casey:是的,但我認為這就像,顯然Google在這裡相對於競爭對手的巨大優勢在於,他們有每天被數十億人使用的產品,隨著時間推移,他們可以把Gemini 3塞進這些產品,獲得越來越多的使用量和資料,並用這些來改進他們的模型。

Kevin:這就是為什麼我們總是告訴學生,當他們向我們尋求建議時:第一步,建立一個非法壟斷。

Casey:是的。說到學生,Google本周宣佈的另一個重要消息是,他們將向所有美國大學生提供一年免費的Gemini付費版本

我認為這是個聰明的舉動。我對此感覺有點不舒服,基本上就是告訴學生,嘿,為什麼不用這個來做一些家庭作業,也許幫你考試。我們會給你第一次免費體驗。

Kevin:是的,你知道,我在今天早上的簡報會上也注意到,我相信有三個不同的人使用了學習任何東西。

這似乎已經成為Google資訊傳遞中非常突出的一部分,他們把Gemini呈現為一個學習工具,這也許只是"幫你做作業工具"的委婉說法。我不知道。

Casey:是的。好的,這就是我們對Gemini 3的瞭解。一旦它在周二完全發佈,我們將進行自己的測試和評測。但現在,我們想給你們介紹基礎知識,還有我們對GoogleDeepMind的Demis Hassabis和Josh Woodward的採訪。

在我們開始之前,我們應該做一下聲明。我為《紐約時報》公司工作,該公司正在就大型語言模型的訓練起訴OpenAI和微軟,我的男朋友在Anthropic工作。

-2-

對話:Demis Hassabis & Josh Woodward

主持人:Demis和Josh,歡迎來到Hard Fork。

Demis & Josh:很高興來這裡。謝謝。

主持人:兩年前,Sundar Pichai告訴我們,Bard是一輛改裝過的本田思域,正在與更強大的車競爭。那Gemini 3是什麼車?

Josh:這是個好問題。Demis,你想回答嗎?

Demis:嗯,我希望它比本田思域快一點。你知道,我不太喜歡用車來類比……也許它是那些很酷的直線加速賽車之一。

主持人:人們對這個模型非常興奮。我們從一些早期測試者那裡聽到反饋,顯然你們展示了很多基準測試,非常令人印象深刻。在具體層面上,Gemini能做那些以前的AI模型做不到的事情?

Josh:好的,我來說幾點突出的。第一,我們開始看到這個模型在推理方面真正表現出色,能夠同時思考很多步驟。有時過去的模型會失去思路,失去追蹤。這個模型在這方面好得多。

第二點你明天也會看到,就是各種新的生成式介面。這是我們迄今為止在建立新型介面方面最好的模型。它為人們提供真正定製化的設計和對問題的回答。

第三點我要說的是,我們在編碼本身投入了大量精力。所以你會看到很多編碼例子,像Google Anti-Gravity這樣的新產品也會展示這一點。

主持人:有一種討論認為,對於普通使用者來說,聊天用例可能已經解決了,普通使用者幾乎想不出一個問題,能讓新模型生成與上一代明顯不同的結果。這對你們來說在多大程度上是真的?普通人真的會注意到差異嗎?

Josh:是的,我們在一些測試中看到的,Demis也可以補充,我認為這些模型真的——對我們來說,這個模型更簡潔、更有表現力,開始以更容易理解的方式呈現資訊。我認為對大多數人來說,這會是一個很大的直接影響。

然後我認為有趣的是,這些模型如何開始與其他類型的資訊互動。所以我們經常談論學生如何能夠用這個模型學習,或者這個模型如何在你的許可下連接到你在其他Google產品中可能擁有的其他類型的資料。這些是我們開始展示的方式,我認為它已經超越了標準的文字問答來回。

Demis:是的,我想補充一點,就是它的總體可靠性。你使用時會注意到。我認為我們在內部稱之為"人設"(persona)的東西上下了很大功夫,就像它的風格。

我認為它更簡潔,更切中要點,很有幫助。我覺得它的風格更好。我發現用它來頭腦風暴和使用更愉快。

然後我認為,在一些方面幾乎有一個階躍變化。我覺得它在實用性上跨越了某種門檻,比如氛圍程式設計(vibe coding)。

我一直在重新學習遊戲程式設計。我打算在聖誕節期間給自己設定一些項目,因為我覺得它在前端和這類事情上已經達到了一個非常有用和強大的水平,而之前的版本可能沒那麼好。

-3-

通往AGI的路徑

主持人:Demis,上次你上我們的節目是在5月,你說你認為我們距離AGI還有5到10年,而且可能需要一些重大突破。Gemini 3有多好,觀察它的表現,是否改變了這些時間線?或者它是否包含了你認為必要的那些突破?

Demis不,我認為它完全按計畫進行,如果你明白我的意思。我認為我們對這個進展非常滿意。我認為這是一個絕對驚人的模型,完全符合我的預期和我們過去幾年的發展軌跡,實際上自從Gemini開始以來,我認為這是業內進步最快的。我認為我們會繼續這個軌跡,我們期待這會持續。

但除此之外,我仍然認為還需要一到兩個額外的東西,才能真正獲得你期望從通用智能中得到的全面一致性,以及在推理、記憶方面的改進,也許還有像世界模型這樣的想法——你也知道我們正在用Simmer和Jeannie研究這些。它們會建立在Gemini之上,但以各種方式擴展它。我認為其中一些想法也是完全解決物理智能等問題所必需的。

所以兩者都是真的。我對Gemini 3的進展非常滿意,我認為人們會相當驚喜,但它符合我們預期的進展軌跡。這意味著仍然是5到10年,可能還需要一到兩個突破。

-4-

關於Gemini的"人設"

主持人:你提到了Gemini 3的風格。最近有很多關於AI伴侶的討論,人們與它們建立的關係。你如何看待Gemini 3的個性,你希望使用者與它建立什麼樣的關係?

Josh:我要說,在應用本身中,我們在團隊中很大程度上把它看作一個工具,或者說是你用來處理和應對一天工作的東西。

所以無論是幫助你解決不同類型的問題,還是幫助你創造東西,這真的是我們看到它真正擅長的地方,也是我們希望看到的方向。

我認為如果你放大來看,如果你看Gemini或我們的其他一些項目,比如Notebook LM或Flow,我們真的在試圖思考AI如何成為你工具箱中的這個超級力量、超級工具,無論你是用於寫作、研究、製作電影還是其他什麼。這才是我們真正關注的地方。

我認為隨著時間推移,我們團隊真的很感興趣能夠追蹤像"我們幫你一天完成了多少任務"這樣的指標。

這是一種新型指標,我認為我們對此感到興奮,也是原始Google搜尋工作方式的某種延續,你來到它這裡,你試圖獲得一個答案或被傳送到一個頁面,然後從那裡繼續。

主持人:這一切聽起來都很好很負責任,但我想知道,你們不做一個色情伴侶,是不是放棄了很多病毒式傳播的參與度。

Josh:無可奉告。

-5-

Google是否領先AI競賽?

主持人:你們的一些競爭對手在Gemini 3發佈前的幾天和幾周裡非常緊張,我認為他們開始聽到和我們一樣的傳言,說這個模型相當不錯。也許敘事正在從Google在AI領域追趕,轉變為現在在競賽中處於領先地位,或至少處於領導地位。你們覺得Google現在在AI競賽中領先嗎?

Demis:看,你們都很清楚,這是一個非常激烈的競爭環境,可能是有史以來最激烈的。所以永遠不能……真正唯一重要的是你的進步速度,對吧,從你所在的位置。這就是我們關注的,我們對此非常滿意。

我的意思是,我真的不把它看作是,你知道,我們重新領先了之類的。我們一直在這個研究領域處於先鋒地位。我認為這就像確保這在下游反映在我們所有的產品中。我認為我們真的進入了狀態。我認為你實際上在去年就看到了這一點。我們在這方面越來越好。

就像GDM(GoogleDeepMind)是Google的引擎室。當然,有Gemini應用,有Notebook LM,這些AI優先的產品,但也在為所有這些令人驚嘆的現有Google產品提供動力,無論是地圖、YouTube、Android,當然還有搜尋,帶有AI優先的功能,實際上在某些情況下,從AI優先的角度重新構想事物,通常Gemini在背景執行。

這進展得非常好。我認為我們只是完成了這個進化的一半,但看到我們的使用者在看到每一個新功能時獲得的價值和興奮,這非常令人興奮,例如,工作空間、Gmail等等。那裡幾乎有無限的可能性。所以我們對此非常興奮,還有所有這些我們也在想像和原型製作的AI優先產品。

-6-

歷史學家的驚喜體驗

主持人: 我們上周節目請了一位歷史學家,他在 AI Studio 裡用了一個未發佈的Google模型。他被震驚了,因為那個模型能夠轉錄非常古老的檔案,並正確推理出1800 年代加拿大皮毛貿易中的糖分測量單位。你能告訴我們,這個人用的是 Gemini 3 嗎?

Josh: 這個我不確定。但我可以說,這個模型在建立這種連接方面確實非常驚人。我不知道那位歷史學家是否用了舊檔案或日記的照片……

主持人:對,他就是這麼做的。

Josh: 那很有可能就是了。它在這方面非常擅長。像我這樣字跡很差的人,拍一頁筆記,它也能毫不費力地處理。

-7-

關於成本、搜尋與 Scaling Laws

主持人:你們提到要把這個模型整合到搜尋的 AI 模式中。這是否意味著你們找到了一種比以前的模型更高效、更便宜的方法來服務這個模型?

Demis: 我覺得我們總是處於前沿。除了模型性能,我覺得我們在模型效率(efficiency)方面也做得非常好。我們開創了許多蒸餾技術和其他技術。這不僅是為了 AI 概覽(AI Overviews)這種需要服務數十億使用者的極端用例,也是為了我們的雲客戶。

我們一直試圖處於成本與性能的帕累托前沿(Pareto frontier)。

當然,我們今天只發佈了 Pro,但我們也正在為 3.0 時代開發其他系列的 modello。

主持人:每次看到新的前沿模型發佈,我們都要重新討論縮放定律(Scaling Laws)。

我們是否開始看到邊際收益遞減?我能預想到推特上肯定會有人對此發表看法。你們怎麼看 Gemini 3 與這個問題的關係?

Demis:我們對 Gemini 3 相對於 2.5 的進步非常滿意。就像我說的,這符合預期。但這並不意味著出現了“收益遞減”。

當人們聽到收益遞減時,他們想的是“歸零”還是“指數級增長”。但中間還有一種情況:即使不是指數級翻倍,它仍然非常值得做,投資回報率極高。 我認為我們正處於這個階段。

而且,正如我所說,要一直通往 AGI,我的懷疑是還需要一兩個研究突破。但在此期間,你需要儘可能大規模的基礎模型,我們仍然看到了巨大的進步。

-8-

安全和泡沫

主持人: 在你們展示的眾多基準測試中,那一個對普通使用者最重要?

Josh: 這是個好問題。我覺得大多數人不會像我們一樣盯著基準測試看,它們只是代理指標。

比如在 LM Arena 上突破 1500 ELO 分這類事很棒,但真正重要的是產品中的使用者滿意度。讓我們感到鼓舞的是,這兩者是同向發展的。

主持人: 隨著模型能力的提升,有什麼新的危險能力或安全隱患嗎?

Demis: 我們在這個模型上花了很長時間,因為它是一個前沿模型。正如 Josh 所說,我們不僅僅看基準測試,我們花了很多時間與安全機構和外部測試人員進行安全測試。我會說這是我們目前測試最徹底的模型。

特別是我們努力改進了工具呼叫(tool call)和函數呼叫的能力。這對於程式設計和推理非常重要,但也讓它在像網路攻擊(cyber)等風險較高的事情上更具能力。所以我們在提升這些維度的同時必須加倍謹慎。

主持人:我們處於 AI 泡沫中嗎?

Demis: 這是一個太二元化的問題。我的觀點是,AI 行業的某些部分可能處於泡沫中。比如有些種子輪融資拿到幾百億美元,但除了團隊什麼都沒有,這可能是泡沫的跡象。

但另一方面,即使不談 Gemini,看看機器人技術、遊戲、DeepMind 在藥物發現(Isomorphic)和自動駕駛(Waymo)方面的工作。這些領域需要時間成熟,但我認為這裡面有半打到一打的領域會發展成數千億美元的業務。

而在近期,我們有Google的“引擎室”策略,把 AI 推送到數十億使用者的產品中,這會帶來近期的收入和回報。所以無論是否有泡沫,我們的工作都是在兩種情況下獲勝。

主持人 好的,想像一下馬上就是感恩節了,地點是灣區。如果有聽眾想在飯桌上轉移大家對政治的注意力,你會建議他們展示 Gemini 3 的什麼功能來震驚全場?

Josh: 我不知道能不能拯救感恩節,但這可能會帶來一些笑聲。Gemini 的圖像模型仍然是世界上最好的。

我會說,拿出你的手機拍張自拍,把你自己放進畫面裡進行編輯。人們仍然非常喜歡這麼做,這很有趣。然後你可以順便展示 Gemini 3 的其他能力。

主持人:聽到了嗎各位?用Nanobanano來拯救感恩節晚餐吧。 先生們,謝謝你們。

Demis & Josh: 謝謝邀請。 (創頭條New)