諾獎得主、GoogleAI掌門人潑冷水:所謂“博士級智能”純屬無稽之談

AGI有望開啟一場新的文藝復興。

智東西9月15日報導,昨日,GoogleDeepMind的AI應用Gemini憑藉其圖像編輯模型“Nano Banana”的病毒式傳播,在美區蘋果App Store免費應用榜中取代ChatGPT,強勢登頂,成為該區域最受歡迎的應用之一。

近日,這場現象級的爆火背後的締造者——2024年諾貝爾化學獎得主、GoogleDeepMind創始人兼CEO Demis Hassabis,在All-in峰會上進行了一場深度分享,系統闡釋了從爆款產品到AGI未來的宏大議題,內容橫跨世界模型、機器人、AGI定義、科學智能、創作的未來和能源等多個前沿維度。

Hassabis將GoogleDeepMind定位為驅動Google的“AI引擎室”,Gemini、Genie、Veo等模型,都在深度融入Google的現有產品。其中,Genie 3世界模型正通過“逆向工程”學習物理規律,未來可能會推動機器人技術革命。Google還在Gemini的基礎上打造機器人模型,有望形成“機器人Android系統”這樣的通用平台。

對於業界熱議的AGI前景,Hassabis給出了冷靜判斷,直言當前部分競爭對手所謂的“博士級智能”是“無稽之談”(nonsense)。雖然並未指名道姓,但相關表述很有可能指的是OpenAI聯合創始人兼CEO Sam Altman對GPT-5能力達到“博士級智能”的爭議表述。

▲Demis Hassabis(右)接受採訪(圖源:Youtube)

Hassabis認為,目前AI系統最大的缺陷,就是無法提出真正有創造性的觀點。要實現AGI系統,我們仍需等待1-2個關鍵技術突破的出現。他還透露,其領導的AI藥物發現公司Isomorphic進展迅速,預計明年進入臨床前研究,旨在將新藥研發周期從數年縮短至數周。

自上世紀90年代起,Hassabis就一直在從事AI相關研究,尤其對科學智能(AI for Science)有深厚的興趣。他認為,AGI有望成為科學探索的終極工具,其實現意味著科學黃金時代的到來,有望開啟又一場文藝復興。

以下是Hassabis在All-in峰會上採訪的實錄:

01. 諾獎公佈前10分鐘才知曉 DeepMind已成Google“引擎室”

主持人:首先恭喜你獲得諾貝爾獎。關於AlphaFold這一重大突破,大家都很想聽聽你得知獲獎時的情景。當時你在那裡?是怎麼得知的?

Demis Hassabis:那是一個非常超現實的時刻。整個過程都很不真實。他們通知的方式是,在消息對外公佈前大約十分鐘打電話給你。當你接到來自瑞典的電話時,整個人都懵了。這是每個科學家夢寐以求的電話。

之後就是在瑞典與王室共度的一整周頒獎典禮,非常神奇。最令人震撼的部分是,他們會從保險庫裡拿出諾貝爾獎簽名簿,你可以在那上面簽下自己的名字,和所有偉大人物並列。

翻閱那些頁面時,你會看到費曼、居里夫人、愛因斯坦、玻爾的名字,然後你也把自己的名字寫進那本書裡。這真是難以置信的時刻。

主持人:你之前有沒有想過自己可能會獲獎?

Demis Hassabis:外界會有一些傳聞,但令人驚訝的是,即便在當今時代,諾獎評選方依然能把消息保密得如此嚴密。這個獎對瑞典來說就像是國寶。

會有人說AlphaFold這種成果足以配得上諾獎的認可。但諾貝爾獎不僅看重科學突破,也重視對現實世界的影響,而這種影響往往需要二三十年才能完全顯現。即使聽到風聲,也無法預料會不會真的發生。對我來說是一個驚喜。

主持人:那我們來聊聊DeepMind。在Alphabet內部,DeepMind是什麼定位?具體負責什麼?

Demis Hassabis:我們現在稱之為GoogleDeepMind。幾年前我們把Google和Alphabet內部所有的AI研究合併到一起,包括GoogleDeepMind。各團隊的優勢彙集成了一個部門。

如今GoogleDeepMind是整個Google和Alphabet的“引擎室”。DeepMind打造的主力模型Gemini,以及其他許多模型,包括視訊模型、互動式世界模型等,都已經融入到Google各個產品中。

幾乎每一項產品、每一個服務領域都有我們的AI模型。如今已有數十億人通過AI概覽、AI模式、Gemini應用等使用Gemini模型。

而這僅僅是開始,我們還把它整合進Workspace、Gmail等等。這對我們來說是絕佳機會——既能做前沿研究,又能立刻將成果推送給數十億使用者。

主持人:你們的團隊規模有多大?人員構成是怎樣的?

Demis Hassabis:大約有5000人,其中80%以上是工程師和博士研究員。

02. Genie靠逆向工程學會物理規律 最終可推動機器人技術發展

主持人:模型在不斷演進,新模型層出不窮。前幾天你們發佈了Genie 3世界模型。能給大家介紹一下嗎?

Demis Hassabis:這些畫面都是可互動的世界,根據文字提示即時生成的,使用者可以用方向鍵和空格鍵操控3D環境。

畫面中,每一個像素都是即時生成的,直到使用者進入那個區域,它才存在。整個過程充滿細節。

比如這個例子裡,有人正在給房間刷漆、在牆上畫東西。玩家轉頭看向右邊時,那部分世界才被生成。然後再回頭時,剛才留下的筆跡還在。這一切都是即時生成的。

你還可以輸入“穿著雞仔戲服的人”或“水上摩托”之類的提示,它會立刻把這些元素加入場景中。真的非常震撼。

主持人:我覺得最難理解的地方是,我們都玩過帶有沉浸式3D元素的電子遊戲,但那些世界裡的物體都是預先建好的,需要Unity或Unreal這樣的渲染引擎。而Genie是在即時生成2D圖像。

Demis Hassabis:Genie實際上是在對物理學進行“逆向工程”。它看過數百萬條YouTube視訊和其他現實世界素材,僅憑這些就推演出了很多世界運作的規律。

當然,它還不完美,但已經能生成一致的一兩分鐘互動體驗,而且不限於人類角色,甚至可以操控海灘上的狗或水母。

主持人:3D渲染引擎的工作方式是這樣的:程式設計師需要把所有物理規律都編寫進去,比如光線的反射方式。程式設計師需要建立一個三維物體,然後讓光線在上面反射,這樣軟體才能渲染出來。但Genie完全不同,它是通過視訊訓練出來的,卻自己推理出了這一切。

Demis Hassabis:沒錯,它既用真實視訊,也用部分遊戲引擎合成資料來訓練。這一項目與我的個人興趣很有淵源,在90年代我職業生涯早期時,我便曾經開發過電子遊戲和遊戲內的AI系統,還自己做過圖形引擎。

我知道當年要靠手工編寫多邊形、物理引擎有多麼困難。而現在這個模型可以毫不費力地做到,甚至能即時渲染水面反射、材質流動、物體互動等複雜效果。

主持人:這些畫面的複雜性是難以想像的。這會把我們帶向何方?比如推演到Genie 5?

Demis Hassabis:雖然Gemini語言模型的能力在不斷進步,但它從一開始就被設計為多模態,可以處理圖像、音訊、視訊等各種輸入,並生成各種輸出。

我們之所以要建構這樣的模型,是因為我們認為真正的AGI必須理解我們周圍的物理世界,而不僅僅是語言或數學這些抽象領域。

這是機器人技術能夠運作的關鍵,目前這塊能力還是缺失的。同時,AI眼鏡如果想要在日常生活中發揮作用,也需要理解所處的物理環境和周圍世界的工作原理。

像Genie、Veo這些項目,實際上都是在訓練AI去掌握世界的動態和物理規律。如果模型能生成一個互動式的世界,那就說明它在某種程度上理解了世界的運行邏輯,而這最終可以推動機器人技術的發展。

03. Google想打造“機器人領域的Android系統”

主持人:視覺、語言與行動模型(VLA模型)的最新進展如何?我們能否建構一個通用系統:機器人通過攝影機觀察世界,然後我可以用文字或語音告訴它“請幫我完成某件事”,而它知道如何在物理世界中執行相應的行動?

Demis Hassabis:是的,正是如此。例如,你可以嘗試我們推出的Gemini Live版本:只需舉起手機,它就能觀察你周圍的世界。我建議大家親自體驗一下,它已經能夠理解物理世界中的許多內容,這一點非常令人驚嘆。

下一步,我們可以設想將其整合到更便攜的裝置中,比如眼鏡。那樣它就會成為一個日常助手——當你在街上行走時,它可以為你推薦資訊,或者我們可以將其嵌入Google地圖等功能中。

在機器人領域,我們開發了Gemini機器人模型,它們是基於Gemini模型、並利用額外機器人資料進行微調的版本。

今年夏天我們發佈了一些演示。我們佈置了桌面環境,兩個機械臂在桌上與物體互動,而你可以直接用語言與機器人交流。比如你可以說“把黃色的物體放進紅色的桶裡”,它就能將語言指令轉化為電機動作。

這體現了多模態模型的力量,而不僅僅是傳統的機器人專用控制模型——它能夠將對現實世界的理解融入與人的互動中。最終,這種模型能力將同時服務於使用者互動體驗,以及機器人與世界的互動。

主持人:我曾經問過GoogleCEO Sundar Pichai:我們是否最終能建構出一種機器人的通用作業系統,類似於Unix或Android。

如果它能足夠通用,可以在多種裝置上運行,那麼機器人裝置、公司與產品將迎來爆發式增長,因為存在一種可廣泛適配的軟體基礎。

Demis Hassabis:這正是我們正在推進的策略之一,可以稱之為“機器人領域的Android戰略”。但另一方面,將我們最先進的模型與特定類型的機器人設計進行垂直整合,實現端到端學習,也非常有趣。這兩種策略我們都在積極探索。

04. 人形與專用機器人將共存 演算法仍需進一步發展

主持人:人形機器人是否是一種合理的外形呢?有人認為它適合人類,因為我們自己就是人形,但解決問題可能需要不同形態的機器人,比如專門疊衣服、洗碗或打掃的形態。

Demis Hassabis:我認為兩者都會存在市場。實際上,五到十年前我曾認為我們會為特定任務開發特定形態的機器人。在工業領域確實如此,無論是實驗室或生產線,你會根據任務最佳化機器人的形態。

然而,對於通用或個人用途的機器人,尤其是需要與人類環境互動的場景,人形機器人可能非常關鍵。

畢竟,我們的物理世界是為人類設計的:台階、門道……一切設施都符合人的形態。與其改變整個世界,不如讓機器人適應我們已有的環境。

人形機器人在這類任務中可能非常重要。但我相信,專用形態的機器人同樣會有其市場空間。

主持人:你對未來五到七年的機器人數量有什麼看法?比如,你是否認為會有數百萬甚至數千萬的機器人?你有沒有一個願景?

Demis Hassabis:是的,我有。我在這方面花了很多時間思考。我覺得我們仍然處於機器人技術的早期階段。在接下來的幾年裡,機器人技術或許將會有真正的“Wow”的時刻。

但我認為演算法還需要進一步發展。機器人模型的底座,也就是通用模型,還需要變得更好、更可靠,並且更好地理解周圍的環境。這將在接下來的幾年內實現。

在硬體方面,我認為最終會有成百上千萬機器人出現,關鍵在於硬體合適能發展到可以進行大規模生產的程度。當你開始建造大批次生產某款機器人的工廠時,就很難快速迭代機器人設計。如果你過早地開始大規模生產,那麼6個月後可能會出現新一代機器人,它更可靠、更靈活,這就比較棘手了。

主持人:用電腦類比的話,我們處於70年代的PC DOS時代。

Demis Hassabis:是的,可能就是這樣。我認為也許這就是我們所處的位置,但當時耗費10年完成的進展,在如今可能1年內就會發生。

05. AGI將成為科學探索終極工具 目前AI系統仍缺乏創造力

主持人:讓我們來談談其他應用,特別是在科學領域。我始終認為,我們能夠用AI解決的最偉大的問題,是那些人類目前憑藉現有技術和能力以及我們的大腦等還無法解決的難題。

你對那些科學領域的突破感到最興奮,以及我們將使用什麼樣的模型來實現這些突破?

Demis Hassabis:將AI用於加速科學發現,並為人類的醫療健康事業做貢獻,是我投身AI研究的初衷,也是我眼中AI最重要的應用領域。

如果我們以正確的方式建構AGI,它將成為科學探索的終極工具。DeepMind在這方面已取得多項重要成果,最著名的例子是AlphaFold。

實際上,我們已將AI系統應用於多個科學領域,包括材料設計、電漿體與聚變反應堆控制、天氣預測,甚至解決數學奧林匹克競賽問題。同樣的系統,經過微調就能解決很複雜的問題。

但我們目前仍然只是觸及表面,AI系統尚未展現出真正的創造力,還無法像人類科學家那樣提出新的猜想或理論。我認為,這將是衡量AGI實現與否的關鍵標準之一。

主持人:你認為什麼是創造力?

Demis Hassabis:我認為創造力是那種我們常常在歷史上最偉大的科學家和藝術家身上看到的直覺性飛躍,也許是通過類比推理實現的。心理學和神經科學中有許多相關理論。

我認為一個不錯的測試方法是,給現代AI系統設定一個知識截止時間(比如1901年),然後觀察它是否能像愛因斯坦那樣,在1905年提出狹義相對論。如果能夠做到,那可能意味著我們真正接近AGI。

另一個例子是我們的AlphaGo程序。它在十年前擊敗了世界圍棋冠軍,甚至還發明了前所未有的新策略,比如第二局中著名的第37手。

但目前的AI系統還無法創造出像圍棋這樣兼具優雅性、滿足感與審美價值的遊戲。我認為,這正是當前通用系統或AGI系統所欠缺的。

06. “博士級智能”遠未實現 仍有部分關鍵能力缺失

主持人:你能分享一下具體那些部分還有短板嗎?OpenAI的Sam Altman、Anthropic的Dario Amodei近期提出“AGI即將在未來幾年實現”的觀點,你認同嗎?

Demis Hassabis:這個問題的核心在於,我們是否能讓AI系統模仿那些頂尖人類科學家所展現出的那種直覺式飛躍,而不是僅僅做出漸進式的進展。

我常說,區分偉大科學家與優秀科學家的關鍵在於,兩者在技術上都非常出色,但偉大的科學家更具創造力。他們可能會從其他學科領域中發現某種模式,並將其類比或匹配到正在研究的問題上。

我認為未來的AI終將具備這種能力,但目前它還缺乏實現這種突破所需的推理能力和思維方式。

此外,現有AI系統也缺乏能力的一致性。有時我們的競爭對手聲稱AI系統已達到“博士級智能”,我認為這就是無稽之談(nonsense)。

它們不是博士級智能,可能在某些方面具備博士級能力,但並非在所有領域都達到這一水平——而真正的通用智能應能做到這一點。

正如我們所體驗到的,如果你以某種方式提問,當前的聊天機器人甚至會在高中數學或簡單計數問題上出錯。真正的AGI系統不應出現這類錯誤。

我認為,要實現能夠勝任這些任務的AGI系統,可能還需要五到十年的時間。另一個尚未實現的核心能力是持續學習,即系統能夠線上接受新知識或調整其行為。

目前這些能力仍然缺失,也許通過擴大模型規模可以實現一部分,但我認為可能還需要一兩個突破性的進展,這些突破有望在未來五到十年內出現。

07. 模型性能提升未停滯 Nano Banana或實現創作普惠

主持人:一些報告和評分似乎反映出兩種趨勢:第一,大語言模型的性能逐漸趨於收斂;第二,性能提升的速度可能正在放緩甚至趨於平穩。這兩種說法是否基本精準?

Demis Hassabis:實際上,我們內部並未觀察到這種現象。我們依然看到顯著的進步速度,並且我們的視角更為廣闊。例如,我們的Genie模型、Veo模型,以及最近的Nano Banana,都展現出令人矚目的進展。

我認為,未來創意工具的發展方向是使用者能夠與它們自然互動,甚至通過對話進行操作,而系統能夠以高度一致的方式響應使用者需求,就像Nano Banana一樣。

它不僅在圖像生成領域處於領先地位,更突出的是其一致性——能夠在遵循指令的同時保持其他元素不變,使使用者能夠通過迭代獲得理想的輸出。這種能力預示著創意工具的未來,人們很喜歡這一模型,也喜歡用它來創作。

主持人:我記得小時候為了學習如何在Photoshop中去除圖像中的某些部分,不得不購買書籍,學習複雜的操作如填充、羽化邊緣等。而現在,任何人都可以通過Nano Banana輕鬆實現這些效果,只需向軟體描述需求,它就能自動完成。

Demis Hassabis:這一方面,這些工具正變得普惠化,普通人無需學習複雜的使用者介面即可進行創作;另一方面,我們也在與頂尖創意人士合作,打磨工具的設計。

例如導演達倫·阿倫諾夫斯基及其團隊,他們使用Veo等工具製作電影,並幫助我們最佳化工具功能。

通過與這些專業人士的合作,我們發現這些工具不僅適用於普通使用者,還能以十倍、百倍的幅度,提升頂級創作者的生產力。

他們可以以極低的成本嘗試更多想法,並快速實現高品質的作品。因此,我們認為這兩方面是平行不悖的:我們既面向日常使用場景,將這項技術普惠化,也在賦能高端專業使用者。

那些懂得如何使用這些工具的人,以及擁有願景、敘事風格和講故事能力的頂尖創意人士,能將這些工具發揮出更好的效用。

主持人:從文化角度看,一個有趣的問題是:未來娛樂內容將如何演變?是會每個人都能定製自己感興趣的內容,例如根據特定音樂風格生成新曲目,或基於電影《勇敢的心》建立遊戲體驗?還是仍然保持一對多的創作模式?

從文化角度看,這個問題頗具哲學意味。我們是否仍然需要由創作者共同建構的、具有共識性的敘事?抑或是每個人都將開始開發和建構自己獨特的虛擬體驗?

Demis Hassabis:基於我從90年代起從事遊戲設計和程式設計的經驗,我認為當前所見只是娛樂產業未來的起點。未來可能會出現全新的藝術形式或內容類型。在這種模式下,雖然會存在一定程度的共同創作,但我始終認為頂尖的創意願景家仍將發揮關鍵作用。

這些創作者能夠建構出引人入勝的體驗和動態敘事,即使使用相同的工具,他們的作品質量也會遠超普通使用者。與此同時,數百萬使用者不僅可以進入這些世界,還能參與部分內容的共同創造。在這種情況下,頂級創意者可能更傾向於扮演"世界編輯者"的角色。

這正是我們接下來幾年希望探索的方向,目前正在通過Genie等技術逐步實現這個願景。

08. 大量時間投入AI藥物發現公司 明年進入臨床前期研究階段

主持人:你如何分配你的時間?也許你可以談一下Isomorphic,你是不是在那兒投入了大量時間?

Demis Hassabis:是的,我確實投入了大量時間。這是一家從DeepMind拆分出來的公司,正致力於通過蛋白質摺疊技術AlphaFold的突破來革新藥物發現領域。

雖然理解蛋白質結構是關鍵突破,但這只是藥物研發過程中的一個環節。Isomorphic正在開發與AlphaFold相關的多項技術,致力於設計能夠精準靶向蛋白質且避免副作用的化合物。

我們預計能將藥物發現周期從現在的數年甚至十年,縮短到數周等級。目前我們正在建構技術平台,與禮來、諾華等製藥企業建立了深度合作。

同時我們也在推進內部藥物研發項目,預計明年進入臨床前期研究階段,後續將由合作夥伴推進臨床實驗。我們的研究重點涵蓋癌症、免疫學和腫瘤學等領域,並與MD安德森癌症中心等機構保持合作。

主持人:在藥物發現領域,我們需要如何平衡確定性模型(基於物理化學原理)與機率性模型(基於資料訓練)的協同工作?

Demis Hassabis:我們正在建構混合模型系統,未來5年也是如此。以AlphaFold為例,它既包含基於神經網路和Transformer的機率學習部分,也整合了化學物理規則的確定性約束。

在生物化學領域,資料稀缺是常態,因此需要融入已知的科學原理作為約束條件。比如原子之間的鍵角,讓模型理解原子之間不能相互重疊等。

理論上,它可以從資料中學習這些,但那將浪費大量的學習能力,因此最好將這些作為約束條件納入其中。

就像AlphaGo一樣:讓一個神經網路學會識別棋局中的模式,再在上面加一層蒙特卡洛樹搜尋來做規劃。難點在於如何把學習型子系統與人工定製的子系統無縫結合。

主持人:這種架構能否帶來通向AGI的突破?

Demis Hassabis:我認為,一旦把混合系統跑通,下一步就是把得到的知識反哺回學習元件,儘量做端到端學習,讓模型直接從資料裡預測目標。

一旦用混合系統完成了初步研究,就可以進行逆向工程,看看是否可以將這些資訊納入學習系統。

這正是AlphaZero的做法:拋棄人類棋譜和圍棋專用知識,從零自我對弈,結果不僅能下圍棋,還能通吃任何棋類。

09. AGI將開啟科學的黃金時代

主持人:AI的能源需求是一個熱點話題。這些能源需求將從何而來?模型架構、硬體,或者模型與硬體的協同會不會逐漸改進,最終把每個token的能耗或成本降下去,讓總能源需求曲線走平?還是說並不會,我們仍要面對一條很陡的需求曲線?

Demis Hassabis:我認為這兩種情況都是正確的。在GoogleDeepMind,我們專注於打造非常高效的模型,因為我們在內部有很多用例,需要為數十億使用者提供AI服務。模型必須極其高效,極其低延遲,並且成本低廉。

因此,我們開創了許多技術,使我們能夠做到這一點,比如蒸餾,讓大模型教小模型。過去兩年,在同樣的性能水平上,模型效率提高10倍甚至100倍。

現在,能源需求沒有減少的原因是,我們還沒有達到AGI。對於前沿模型,我們需要更大規模上嘗試和實驗新的想法。但在伺服器端,模型正變得越來越高效。所以這兩種情況都是正確的。

最終,從能源角度來看,我認為AI系統將在能源和氣候變化等方面回饋更多,而不是消耗更多。在未來10年內,AI將在電網系統、電力系統、材料設計、新型材料、新型能源來源等方面發揮巨大作用,這些貢獻將遠遠超過它今天所消耗的能源。

主持人:作為最後一個問題,請描述一下10年後的世界。

Demis Hassabis:哇,10年甚至10周在AI領域都是一段很長的時間。但我確實認為,如果我們能在未來10年內實現AGI,那麼這將開啟一個科學的新黃金時代。一場新的文藝復興。我們將在能源、醫療等各個領域見證AGI帶來的好處。 (智東西)