近日,在美國All-In AI峰會上,Google DeepMind首席執行官、新晉諾貝爾獎得主Demis Hassabis接受了一場深度對話。本次圓桌對話全面探討了AI的前沿進展與未來圖景,話題涵蓋了從顛覆性的可互動世界模型Genie,到AI在機器人、科學發現、藥物研發領域的革命性應用,再到對AGI實現路徑。
Demis Hassabis詳細闡述了Genie模型如何通過“逆向工程”學習並生成物理世界,顛覆了傳統3D渲染引擎的底層邏輯,更提出了未來娛樂形態將是頂尖創作者主導下的“共同創作”模式。
此外,Demis Hassabis駁斥了當前AI系統已達“博士級智能”的說法,稱之為“無稽之談”,並犀利地指出其在穩定性和真正的通用性上仍有根本性缺陷。同時,他也對AI性能提升趨於停滯的觀點予以否認,認為在更廣闊的多模態領域,進步速度依然驚人。
您在得知獲得諾貝爾獎時身在何處,又是如何得知的?DeepMind在龐大的Alphabet組織中扮演著怎樣的角色,您的具體職責是什麼?以及您的團隊規模有多大,人員構成是怎樣的,其中科學家和工程師的比例如何?
Demis Hassabis: 那是一個非常奇妙的時刻。關於它的一切都感覺不真實,包括他們通知你的方式。他們會在全球直播前大約10分鐘才告訴你。當你接到來自瑞典的電話時,你真的會感到有些不知所措。那是每一位科學家都夢寐以求的電話。接下來的頒獎典禮,是在瑞典與王室成員共度一整周。那感覺太棒了,畢竟這項傳統已經延續了120年。而最不可思議的部分,是他們會從保險庫中取出諾貝爾獎的簽名冊,讓你在所有前輩偉人的名字旁邊簽下自己的名字。所以,當翻閱著冊子,看到Feynman、Marie Curie、Einstein和Niels Bohr等等這些名字,一頁頁地回溯歷史,然後將自己的名字也寫進那本冊子裡,那真是一個令人難以置信的瞬間。
(關於是否預感會獲獎)你會聽到一些傳聞。但在當今這個時代,他們還能把消息封鎖得如此之好,確實令人驚嘆。諾貝爾獎對瑞典來說就像是國寶一樣。所以你會聽到一些說法,比如 AlphaFold 的成就或許值得這份殊榮。而且,他們不僅看重科學突破本身,也看重其在真實世界中產生的影響。而這種影響力的顯現,有時需要二三十年。所以,你永遠無法確定獲獎的時刻是否會到來,會在何時到來。因此,這確實是一個驚喜。
(關於DeepMind在Alphabet中的角色)我們現在將 DeepMind,或者說合併後的 Google DeepMind,視為整個 Google 和 Alphabet 的核心引擎室。幾年前,我們將 Google 和 Alphabet 內部所有不同的人工智慧項目,包括 DeepMind,都整合到了一起,成立了一個新的部門,彙集了各個團隊的優勢。我現在通常這樣描述我們的角色:我們是整個 Google 和 Alphabet 的動力之源。我們建構的核心模型 Gemini,以及許多其他模型,比如視訊模型和互動式世界模型,現在都已接入 Google 的各個體系中。可以說,幾乎每一款產品、每一個使用者介面,背後都有我們 AI 模型的支援。如今,無論是通過 AI Overview、AI 模式還是 Gemini 應用,已有數十億使用者在與 Gemini 模型進行互動。而這僅僅是一個開始。我們正逐步將其融入 Workspace、Gmail 等產品中。所以,這對於我們來說是一個絕佳的機會,既能進行最前沿的研究,又能立刻將成果交付給數十億使用者。
(關於團隊構成)我負責的 Google DeepMind 部門大約有5000人。其中,我估計超過80%是工程師和擁有博士學位的研究人員。所以,這個數字大約在三四千人。
你們前發佈一款名為Genie的世界模型,它具體是什麼?其是它與傳統3D渲染引擎有何根本不同?從長遠來看,當這類模型發展到更高階段,例如第五代時,它將引領我們走向何方,其最終的應用目標又是什麼?
Demis Hassabis: 它非常驚豔。大家現在看到的所有視訊和可互動世界,實際上都是由 AI 生成的。你可以看到有人在實際控制畫面,它不是一段靜態視訊,而是完全由文字提示生成。然後,人們就可以用方向鍵和空格鍵來控制這個三維環境。所以,你在這裡看到的每一個像素都是即時生成的。在玩家或互動者到達世界的某個區域之前,那個區域是不存在的。這些豐富的細節隨後會展現出來,這個畫面是完全生成的,不是真實視訊。它生成了一個人正在粉刷自己房間的場景,在牆上塗鴉。接著,玩家會向右看,然後再看回來。世界的這個部分剛才還不存在,現在它被創造出來了。當玩家回頭看時,又能看到自己剛才留下的塗鴉痕跡。我再強調一次,你看到的每一個像素都是完全由 AI 生成的。你還可以輸入“穿著小雞服裝的人”或“一輛水上摩托艇”,模型會即時將這些元素加入到場景中。這真的相當令人震撼。
(關於與3D引擎的不同)這個模型實際上是在對我們世界中的直觀物理學進行逆向工程。它觀看了數百萬個關於我們世界的視訊,包括YouTube視訊等,並僅從這些視覺資訊中,就反向推匯出了世界運行的大部分規律。它目前還不完美,但已經能作為使用者,在許許多多不同的世界裡,生成一到兩分鐘連貫的互動體驗。在後面的演示中,你還可以控制沙灘上的一隻狗,或者一隻水母,所以它的能力不侷限於和人類相關的場景。它通過觀看視訊和一些來自遊戲引擎的合成資料進行訓練,並自己完成了逆向工程。這個項目對我個人而言意義非凡,同時也讓我感到非常震撼。因為在90年代,我職業生涯早期曾為視訊遊戲編寫過AI和圖形引擎。我至今還記得,當時要手動編寫所有多邊形和物理引擎是多麼困難。而現在看到Genie毫不費力地就實現了這一切,水面的反射、材質的流動方式、物體的行為等等,全都自然天成,這實在是太神奇了。
(關於模型的未來方向)我們之所以建構這類模型,是因為我們始終認為,儘管我們像其他團隊一樣,在Gemini這樣的大語言模型上不斷取得進展,但從一開始,我們就希望Gemini是一個多模態模型。我們希望它能接收任何類型的輸入,無論是圖像、音訊還是視訊,並且能輸出任何內容。我們對此非常感興趣,因為要讓AI實現真正的通用,要建構AGI,我們認為AGI系統必須能夠理解我們周圍的物理世界,而不僅僅是語言或數學等抽象世界。當然,這對於機器人技術的發展也至關重要,這可能正是當前機器人技術所缺失的環節。同樣的道理也適用於智能眼鏡這類裝置,一個能在日常生活中為你提供幫助的智能眼鏡助手,必須能夠理解你所處的物理環境,以及我們世界中直觀物理學的運作方式。因此,我們認為,建構像Genie這樣的模型,以及我們最好的文字到視訊模型Veo,都是我們建構世界模型的具體體現。這些模型能夠理解世界的動態和物理規律。如果你的系統能夠生成一個世界,那就證明它已經理解了那個世界的運行法則。
Genie這類世界模型最終是否會通往機器人領域?能否介紹一下當前視覺-語言-行動模型的最新進展是怎樣的?一個能夠通過攝影機觀察世界,通過自然語言接收指令,並據此在物理世界中執行相應動作的通用系統,目前發展到了什麼階段?
Demis Hassabis: 完全正確。如果你體驗一下Gemini的Gemini Live版本,將手機攝影機對準你周圍的世界,你會發現它對物理世界的理解已經達到了一種近乎神奇的程度。你可以將下一步想像為,把這種能力整合到像眼鏡這樣更便攜的裝置中。到那時,它就會成為一個日常助手,可以在你逛街時為你推薦事物,或者我們可以將它嵌入到Google地圖中。在機器人領域,我們建構了名為“Gemini機器人模型”的系統,這可以看作是在Gemini的基礎上,用額外的機器人資料進行微調後的版本。這個項目最酷的一點,也是我們今年夏天通過一些演示所展示的,是我們設定了一些桌面場景,有兩隻機械臂在桌面上與物體互動,你可以直接和機器人對話。比如,你可以說“把黃色的物體放進紅色的桶裡”,它就能理解這條語言指令,並將其轉化為具體的機械動作。這就是多模態模型相比於純粹的機器人專用模型所具備的強大之處,它能夠將對真實世界的理解融入到與你的互動中。所以最終,這種模型既能提供你所需要的使用者介面體驗,也能賦予機器人安全探索世界所必需的理解力。
是否意味著你們最終能夠打造出一種通用機器人領域的“Android”系統,一個能夠賦能大量機器人裝置和公司的底層作業系統?您認為人形是機器人一種好的外形設計嗎,這種形態在現實世界中是否有其存在的意義?對於未來五到七年,您預計機器人的普及規模會達到何種量級,是成千上萬,還是數百萬甚至上億?
Demis Hassabis:這當然是我們正在追求的策略之一,可以稱之為一種“Android模式”,即為整個機器人領域提供一個近乎作業系統的底層。但除此之外,還有一些非常有趣的方向,比如將我們最新的模型與特定的機器人類型和設計進行垂直整合,並進行某種端到端的學習。所以,這兩種策略都非常有前景,我們也在同時推進。
(關於人形設計的價值)我認為未來這兩者都會有市場。實際上,大概在五到十年前,我的看法是,我們會為不同的任務設計特定形態的機器人。而且我認為在工業領域,工業機器人肯定會是這樣,你可以根據具體任務來最佳化機器人的形態,無論是在實驗室還是在生產線上,你需要的機器人類型都會大相逕庭。但另一方面,對於通用或個人使用的機器人,要讓它們與我們的日常生活環境互動,人形形態可能就非常重要了。
因為,我們身邊的物理世界顯然是圍繞人類的需求來設計的。比如台階、門廊,所有這些都是為我們自己設計的。與其去改造現實世界中的這一切,設計出一種能與我們現有世界無縫協作的機器人形態,可能會是更容易的方案。所以我認為,有充分的理由相信,對於這類任務,人形形態可能至關重要。當然,我也認為,特種形態的機器人同樣會有一席之地。
(關於機器人普及的時間和規模)我確實有,並且在這個問題上思考了很久。我感覺,我們在機器人技術領域仍處於比較早期的階段。我相信在未來幾年內,機器人領域會出現一個真正令人驚嘆的“高光時刻”。但我認為,演算法還需要進一步發展。這些機器人模型所依賴的通用模型,需要變得更強大、更可靠,需要更好地理解周圍的世界。我相信這在未來幾年內能夠實現。此外,在硬體方面,關鍵問題在於,我認為我們最終會擁有數百萬台機器人來服務社會、提高生產力。但關鍵在於,當你和硬體專家交流時,他們會問:硬體發展到那個節點,才算達到了適合大規模量產的水平?因為一旦你開始投資建廠,準備生產成千上萬台特定型號的機器人,再想快速迭代更新機器人設計就變得非常困難了。
所以這是一個時機問題,如果你過早地決定量產,可能六個月後就會出現一款更可靠、更出色、更靈巧的下一代機器人。如果用電腦領域的發展來類比,我們當前所處的階段,是不是有點像上世紀70年代,PC-DOS系統剛剛出現的那個時期?有這個可能。或許我們確實處於類似的早期階段,但關鍵區別在於發展的速度。我們現在用一年時間就走完了過去十年的路,所以必須進行快速迭代。可以說,現在的一年,就相當於過去的十年。
在科學領域,AI有那些最讓您感到興奮的應用前景和潛在突破,我們還需要什麼樣的模型才能實現這些突破?當前AI在科學發現的能力上還缺失那些關鍵環節?另外,從人類的角度來看,您如何定義“創造力”這一概念?
Demis Hassabis: 利用AI加速科學發現並助力人類健康等事業,正是我為AI奮鬥終生的原因。我認為這是AI最重要的使命。我相信,如果我們能以正確的方式建構AGI,它將成為推動科學發展的終極工具。在DeepMind,我們的工作正是在不斷為此開闢道路。其中最著名的當然是AlphaFold,但實際上,我們已經將AI系統應用於眾多科學領域,例如材料設計、輔助控制核聚變反應堆中的電漿體、天氣預測以及解答奧數難題。這些複雜的難題,基本上用同類型的系統,再經過一些額外的微調就能解決。所以我認為,我們目前對AI潛力的探索還僅僅是冰山一角,還有很多能力尚待開發。在我看來,如今的AI還不具備真正的創造力,因為它還無法提出新的科學猜想或假設。它或許可以證明你給定的命題,但無法自己構想出全新的想法或理論。因此,我認為這恰恰是檢驗AGI的標準之一。
(關於創造力的定義)我認為創造力是我們常在歷史上最傑出的科學家和藝術家身上所推崇的那種直覺的飛躍。它或許源於類比或類比推理。關於我們人類科學家如何實現這一點,心理學和神經科學領域有許多理論。但一個很好的測試方法是,給一個現代AI系統設定1901年的知識截止點,看它能否像愛因斯坦在1905年那樣提出狹義相對論。如果它做到了,那就意味著我們觸及到了非常本質的東西,或許就離AGI不遠了。另一個例子是我們的AlphaGo程序,它曾擊敗世界圍棋冠軍。它不僅贏得了比賽,還為圍棋這項運動開創了前所未有的新策略,比如在第二局下出的著名的第37手,如今已成為棋界研究的經典。但是,一個AI系統能否創造出一款像圍棋這樣優雅、精妙、富有美感的遊戲,而不僅僅是發明一種新策略呢?目前來看,答案是否定的。所以我認為,這正是真正的通用系統,也就是AGI系統所缺失的能力之一,它理應也具備這些能力。
很多人認為AGI將在幾年內實現,您似乎不完全認同這個觀點。能否從系統架構的理解出發,具體分析一下當前實現AGI還缺少那些關鍵環節,瓶頸究竟在那裡?與此同時,有報告和評估體係指出,大語言模型的性能正在趨同,且每一代模型性能的提升速度似乎在放緩,您認為這個說法基本屬實嗎?
Demis Hassabis: 我認為這裡的根本問題在於,我們能否模仿最頂尖人類科學家所能實現的那種直覺飛躍,而不僅僅是漸進式的提升。我常說,一個偉大的科學家與一個優秀的科學家之間的區別在於,儘管兩者都具備很強的技術能力,但偉大的科學家更具創造力。他們或許能從另一個學科領域發現某種模式,並將其通過類比或模式匹配應用到自己正在研究的問題上。我相信AI終有一天能做到這一點,但目前它還不具備實現這種突破所必需的推理能力和某些思維能力。我還認為,我們目前缺乏穩定性。
你常聽到我們的一些競爭對手說,現在的這些是“博士級智能”。我認為這種說法是無稽之恩。它們不是博士級智能。它們或許在某些方面具備博士水準的能力,但遠非在所有領域都能穩定地達到博士水平,而這恰恰是通用智能的定義。事實上,我們和今天的聊天機器人互動時都會發現,只要換種方式提問,它們甚至會在高中數學或簡單計數這類問題上犯低級錯誤。這對於一個真正的AGI來說是不應該發生的。所以我認為,我們距離一個能做到上述所有事情的AGI,可能還有五到十年的時間。
另一個缺失的關鍵是持續學習,即系統能夠線上學習新知識或隨時調整自身行為的能力。我認為,許多這類核心能力目前仍然缺失。或許Scaling Law能幫助我們實現目標,但如果讓我預測的話,我認為我們可能還需要一到兩個關鍵的理論突破,而這大概需要未來五年左右的時間。
(關於模型性能趨同和提升放緩的說法)不,我們在內部並沒有看到這種情況,我們依然保持著極快的進步速度。而且,我們看待問題的視野也更廣。你可以看看我們的Genie、Veo等模型。
以Nano-Banana為例,這類先進的圖像生成工具不僅效果驚人,更重要的是其指令理解的精準性和結果的一致性,這是否意味著我們正在走向一個“創造力民主化”的未來,讓每個人都能輕鬆創作?在推動工具普及的同時,這些AI工具又將如何賦能頂尖的專業創作者?未來我們會進入一個完全個性化的娛樂世界,每個人都能即時生成自己想要的內容,還是社會仍然需要由創作者提供、供大家共同分享的文化產品?從文化角度看,我們是會各自沉浸在自己的虛擬世界,還是會繼續擁有共同的故事?
Demis Hassabis: Nano-Banana的效果簡直不可思議。我認為很多創意工具的未來就是這樣:你只需要憑感覺與它互動,或者直接和它對話就行了。而且它們的表現會足夠穩定,就拿Nano-Banana來說,它之所以如此出色,不僅在於它是頂級的、最先進的圖像生成器,更在於它的一致性。它能精準理解並執行你的指令,在你要求改變某個部分時,能保持其他所有元素不變。這樣你就可以通過不斷迭代,最終得到你想要的效果。
我認為這就是未來創意工具的形態,它指明了發展的方向,人們非常喜愛它,也樂於用它來創作。這實現了“創造力的民主化”,我認為這非常了不起。我記得小時候,為了學Photoshop,我得買很多書,照著書學習如何從圖像中移除物體、如何填充、如何羽化等複雜操作。現在,任何人用Nano-Banana都能做到,他們只需向軟體描述想讓它做什麼,它就能自動完成。
(關於賦能專業創作者)未來會出現兩個趨勢。一方面是這些創作工具的普及化,讓每個人都能輕鬆上手和創作,而不必像我們過去那樣去學習極其複雜的使用者體驗和使用者介面。但另一方面,我們也正在與頂尖的電影製作人、創意人士和藝術家合作,比如我的好朋友、著名導演Darren Aronofsky。他們正在幫助我們設計新一代的工具,告訴我們需要那些功能。他和他的團隊已經在使用Veo等工具來製作電影。通過觀察並與他們合作,我們獲益匪淺。我們發現,這些工具也極大地提升了頂尖專業人士的能力和效率。那些最優秀的專業創作者,他們的生產力突然之間可以提升10倍甚至100倍。他們可以低成本地嘗試腦海中各式各樣的創意,並最終創作出理想的作品。
所以我認為,這兩方面是平行不悖的。我們既在為普通使用者和YouTube博主們推動工具的普及,同時,在高端專業領域,情況也同樣如此。要用好這些工具,並獲得頂級輸出,並非人人都能做到,這本身也需要技巧,更需要頂尖創者的視野、敘事能力和獨特風格。我認為,這些工具讓他們如虎添翼,他們也非常享受這種能快速迭代創作過程的體驗。
(關於未來娛樂的形態)我確實預見到一個新世界的到來。我從90年代起就以遊戲設計師和程式設計師的身份入行,所以我經常思考這個問題。我認為我們正在見證的,正是娛樂行業未來的開端,它可能會催生一種全新的內容類型或藝術形式。在這種形式中,存在著一定程度的“共同創作”。我仍然相信,頂尖的、富有遠見的創作者依然會是核心,他們將創造出引人入勝的體驗和動態的故事情節,即便使用相同的工具,他們作品的質量也會遠超普通人。因此,未來可能會有數百萬人沉浸在這些大師建構的世界裡,但同時,他們或許也能參與到這個世界某些部分的共同創造中。而那位主要的創作者,其角色更像是一個世界的“主編”。這就是我預見的未來幾年可能發生的事,而且我也很想用Genie這樣的技術親自去探索這個方向。
能否介紹一下您負責的另一家公司Isomorphic及其在藥物發現領域的革新性工作?這些AI發現的候選藥物預計何時能進入臨床試驗階段?在技術層面,這項工作多大程度上需要開發新的模型架構,你們是如何將機率性模型與確定性模型相結合的?此外,關於AI的能源需求問題,您認為模型和硬體的進步能否有效降低能耗?最後,請您描繪一下十年後,在AI影響下的世界圖景。
Demis Hassabis: 當然可以。我還負責營運Isomorphic,這是我們基於AlphaFold在蛋白質摺疊領域的突破而分拆成立的一家公司,旨在徹底革新藥物發現的過程。當然,瞭解蛋白質的結構只是藥物發現的第一步。你可以將Isomorphic想像成一個平台,它正在建構一系列與AlphaFold功能銜接的系統,用於解決後續問題,例如設計出能夠精準結合蛋白質靶點又沒有副作用的化學分子。我認為在未來十年,我們有望將藥物發現所需的時間從數年甚至十年,縮短到幾周乃至幾天。
(關於進入臨床試驗的時間點)我們目前正在搭建這個平台,並與禮來(Eli Lilly)和諾華(Novartis)等頂尖藥企建立了良好的合作關係。此外,我們也有自己的內部藥物研發項目。我預計,我們將在明年某個時間點進入臨床前階段。我們將候選藥物交付給製藥公司,由他們接手推進後續的開發。我們目前正致力於癌症、免疫學和腫瘤學等領域的研究,並與MD Anderson癌症中心等機構合作。
(關於混合模型架構)這是個非常好的問題。實際上,至少在目前以及未來五年左右,我們建構的都是所謂的混合模型。AlphaFold本身就是一個混合模型。它有一個學習元件,也就是你提到的機率性部分,它基於神經網路和Transformer架構,從所有可用資料中進行學習。但與此同時,在生物和化學的許多場景中,我們並沒有足夠的資料來讓模型從零學起。因此,你還必須將一些已知的化學和物理規則內建到模型中。例如,在AlphaFold中,我們設定了原子間化學鍵的角度限制,並確保模型理解原子之間不能發生重疊等基本物理原則。理論上,模型或許也能自己學會這些,但這會極大浪費它的學習能力。因此,將這些規則作為硬性約束,效率會高得多。
現在,所有混合系統的難點都在於此——AlphaGo也是一個混合系統,它有一個學習圍棋棋局模式的神經網路,上層則是一個用於規劃的蒙特卡洛樹搜尋演算法。真正的挑戰在於,你如何將一個學習系統與一個更偏向人工設計的定製化系統完美地結合起來,並讓它們高效協同工作?這其實非常困難。我認為最終的目標是,當你通過混合系統驗證了某個元件的有效性之後,你應該想辦法將這個元件的能力整合、“反哺”到學習元件中去。因為,如果能實現端到端學習,直接從原始資料一步到位地預測出最終結果,那永遠是更好的方案。所以,一旦你通過某個混合系統取得進展,你就要回頭去反思,看看能否將這一成功經驗和知識,完全融入到學習系統本身。
(關於AI的能源需求問題)有趣的是,我認為這兩種趨勢是同時存在的。一方面,我們,尤其是在Google和DeepMind,極其注重提升模型的效率和性能,因為我們有大量的內部應用場景。例如,我們需要每天為全球數十億使用者提供AI Overviews服務,這就要求系統必須做到極致的高效、低延遲和低服務成本。為此,我們開創了許多技術,比如“蒸餾”,也就是用一個強大的內部大模型來訓練一個更小的模型,讓小模型模仿大模型的行為。如果你看過去兩年的進展,要達到同等性能,模型的效率已經提升了10倍,甚至100倍。
那麼,為什麼總需求沒有下降呢?因為我們離AGI還很遠。這意味著在不斷提升推理服務效率的同時,我們還希望在更大規模上訓練和試驗新的前沿模型。所以,這兩個方面的情況都是真實的。但最終,從能源的角度看,我認為AI系統對能源和氣候變化等領域的貢獻,將遠遠超過它自身的消耗。AI將在提升電網系統效率、設計新材料、發現新能源等方面發揮巨大作用。我相信,在未來十年,AI在這些領域的貢獻所帶來的價值,將遠遠超過它今天所消耗的能源。
(關於十年後的世界)在AI領域,十年太漫長了,有時十周就如同一個時代。但我確實認為,未來十年內我們將迎來真正的、完全的AGI。我認為,它的到來將開啟一個科學的全新黃金時代,一場新的文藝復興。屆時,我們將看到它為從能源到人類健康的各個領域帶來深遠的益處。 (數字開物)