從與現實難辨的AI視訊,到細緻到流水與倒影都符合物理的虛擬世界,再到會在推理中主動呼叫工具自我修正的模型——這並非科幻小說,而是DeepMind最新的AI工具,已經展現的驚人能力。
8月13日消息,GoogleDeepMind首席執行官德米斯・哈薩比斯(Demis Hassabis)近日做客播客節目《Release Notes》,全面闡述了DeepMind最新一系列技術突破背後的思路與戰略佈局,其中世界模型Genie 3的突破性進展成為核心亮點。
在這場深度對話中,他勾勒出一個令人振奮又充滿挑戰的AI新紀元:從AlphaGo征服圍棋,到Deep Think斬獲數學奧賽金牌;從生成逼真世界的Genie 3,到即將誕生的“全能模型”,我們正站在通向AGI的關鍵轉折點。然而,即便AI已能創造一個完整的虛擬宇宙,它依然可能在國際象棋中違規行棋,這種“參差型智能”的悖論,正揭示了人工智慧最深層的秘密。
哈薩比斯指出,“思考型模型” (the thinking models)是通向通用人工智慧(AGI)的必經之路;DeepMind的終極目標是推出融合語言、多媒體、物理推理與生成能力的全能模型(Omni Model),其核心支撐正是世界模型的持續進化,最終將實現全面且一致的智能表現,推動通用人工智慧(AGI)安全落地。
此次訪談由GoogleAI Studio產品負責人洛根・基爾帕特里克(Logan Kilpatrick)主持,以下為對話內容實錄:
基爾帕特里克:今天我們的嘉賓是GoogleDeepMind首席執行官德米斯·哈薩比斯。你好德米斯,感謝你的到來,很高興能一起聊聊我們在過去幾個月裡取得的大量發佈成果和進展。
哈薩比斯:你好,很高興來到這裡。
基爾帕特里克:我想先談談這種前所未有的進展勢頭。我看到DeepMind近期在不斷推出各種成果,包括Deep Think、IMO金牌、Genie 3,還有其他大約五十個項目,在過去兩個月內接連面世,快到讓人忘記它們的存在,因為一切都在飛速推進。我想聽聽你對這種進展與勢頭的總體看法。
哈薩比斯:是的,這種情形令人振奮。過去幾年,我們一直在積蓄力量,加快發佈和研發的節奏,如今正看到這些努力的結果。我認為這是行業一個非常令人興奮的時刻。幾乎每天都有新成果面世,我們團隊幾乎每天都在發佈新東西,即便是在內部,也很難跟上進度,更不用說整個領域了。看到這一切我非常自豪,也對我們近期的一些成果感到非常滿意。
基爾帕特里克:那你是如何看待 Deep Think 的呢?我個人最興奮的一點,是該模型的一個版本如今已向 Gemini 應用的訂閱使用者開放,讓大家能夠真正親手體驗。我覺得,這種一邊推進技術研發、一邊讓使用者直接上手的結合非常美妙。那麼,從 Deep Think 的角度來看,你會如何思考?
哈薩比斯:我認為,“思考型”模型的出現,可以看作是對我們早期遊戲 AI 工作的一種回溯,比如 AlphaGo 和 AlphaZero。自 DeepMind 成立以來,我們一直在研發“基於智能體的系統”。在早期,這意味著系統能夠完成一個完整的任務,通常是將遊戲玩到極致,因為遊戲有明確的目標。當時我們的模型是單一領域的遊戲模型,而如今我們擁有功能強大的多模態模型,既能處理語言,也能理解和整合其他資訊。
在遊戲AI中,我們需要在模型之上疊加“思考”或“規劃”的能力。這是通往 AGI 的必經之路。當模型具備思考能力,就可以進一步延展到“深度思考”,甚至實現平行規劃——也就是同時推演多條思路,然後擇優決策,進入下一步行動。
這一方向仍有廣闊的創新空間,但即便在“思考”這一部分,進展速度也非常快。無論是數學、程式設計、科學問題,還是遊戲,這類系統都必須具備思考與規劃能力,而不是簡單地給出腦海中閃現的第一個答案。思考型系統的核心價值,就是不斷修正和最佳化自身的推理過程。
基爾帕特里克:我之前看了《The Thinking Game》那部視訊,一邊觀看一邊做筆記,發現 DeepMind 團隊其實很早就踏上了這條道路,而且和你們當年用強化學習(RL)解決問題的過程有許多相似之處。比如,AlphaFold 曾面臨的資料瓶頸,就和我們現在在程式設計等領域缺乏專家資料的困境十分相似。這種情況,會讓你產生似曾相識的感覺嗎?
哈薩比斯:確實如此。我們很早就堅定選擇了強化學習,這是 2010 年我們做出的首批關鍵決策之一,與深度學習並列。當時的 Atari 項目,是第一個能真正完成有趣任務的深度強化學習系統——它能夠直接從螢幕像素中學習玩上世紀 70 年代的Atari遊戲,而且表現超過任何人類玩家。更重要的是,它能“開箱即用”地玩任何 Atari 遊戲,這種通用性證明了新技術具備規模化並行揮實際價值的潛力。
我個人從小下國際象棋時,就會思考如何最佳化自己的思維過程,這也促使我去研究神經科學,探索大腦的工作機制,並借助人工智慧這一強大的工具,將智慧凝結為數字形態。當然,現有系統在某些方面的表現已經非常出色,但在一些相對簡單的任務上仍有不足,比如高中數學、基礎邏輯,或者某些經過特殊設計的小遊戲。它們體現出一種“參差型智能”——在某些維度上表現驚人,但在另一些方面則很容易暴露弱點。
基爾帕特里克:那你是如何看待 Deep Think 的呢?我個人最興奮的一點,是該模型的一個版本如今已向 Gemini 應用的訂閱使用者開放,讓大家能夠真正親手體驗。我覺得,這種一邊推進技術研發、一邊讓使用者直接上手的結合非常美妙。那麼,從 Deep Think 的角度來看,你會如何思考?
哈薩比斯:我認為,“思考型”模型的出現,可以看作是對我們早期遊戲 AI 工作的一種回溯,比如 AlphaGo 和 AlphaZero。自 DeepMind 成立以來,我們一直在研發“基於智能體的系統”。在早期,這意味著系統能夠完成一個完整的任務,通常是將遊戲玩到極致,因為遊戲有明確的目標。當時我們的模型是單一領域的遊戲模型,而如今我們擁有功能強大的多模態模型,既能處理語言,也能理解和整合其他資訊。
在遊戲 AI 中,我們需要在模型之上疊加“思考”或“規劃”的能力。這是通往 AGI 的必經之路。當模型具備思考能力,就可以進一步延展到“深度思考”,甚至實現平行規劃——也就是同時推演多條思路,然後擇優決策,進入下一步行動。
這一方向仍有廣闊的創新空間,但即便在“思考”這一部分,進展速度也非常快。無論是數學、程式設計、科學問題,還是遊戲,這類系統都必須具備思考與規劃能力,而不是簡單地給出腦海中閃現的第一個答案。思考型系統的核心價值,就是不斷修正和最佳化自身的推理過程。
基爾帕特里克:許多人看了Genie 3的演示後感到震撼,有人甚至誇張地說“這是模擬理論的證據”。它確實和用遊戲推動強化學習發展有關。回顧Genie 3,你覺得結果和當初的預期一致嗎?我覺得,提升模型玩遊戲的能力,未必必然帶來如今的世界模型。
哈薩比斯:Genie 3彙集了多條研究路徑與想法。我們一直把棋類或電子遊戲作為挑戰環境,不僅用來推動演算法進步,也用來合成資料。我們會建構極為逼真的虛擬環境,用來訓練系統理解物理世界。
我們想要建構的世界模型,不僅要理解物理結構、材料特性、液體流動,還要理解生物和人類的行為,因為AGI必須理解物理世界,才能在其中運作。這對機器人至關重要,也對通用助理項目如Project Astra(Gemini Live)不可或缺。
驗證世界模型的一種方法,就是讓它生成與現實一致的虛擬世界,比如打開水龍頭會有水流出,鏡子裡會映出自己等等。Genie 3之所以驚人,就在於它生成的世界具有一致性。你轉身離開,再回頭,世界保持原樣。這說明它的底層物理理解相當出色。
基爾帕特里克:你認為使用者將如何使用 Genie?我們的目標是僅將它作為改進Gemini和其他機器人項目的工具,還是你覺得它本身還有更多用途?
哈薩比斯:它在多個維度上都令人興奮。首先,我們已經在用它進行訓練。例如,我們有一個名為SIMA(Simulated Agent,模擬智能體)的遊戲智能體,可以開箱即用地操作並玩一款現有的電腦遊戲。它有時表現不錯,有時不夠理想。
令人有趣的是,我們可以把SIMA放進Genie 3里,相當於一個AI在另一個AI的“腦海”中行動。SIMA會根據目標(比如找到房間裡的鑰匙)發出操作指令,而Genie 3則即時生成遊戲世界。這樣可以創造無限的訓練資料,對機器人訓練或AGI系統的通用訓練都有價值。
同時,它在互動娛樂領域也有巨大潛力。我有很多想法去打造下一代遊戲,甚至可能催生一種介於電影與遊戲之間的新型娛樂形式。
最後,從科學家的角度看,最有趣的是這能告訴我們關於現實世界、物理規律,甚至模擬理論的什麼資訊。當你在深夜生成整片虛擬世界時,你會不自覺地思考:現實世界的本質是什麼?這也是我整個職業生涯推動自己用AI服務科學的動力所在。我認為,像Veo 3和Genie 3這樣的模型,若換個角度觀察,能給我們關於現實本質的啟示。
基爾帕特里克:這正好能回到我們之前談到的“參差型智能”問題。一方面,我們已經有了能生成完整虛擬世界的驚人系統;另一方面,讓 Gemini下國際象棋,我可能都能贏它,而且有時它甚至會違反規則。我們最近宣佈了 DeepMind 與 Kaggle 合作推出“遊戲競技場”,讓模型在各種遊戲中對戰並接受測試。你怎麼看?
哈薩比斯:這反映了一個更普遍的問題——如今的系統(無論是 Gemini 還是競爭對手的模型)在很多方面都很強大:它們能從文字生成模擬世界,能理解視訊,能解數學題、做科研。然而,用過這些聊天機器人的人都知道,它們的能力邊界很容易被觸碰到。
在我看來,這種缺乏一致性,正是它們距離實現完全AGI還差的一步。一個普通人不應該如此輕易就能發現系統的低級缺陷。我們或許已經解決了過去那種“數 strawberry 裡的R”這種用於評估模型細節關注度的低級問題,但依然存在一些小學生都能輕鬆完成、而模型卻失敗的任務。這很可能是因為在推理、規劃、記憶等方面,仍然缺少關鍵性的創新。
此外,我們現有的評測基準中,很多已經接近飽和。比如在 AIME 數學測試上,Deep Think 最近的成績已經達到 99.2%,幾乎沒有提升空間,這甚至可能意味著測試本身已經失去區分力。因此,我們需要設計更新、更難、覆蓋面更廣的評測,用來考察模型的物理直覺、世界理解,以及安全性(比如防止欺騙行為)。
我對“遊戲競技場”非常期待,因為它延續了我們最初做遊戲 AI 的初衷。遊戲是乾淨的測試環境,有客觀分數,沒有人為主觀打分;它們會隨著系統能力的提升自動增加難度,還可以不斷引入更複雜的遊戲。未來甚至能讓 AI 自創新遊戲、彼此對戰學習,從而避免資料洩露或過擬合。這種多智能體環境將成為長期有效的重要評測基準之一。
基爾帕特里克:我過去兩年的感悟是,生活中的許多問題,本質上都是一種評測。工作表現是一種評測,你看待事物的方式也是評測。在遊戲領域,我們有明確的約束條件和客觀的結果,但一旦擴展到非遊戲領域,“真值”就很難定義。比如,在人類日常任務中,如何建構強化學習環境?你覺得在非遊戲環境中,我們該怎麼捕捉這些特徵?
哈薩比斯:如何定義獎勵函數或目標函數,一直是強化學習在真實且混亂的環境中面臨的最大挑戰。現實世界中,並不存在單一的目標函數,而是多個目標並存,而且這些目標的權重會隨著情緒、環境、職業階段等因素不斷變化。
我認為,未來的通用系統必須學會理解使用者的真實意圖,並將其轉化為一組可最佳化的獎勵函數。這涉及元認知或“元強化學習”(meta-RL)的研究——在主要系統之上再建立一個系統,用來推測主要系統的最優目標函數。這類研究在十年前的 AlphaGo、AlphaZero 遊戲階段我們就已經開始嘗試,如今很可能會再次成為研究重點。
基爾帕特里克:我覺得我們應該現在就著手,因為感覺 DeepMind 十年前做的事,正好就是今天大家追趕的前沿。回到“思考趨勢”和“遊戲趨勢”,我們歷史上經歷了多種模型擴展路徑——預訓練、後訓練、資料擴展、算力擴展,後來又有了推理擴展,比如 Deep Think 就得益於推理能力的提升。現在似乎“工具”成了新的擴展維度。你覺得,給模型配備物理模擬器作為工具,會是未來的方向之一嗎?
哈薩比斯:工具使用是 AI 系統最重要的能力之一。思考型系統的核心在於,它能在思考過程中主動呼叫工具,比如搜尋引擎、數學程序、程式設計環境,然後基於工具提供的結果調整規劃。
有趣的是,那些能力應當放進主模型(即“主腦”),那些應當作為外部工具,這在數字系統中並不像在人類身上那麼清晰。對於人類來說,不屬於身體的就是工具;但在 AI 中,這條界限很模糊。
比如,下棋能力是直接內建在主模型中,還是呼叫 Stockfish 或 AlphaZero 作為外部工具?經驗表明,如果某項能力(如數學、程式設計)能提升整體推理水平,就應該放入主模型;但如果它可能削弱模型的其他通用能力,則更適合作為外部工具。這完全是一個經驗性問題,需要在實踐中不斷試驗和驗證。
基爾帕特里克:很多開發者現在都會問,模型已經不再是過去那種靜態的權重,而是在推理過程中能呼叫各種工具,功能越來越像一個完整的系統。這正在改變人們建構應用的方式。你怎麼看這種從“模型”到“系統”的轉變?對開發者有什麼建議?
哈薩比斯:模型的進化速度非常快,尤其是當工具能力與規劃、思考能力結合後,其潛力可能呈指數級擴張,因為它們可以用全新的方式組合使用工具。
我建議開發者多思考:那些工具對 AI 的能力最有價值?然後著手建構這些工具。即便有了工具呼叫和智能體能力,這些系統本身還不是成品,它們依然需要大量的產品化工作。產品經理和設計師面臨的挑戰,是必須預判一年後的技術狀態,並為那個未來去設計產品,同時允許底層引擎在 3 到 6 個月,甚至更短的周期內進行一次重大更新。
基爾帕特里克:現在感覺幾乎是每兩周就有一次更新。
哈薩比斯:確實是這種節奏,而且短期內不會改變。未來整個網路生態和應用的運作方式,都將因為智能體系統能夠靈活使用工具而發生深刻變化。
基爾帕特里克:Genie 3 的進展令人震撼,很多人都迫不及待想親手體驗。我希望能盡快讓更多使用者用上它。從世界模型和 Genie 的角度看,下一步是什麼?
哈薩比斯:我們正在努力提升 Genie 的運行效率,好讓更多使用者盡快體驗。目前它還處於有限預覽階段。我們也在思考最佳的發佈方式,希望使用者能夠分享自己創作的世界,互相體驗、投票,從而形成一個活躍的社區。
但有一個關鍵問題是,如何保持世界生成的一致性——當某個提示生成了一個極具吸引力的世界,我們怎樣確保後來者也能復現它?這是我們正在攻關的技術挑戰之一。
更長遠來看,Genie、Veo、Gemini 這些目前相對獨立的模型,正逐漸走向融合,形成我們所謂的“全能模型”(Omni Model)。它既能處理語言、多媒體,又能進行物理推理和內容生成,這才是 AGI 應該具備的綜合能力。
基爾帕特里克:我們之前還開玩笑說,Genie 是我們製作和玩遊戲的絕佳藉口。
哈薩比斯:沒錯。
基爾帕特里克:這樣 DeepMind 就成了一家遊戲公司了。
哈薩比斯:這是我的秘密計畫。等 AGI 安全落地之後,我就會用這些工具去製作史上最偉大的遊戲——那將是我的夢想成真。
基爾帕特里克:會是終極版的《主題公園》嗎?
哈薩比斯:也許吧,不過我還有更宏大的遊戲創意。
基爾帕特里克:我們在 AI Studio 裡做了很多“氛圍程式設計”功能,如果一切順利,你在 AGI 誕生前就可以不斷拋出這些創意,自己打造一個“德米斯遊戲競技場”。
哈薩比斯:這已經在我的高優先順序待辦清單上了。
基爾帕特里克:前段時間我們慶祝每月處理 980 兆個 token,如今已經突破千兆(quadrillion)大關,我們還特地為你準備了一個紀念品。
哈薩比斯:謝謝,這真是太棒了。
基爾帕特里克:我們還會做一些其他版本。
哈薩比斯:非常感謝。
基爾帕特里克:今天非常感謝你抽出時間做客,也感謝你和 DeepMind 團隊為未來所付出的努力與深夜的思考。這次訪談很愉快。
哈薩比斯:我也很高興能和你交流,謝謝。 (騰訊科技)