#Genie
AI還不具備真正的創造力 | DeepMind CEO,All-In Summit
近日,在美國All-In AI峰會上,Google DeepMind首席執行官、新晉諾貝爾獎得主Demis Hassabis接受了一場深度對話。本次圓桌對話全面探討了AI的前沿進展與未來圖景,話題涵蓋了從顛覆性的可互動世界模型Genie,到AI在機器人、科學發現、藥物研發領域的革命性應用,再到對AGI實現路徑。Demis Hassabis詳細闡述了Genie模型如何通過“逆向工程”學習並生成物理世界,顛覆了傳統3D渲染引擎的底層邏輯,更提出了未來娛樂形態將是頂尖創作者主導下的“共同創作”模式。此外,Demis Hassabis駁斥了當前AI系統已達“博士級智能”的說法,稱之為“無稽之談”,並犀利地指出其在穩定性和真正的通用性上仍有根本性缺陷。同時,他也對AI性能提升趨於停滯的觀點予以否認,認為在更廣闊的多模態領域,進步速度依然驚人。01 諾獎榮耀與Google的AI引擎室您在得知獲得諾貝爾獎時身在何處,又是如何得知的?DeepMind在龐大的Alphabet組織中扮演著怎樣的角色,您的具體職責是什麼?以及您的團隊規模有多大,人員構成是怎樣的,其中科學家和工程師的比例如何?Demis Hassabis: 那是一個非常奇妙的時刻。關於它的一切都感覺不真實,包括他們通知你的方式。他們會在全球直播前大約10分鐘才告訴你。當你接到來自瑞典的電話時,你真的會感到有些不知所措。那是每一位科學家都夢寐以求的電話。接下來的頒獎典禮,是在瑞典與王室成員共度一整周。那感覺太棒了,畢竟這項傳統已經延續了120年。而最不可思議的部分,是他們會從保險庫中取出諾貝爾獎的簽名冊,讓你在所有前輩偉人的名字旁邊簽下自己的名字。所以,當翻閱著冊子,看到Feynman、Marie Curie、Einstein和Niels Bohr等等這些名字,一頁頁地回溯歷史,然後將自己的名字也寫進那本冊子裡,那真是一個令人難以置信的瞬間。(關於是否預感會獲獎)你會聽到一些傳聞。但在當今這個時代,他們還能把消息封鎖得如此之好,確實令人驚嘆。諾貝爾獎對瑞典來說就像是國寶一樣。所以你會聽到一些說法,比如 AlphaFold 的成就或許值得這份殊榮。而且,他們不僅看重科學突破本身,也看重其在真實世界中產生的影響。而這種影響力的顯現,有時需要二三十年。所以,你永遠無法確定獲獎的時刻是否會到來,會在何時到來。因此,這確實是一個驚喜。(關於DeepMind在Alphabet中的角色)我們現在將 DeepMind,或者說合併後的 Google DeepMind,視為整個 Google 和 Alphabet 的核心引擎室。幾年前,我們將 Google 和 Alphabet 內部所有不同的人工智慧項目,包括 DeepMind,都整合到了一起,成立了一個新的部門,彙集了各個團隊的優勢。我現在通常這樣描述我們的角色:我們是整個 Google 和 Alphabet 的動力之源。我們建構的核心模型 Gemini,以及許多其他模型,比如視訊模型和互動式世界模型,現在都已接入 Google 的各個體系中。可以說,幾乎每一款產品、每一個使用者介面,背後都有我們 AI 模型的支援。如今,無論是通過 AI Overview、AI 模式還是 Gemini 應用,已有數十億使用者在與 Gemini 模型進行互動。而這僅僅是一個開始。我們正逐步將其融入 Workspace、Gmail 等產品中。所以,這對於我們來說是一個絕佳的機會,既能進行最前沿的研究,又能立刻將成果交付給數十億使用者。(關於團隊構成)我負責的 Google DeepMind 部門大約有5000人。其中,我估計超過80%是工程師和擁有博士學位的研究人員。所以,這個數字大約在三四千人。02 AI正在對我們世界的直觀物理學進行逆向工程你們前發佈一款名為Genie的世界模型,它具體是什麼?其是它與傳統3D渲染引擎有何根本不同?從長遠來看,當這類模型發展到更高階段,例如第五代時,它將引領我們走向何方,其最終的應用目標又是什麼?Demis Hassabis: 它非常驚豔。大家現在看到的所有視訊和可互動世界,實際上都是由 AI 生成的。你可以看到有人在實際控制畫面,它不是一段靜態視訊,而是完全由文字提示生成。然後,人們就可以用方向鍵和空格鍵來控制這個三維環境。所以,你在這裡看到的每一個像素都是即時生成的。在玩家或互動者到達世界的某個區域之前,那個區域是不存在的。這些豐富的細節隨後會展現出來,這個畫面是完全生成的,不是真實視訊。它生成了一個人正在粉刷自己房間的場景,在牆上塗鴉。接著,玩家會向右看,然後再看回來。世界的這個部分剛才還不存在,現在它被創造出來了。當玩家回頭看時,又能看到自己剛才留下的塗鴉痕跡。我再強調一次,你看到的每一個像素都是完全由 AI 生成的。你還可以輸入“穿著小雞服裝的人”或“一輛水上摩托艇”,模型會即時將這些元素加入到場景中。這真的相當令人震撼。(關於與3D引擎的不同)這個模型實際上是在對我們世界中的直觀物理學進行逆向工程。它觀看了數百萬個關於我們世界的視訊,包括YouTube視訊等,並僅從這些視覺資訊中,就反向推匯出了世界運行的大部分規律。它目前還不完美,但已經能作為使用者,在許許多多不同的世界裡,生成一到兩分鐘連貫的互動體驗。在後面的演示中,你還可以控制沙灘上的一隻狗,或者一隻水母,所以它的能力不侷限於和人類相關的場景。它通過觀看視訊和一些來自遊戲引擎的合成資料進行訓練,並自己完成了逆向工程。這個項目對我個人而言意義非凡,同時也讓我感到非常震撼。因為在90年代,我職業生涯早期曾為視訊遊戲編寫過AI和圖形引擎。我至今還記得,當時要手動編寫所有多邊形和物理引擎是多麼困難。而現在看到Genie毫不費力地就實現了這一切,水面的反射、材質的流動方式、物體的行為等等,全都自然天成,這實在是太神奇了。(關於模型的未來方向)我們之所以建構這類模型,是因為我們始終認為,儘管我們像其他團隊一樣,在Gemini這樣的大語言模型上不斷取得進展,但從一開始,我們就希望Gemini是一個多模態模型。我們希望它能接收任何類型的輸入,無論是圖像、音訊還是視訊,並且能輸出任何內容。我們對此非常感興趣,因為要讓AI實現真正的通用,要建構AGI,我們認為AGI系統必須能夠理解我們周圍的物理世界,而不僅僅是語言或數學等抽象世界。當然,這對於機器人技術的發展也至關重要,這可能正是當前機器人技術所缺失的環節。同樣的道理也適用於智能眼鏡這類裝置,一個能在日常生活中為你提供幫助的智能眼鏡助手,必須能夠理解你所處的物理環境,以及我們世界中直觀物理學的運作方式。因此,我們認為,建構像Genie這樣的模型,以及我們最好的文字到視訊模型Veo,都是我們建構世界模型的具體體現。這些模型能夠理解世界的動態和物理規律。如果你的系統能夠生成一個世界,那就證明它已經理解了那個世界的運行法則。03 AGI系統必須能夠理解我們周圍的物理世界Genie這類世界模型最終是否會通往機器人領域?能否介紹一下當前視覺-語言-行動模型的最新進展是怎樣的?一個能夠通過攝影機觀察世界,通過自然語言接收指令,並據此在物理世界中執行相應動作的通用系統,目前發展到了什麼階段?Demis Hassabis: 完全正確。如果你體驗一下Gemini的Gemini Live版本,將手機攝影機對準你周圍的世界,你會發現它對物理世界的理解已經達到了一種近乎神奇的程度。你可以將下一步想像為,把這種能力整合到像眼鏡這樣更便攜的裝置中。到那時,它就會成為一個日常助手,可以在你逛街時為你推薦事物,或者我們可以將它嵌入到Google地圖中。在機器人領域,我們建構了名為“Gemini機器人模型”的系統,這可以看作是在Gemini的基礎上,用額外的機器人資料進行微調後的版本。這個項目最酷的一點,也是我們今年夏天通過一些演示所展示的,是我們設定了一些桌面場景,有兩隻機械臂在桌面上與物體互動,你可以直接和機器人對話。比如,你可以說“把黃色的物體放進紅色的桶裡”,它就能理解這條語言指令,並將其轉化為具體的機械動作。這就是多模態模型相比於純粹的機器人專用模型所具備的強大之處,它能夠將對真實世界的理解融入到與你的互動中。所以最終,這種模型既能提供你所需要的使用者介面體驗,也能賦予機器人安全探索世界所必需的理解力。04 “機器人Android系統”與人形設計的價值是否意味著你們最終能夠打造出一種通用機器人領域的“Android”系統,一個能夠賦能大量機器人裝置和公司的底層作業系統?您認為人形是機器人一種好的外形設計嗎,這種形態在現實世界中是否有其存在的意義?對於未來五到七年,您預計機器人的普及規模會達到何種量級,是成千上萬,還是數百萬甚至上億?Demis Hassabis:這當然是我們正在追求的策略之一,可以稱之為一種“Android模式”,即為整個機器人領域提供一個近乎作業系統的底層。但除此之外,還有一些非常有趣的方向,比如將我們最新的模型與特定的機器人類型和設計進行垂直整合,並進行某種端到端的學習。所以,這兩種策略都非常有前景,我們也在同時推進。(關於人形設計的價值)我認為未來這兩者都會有市場。實際上,大概在五到十年前,我的看法是,我們會為不同的任務設計特定形態的機器人。而且我認為在工業領域,工業機器人肯定會是這樣,你可以根據具體任務來最佳化機器人的形態,無論是在實驗室還是在生產線上,你需要的機器人類型都會大相逕庭。但另一方面,對於通用或個人使用的機器人,要讓它們與我們的日常生活環境互動,人形形態可能就非常重要了。因為,我們身邊的物理世界顯然是圍繞人類的需求來設計的。比如台階、門廊,所有這些都是為我們自己設計的。與其去改造現實世界中的這一切,設計出一種能與我們現有世界無縫協作的機器人形態,可能會是更容易的方案。所以我認為,有充分的理由相信,對於這類任務,人形形態可能至關重要。當然,我也認為,特種形態的機器人同樣會有一席之地。(關於機器人普及的時間和規模)我確實有,並且在這個問題上思考了很久。我感覺,我們在機器人技術領域仍處於比較早期的階段。我相信在未來幾年內,機器人領域會出現一個真正令人驚嘆的“高光時刻”。但我認為,演算法還需要進一步發展。這些機器人模型所依賴的通用模型,需要變得更強大、更可靠,需要更好地理解周圍的世界。我相信這在未來幾年內能夠實現。此外,在硬體方面,關鍵問題在於,我認為我們最終會擁有數百萬台機器人來服務社會、提高生產力。但關鍵在於,當你和硬體專家交流時,他們會問:硬體發展到那個節點,才算達到了適合大規模量產的水平?因為一旦你開始投資建廠,準備生產成千上萬台特定型號的機器人,再想快速迭代更新機器人設計就變得非常困難了。所以這是一個時機問題,如果你過早地決定量產,可能六個月後就會出現一款更可靠、更出色、更靈巧的下一代機器人。如果用電腦領域的發展來類比,我們當前所處的階段,是不是有點像上世紀70年代,PC-DOS系統剛剛出現的那個時期?有這個可能。或許我們確實處於類似的早期階段,但關鍵區別在於發展的速度。我們現在用一年時間就走完了過去十年的路,所以必須進行快速迭代。可以說,現在的一年,就相當於過去的十年。05 如今的AI還不具備真正的創造力在科學領域,AI有那些最讓您感到興奮的應用前景和潛在突破,我們還需要什麼樣的模型才能實現這些突破?當前AI在科學發現的能力上還缺失那些關鍵環節?另外,從人類的角度來看,您如何定義“創造力”這一概念?Demis Hassabis: 利用AI加速科學發現並助力人類健康等事業,正是我為AI奮鬥終生的原因。我認為這是AI最重要的使命。我相信,如果我們能以正確的方式建構AGI,它將成為推動科學發展的終極工具。在DeepMind,我們的工作正是在不斷為此開闢道路。其中最著名的當然是AlphaFold,但實際上,我們已經將AI系統應用於眾多科學領域,例如材料設計、輔助控制核聚變反應堆中的電漿體、天氣預測以及解答奧數難題。這些複雜的難題,基本上用同類型的系統,再經過一些額外的微調就能解決。所以我認為,我們目前對AI潛力的探索還僅僅是冰山一角,還有很多能力尚待開發。在我看來,如今的AI還不具備真正的創造力,因為它還無法提出新的科學猜想或假設。它或許可以證明你給定的命題,但無法自己構想出全新的想法或理論。因此,我認為這恰恰是檢驗AGI的標準之一。(關於創造力的定義)我認為創造力是我們常在歷史上最傑出的科學家和藝術家身上所推崇的那種直覺的飛躍。它或許源於類比或類比推理。關於我們人類科學家如何實現這一點,心理學和神經科學領域有許多理論。但一個很好的測試方法是,給一個現代AI系統設定1901年的知識截止點,看它能否像愛因斯坦在1905年那樣提出狹義相對論。如果它做到了,那就意味著我們觸及到了非常本質的東西,或許就離AGI不遠了。另一個例子是我們的AlphaGo程序,它曾擊敗世界圍棋冠軍。它不僅贏得了比賽,還為圍棋這項運動開創了前所未有的新策略,比如在第二局下出的著名的第37手,如今已成為棋界研究的經典。但是,一個AI系統能否創造出一款像圍棋這樣優雅、精妙、富有美感的遊戲,而不僅僅是發明一種新策略呢?目前來看,答案是否定的。所以我認為,這正是真正的通用系統,也就是AGI系統所缺失的能力之一,它理應也具備這些能力。06 “博士級智能”是無稽之談很多人認為AGI將在幾年內實現,您似乎不完全認同這個觀點。能否從系統架構的理解出發,具體分析一下當前實現AGI還缺少那些關鍵環節,瓶頸究竟在那裡?與此同時,有報告和評估體係指出,大語言模型的性能正在趨同,且每一代模型性能的提升速度似乎在放緩,您認為這個說法基本屬實嗎?Demis Hassabis: 我認為這裡的根本問題在於,我們能否模仿最頂尖人類科學家所能實現的那種直覺飛躍,而不僅僅是漸進式的提升。我常說,一個偉大的科學家與一個優秀的科學家之間的區別在於,儘管兩者都具備很強的技術能力,但偉大的科學家更具創造力。他們或許能從另一個學科領域發現某種模式,並將其通過類比或模式匹配應用到自己正在研究的問題上。我相信AI終有一天能做到這一點,但目前它還不具備實現這種突破所必需的推理能力和某些思維能力。我還認為,我們目前缺乏穩定性。你常聽到我們的一些競爭對手說,現在的這些是“博士級智能”。我認為這種說法是無稽之恩。它們不是博士級智能。它們或許在某些方面具備博士水準的能力,但遠非在所有領域都能穩定地達到博士水平,而這恰恰是通用智能的定義。事實上,我們和今天的聊天機器人互動時都會發現,只要換種方式提問,它們甚至會在高中數學或簡單計數這類問題上犯低級錯誤。這對於一個真正的AGI來說是不應該發生的。所以我認為,我們距離一個能做到上述所有事情的AGI,可能還有五到十年的時間。另一個缺失的關鍵是持續學習,即系統能夠線上學習新知識或隨時調整自身行為的能力。我認為,許多這類核心能力目前仍然缺失。或許Scaling Law能幫助我們實現目標,但如果讓我預測的話,我認為我們可能還需要一到兩個關鍵的理論突破,而這大概需要未來五年左右的時間。(關於模型性能趨同和提升放緩的說法)不,我們在內部並沒有看到這種情況,我們依然保持著極快的進步速度。而且,我們看待問題的視野也更廣。你可以看看我們的Genie、Veo等模型。07 AI創作的兩個趨勢以Nano-Banana為例,這類先進的圖像生成工具不僅效果驚人,更重要的是其指令理解的精準性和結果的一致性,這是否意味著我們正在走向一個“創造力民主化”的未來,讓每個人都能輕鬆創作?在推動工具普及的同時,這些AI工具又將如何賦能頂尖的專業創作者?未來我們會進入一個完全個性化的娛樂世界,每個人都能即時生成自己想要的內容,還是社會仍然需要由創作者提供、供大家共同分享的文化產品?從文化角度看,我們是會各自沉浸在自己的虛擬世界,還是會繼續擁有共同的故事?Demis Hassabis: Nano-Banana的效果簡直不可思議。我認為很多創意工具的未來就是這樣:你只需要憑感覺與它互動,或者直接和它對話就行了。而且它們的表現會足夠穩定,就拿Nano-Banana來說,它之所以如此出色,不僅在於它是頂級的、最先進的圖像生成器,更在於它的一致性。它能精準理解並執行你的指令,在你要求改變某個部分時,能保持其他所有元素不變。這樣你就可以通過不斷迭代,最終得到你想要的效果。我認為這就是未來創意工具的形態,它指明了發展的方向,人們非常喜愛它,也樂於用它來創作。這實現了“創造力的民主化”,我認為這非常了不起。我記得小時候,為了學Photoshop,我得買很多書,照著書學習如何從圖像中移除物體、如何填充、如何羽化等複雜操作。現在,任何人用Nano-Banana都能做到,他們只需向軟體描述想讓它做什麼,它就能自動完成。(關於賦能專業創作者)未來會出現兩個趨勢。一方面是這些創作工具的普及化,讓每個人都能輕鬆上手和創作,而不必像我們過去那樣去學習極其複雜的使用者體驗和使用者介面。但另一方面,我們也正在與頂尖的電影製作人、創意人士和藝術家合作,比如我的好朋友、著名導演Darren Aronofsky。他們正在幫助我們設計新一代的工具,告訴我們需要那些功能。他和他的團隊已經在使用Veo等工具來製作電影。通過觀察並與他們合作,我們獲益匪淺。我們發現,這些工具也極大地提升了頂尖專業人士的能力和效率。那些最優秀的專業創作者,他們的生產力突然之間可以提升10倍甚至100倍。他們可以低成本地嘗試腦海中各式各樣的創意,並最終創作出理想的作品。所以我認為,這兩方面是平行不悖的。我們既在為普通使用者和YouTube博主們推動工具的普及,同時,在高端專業領域,情況也同樣如此。要用好這些工具,並獲得頂級輸出,並非人人都能做到,這本身也需要技巧,更需要頂尖創者的視野、敘事能力和獨特風格。我認為,這些工具讓他們如虎添翼,他們也非常享受這種能快速迭代創作過程的體驗。(關於未來娛樂的形態)我確實預見到一個新世界的到來。我從90年代起就以遊戲設計師和程式設計師的身份入行,所以我經常思考這個問題。我認為我們正在見證的,正是娛樂行業未來的開端,它可能會催生一種全新的內容類型或藝術形式。在這種形式中,存在著一定程度的“共同創作”。我仍然相信,頂尖的、富有遠見的創作者依然會是核心,他們將創造出引人入勝的體驗和動態的故事情節,即便使用相同的工具,他們作品的質量也會遠超普通人。因此,未來可能會有數百萬人沉浸在這些大師建構的世界裡,但同時,他們或許也能參與到這個世界某些部分的共同創造中。而那位主要的創作者,其角色更像是一個世界的“主編”。這就是我預見的未來幾年可能發生的事,而且我也很想用Genie這樣的技術親自去探索這個方向。08 AI的能源挑戰能否介紹一下您負責的另一家公司Isomorphic及其在藥物發現領域的革新性工作?這些AI發現的候選藥物預計何時能進入臨床試驗階段?在技術層面,這項工作多大程度上需要開發新的模型架構,你們是如何將機率性模型與確定性模型相結合的?此外,關於AI的能源需求問題,您認為模型和硬體的進步能否有效降低能耗?最後,請您描繪一下十年後,在AI影響下的世界圖景。Demis Hassabis: 當然可以。我還負責營運Isomorphic,這是我們基於AlphaFold在蛋白質摺疊領域的突破而分拆成立的一家公司,旨在徹底革新藥物發現的過程。當然,瞭解蛋白質的結構只是藥物發現的第一步。你可以將Isomorphic想像成一個平台,它正在建構一系列與AlphaFold功能銜接的系統,用於解決後續問題,例如設計出能夠精準結合蛋白質靶點又沒有副作用的化學分子。我認為在未來十年,我們有望將藥物發現所需的時間從數年甚至十年,縮短到幾周乃至幾天。(關於進入臨床試驗的時間點)我們目前正在搭建這個平台,並與禮來(Eli Lilly)和諾華(Novartis)等頂尖藥企建立了良好的合作關係。此外,我們也有自己的內部藥物研發項目。我預計,我們將在明年某個時間點進入臨床前階段。我們將候選藥物交付給製藥公司,由他們接手推進後續的開發。我們目前正致力於癌症、免疫學和腫瘤學等領域的研究,並與MD Anderson癌症中心等機構合作。(關於混合模型架構)這是個非常好的問題。實際上,至少在目前以及未來五年左右,我們建構的都是所謂的混合模型。AlphaFold本身就是一個混合模型。它有一個學習元件,也就是你提到的機率性部分,它基於神經網路和Transformer架構,從所有可用資料中進行學習。但與此同時,在生物和化學的許多場景中,我們並沒有足夠的資料來讓模型從零學起。因此,你還必須將一些已知的化學和物理規則內建到模型中。例如,在AlphaFold中,我們設定了原子間化學鍵的角度限制,並確保模型理解原子之間不能發生重疊等基本物理原則。理論上,模型或許也能自己學會這些,但這會極大浪費它的學習能力。因此,將這些規則作為硬性約束,效率會高得多。現在,所有混合系統的難點都在於此——AlphaGo也是一個混合系統,它有一個學習圍棋棋局模式的神經網路,上層則是一個用於規劃的蒙特卡洛樹搜尋演算法。真正的挑戰在於,你如何將一個學習系統與一個更偏向人工設計的定製化系統完美地結合起來,並讓它們高效協同工作?這其實非常困難。我認為最終的目標是,當你通過混合系統驗證了某個元件的有效性之後,你應該想辦法將這個元件的能力整合、“反哺”到學習元件中去。因為,如果能實現端到端學習,直接從原始資料一步到位地預測出最終結果,那永遠是更好的方案。所以,一旦你通過某個混合系統取得進展,你就要回頭去反思,看看能否將這一成功經驗和知識,完全融入到學習系統本身。(關於AI的能源需求問題)有趣的是,我認為這兩種趨勢是同時存在的。一方面,我們,尤其是在Google和DeepMind,極其注重提升模型的效率和性能,因為我們有大量的內部應用場景。例如,我們需要每天為全球數十億使用者提供AI Overviews服務,這就要求系統必須做到極致的高效、低延遲和低服務成本。為此,我們開創了許多技術,比如“蒸餾”,也就是用一個強大的內部大模型來訓練一個更小的模型,讓小模型模仿大模型的行為。如果你看過去兩年的進展,要達到同等性能,模型的效率已經提升了10倍,甚至100倍。那麼,為什麼總需求沒有下降呢?因為我們離AGI還很遠。這意味著在不斷提升推理服務效率的同時,我們還希望在更大規模上訓練和試驗新的前沿模型。所以,這兩個方面的情況都是真實的。但最終,從能源的角度看,我認為AI系統對能源和氣候變化等領域的貢獻,將遠遠超過它自身的消耗。AI將在提升電網系統效率、設計新材料、發現新能源等方面發揮巨大作用。我相信,在未來十年,AI在這些領域的貢獻所帶來的價值,將遠遠超過它今天所消耗的能源。(關於十年後的世界)在AI領域,十年太漫長了,有時十周就如同一個時代。但我確實認為,未來十年內我們將迎來真正的、完全的AGI。我認為,它的到來將開啟一個科學的全新黃金時代,一場新的文藝復興。屆時,我們將看到它為從能源到人類健康的各個領域帶來深遠的益處。 (數字開物)
剛剛!Google內部揭秘Genie 3:Sora後最強AI爆款,開啟世界模型新時代
【新智元導讀】Genie 3來了!這或許是最接近「模擬世界」的AI魔法。只需一句話,它就能生成一個動態、可互動的世界——角色能互動、下水會濺起水花,甚至還能記住一分鐘前的細節。DeepMind研究者直言:Genie 3是通向AGI的關鍵一步。Genie 3是有史以來最先進的世界模型之一。僅通過文字,它能夠即時生成完全互動、高度一致的世界。它不僅是DeepMind積累的結晶,還是通向AGI和具身智能體的關鍵一步。但Genie 3是如何建構的?未來的世界模型又是什麼樣?剛剛,GoogleDeepMind的研究科學家Jack Parker-Holder和研究總監Shlomi Fruchter,在a16z的訪談中,分享了他們的觀點。這次對話提供了對Genie 3的第一手洞察。主持人Justine Moore發推表示:「Genie 3在網路上引發熱潮」。他總結了深入探討的要點:Genie3是由兩個DeepMind項目(Veo 2和Genie 2)合作完成的成果。即時、互動的世界模型有很多潛在應用。但應用並不是推動研究的主要動力——它們是從使用者使用模型的過程中自然湧現出來的。Genie 3可以保留最長達一分鐘的空間記憶。物理規律是模型的「自然產物」,並會隨著訓練資料的規模和深度而不斷提升。目前還沒有一個「終極模型」能夠同時具備Veo 3和Genie 3的所有能力。Genie 3:AI新魔法如果說LLM的原生圖像編輯功能,「動動嘴PS」是「言出法隨」,那Genie 3這次的新特性叫什麼?只需輸入文字提示,Genie 3即可生成動態世界。使用者可以即時進行探索,每秒高達24幀,解析度為720p。十多年來,GoogleDeepMind一直致力於模擬環境的研究。Genie 3是他們最新最強的「世界模型」,是通向通用人工智慧(AGI)的關鍵一步,因為它能讓AI智能體在無限豐富的模擬環境中進行訓練。去年,他們推出了首批基礎世界模型Genie 1和Genie 2,它們能為智能體生成全新的環境。此外,他們還通過Veo 2和Veo 3等視訊生成模型,不斷提升對直觀物理的理解能力。這些模型在世界模擬的不同能力上都取得了進展。Genie 3是Google首個支援即時互動的世界模型,同時提升了一致性和真實感。在生成視訊時長、世界一致性、內容的多樣性、特殊記憶等多個方面,Genie 3都實現了突破。它甚至可以讓個人創造自己的遊戲世界、訓練強化學習的智能體、機器人研究等。所有這些應用基本上都源於一個核心能力:只用幾句話就能生成一個完整的世界。最關鍵的新特性是:特殊記憶。比如:一個角色拿著刷子在牆上刷漆,然後他移動到牆的另一邊去刷,接著又回到原來的位置,結果之前刷的痕跡還在。特殊記憶(special memory)是DeepMind團隊有意設計的目標,但最終的效果好得出乎意料。即便是參與Genie 3的內部成員,第一次看到上面刷牆的示例時也不敢相信,需要再三觀看、逐幀檢查,才確定這真的是模型生成的。Genie 3的一致性非常高:建築物左側的樹木在整個互動過程中始終保持一致,即使它們時而進入視野時而消失其實,Genie 2就已經具備了一些「記憶能力」。但當時,整個AI界太多令人激動的模型發佈,比如Veo 2模型幾天後也發佈了。而且,當時Google主打的賣點是「可以生成新的世界」,所以記憶能力就沒被強調出來。到了Genie 3,在「記憶」上,GoogleDeepMind下了更大的決心,明確地把「增強記憶能力」作為核心目標之一。當時設定的目標是:超過一分鐘的記憶、支援「即時生成」、還能提升「解析度」。其實,這幾個目標本身是互相矛盾的,但Google無所畏懼。說實話,直到項目快結束時,在看到最終樣本的那一刻,他們依然感到震撼。這種成果即使是預期中的,真的實現的時候還是非常令人興奮。畢竟,研究項目永遠不會有百分百的確定性。在設計上,他們還有一個明確的方向,就是不採用「顯式表示法」。市面上已有一些方法,比如用NeRF或Gaussian Splatting等技術,通過建構明確的3D世界結構,來達到一致性。這些方法很好,在某些應用上效果不錯。但他們堅持讓模型「逐幀生成」,這種方式對模型的泛化能力、適應多樣世界的能力更有幫助。智能湧現,驚喜不斷就像其他生成式模型一樣,隨著Scaling,效果確實會提升,這已經不是什麼秘密了。儘管不如語言模型在推理能力上的湧現表現,Genie 3依然湧現出一些令人驚訝的行為。比如說,如果一個角色靠近一扇門,模型可能就會「推測」角色應該打開門;這類符合人類直覺的行為,模型現在能在一定程度上表現出來了。還有就是對語言的理解在不斷變好,生成的內容也越來越真實,視覺效果更自然。從Genie 2到Genie 3的提升非常明顯,特別是在「模擬現實世界能力」上有巨大飛躍。比如物理效果的表現——像水的模擬、光照的變化,都非常驚豔。現在已經到了一個地步,那怕是非專業人士,看了之後也會覺得是真實拍攝的視訊。👇這太驚人了。而在Genie 2時代,模型雖然大致能表現出物體該有的行為,但你還是一眼能看出「這是AI生成的,不是真的」。現在的視訊真假難辨,進步真的很大了。在「地形多樣性」問題:比如模型需要理解在沙地上行走、在下坡滑雪、在水中游泳,這些動作和物理反饋應該是不一樣的。Google團隊發現這些行為很多都是規模和資料廣度所帶來的「湧現能力」。換句話說,他們並沒有為這些行為做專門的訓練或設計,而是模型自己「學」出來的。它通過足夠豐富的訓練資料,掌握了這個「世界」的通用常識。大多數時候,它表現非常不錯。比如下面的例子:在滑雪時,角色在下坡時速度會變快,而試圖上坡時就會變慢,甚至爬不上去;下水後,角色一般會開始游泳或濺起水花;靠近水坑時,模型通常也會讓角色穿上雨靴。這些行為都非常自然,和人類對真實世界的理解非常一致,而這些都是模型自己學會的,真的讓人覺得像魔法一樣。這裡還有一個有趣的權衡:既能保持世界的「物理一致性」,同時也能忠實地執行使用者的提示詞。對視訊模型來說,「低機率事件」本來很難,但Genie 3依然能有不錯的表現。這正是它的魅力所在:即便是一些現實中不太可能發生的場景,Genie 3也能讓你如臨其境,而不是僅僅生成一個和你身邊環境一樣的無聊視訊。在「指令跟隨/文字對齊」,Genie 3也得到了提升,這主要得益於DeepMind內部不同項目(特別是Veo項目)的經驗遷移和知識共享。這種跨團隊協作是DeepMind的優勢。世界模型是讓智能體走向現實世界最快的路徑。Genie 3朝著這個目標邁出了一大步。那Genie 4、Genie 5的新特性有那些設想?未來的關鍵真實感和互動性但總的來說,Genie 3團隊最關注的始終是一件事:讓模型本身變得儘可能強大,讓它能產生更廣泛的影響,然後把創造應用的機會交給其他團隊。他們表示最終會開放Genie 3模型。未來確實讓人特別興奮,但也必須承認,世界模型距離真正「精準模擬現實世界」還有很大差距。比如,把一個人放進生成的世界裡,讓他隨心所欲地做任何事情,我們還遠遠做不到。還有很多工作要做,才能讓虛擬世界的真實感和自由度接近現實。應用還有很多,關鍵在於能否精準模擬世界,並把人放進其中。也許還能從「第三視角」觀察自己,或者與虛擬智能體互動。他們還透露真實感和互動性是未來的關鍵。現在機器人領域最大的瓶頸之一就是資料:能收集到的資料非常有限。而Genie 3能生成幾乎無限的場景,這樣一來機器人就能在虛擬世界裡學習,而不再侷限於現實中能採集到的視訊。這個想法真的很令人興奮。最後一個問題:人類是不是生活在某種模擬中?這個問題被問過很多次,得到了「哲學化」的回答:如果真是模擬,那它運行在完全不同的硬體之上如果人類真的生活在一個模擬世界裡,那它絕對不是運行在現在的硬體上的。因為我們的世界是連續的,而不是數位化的。所有的感知都是連續的訊號。也許,在量子層面會有一些「硬體限制」,但至少和我們現在的電腦完全不同。或許未來量子電腦,才是運行我們這個模擬世界的真正平台。 (新智元)
DeepMind CEO定義世界模型標準:不僅理解物理世界,還能創造它
從與現實難辨的AI視訊,到細緻到流水與倒影都符合物理的虛擬世界,再到會在推理中主動呼叫工具自我修正的模型——這並非科幻小說,而是DeepMind最新的AI工具,已經展現的驚人能力。8月13日消息,GoogleDeepMind首席執行官德米斯・哈薩比斯(Demis Hassabis)近日做客播客節目《Release Notes》,全面闡述了DeepMind最新一系列技術突破背後的思路與戰略佈局,其中世界模型Genie 3的突破性進展成為核心亮點。在這場深度對話中,他勾勒出一個令人振奮又充滿挑戰的AI新紀元:從AlphaGo征服圍棋,到Deep Think斬獲數學奧賽金牌;從生成逼真世界的Genie 3,到即將誕生的“全能模型”,我們正站在通向AGI的關鍵轉折點。然而,即便AI已能創造一個完整的虛擬宇宙,它依然可能在國際象棋中違規行棋,這種“參差型智能”的悖論,正揭示了人工智慧最深層的秘密。哈薩比斯指出,“思考型模型” (the thinking models)是通向通用人工智慧(AGI)的必經之路;DeepMind的終極目標是推出融合語言、多媒體、物理推理與生成能力的全能模型(Omni Model),其核心支撐正是世界模型的持續進化,最終將實現全面且一致的智能表現,推動通用人工智慧(AGI)安全落地。此次訪談由GoogleAI Studio產品負責人洛根・基爾帕特里克(Logan Kilpatrick)主持,以下為對話內容實錄:1. 思考型模型:從遊戲AI到AGI的演進之路基爾帕特里克:今天我們的嘉賓是GoogleDeepMind首席執行官德米斯·哈薩比斯。你好德米斯,感謝你的到來,很高興能一起聊聊我們在過去幾個月裡取得的大量發佈成果和進展。哈薩比斯:你好,很高興來到這裡。基爾帕特里克:我想先談談這種前所未有的進展勢頭。我看到DeepMind近期在不斷推出各種成果,包括Deep Think、IMO金牌、Genie 3,還有其他大約五十個項目,在過去兩個月內接連面世,快到讓人忘記它們的存在,因為一切都在飛速推進。我想聽聽你對這種進展與勢頭的總體看法。哈薩比斯:是的,這種情形令人振奮。過去幾年,我們一直在積蓄力量,加快發佈和研發的節奏,如今正看到這些努力的結果。我認為這是行業一個非常令人興奮的時刻。幾乎每天都有新成果面世,我們團隊幾乎每天都在發佈新東西,即便是在內部,也很難跟上進度,更不用說整個領域了。看到這一切我非常自豪,也對我們近期的一些成果感到非常滿意。基爾帕特里克:那你是如何看待 Deep Think 的呢?我個人最興奮的一點,是該模型的一個版本如今已向 Gemini 應用的訂閱使用者開放,讓大家能夠真正親手體驗。我覺得,這種一邊推進技術研發、一邊讓使用者直接上手的結合非常美妙。那麼,從 Deep Think 的角度來看,你會如何思考?哈薩比斯:我認為,“思考型”模型的出現,可以看作是對我們早期遊戲 AI 工作的一種回溯,比如 AlphaGo 和 AlphaZero。自 DeepMind 成立以來,我們一直在研發“基於智能體的系統”。在早期,這意味著系統能夠完成一個完整的任務,通常是將遊戲玩到極致,因為遊戲有明確的目標。當時我們的模型是單一領域的遊戲模型,而如今我們擁有功能強大的多模態模型,既能處理語言,也能理解和整合其他資訊。在遊戲AI中,我們需要在模型之上疊加“思考”或“規劃”的能力。這是通往 AGI 的必經之路。當模型具備思考能力,就可以進一步延展到“深度思考”,甚至實現平行規劃——也就是同時推演多條思路,然後擇優決策,進入下一步行動。這一方向仍有廣闊的創新空間,但即便在“思考”這一部分,進展速度也非常快。無論是數學、程式設計、科學問題,還是遊戲,這類系統都必須具備思考與規劃能力,而不是簡單地給出腦海中閃現的第一個答案。思考型系統的核心價值,就是不斷修正和最佳化自身的推理過程。基爾帕特里克:我之前看了《The Thinking Game》那部視訊,一邊觀看一邊做筆記,發現 DeepMind 團隊其實很早就踏上了這條道路,而且和你們當年用強化學習(RL)解決問題的過程有許多相似之處。比如,AlphaFold 曾面臨的資料瓶頸,就和我們現在在程式設計等領域缺乏專家資料的困境十分相似。這種情況,會讓你產生似曾相識的感覺嗎?哈薩比斯:確實如此。我們很早就堅定選擇了強化學習,這是 2010 年我們做出的首批關鍵決策之一,與深度學習並列。當時的 Atari 項目,是第一個能真正完成有趣任務的深度強化學習系統——它能夠直接從螢幕像素中學習玩上世紀 70 年代的Atari遊戲,而且表現超過任何人類玩家。更重要的是,它能“開箱即用”地玩任何 Atari 遊戲,這種通用性證明了新技術具備規模化並行揮實際價值的潛力。我個人從小下國際象棋時,就會思考如何最佳化自己的思維過程,這也促使我去研究神經科學,探索大腦的工作機制,並借助人工智慧這一強大的工具,將智慧凝結為數字形態。當然,現有系統在某些方面的表現已經非常出色,但在一些相對簡單的任務上仍有不足,比如高中數學、基礎邏輯,或者某些經過特殊設計的小遊戲。它們體現出一種“參差型智能”——在某些維度上表現驚人,但在另一些方面則很容易暴露弱點。2. 從機器人到通用助理 Genie 3 的多維度潛力基爾帕特里克:那你是如何看待 Deep Think 的呢?我個人最興奮的一點,是該模型的一個版本如今已向 Gemini 應用的訂閱使用者開放,讓大家能夠真正親手體驗。我覺得,這種一邊推進技術研發、一邊讓使用者直接上手的結合非常美妙。那麼,從 Deep Think 的角度來看,你會如何思考?哈薩比斯:我認為,“思考型”模型的出現,可以看作是對我們早期遊戲 AI 工作的一種回溯,比如 AlphaGo 和 AlphaZero。自 DeepMind 成立以來,我們一直在研發“基於智能體的系統”。在早期,這意味著系統能夠完成一個完整的任務,通常是將遊戲玩到極致,因為遊戲有明確的目標。當時我們的模型是單一領域的遊戲模型,而如今我們擁有功能強大的多模態模型,既能處理語言,也能理解和整合其他資訊。在遊戲 AI 中,我們需要在模型之上疊加“思考”或“規劃”的能力。這是通往 AGI 的必經之路。當模型具備思考能力,就可以進一步延展到“深度思考”,甚至實現平行規劃——也就是同時推演多條思路,然後擇優決策,進入下一步行動。這一方向仍有廣闊的創新空間,但即便在“思考”這一部分,進展速度也非常快。無論是數學、程式設計、科學問題,還是遊戲,這類系統都必須具備思考與規劃能力,而不是簡單地給出腦海中閃現的第一個答案。思考型系統的核心價值,就是不斷修正和最佳化自身的推理過程。基爾帕特里克:許多人看了Genie 3的演示後感到震撼,有人甚至誇張地說“這是模擬理論的證據”。它確實和用遊戲推動強化學習發展有關。回顧Genie 3,你覺得結果和當初的預期一致嗎?我覺得,提升模型玩遊戲的能力,未必必然帶來如今的世界模型。哈薩比斯:Genie 3彙集了多條研究路徑與想法。我們一直把棋類或電子遊戲作為挑戰環境,不僅用來推動演算法進步,也用來合成資料。我們會建構極為逼真的虛擬環境,用來訓練系統理解物理世界。我們想要建構的世界模型,不僅要理解物理結構、材料特性、液體流動,還要理解生物和人類的行為,因為AGI必須理解物理世界,才能在其中運作。這對機器人至關重要,也對通用助理項目如Project Astra(Gemini Live)不可或缺。驗證世界模型的一種方法,就是讓它生成與現實一致的虛擬世界,比如打開水龍頭會有水流出,鏡子裡會映出自己等等。Genie 3之所以驚人,就在於它生成的世界具有一致性。你轉身離開,再回頭,世界保持原樣。這說明它的底層物理理解相當出色。基爾帕特里克:你認為使用者將如何使用 Genie?我們的目標是僅將它作為改進Gemini和其他機器人項目的工具,還是你覺得它本身還有更多用途?哈薩比斯:它在多個維度上都令人興奮。首先,我們已經在用它進行訓練。例如,我們有一個名為SIMA(Simulated Agent,模擬智能體)的遊戲智能體,可以開箱即用地操作並玩一款現有的電腦遊戲。它有時表現不錯,有時不夠理想。令人有趣的是,我們可以把SIMA放進Genie 3里,相當於一個AI在另一個AI的“腦海”中行動。SIMA會根據目標(比如找到房間裡的鑰匙)發出操作指令,而Genie 3則即時生成遊戲世界。這樣可以創造無限的訓練資料,對機器人訓練或AGI系統的通用訓練都有價值。同時,它在互動娛樂領域也有巨大潛力。我有很多想法去打造下一代遊戲,甚至可能催生一種介於電影與遊戲之間的新型娛樂形式。最後,從科學家的角度看,最有趣的是這能告訴我們關於現實世界、物理規律,甚至模擬理論的什麼資訊。當你在深夜生成整片虛擬世界時,你會不自覺地思考:現實世界的本質是什麼?這也是我整個職業生涯推動自己用AI服務科學的動力所在。我認為,像Veo 3和Genie 3這樣的模型,若換個角度觀察,能給我們關於現實本質的啟示。3. AI的能力鴻溝 強大生成力與低級錯誤並存基爾帕特里克:這正好能回到我們之前談到的“參差型智能”問題。一方面,我們已經有了能生成完整虛擬世界的驚人系統;另一方面,讓 Gemini下國際象棋,我可能都能贏它,而且有時它甚至會違反規則。我們最近宣佈了 DeepMind 與 Kaggle 合作推出“遊戲競技場”,讓模型在各種遊戲中對戰並接受測試。你怎麼看?哈薩比斯:這反映了一個更普遍的問題——如今的系統(無論是 Gemini 還是競爭對手的模型)在很多方面都很強大:它們能從文字生成模擬世界,能理解視訊,能解數學題、做科研。然而,用過這些聊天機器人的人都知道,它們的能力邊界很容易被觸碰到。在我看來,這種缺乏一致性,正是它們距離實現完全AGI還差的一步。一個普通人不應該如此輕易就能發現系統的低級缺陷。我們或許已經解決了過去那種“數 strawberry 裡的R”這種用於評估模型細節關注度的低級問題,但依然存在一些小學生都能輕鬆完成、而模型卻失敗的任務。這很可能是因為在推理、規劃、記憶等方面,仍然缺少關鍵性的創新。此外,我們現有的評測基準中,很多已經接近飽和。比如在 AIME 數學測試上,Deep Think 最近的成績已經達到 99.2%,幾乎沒有提升空間,這甚至可能意味著測試本身已經失去區分力。因此,我們需要設計更新、更難、覆蓋面更廣的評測,用來考察模型的物理直覺、世界理解,以及安全性(比如防止欺騙行為)。我對“遊戲競技場”非常期待,因為它延續了我們最初做遊戲 AI 的初衷。遊戲是乾淨的測試環境,有客觀分數,沒有人為主觀打分;它們會隨著系統能力的提升自動增加難度,還可以不斷引入更複雜的遊戲。未來甚至能讓 AI 自創新遊戲、彼此對戰學習,從而避免資料洩露或過擬合。這種多智能體環境將成為長期有效的重要評測基準之一。4. 能力內化 VS 外部呼叫:經驗驅動的決策基爾帕特里克:我過去兩年的感悟是,生活中的許多問題,本質上都是一種評測。工作表現是一種評測,你看待事物的方式也是評測。在遊戲領域,我們有明確的約束條件和客觀的結果,但一旦擴展到非遊戲領域,“真值”就很難定義。比如,在人類日常任務中,如何建構強化學習環境?你覺得在非遊戲環境中,我們該怎麼捕捉這些特徵?哈薩比斯:如何定義獎勵函數或目標函數,一直是強化學習在真實且混亂的環境中面臨的最大挑戰。現實世界中,並不存在單一的目標函數,而是多個目標並存,而且這些目標的權重會隨著情緒、環境、職業階段等因素不斷變化。我認為,未來的通用系統必須學會理解使用者的真實意圖,並將其轉化為一組可最佳化的獎勵函數。這涉及元認知或“元強化學習”(meta-RL)的研究——在主要系統之上再建立一個系統,用來推測主要系統的最優目標函數。這類研究在十年前的 AlphaGo、AlphaZero 遊戲階段我們就已經開始嘗試,如今很可能會再次成為研究重點。基爾帕特里克:我覺得我們應該現在就著手,因為感覺 DeepMind 十年前做的事,正好就是今天大家追趕的前沿。回到“思考趨勢”和“遊戲趨勢”,我們歷史上經歷了多種模型擴展路徑——預訓練、後訓練、資料擴展、算力擴展,後來又有了推理擴展,比如 Deep Think 就得益於推理能力的提升。現在似乎“工具”成了新的擴展維度。你覺得,給模型配備物理模擬器作為工具,會是未來的方向之一嗎?哈薩比斯:工具使用是 AI 系統最重要的能力之一。思考型系統的核心在於,它能在思考過程中主動呼叫工具,比如搜尋引擎、數學程序、程式設計環境,然後基於工具提供的結果調整規劃。有趣的是,那些能力應當放進主模型(即“主腦”),那些應當作為外部工具,這在數字系統中並不像在人類身上那麼清晰。對於人類來說,不屬於身體的就是工具;但在 AI 中,這條界限很模糊。比如,下棋能力是直接內建在主模型中,還是呼叫 Stockfish 或 AlphaZero 作為外部工具?經驗表明,如果某項能力(如數學、程式設計)能提升整體推理水平,就應該放入主模型;但如果它可能削弱模型的其他通用能力,則更適合作為外部工具。這完全是一個經驗性問題,需要在實踐中不斷試驗和驗證。5. AGI的綜合能力藍圖 語言、多媒體與物理推理一體化基爾帕特里克:很多開發者現在都會問,模型已經不再是過去那種靜態的權重,而是在推理過程中能呼叫各種工具,功能越來越像一個完整的系統。這正在改變人們建構應用的方式。你怎麼看這種從“模型”到“系統”的轉變?對開發者有什麼建議?哈薩比斯:模型的進化速度非常快,尤其是當工具能力與規劃、思考能力結合後,其潛力可能呈指數級擴張,因為它們可以用全新的方式組合使用工具。我建議開發者多思考:那些工具對 AI 的能力最有價值?然後著手建構這些工具。即便有了工具呼叫和智能體能力,這些系統本身還不是成品,它們依然需要大量的產品化工作。產品經理和設計師面臨的挑戰,是必須預判一年後的技術狀態,並為那個未來去設計產品,同時允許底層引擎在 3 到 6 個月,甚至更短的周期內進行一次重大更新。基爾帕特里克:現在感覺幾乎是每兩周就有一次更新。哈薩比斯:確實是這種節奏,而且短期內不會改變。未來整個網路生態和應用的運作方式,都將因為智能體系統能夠靈活使用工具而發生深刻變化。基爾帕特里克:Genie 3 的進展令人震撼,很多人都迫不及待想親手體驗。我希望能盡快讓更多使用者用上它。從世界模型和 Genie 的角度看,下一步是什麼?哈薩比斯:我們正在努力提升 Genie 的運行效率,好讓更多使用者盡快體驗。目前它還處於有限預覽階段。我們也在思考最佳的發佈方式,希望使用者能夠分享自己創作的世界,互相體驗、投票,從而形成一個活躍的社區。但有一個關鍵問題是,如何保持世界生成的一致性——當某個提示生成了一個極具吸引力的世界,我們怎樣確保後來者也能復現它?這是我們正在攻關的技術挑戰之一。更長遠來看,Genie、Veo、Gemini 這些目前相對獨立的模型,正逐漸走向融合,形成我們所謂的“全能模型”(Omni Model)。它既能處理語言、多媒體,又能進行物理推理和內容生成,這才是 AGI 應該具備的綜合能力。基爾帕特里克:我們之前還開玩笑說,Genie 是我們製作和玩遊戲的絕佳藉口。哈薩比斯:沒錯。基爾帕特里克:這樣 DeepMind 就成了一家遊戲公司了。哈薩比斯:這是我的秘密計畫。等 AGI 安全落地之後,我就會用這些工具去製作史上最偉大的遊戲——那將是我的夢想成真。基爾帕特里克:會是終極版的《主題公園》嗎?哈薩比斯:也許吧,不過我還有更宏大的遊戲創意。基爾帕特里克:我們在 AI Studio 裡做了很多“氛圍程式設計”功能,如果一切順利,你在 AGI 誕生前就可以不斷拋出這些創意,自己打造一個“德米斯遊戲競技場”。哈薩比斯:這已經在我的高優先順序待辦清單上了。基爾帕特里克:前段時間我們慶祝每月處理 980 兆個 token,如今已經突破千兆(quadrillion)大關,我們還特地為你準備了一個紀念品。哈薩比斯:謝謝,這真是太棒了。基爾帕特里克:我們還會做一些其他版本。哈薩比斯:非常感謝。基爾帕特里克:今天非常感謝你抽出時間做客,也感謝你和 DeepMind 團隊為未來所付出的努力與深夜的思考。這次訪談很愉快。哈薩比斯:我也很高興能和你交流,謝謝。 (騰訊科技)
Google DeepMind深夜放核彈:世界模型Genie 3登場,重新定義“生成式AI”
剛剛Google DeepMind 宣佈推出第三代通用的世界模型 Genie 3 ,可以生成前所未有的多樣化互動式環境,給出文字提示,Genie 3 可以生成動態世界,可以以每秒 24 幀的速度即時導航,並以 720p 的解析度保持幾分鐘的一致性Genie 3將首先以有限研究預覽的形式,向一小部分學者和創作者開放 Genie 3,以收集關鍵反饋Genie 3 的突破DeepMind 在模擬環境領域已有十餘年的深厚積累。從訓練能玩轉即時戰略遊戲的 AI,到為機器人開發開放式學習環境,這些研究都指向了一個共同的目標:建構強大的世界模型。與前代模型(如 Genie 1/2)和視訊生成模型(如 Veo 2,Veo 3對直覺物理學的深刻理解)相比,Genie 3 是第一個允許即時互動的世界模型,同時與 Genie 2 相比,其一致性和真實感也得到了提升核心能力模擬世界的物理特性: Genie 3 對物理規律有深刻理解,能逼真地模擬水流、光影變化以及複雜的環境互動,例如直升機在懸崖瀑布邊小心翼翼地機動模擬自然世界: 從冰川湖畔充滿生機的生態系統,到幻想世界中可愛的毛茸茸生物在彩虹橋上跳躍,Genie 3 能將想像力轉化為可探索的現實動畫和小說建模: :可以發揮想像力,創造奇幻的場景和富有表現力的動畫角色探索不同地域與歷史場景:模型能超越地理和時間的限制,帶領使用者探索不同地點和歷史時代,無論是身穿翼裝飛越雪山,還是置身於歷史悠久的古城突破即時性能的極限:實現高度的可控性和即時互動性,在每一幀的自回歸生成過程中,模型必須考慮先前生成的隨時間增長的軌跡。例如,如果使用者在一分鐘後重新訪問某個位置,則模型必須引用一分鐘前的相關資訊。為了實現即時互動性,這種計算必須每秒進行多次,以響應新使用者輸入的到來長時程環境一致性: 為了讓人工智慧生成的世界身臨其境,它們必須在很長一段時間內保持物理上的一致性。然而,自動回歸生成環境通常比生成整個視訊更難的技術問題,因為不精準之處往往會隨著時間的推移而累積,Genie 3 環境在幾分鐘內基本保持一致,視覺記憶可以追溯到一分鐘前,Genie 3 生成的世界更加動態和豐富,因為它們是根據使用者的世界描述和作逐幀建立的可提示的世界事件 (Promptable World Events): 除了導航輸入之外,Genie 3 還支援一種更具表現力的基於文字的互動形式,稱之為可提示的世界事件 。可提示的世界事件可以改變生成的世界,例如改變天氣條件或引入新的物體和角色,從而增強導航控制的體驗,這種能力還增加了反事實或“假設”場景的廣度,代理可以使用這些場景從經驗中學習來處理意外情況賦能具身智能體研究Genie 3 的終極目標之一是為具身智能體(Embodied Agent)提供一個無限豐富的訓練場。DeepMind 已將其與通用智能體 SIMA進行結合測試。研究人員可以為 SIMA 設定一個目標(如在面包房裡找到工業攪拌機),SIMA 則通過向 Genie 3 傳送導航指令來嘗試完成任務。Genie 3 像一個真正的世界一樣,根據 SIMA 的行為即時反饋結果,從而讓智能體在海量的what if場景中學習和成長當前的侷限性Genie 3目前存在的侷限性:行動空間有限: 智能體的直接行動範圍仍受限制缺乏多智能體模擬: 難以精確模擬多個獨立智能體之間的複雜互動地理精度不足: 無法完美復現實世界的地理位置文字渲染較差: 除非在初始提示中指定,否則生成的文字通常模糊不清互動時長有限: 目前支援數分鐘的連續互動,而非數小時 (AI寒武紀)