#互動式環境
Google DeepMind深夜放核彈:世界模型Genie 3登場,重新定義“生成式AI”
剛剛Google DeepMind 宣佈推出第三代通用的世界模型 Genie 3 ,可以生成前所未有的多樣化互動式環境,給出文字提示,Genie 3 可以生成動態世界,可以以每秒 24 幀的速度即時導航,並以 720p 的解析度保持幾分鐘的一致性Genie 3將首先以有限研究預覽的形式,向一小部分學者和創作者開放 Genie 3,以收集關鍵反饋Genie 3 的突破DeepMind 在模擬環境領域已有十餘年的深厚積累。從訓練能玩轉即時戰略遊戲的 AI,到為機器人開發開放式學習環境,這些研究都指向了一個共同的目標:建構強大的世界模型。與前代模型(如 Genie 1/2)和視訊生成模型(如 Veo 2,Veo 3對直覺物理學的深刻理解)相比,Genie 3 是第一個允許即時互動的世界模型,同時與 Genie 2 相比,其一致性和真實感也得到了提升核心能力模擬世界的物理特性: Genie 3 對物理規律有深刻理解,能逼真地模擬水流、光影變化以及複雜的環境互動,例如直升機在懸崖瀑布邊小心翼翼地機動模擬自然世界: 從冰川湖畔充滿生機的生態系統,到幻想世界中可愛的毛茸茸生物在彩虹橋上跳躍,Genie 3 能將想像力轉化為可探索的現實動畫和小說建模: :可以發揮想像力,創造奇幻的場景和富有表現力的動畫角色探索不同地域與歷史場景:模型能超越地理和時間的限制,帶領使用者探索不同地點和歷史時代,無論是身穿翼裝飛越雪山,還是置身於歷史悠久的古城突破即時性能的極限:實現高度的可控性和即時互動性,在每一幀的自回歸生成過程中,模型必須考慮先前生成的隨時間增長的軌跡。例如,如果使用者在一分鐘後重新訪問某個位置,則模型必須引用一分鐘前的相關資訊。為了實現即時互動性,這種計算必須每秒進行多次,以響應新使用者輸入的到來長時程環境一致性: 為了讓人工智慧生成的世界身臨其境,它們必須在很長一段時間內保持物理上的一致性。然而,自動回歸生成環境通常比生成整個視訊更難的技術問題,因為不精準之處往往會隨著時間的推移而累積,Genie 3 環境在幾分鐘內基本保持一致,視覺記憶可以追溯到一分鐘前,Genie 3 生成的世界更加動態和豐富,因為它們是根據使用者的世界描述和作逐幀建立的可提示的世界事件 (Promptable World Events): 除了導航輸入之外,Genie 3 還支援一種更具表現力的基於文字的互動形式,稱之為可提示的世界事件 。可提示的世界事件可以改變生成的世界,例如改變天氣條件或引入新的物體和角色,從而增強導航控制的體驗,這種能力還增加了反事實或“假設”場景的廣度,代理可以使用這些場景從經驗中學習來處理意外情況賦能具身智能體研究Genie 3 的終極目標之一是為具身智能體(Embodied Agent)提供一個無限豐富的訓練場。DeepMind 已將其與通用智能體 SIMA進行結合測試。研究人員可以為 SIMA 設定一個目標(如在面包房裡找到工業攪拌機),SIMA 則通過向 Genie 3 傳送導航指令來嘗試完成任務。Genie 3 像一個真正的世界一樣,根據 SIMA 的行為即時反饋結果,從而讓智能體在海量的what if場景中學習和成長當前的侷限性Genie 3目前存在的侷限性:行動空間有限: 智能體的直接行動範圍仍受限制缺乏多智能體模擬: 難以精確模擬多個獨立智能體之間的複雜互動地理精度不足: 無法完美復現實世界的地理位置文字渲染較差: 除非在初始提示中指定,否則生成的文字通常模糊不清互動時長有限: 目前支援數分鐘的連續互動,而非數小時 (AI寒武紀)