#模型
李飛飛:當視訊生成、機器人和NVIDIA都自稱世界模型,我們需要一個分類法
“世界模型”大概是 2025 年以來 AI 領域裡最熱也最混亂的概念。Sora出來的時候,OpenAI管它叫世界模擬器;Genie讓你在生成的畫面裡走來走去,也叫世界模型;機器人公司說自己在做世界模型,NVIDIA說Omniverse是世界模型的基礎設施,連遊戲引擎也被拉進了這個敘事。大家都在用同一個詞,但各自說的又完全不是同一件事。 今天,李飛飛在個人 Substack 發表了一篇新文章,對這一概念進行了釐清。她首先回到強化學習教科書裡那個最經典的圖(POMDP閉環:智能體→動作→狀態→觀測→智能體),然後指出:現在被叫做“世界模型”的東西,其實是這個閉環的三種不同投影。輸出像素(觀測)的是渲染器,輸出狀態的是模擬器,輸出動作的是規劃器。分類標準非常簡潔,就看你輸出的是閉環裡的那個部分。 (來源:《麻省理工科技評論》) 她判斷,三者之中,渲染器商業化最成熟但有天花板(好看不等於物理正確),規劃器最令人興奮但離真實部署最遠(實驗室演示和實際可用之間的鴻溝依然巨大),而模擬器是被嚴重低估的關鍵樞紐。因為模擬器工作在幾何、物理和動力學的層面上,既能向上投射為像素供人類消費,也能向下推匯出動作後果供機器人使用。掌握了模擬,就同時擁有了渲染和規劃的基礎;反過來則不行。