世界模型,被說爛了,李飛飛最新長文來正名了

渲染、模擬、規劃,其實是三件完全不同的事。

"世界模型"這個詞,最近火得有點失控。

視訊生成模型叫世界模型,能生成遊戲場景的語言模型叫世界模型,物理引擎有人也往這個框裡塞。投資人見到做具身智能的創業公司,第一句話變成了"你們在世界模型上有什麼規劃"——那怕對方根本沒在做這件事。

這種混亂,連李飛飛本人都看不下去了。

(圖片來源:Substack 李飛飛)

剛剛,她親自撰文,在Substack和World Labs官網同步發佈,給世界模型做了一次清晰的功能分類。開篇就點出問題所在:世界模型,是當今人工智慧領域最重要、也最被濫用的術語之一。

文章不長,但資訊密度很高。核心論點是:現在被稱為"世界模型"的各種東西,實際上是三類完全不同的系統——渲染器、模擬器、規劃器。搞清楚這三者的區別,才能真正理解這個領域在發生什麼。

先搞清楚一個循環

在拆解三類系統之前,李飛飛先建了一個基礎框架。

(圖片來源:X@drfeifei)

她引用了強化學習領域的經典概念:智能體會採取行動,行動會改變世界的狀態,狀態產生觀察,觀察驅動下一步行動——這是一個持續運轉的循環。

其中,"狀態"是對某一時刻世界所發生的一切的完整描述,包括每一個物體、每一個位置、每一個速度和每一個屬性。智能體永遠無法直接感知"狀態"本身,只能通過觀察——圖像、感測器資料、視訊幀——獲得對現實的局部感知。

這個循環,是理解一切的起點。李飛飛認為,今天被冠以"世界模型"之名的各種系統,本質上都是這個循環的不同投影——它們各自輸出循環中的不同部分

渲染器:給人看的,不是給機器用的

第一類是渲染器。它的工作是輸出觀察結果,通常以人眼能看懂的像素形式呈現。衡量渲染器的核心指標只有一個:視覺保真度,也就是畫面夠不夠逼真。

(圖片來源:Substack 李飛飛)

文生圖、文生視訊,以及互動式場景生成系統,都屬於渲染器。Google的Genie 3和World Labs自家的RTFM,李飛飛都將其歸入這一類。Google的Nano Banana已經把渲染等級的圖像生成能力推送給了大規模使用者。

渲染器有一個根本性的侷限:它對三維結構沒有真正的理解。它呈現的是觀眾會看到的樣子,而不是實際存在的樣子。李飛飛舉了一個很直觀的例子:AI生成的無人機航拍鏡頭中,城市俯檢視可能完美無瑕;但如果你開車穿過這座城市,就會發現建築物搖搖欲墜,根本經不起近距離審視。

現在被吹得最響的很多"世界模型",本質上仍然只是高級渲染器。渲染器是目前商業上最成熟的一類,但它的天花板也在這裡——足夠美觀,卻無法用於建築設計或機器人訓練

模擬器:被低估的關鍵環節

第二類是模擬器。它輸出的不是人眼看到的畫面,而是世界狀態本身——在幾何、物理、動力學上都忠實於現實的表示。

與渲染器只需要視覺上說服人不同,模擬器的要求嚴苛得多:幾何結構必須經得起檢驗,物理過程必須遵守牛頓定律,動態行為必須符合現實規律。

李飛飛認為,模擬器同時服務於兩類使用者。一類是人:建築師、設計師、電影製作人、遊戲開發者,他們需要超越視覺真實感的精確度。另一類是機器:強化學習智能體、機器人控製器、自動駕駛系統,它們把模擬器當作訓練場,在虛擬環境裡測試那些在現實中危險、昂貴或根本不可能運行的場景。

在三類系統中,模擬器獲得的公眾關注最少,但李飛飛認為它是最關鍵的——因為它是連接渲染和規劃的橋樑。她用了一句非常精準的話來描述這個位置:"如果語言是對世界的抽象,像素是對世界的投影,那麼幾何、物理和動力學就是世界本身。"模擬器必須在這個層面上運作。

商業潛力方面,輝達的Omniverse平台已經瞄準了工廠、倉庫、供應鏈和數字孿生領域,估計潛在市場規模超過一兆美元。

World Labs自家的Marble,正是在試圖突破模擬環節的瓶頸——它支援文字、圖像、視訊及粗3D佈局等多模態輸入,生成可探索的3D環境,並輸出可供物理引擎操作的碰撞網格。

李飛飛明確說了:Marble僅僅是這一領域漫長發展歷程的開端。

規劃器:最誘人,也最不成熟

第三類是規劃器。它的工作是輸出動作——給定觀察和目標,告訴智能體下一步該做什麼。

某種意義上,規劃器是渲染器的逆過程:渲染器把行動轉化為觀察,規劃器把觀察轉化為行動,由此閉合了感知與行動的循環。視覺語言行動模型(VLA)和新一代世界行動模型,都屬於規劃器,它們試圖讓機器人在非結構化的真實環境中做出正確決策。

規劃器是最吸引人的一類,具身智能的熱潮和大量湧入的熱錢,大部分都指向這裡。

但李飛飛在文章裡說了一句需要坦誠的話:過去兩年裡那些在視訊裡看起來令人印象深刻的機器人演示,幾乎都侷限於高度受控的實驗室環境,物體種類有限,任務時間短。

沒有任何系統被驗證能應對真實部署所需的複雜性、多樣性和持續性。演示視訊,和真正能在廚房、倉庫或手術室可靠工作的機器人之間,仍然存在一道巨大的鴻溝。

三者的邊界,正在消融

渲染一個世界、模擬一個世界、在一個世界中行動,所需要的知識,在很大程度上是同一套知識。

(圖片來源:Substack 李飛飛)

李飛飛舉了一個具體的例子:如果一個模型真正理解一個杯子是如何放在桌子上的——包括它的幾何結構、材料屬性、受力反應——那麼它就應該能夠從任意角度渲染這個杯子,模擬杯子被推動時發生什麼,並規劃一隻手如何把它拿起來。

這三種能力,本質上是對同一種底層理解的三種投影。

過去十年裡,圖形渲染、物理模擬和機器人控制原本是三套幾乎互不相干的技術堆疊。現在,它們開始被同一種基礎模型重新連接起來。已經有研究在概念上證明,一個預訓練視訊渲染器可以作為聯合世界預測和行動預測的骨幹——這為渲染器和規劃器之間搭建了一座橋。

Marble從單個模型中同時輸出視覺渲染結果和可供物理引擎使用的碰撞網格,正是渲染器和模擬器邊界消融的一個體現。

每一個層級都在從被動輸出走向互動系統:渲染器變得以行動為條件,模擬器生成更可控、更可編輯的世界,規劃器從被動反應走向真正的主動推理。

這個邏輯的終點,是一個統一的世界模型——一個基礎模型,既能渲染照片級真實的檢視,也能生成物理精準的結構,還能規劃行動序列,並根據下游需要在不同輸出模態間靈活切換

(圖片來源:X@drfeifei)

李飛飛這篇文章,本質上不是在介紹一項新技術,而是在重新劃定術語的邊界。

當一個概念被用來指代太多不同的東西,它就失去了精確性,也失去了作為討論工具的價值。渲染器能生成逼真的畫面,但它不理解物理;規劃器能讓機器人做出決策,但它還沒有走出實驗室;模擬器是連接兩者的關鍵,卻是獲得關注最少的那一類。

在李飛飛看來,世界模型不是一件事,而是三件事——而這三件事,最終指向同一個方向:機器真正理解並作用於物理世界的能力。

至於這一天什麼時候到來,她沒有給出時間表。但她給出了一張地圖。 (創新觀察局)