李飛飛:世界模型的功能分類法

李飛飛最新的文章“A Functional Taxonomy of World Models(世界模型的功能分類法)”,承接她之前那篇“From Words to Worlds”,之前那篇核心觀點是空間智能是 AI 的下一個前沿,而世界模型是通往它的路徑。

本文則更深一層,在如今一堆被叫作"world model"的東西里,到底那些功能部件真正組成了這種能力,每個又是幹什麼的?

一個核心觀察是,"world model" 是當今 AI 裡最重要、也最被濫用的詞。電腦視覺、機器人、強化學習、生成式 AI 都聲稱自己在造世界模型,但各說各話——

  • 一個生成絢麗卻物理上不可能的火焰的視訊模型
  • 一個即興生成可互動遊戲的語言模型
  • 一個忠實模擬燃燒的物理引擎

這些都頂著世界模型的名字。

一個統一回路

她說理清這個問題要從一張比所有相關技術都古老的圖開始:POMDP(部分可觀測馬爾可夫決策過程),它來自Sutton & Barto那本rl經典教材。world model這個術語的原始定義就屬於這個傳統。

  • 回路:Agent → 行動(action)→ 狀態(state)→ 觀測(observation)→ 回到 Agent
  • Agent(人/機器人/軟體)採取行動;行動影響世界的狀態;但 agent 永遠看不到狀態本身,只收到觀測(視網膜上的光子、感測器讀數、視訊幀的像素);新觀測催生新行動,循環往復。
  • 狀態(state)是某一時刻世界發生的完整描述(每個物體、位置、速度、屬性)。它是世界的底層,原則上完整,但對身處其中的任何 agent 都不可直接見。

李飛飛這篇文章主要就是論述的就是如今被叫作世界模型的各種東西,其實是上面這個同一回路的不同投影,每個只輸出回路中的一塊。

按功能區分的三類世界模型

  • 渲染器是不帶顯式的三維理解,產出的是"觀看者會看到什麼",而非"實際是什麼"。
  • 模擬器的"契約"是結構性的:幾何經得起檢視、物理遵守牛頓定律、動力學符合物理規律。它同時服務兩類消費者:① 人類專業人士(建築師/設計師/電影人/遊戲開發者),需要超越"看起來合理"的精確度;② 電腦程序(RL agent、機器人控製器、自動駕駛),把它當作可規模化的訓練場,跑那些現實中危險/昂貴/不可能的場景。
  • 規劃器是渲染器的逆運算:渲染器拿行動當輸入產出觀測,規劃器拿觀測當輸入產出行動,從而閉合"感知-行動回路"。

她強調:三者並非根本割裂。同一套世界如何運作的底層知識(如幾何、物理、動力學)支撐著全部三者。一個能從任意角度渲染杯子的模型,原則上也應能模擬杯子被推時會怎樣、並規劃一隻手去把它拿起來。最有意思的研究正在刻意模糊三者邊界。

模擬(simulation)是關鍵

全文的論點核心是以上三者中,模擬器獲得的公眾關注最少,卻最有決定性意義。

1、渲染器在商業上最成熟。 圖/文生視訊產品在消費與企業市場快速擴張,比如Google 的Nano Banana。但它最佳化的是視覺合理性而非物理精準性,這一點很要命:輸出很美,卻不能被信任去設計一棟樓或訓練一個機器人。

2、規劃器是最令人嚮往,但也最稚嫩的,它與機器人學習緊密相連。李對機器人 demo 直言不諱:過去兩年視訊裡很驚豔,但幾乎全部侷限在高度受限的實驗室場景內(狹窄物體集、短任務時長),沒有一個在真實部署所要求的複雜度/多變性/持續時長上得到驗證。從驚豔 demo 到能在廚房/倉庫/手術室可靠工作的機器人,差距仍然巨大——但商業押注極大。

3、模擬器扮演連接兩者的角色。李飛飛提出:如果語言是世界的抽象、像素是世界的投影,那麼幾何、物理、動力學就是世界本身。

模擬器必須工作在這個層級,渲染器要的視覺外觀、規劃器要的行動後果,都能從中推匯出來。

掌握了模擬的模型,可以把理解投影成像素給人看、也投影成行動預測給具身agent看。只會渲染、或只會規劃的模型,兩者都做不到。

不過,最難的開放問題也都在這裡:3D 資料稀缺,大規模多物理場剛體/可變形體/流體/布料同時互動)的模擬難題等等。

所以,這篇文章落到李飛飛她們自己的實驗室在這塊的工作:Marble模型,它接收多模態 prompt(文字/圖像/視訊/空間草圖),生成可探索的 3D 環境,同時輸出Gaussian splats供視覺探索 + collision meshes供物理引擎運算。

把這篇和更早那篇《From Words to Worlds》擺一起讀,會發現她一直在下同一個注。那篇說的是"世界不是由詞語構成的",順著語言中心主義走下去,大模型會撞牆,因為文字只是現實的失真壓縮。這篇補上了後後半句:世界也不是由像素構成的。

她認準的是結構化的、幾何的世界表示,贏過對感官表面的統計擬合。

原文翻譯如下(由 AI 整理):

"世界即一切發生之事。"
——路德維希·維特根斯坦(Ludwig Wittgenstein),《邏輯哲學論》(Tractatus Logico-Philosophicus),1921

世界不是由詞語構成的。

在之前的一篇文章裡,我們論證了空間智能是 AI 的下一個前沿,而世界模型(world models)是通往它的路徑。在這裡,World Labs 團隊和我想再深入一層:如今種種被造出來、又冠上"世界模型"之名的東西里,究竟那些功能部件真正構成了那種能力,而每一個又各自為了什麼?

語言模型賦予了機器對概念、詞彙和推理的非凡掌控力,但物理世界(無論虛擬還是真實)運行在另一套基底之上。語言模型學習的是文字的統計結構,而世界模型學習的是空間與時間的統計結構:光如何落在物體表面、一座花園從某個從沒被相機拍到過的角度看上去是什麼樣、物體如何對受力作出反應並遵循物理定律。

這使得"世界模型"成為當今 AI 中最重要、也最被濫用的術語之一。電腦視覺、機器人學、強化學習和生成式 AI 都聲稱自己在建構世界模型,而每一個所指的意思都相當不同。一個生成絢麗卻在物理上不可能的火焰的視訊模型、一個即興生成可玩遊戲的語言模型、一個忠實模擬燃燒過程的物理引擎,全都以同一個名字行世。

古希臘人始終無法就世界由什麼構成達成一致:究竟是火、是水、還是不可分割的原子。因為"世界"從來就不是單一的某個東西。它一直是一個預留位置,代指某個思考者需要去推理的那個"總體"。AI 繼承了同樣的問題,而且恰恰是在這個領域最需要精確性的時刻。

分類法之下的那個回路

要釐清這種混亂,得從一張比所有相關技術都更古老的圖說起。強化學習的教科書,包括奉為圭臬的 Sutton 和 Barto,幾十年來一直用同一張圖的某個版本來描述一個 agent 如何與世界互動。這張圖的正式名稱是部分可觀測馬爾可夫決策過程(partially observable Markov decision process,POMDP),而"世界模型"這一術語的原始定義就屬於這個傳統。

一個 agent(可以是人、機器人或軟體系統)採取行動。這些行動影響世界的狀態。agent 從不直接看到狀態。抵達 agent 的是觀測:落在視網膜上的光子、來自感測器的讀數、視訊幀中的像素。新的觀測催生新的行動,循環就此延續。

"狀態(state)"這個詞需要拆解,因為它的含義因領域而異。這不是化學家說的狀態,即固態、液態和氣態之間的區別。這是物理學家和機器人學家說的狀態:對某一時刻世界正在發生之事的完整描述,包括每一個物體、每一個位置、每一個速度、每一個屬性。狀態是世界的底層真實;原則上是完整的,但對身處其中的任何 agent 而言都從不直接可見。觀測是 agent 對那個真實的局部檢視。行動則是 agent 作出的回應。

這個“從 agent 到行動、到狀態、到觀測,再回到 agent”的回路正是賦予現代"世界模型"一詞技術含義的那個結構。這個短語本身更為古老,可追溯到 Kenneth Craik 在 1943 年提出的設想:心智通過運行現實的"小尺度模型(small-scale models)"來進行推理;隨後在 1980 年代末和 1990 年代初被帶入神經網路。這個回路也解釋了人們今天用這個詞時所指的意思。如今被稱為世界模型的各種不同事物,實際上是同一個回路的不同投影。每一個各自輸出了其中不同的一塊。

世界模型的三種功能

第一種世界模型是渲染器(renderer)。渲染器輸出觀測,以供人眼觀看的像素形式呈現,而最重要的品質是視覺保真度(visual fidelity)。一個把文字提示變成電影級無人機鏡頭的視訊模型,就是一個渲染器。一個互動式系統,例如 Google 的 Genie 3,或 World Labs 自己的 RTFM(模型根據使用者輸入即時生成畫面幀),也是渲染器。這種模型並不攜帶任何對三維結構的顯式理解。它產出的是觀看者會看到的東西,而非實際存在的東西。無人機鏡頭裡的建築物從上空看也許毫無瑕疵,但你試著開車穿過下面的城市,它們就分崩離析了。

第二種是模擬器(simulator)。模擬器輸出狀態:一個在幾何、物理或動力學上都忠實的世界表示,人類和電腦程序都能在其上進行計算和互動。渲染器的"契約"純粹是視覺性的,而模擬器的契約是結構性的,它要求幾何經得起檢視、物理尊重牛頓定律、動力學按照世界在物理定律下應有的方式運轉。模擬器同時服務於兩類消費者。建築師、設計師、電影人、遊戲開發者等人類專業人士,需要的是超越視覺合理性的精準度。強化學習 agent、機器人控製器、自動駕駛汽車等電腦程序,則把模擬器用作訓練場,在那裡它們可以大規模地與世界互動,測試那些在現實中跑起來會危險、昂貴或不可能的場景。

第三種是規劃器(planner)。規劃器輸出行動。給定一個觀測和一個目標,規劃器回答的是 agent 下一步該做什麼這個問題。在很多方面,這都是渲染器的逆運算。渲染器以行動為輸入、產出觀測,而規劃器以觀測為輸入、產出行動,閉合了感知-行動回路。視覺-語言-行動模型(Vision-Language-Action models,VLA)、基於模型的系統(model-based systems),以及新一波的世界行動模型(World Action Models),都是對規劃器的嘗試:能夠在一個無結構的世界裡決定機器人該做什麼的系統。

這三個類別描述了今天真正在落地交付的大部分東西,而它們之間的區分在實踐中很有用。然而,這些類別並非根本上彼此分離。同一套關於世界如何運作的底層知識,如幾何、物理、動力學,支撐著它們全部。一個能從任意角度渲染杯子的模型,原則上應當也能模擬杯子被推時會發生什麼,並規劃一隻手去把杯子拿起來。越來越多最有意思的研究在刻意模糊這三者之間的邊界。

為什麼模擬是關鍵樞紐

在這三個類別中,模擬器獲得的公眾關注最少,卻是三者中最具決定性意義的。本文要處理的正是這種不對稱。

渲染器是迄今商業上最成熟的。一批圖像或文字生成視訊的產品正在消費級和企業級市場上快速擴張。Google 的 Nano Banana 模型,已經把渲染器等級的圖像生成放到了可能數以億計的使用者手中。技術是真實的,市場也是真實的。然而渲染器最佳化的是視覺合理性,而非物理精準性,而這道天花板很要緊。它們的輸出很美,卻沒法拿來設計一棟建築,也沒法用來訓練機器人。

規劃器是最引人入勝、也最稚嫩的,與正在迅速演進的機器人學習(robotic learning)領域緊密相連。過去兩年,這個領域產出了一些在視訊裡看起來很驚豔的機器人 demo,但這些 demo 實際展示了什麼,得說句實話。它們幾乎全都侷限在高度受限的實驗室環境裡,處理的物體種類很窄,任務時長也很短。沒有一個在真實世界部署所要求的複雜度、多變性和持續時長上得到過驗證。一段精彩的 demo 集錦,跟一個能在廚房、倉庫或手術室裡可靠幹活的機器人之間,差距依然巨大。儘管如此,商業上的押注卻相當可觀。一波資金充裕的入局者正爭相推出通用規劃系統,而最大的那幾家基礎設施玩家則把規劃架在更廣闊的模擬技術堆疊之上。一個會規劃的機器人就是一個能幹活的機器人,整個行業都在爭著第一個抵達那一步。

模擬是連接兩端的橋樑。如果說語言是世界的抽象、像素是世界的投影,那麼幾何、物理和動力學就是世界本身。模擬器必須工作在那個層級上:作為結構主幹,視覺外觀(供渲染器使用)和行動後果(供規劃器使用)都能從中推匯出來。

一個掌握了模擬的模型,可以把它的理解投影成像素,供人類觀看,也投影成行動預測,供具身 agent 使用。一個只掌握渲染、或只掌握規劃的模型,這兩件事都做不到。它的商業版圖極為遼闊。單是 NVIDIA 的 Omniverse 一項,瞄準的就是工廠、倉庫、供應鏈和數字孿生裡逾兆美元的市場。機器人訓練、自動駕駛測試、建築可視化、工程,還有藥物發現,全都要依賴某種形態的模擬。

這個領域裡最難的開放問題,也都落在那裡。帶有顯式幾何、材料屬性和物理標註的三維資料,比渲染器賴以訓練的網際網路視訊要稀缺好幾個數量級。sim-to-real gap(模擬到現實的差距,即同一件事在模擬裡的表現和在現實裡的表現之間的差異)依然存在。生成式模擬器在此之上還引入了一種新風險:AI 生成的幾何可能看起來正確,卻包含自相交(self-intersections)或錯誤的尺度,從而產生荒謬的物理。大規模的多物理場模擬:剛體、可變形物體、流體和布料全都相互作用,其代價仍然比單域模擬昂貴好幾個數量級。

在 World Labs,Marble 是我們邁進這片疆域的第一步。它接受多模態提示(文字、圖像、視訊或空間草圖),生成可供探索的 3D 環境:一邊輸出供視覺瀏覽的 Gaussian splats(高斯潑濺),一邊輸出物理引擎能在其上運算的 collision meshes(碰撞網格)。但 Marble 只是一條長得多的弧線的第一章,隨著渲染、模擬和規劃之間的界線開始坍縮,整個領域都在書寫這條弧線。

邊界正在何處坍縮,以及接下來是什麼

但更多還在後頭。當下這個領域裡最重要的趨勢是,這三個類別正開始彼此融合。其共同洞見是:渲染一個世界、模擬它、並在其中行動所需的知識,在很大程度上是同一套。延續前面的例子,一個真正理解杯子如何放在桌上的模型(它的幾何、材料屬性、對受力的響應等等),應當能夠從任意角度渲染那隻杯子、模擬杯子被推時會發生什麼,並規劃一隻手去把杯子拿起來。這三個類別是單一底層理解的三種投影。

舉例來說:來自多個機器人實驗室的一批近期工作(數量不多,但在增加)已經至少在概念層證明一個預訓練的視訊渲染器可以拿來當作"世界與行動聯合預測"的骨幹,由此暗示出渲染器與規劃器之間的一座橋樑,讓同一個模型既去想像將會發生什麼,也去想像自己該做什麼。World Labs 的 Marble 已經能用單一模型同時輸出 Gaussian splats 和 collision meshes,抹平了渲染器與模擬器之間的邊界。每一個層級都在從被動輸出走向互動系統:渲染器正變得 action-conditioned(以行動為條件),模擬器正生成更可控、更可編輯的世界,規劃器則從單純的反應走向審議(deliberating)。

其邏輯終點是一個統一的世界模型(unified world model):一個基礎模型,既能渲染照片級真實的檢視、產出物理上準確的結構,又能規劃行動序列,並根據下游消費者的需要在各種輸出模態之間切換。我們仍將面對一連串令人生畏的挑戰。資料的版圖並不均衡,渲染器淹沒在網際網路視訊之中,而模擬器和規劃器則面臨 3D 資產和機器人演示的嚴重短缺。為視覺美感做最佳化,可能會犧牲掉機器人或高保真模擬所需的精確度。如何在單一架構內部調和這些張力,是當今世界模型研究中最核心的開放問題,而這正是 World Labs 在不斷打磨 Marble 的過程中,要著手去做的事。

然而方向是清晰的。這個領域自 1980 年代末以來一直在押的,是同一個賭注,一個足夠豐富的世界模型,就是任何 agent 去看見世界、建構世界、並在世界中行動所需的全部;也正是如今驅動著整整一代研究的那個賭注。讓這個"大賭注"有份量的,是一場早已在進行中的匯聚:三條線索起初是彼此獨立的研究項目,如今卻開始表現得像同一件事。當它們之間的邊界坍縮、把它們合在一起來看時,它們將重塑某種更宏大的東西:機器智能與它所棲居的物理世界之間的關係,也就是空間智能那條漫長的弧線。

語言給了機器一種談論那個世界的方式。世界模型則是機器最終去理解、想像、推理、並與那個世界互動的途徑。 (卜寒兮)