李飛飛和LeCun的世界模型之爭

2025/11/15

•

AGI之路，終於交會到了世界模型的戰場。

李飛飛，發佈了旗下首款商用世界模型Marble；

幾乎在同一時間，Lecun離職Meta，準備創立自己的世界模型公司；

在此之前，Google旗下的世界模型Genie 3，也曾掀起業界轟動。

AI界三股大佬力量，雖然同樣進軍世界模型，卻意味著三種截然不同的技術路線賭注—

世界模型之爭

李飛飛剛剛為空間智能舉大旗的萬字長文發佈，她旗下的創業公司World Labs，就緊鑼密鼓推出了首款商用世界模型Marble。

業界普遍認為Marble有商業化潛力，是因為它產生的是持久的、可下載的3D環境。

團隊表示，這種方式能顯著減少場景變形和細節不一致的問題，而且還能將生成的世界匯出成高斯斑點、Mesh網格，甚至直接匯出影片。

更進一步，Marble還內建原生的AI世界編輯器Chisel，使用者只需一句提示，就能依照自己的想法自由改造世界。

對於做VR或遊戲的開發者來說，「一句提示→直接生成3D世界→一鍵匯出到Unity」這樣的鏈路，非常有幫助。

然而，Hacker News的一名機器學習工程師指出，比起所謂的世界模型，Marble看起來更像是單純的3D渲染模型。

這不就是高斯Splat模型嗎？我在AI產業做了這麼久，到現在都還是搞不懂「世界模型」裡的「世界」究竟指什麼。

Reddit網友的說法則更直接：

用高斯散射、深度和影像修復把圖片轉成3D環境，確實很酷，但這就是一組3D高斯生成流水線，不是機器人的大腦。

這裡的高斯潑濺，指的是近幾年3D建模裡最火紅的一類新技術。

它把一個場景表示成成千上萬個漂浮在空間中的彩色模糊小斑點（也就是高斯），再把這些斑點“潑濺”到螢幕上，讓它們自然融合成一張圖像。

可以這麼理解：高斯就像是漂浮在立體空間、半透明、有光暈、邊緣柔軟的小氣泡。

單一氣泡當然軟乎乎的成不了形，但如果成千上萬個這樣的氣泡聚在一起，再從不同角度渲染出來，就能組合出一幅精美的三維畫面。

這樣做，不需要像傳統攝影測量那樣走複雜的建模流程，雖然犧牲了一些精確度，但速度極快，而且操作更輕鬆。

Marble採取的正是這樣一種路徑。

然而，這也意味著，Marble可能不是大家想的那種、可以直接用於機器人訓練的「世界模型」。

Marble確實建構了一個完整世界，但我們看到的其實只是一個能被渲染器直接轉成像素的檢視。

換句話說，它捕捉的是「表面是什麼樣子」，而並沒有內建「這個世界為什麼會這樣運作」的物理規律。

這對人來說完全夠用了，但對機器人來說，重要的其實不是這些視覺訊息，而是背後的因果結構——

例如，一放在斜坡上的球會滾下來，這對人類來說是看一眼就懂的事；

但機器人想做出類似判斷，還需要質量、摩擦、速度……這些資訊在Marble里根本不存在。

或許正是因為如此，在Marble自己的部落格上，雖然屢屢提及“世界模型”與“匯出高斯散射體、網格和視訊”，但幾乎完全沒有提到機器人。

不過在商業化層面，Marble明顯更具優勢。

相較於AI圈熱議的那類、可孕育具身智能世界模型，Marble已經不是一個遙遠的概念，而是一款能夠立刻融入遊戲開發者日常工作流程的實用工具。

但這也不禁令人有些黯然，難道那條能通往AGI的「世界模型」之路，只是個噱頭嗎？

當然不是。

確實存在著能與機器人真正互動的世界模型，例如——LeCun的JEPA。

LeCun所理解的「世界模型」，根子並不在3D圖形學，而是在控制理論和認知科學。

它不需要輸出漂亮的畫面，因為你根本「看不到」這種世界模型。

這類世界模型的任務，不是渲染精美的像素，是讓機器人能提前想幾步，學習在行動前預判世界的變化。

JEPA走的正是這條路——

LeCun認為，對AI來說，只有中間那個抽象表徵才重要，模型沒必要浪費算力去產生像素，只要專注於捕捉那些能用於AI決策的世界狀態。

所以，這類模型雖然沒辦法像Marble那樣生成精緻的3D影像，看起來不那麼「驚豔」，但它更像是在訓練機器人的「大腦」。

其優勢在於對世界更本質的理解，因此，更適合作為機器人的健身房。

這麼一對比，李飛飛和LeCun在「世界模型」上的路線幾乎南轅北轍——

前者做的是一個前端資產產生器；後者則更像一個後端預測系統。

而在這二位神仙打架的中間，還站著一位科技巨頭——Google。

今年8月，GoogleDeepMind推出了新版世界模型，這就是Genie 3。

只要一句Prompt，模型就能產生一個可互動的影片環境，使用者可以在其中自由探索數分鐘。

最令人印象深刻的是，Genie 3首次在這一類模型中解決了長時一致性的問題——不會再出現那種「轉個身整棟大樓消失」的狀況。

同時，它也支援觸發世界事件，例如「開始下雨」「夜幕降臨」等，整個過程就像一款由模型而非傳統引擎驅動的電子遊戲。

不過，Genie應該更像一款「世界模型式影片產生器」。

儘管Genie 3讓「世界動了起來」，它的核心仍然是視訊邏輯，而非JEPA那種基於物理和因果的邏輯。

也就是說，它雖然可以產生動態畫面，但也無法完全「理解」這些畫面背後的物理規律。

依然可以用於機器人訓練，但不如JEPA那樣直擊本質。

同時，畫面品質和解析度也有限，難以與Marble那種高精度、可匯出的3D資產相提並論。

綜上來看，三種「世界模型」雖然都在描繪「世界」，但理解路徑完全不同，也因此各有千秋——

Marble渲染「世界長什麼樣子」，Genie 3展示「世界怎麼變」，JEPA則探究「世界的結構是什麼」。

而市面上幾乎所有的「世界模型」，大致也都可歸入這三種範式：

世界模型金字塔

第一種：世界模型即介面

以Marble為代表，它讓人們能夠從文字或二維素材，直接產生可編輯、可分享的三維環境。

在這個模式下，「世界」是呈現在VR頭戴裝置、顯示器或電腦螢幕上的那片可供人觀賞與遊走的空間。

第二種：世界模型即模擬器：

以Genie 3為代表，這類模型能產生連續、可控制的視訊式世界，讓智能體在其中反覆嘗試、失敗、再嘗試。

像SIMA 2這樣的智能體，便可把這類世界當作「虛擬健身房」。

第三種：世界模型即認知框架

以JEPA為代表，這是一種高度抽象的形式，沒有像前兩種一樣可供人欣賞的畫面。

在這裡，焦點不在於渲染，「世界」以潛在變數和狀態轉移函數的形式呈現，可以說是機器人完美的訓練基地。

在智源學者趙昊看來，其實可以將三者拼裝為「世界模型金字塔」——

自下而上依序是李飛飛、Genie 3、Lecun。

站在地面仰望這座金字塔：

越往上，模型越抽象、越貼近AI的思考方式，因此更適合用於機器人訓練與推理；

越往下，模型在外觀、互動與視覺化等方面對人類來說更真實，但更難被機器人理解。（量子位元）

科技