這是一篇把"世界模型"講明白的科普級綜述!

李飛飛、LeCun、Hassabis,同時研究世界模型

最近 AI 圈有件反主流的事。

圖靈獎得主 Yann LeCun 和謝賽寧合夥創立 AMI Labs,融資 10 億美元,不做更大的 LLM,要做"世界模型"。幾乎同時,李飛飛 的 World Labs 拿到數億美金,主打"空間智能":讓 AI 看懂三維世界,而不只是會聊天畫圖。再加上一直押注 Genie 的 DeepMind Demis Hassabis,AI 圈最響亮的一批名字,不約而同押向了同一條賽道。

這條賽道,叫世界模型(World Model)

它和 LLM 解決的問題完全不同:LLM 告訴你"世界是什麼樣",世界模型告訴你 "我這樣做之後,世界會變成什麼樣",一個是旁觀者,一個是參與者。

最近我們 Datawhale 做了個開放原始碼專案 learn-world-model,想第一次帶大家把世界模型從 0 學一遍、做一遍。這篇就是開篇導讀(教學還是內測版,後續持續更新)。

開源地址:https://github.com/datawhalechina/learn-world-model/tree/main

不堆術語,不丟公式炸彈。先講清楚它到底是什麼,再走一遍 80 年發展史,最後把最火的五大技術路線一次拆開。

而這條線索的起點比 LLM 早得多——1943 年,英國心理學家 Kenneth Craik 就預言:大腦裡維護著一個"現實的小尺度模型",行動前先在腦子裡跑一遍。80 年後,它正被這些大佬用各自的方式變成現實。

一、先講個故事:大腦本身就是"預測機"

神經科學在 1990 年代發現了一件有意思的事:大腦並不是在"看"世界,而是在預測世界,然後只處理"預測錯了的部分"。

這叫預測編碼(Predictive Coding)。

視覺皮層不會把眼睛接收到的每個像素老實傳上去,太耗能了。大腦高層持續向低層"下發預測",低層只需要把預測與真實感官的誤差往上匯報。

當你走進熟悉的辦公室,大腦幾乎不需要處理任何資訊,因為一切都在預期之內。但如果同事的椅子換了位置,那個"錯位"訊號會立刻引起注意。預測準確的部分被壓縮掉了,只有誤差才值得消耗資源。

控制工程領域在 1960 年代也獨立發現了類似的原理,叫內模原理(Internal Model Principle)

要實現對某個系統的完美控制,控製器內部必須包含該系統的一個模型。

想控制某件事,先得理解它。這條原理貫穿機器人、航天器、自動駕駛,也成為後來"基於模型的強化學習"的理論根基。

二、世界模型到底是什麼?(看這一個公式就夠)

這個詞被用得很亂,先把邊界劃清楚。

廣義上:任何能預測"接下來會發生什麼"的模型都可以叫世界模型。視訊生成模型預測下一幀,語言模型預測下一個詞,天氣預報預測明天氣溫,全都算。

狹義上,在強化學習和機器人領域,世界模型有更嚴格的含義:它必須以動作為條件。不只是"下一幀長什麼樣",而是:

"我做了這個動作之後,世界會怎麼變?"

用一句話描述:給定當前觀測和動作,預測下一時刻觀測的機率分佈:

其中 $o_t$ 是當前觀測,$a_t$ 是執行的動作,$o_{t+1}$ 是下一時刻的觀測。

加了這一個條件,世界模型從"旁觀者"變成了"參與者":不只告訴你世界會怎樣,還告訴你你的選擇會帶來什麼後果。機器人需要的正是後者。

本文聚焦的,是這個更嚴格的定義。

三、世界模型能幹什麼?三個無法替代的價值

三個價值。第一個最直覺,後兩個才是工業界真正在乎的,也最常被忽視。

價值一:樣本效率——在腦子裡練一萬遍

無模型強化學習(Model-Free RL)需要數百萬次真實互動才能學會一個簡單任務,每一次互動都是真即時間和真實資源。

世界模型讓 Agent 可以在內部模擬中"虛擬經歷"海量軌跡:

Dreamer V3(arXiv:2301.04104)在 Atari 100k 基準(只允許 100,000 步真實環境互動)上超過人類水平,背後依賴的正是這個機制。

價值二:規劃能力——動手之前先算好

有了世界模型,Agent 可以在行動之前先在腦子裡把幾條路都走一遍,選預期回報最高的那條。

MuZero(DeepMind,2020,arXiv:1911.08265)正是靠這個機制,在不被告知遊戲規則(狀態轉移方程、終局條件)的情況下,自己學出了一套內部動態模型,並憑此掌握了國際象棋、圍棋、Atari 遊戲的通用策略。

價值三:安全性——工業界最看重的殺手鐧

在機器人、自動駕駛、工業控制這些場景,試錯的代價可能是災難性的。

世界模型的解決方案:

Wayve 的 GAIA-1(arXiv:2309.17080)已經在工業級驗證了這個思路:給定真實路測片段,模型可以自動生成"同一路口、不同天氣/行人行為"的變體,把安全關鍵場景的訓練覆蓋率提高到純真實資料採集無法企及的規模,成本只是真實路測的極小比例。

四、發展簡史:從 1943 到 2026,四個時代

階段一:理論奠基(1950s–2017)

循環神經網路(RNN)、卡爾曼濾波器、隱馬爾可夫模型……七十年裡,研究者在控制論、語音識別、機器人學的不同角落,各自建構"預測未來狀態"的工具,從未被統一冠以"世界模型"的名字。

最具代表性的例子:卡爾曼濾波器在 1960 年代幫助阿波羅導航系統即時預測飛船位置。它不等感測器讀數,而是先用內部模型"猜"飛船下一秒在那,再用真實測量值校正誤差。同一套思路,後來出現在語音識別、天氣預報、工業機器人裡,只是換了一套數學外衣。

直到 2018 年,一篇論文把這些散落的工具第一次組合成一個可端到端訓練的框架。

階段二:"在夢裡學開車"(2018)

2018 年,David Ha 與 Jürgen Schmidhuber 發表《World Models》(arXiv:1803.10122),用三個模組建構了這個框架:

V 模組是摺積神經網路,把每一幀遊戲畫面壓縮成一個低維向量 z。M 模組是混合密度網路 + 循環神經網路(MDN-RNN),以 z 和上一步動作為輸入,預測下一幀的 z 的機率分佈。C 模組只是一個極簡的線性層,把當前 z 和隱藏狀態對應成動作。

最令人著迷的是他們的實驗:把控製器放進記憶模組幻想出的虛擬環境裡訓練,然後把策略遷移到真實遊戲。在夢裡學會開車,醒來就能上路。這個比喻讓世界模型第一次走進大眾視野。

但這個實驗也暴露了世界模型的核心難題:控製器學會了利用世界模型的錯誤來製造虛假高分,在夢境裡作弊而非學到真實技能,這在 RL 裡有個專門術語叫 reward hacking。模型還沒學會開車,倒是先學會了應付 KPI。這個問題,後來成為整個領域持續攻克的核心挑戰。

階段三:潛在空間革命(2019–2022)

2019 年,Danijar Hafner 等人發佈 Dreamer V1(arXiv:1912.01603),引入了 RSSM(循環狀態空間模型),把世界模型的架構推上了新台階。

Dreamer 的核心改變只有一個:不再在像素空間裡做任何事,直接在低維的潛在空間(latent space)裡完成預測、規劃、獎勵學習的全流程。

潛在空間是什麼? 把一幀 64×64 的遊戲畫面(12,288 個像素值)壓縮成一個只有幾十維的向量,丟掉光照、紋理、背景噪點這些無關細節,只保留"這裡有個平台、那裡有個敵人"這類結構性資訊。這個壓縮後的低維空間,就是潛在空間。完成壓縮的網路叫 VAE(變分自編碼器),訓練目標是:壓縮後再還原,重建出的畫面要儘量接近原圖。

為什麼這個改變如此關鍵?在像素空間裡預測,模型需要對 12,288 個數字的精確數值負責,包括背景每一粒噪點、光影每一次細微變化,算力消耗極大。

RSSM 把這個問題拆成兩條平行路徑。確定性路徑用 GRU(一種循環神經網路單元,擅長記住"到目前為止發生了什麼")捕捉平滑、連續的動態;隨機路徑從一個學習到的機率分佈中採樣一個隨機向量,捕捉環境中真實存在的不確定性,比如拋出的球是否會彈進洞裡。兩路資訊拼接後,才做下一步預測:

有了這個結構,Dreamer 的規劃方式是:把當前狀態送入 RSSM,不與真實環境互動,只在內部反覆滾動預測未來若干步,同時用一個學到的獎勵模型打分,選出預期累積獎勵最高的動作序列,再執行第一步。整個"想像-評分-行動"的循環全在潛在空間裡完成,速度遠快於跑真實環境。

Dreamer 系列從 V1 迭代到 V4,成為世界模型領域的旗艦工作。Dreamer V3(arXiv:2301.04104)用單套超參數橫跨 Atari、Minecraft、機器人控制等 8 個領域超過 150 個任務,每個領域都取得了有競爭力的結果,這在之前從未實現過。

時代二留下的"作弊問題",在 RSSM 架構裡得到了結構性的緩解:策略學習全程在潛在空間裡進行,模型可利用的"漏洞"大幅減少;而後來的 V-JEPA 2 則用 EMA 從訓練機制上切斷了捷徑(詳見下文)。

階段四:視訊即世界(2023+)

2023 年前後,兩條平行路線匯聚:能不能用視訊本身來學習世界的物理規律?

路線 A:JEPA(聯合嵌入預測架構)

Yann LeCun 團隊走了一條與擴散模型截然不同的路:拋棄像素重建,只在語義嵌入空間裡做預測。

"我不需要畫出你的臉,我只需要知道你是誰。"

Meta 在 2025 年發佈的 V-JEPA 2 被明確定位為"邁向 AGI 的世界模型元件":給定動作序列,在語義空間預測未來的視覺表示,不是生成逼真視訊,而是理解"如果我這樣移動手臂,物體會在那裡"。

路線 B:大規模視訊生成

Google 的 Genie、Veo 在 2024 年發佈,NVIDIA 的 Cosmos 在 2025 年初跟進。研究者開始追問:這些模型在生成逼真視訊的過程中,是不是順帶學到了空間結構感、物體持久性和粗粒度物理規律?如果是,它們能不能作為機器人的底層世界模型?

這個問題至今沒有確定答案,但已經足夠嚴肅,讓兩個原本平行的領域坐到了同一張討論桌前。

五、為什麼偏偏是最近兩年火了?

時代三的 Dreamer V1 是 2019 年的,時代四的視訊生成 2023 年就起步了。為什麼偏偏 2024–2025 才成了每個 AI 會議的主角?

不是某個單點突破,而是三條線剛好同時成熟,撞到了一起。

第一條:視訊生成突然變強。Genie、Veo、Cosmos 的出現(上文時代四)讓視訊生成質量在短時間內大幅提升。但質量提升帶出了一個更深的追問:生成質量高不等於物理理解深,這批模型能不能作為機器人的底層世界模型?這個問題催生了大量跨領域研究投入,也是為什麼 2024 年後世界模型的討論同時出現在視訊生成和機器人兩個會議上。

第二條:具身智能遇到資料瓶頸。通用機器人訓練需要大量遙運算元據,成本極高,世界模型提供了"從無標註視訊間接學習"的繞路方案。

第三條:自動駕駛驗證了"反事實模擬"的商業價值。Wayve 的 GAIA-1 已經在工業級證明:用世界模型生成罕見危險場景的合成資料,比單純累積路測里程效率更高,這條路徑的商業邏輯已經跑通。

上一次世界模型熱(2018–2020)是學術界主導的,在遊戲裡證明可行性,落地很遙遠。這一次(2024+)工業界和學術界同時入場,因為它已經觸碰到了真實的成本瓶頸和安全需求。

六、五大技術路線,一次講清楚

2023 年以後,世界模型分化出五條路線,每條面對的核心權衡都不一樣:RNN/RSSM 追求樣本效率、Transformer 追求長程建模、Diffusion 追求生成質量、JEPA 追求語義理解、Embodied WM 追求資料效率。選那條,取決於你的任務對那個瓶頸更敏感:

📊 架構對比速覽

STORM:把遊戲幀變成"句子"

STORM(NeurIPS 2023,arXiv:2310.09615)的思路,是把 GPT 處理文字的方式搬到視訊幀上。

GPT 能預測"下一個詞",因為詞是離散的、可以用機率分佈精確建模。STORM 用分類 VAE 把每一幀壓縮成一個離散潛變數,就像把一首歌的某個小節描述成"這是 A 段高潮",而不是保留"這 4 秒鐘的完整波形資料"。再把這個離散編碼和當前動作合併成單個 token,送給 Transformer 處理。

單 token 設計讓序列長度大幅縮短(同期的 IRIS 方法每幀產生 16 個 token,STORM 只用 1 個),訓練速度大幅提升。在 Atari 100k 基準上,STORM 以 126.7% 平均人類標準化分數(HNS,Human Normalized Score,以人類玩家水平為 100% 的歸一化得分)創造了當時不依賴額外規劃演算法的方法中最高記錄,訓練只需要單塊 RTX 3090 約 4 個小時。

Diamond:用擴散模型"畫出"下一幀

Diamond(NeurIPS 2024,arXiv:2405.12399)走了另一條路:不做離散壓縮,直接用擴散模型逐步"去噪"出下一幀。

擴散模型(Diffusion Model)的核心邏輯是:先把真實圖像加噪聲破壞掉,再訓練模型把噪聲一步步還原。在世界模型場景裡,以歷史幀和當前動作為條件,擴散模型"去噪"的結果就是下一幀的預測。

Diamond 選擇了其中最右邊的方案:通過交叉注意力把動作資訊注入 U-Net,讓去噪過程以動作為條件:

Diamond 在 Atari 100k 上以平均 HNS 146%超越了此前所有世界模型方法,生成的視訊幀視覺質量也是五種架構中最高的。

代價是:每生成一幀需要多次神經網路前向傳播,計算開銷遠高於 STORM 這類單次前向傳播的方法(實測幀生成吞吐量相差約一個數量級);而且生成過程不可微,難以直接與策略最佳化對接。

V-JEPA 2:不畫畫,只理解

V-JEPA 2(Meta,2025,arXiv:2506.09985)是最"另類"的一個:它根本不生成圖像。

它的訓練目標是:給定一段視訊中可見的時空塊,預測被遮擋的時空塊的語義表示,而不是預測像素值。V-JEPA 2 在此基礎上進一步加入動作條件,使模型能夠回答"執行這個動作序列之後,視訊的語義表示會怎麼變"。

這裡有一個陷阱:如果兩個編碼器完全同步更新,模型會很快找到一個捷徑,"把所有輸入對應到同一個向量"就能讓預測誤差接近零,這叫表示坍縮(Representation Collapse)。而EMA(指數滑動平均,Exponential Moving Average)是堵住這個捷徑的關鍵:目標編碼器的參數不直接跟著梯度走,而是每步只向另一個編碼器"靠近一小步"(比如 99% 保留舊值,1% 吸收新值),像一個永遠慢半拍的影子。兩者永遠不同步,模型就無法通過輸出固定向量來"矇混過關"。

V-JEPA 2 被 Meta 明確定位為世界模型的基礎元件,而不是視訊生成器。它的優勢在於對物理世界的結構性理解:不需要關心光照、紋理等像素級細節,直接在語義層面建模"這個物體在那裡、手是否握住了它"。

DreamDojo:從人類視訊裡"偷學"機器人技能

DreamDojo(NVIDIA,2026,預印本,arXiv:2602.06949)面對的是機器人領域最現實的問題:機器人的運算元據,貴到離譜。

採集高品質機器人遙運算元據,需要專業硬體、熟練操作員、真實物理場景,成本極高。但網際網路上有數以萬小時計的人類日常操作視訊(Ego4D 等公開資料集已超過 44,000 小時),遠超機器人遙運算元據集的規模。

DreamDojo 的思路:先在這批人類視訊上做大規模預訓練,學到物理互動的基本規律(重力、物體碰撞、手的運動方式),再在少量機器人資料上微調。人類和機器人的形態不同,但物理規律一樣,這是遷移的前提。

動作標註的問題怎麼解決?用連續潛在動作(continuous latent actions)作為代理:從相鄰兩幀之間的差異裡自動提取一個幾十維的向量,表示"幀與幀之間發生了什麼類型的變化"。它不是關節角度,也不是力矩,而是模型從視訊裡自動發現的抽象運動模式,繞過了逐幀手工標註的需要。

最終,DreamDojo 在 640×480 解析度下達到 10.81 FPS 的推理速度,滿足即時機器人控制的基本要求,並展現出跨環境零樣本泛化能力。

七、吵起來了:世界模型真的是正確答案嗎?

五個架構,五條路線,每條都有人在押注、在融資、在發論文。但有一個問題,這些論文都沒有回答:世界模型,真的是正確的方向嗎?AI 領域圍繞這個問題有三種截然不同的聲音,值得分開來聽。

第一種聲音:世界模型是唯一正確的路

這是 Yann LeCun 和謝賽寧的立場。AMI Labs 於 2025 年 12 月成立,LeCun 擔任執行董事長,謝賽寧擔任首席科學官,截至 2026 年 3 月完成超過 10 億美元融資,明確對標"以 LLM 為中心"的矽谷主流。別人融十億是為了買卡訓 LLM,他們融十億是為了證明大家訓 LLM 訓錯了方向。

謝賽寧的比喻流傳很廣(訪談原文):

"語言是一劑'鴉片'。它有用,但它是捷徑。如果你一直靠枴杖走路,你就沒辦法訓練大腿的肌肉。"

LeCun 的表述更詳細(見 2022 年技術報告 A Path Towards Autonomous Machine Intelligence):LLM 處理的是人類發明的符號系統,是對世界的二次抽象;真正的智能需要直接從連續的感官訊號中建模物理世界。他的核心論斷是:表徵是世界模型最重要的部分,語言和像素都只是表徵的輸出介面,而不是基礎。

AMI Labs 的技術選擇是非生成式的 JEPA 路線,不生成像素,直接在語義空間裡預測狀態變遷。他們的賭注是:五年後,今天 LLM 主導的格局會被證明是一段彎路。

第二種聲音:LLM 加多模態,融合就夠了

這是 Google DeepMind 的路線。Demis Hassabis 在 2025 年的訪談中明確表示,Gemini 的演進方向就是"成為世界模型",但實現方式是在大型多模態 LLM 上疊加具身推理能力,而不是推翻生成式範式另起爐灶。

邏輯是:LLM 已經積累了人類幾千年書寫知識的壓縮表示,在這個基礎上疊加視覺、空間感知、強化學習,比從頭建一套新架構更務實。Gemini Robotics 和 GPT-4o 的多模態能力,都是這個方向的體現。

這條路線有一個實用主義的支撐論據:LLM 在常識推理、語言指令理解、跨任務泛化上已經足夠強,而這些恰恰是純 RSSM/JEPA 架構最弱的地方。Gemini Robotics 的思路是:不需要從零建立物理直覺,直接借用 LLM 裡已經壓縮好的"世界常識",再讓模型學會把這些常識對應到連續的物理動作上。

但這條路線的批評者也有具體的論據:LLM 學到的是統計關聯,不是因果結構。它能告訴你"玻璃杯掉下來會碎",但不知道為什麼碎、碎成幾片、碎片會彈到那裡。這種"知道結果但不懂機制"的理解方式,在語言任務裡夠用,在機器人操作裡可能恰好踩中最難的那塊:你需要的不是常識,是精確的物理預測。

第三種聲音:方向也許對,但時機還沒到

這是目前最少被公開討論、在業界卻私下流傳最廣的一種判斷。

核心是一個資料密度問題:語言的每個 token 攜帶極高的語義密度,一句話就能傳達完整的命題。視覺訊號截然不同:一幀 1080p 視訊包含約 600 萬像素,但其中承載的命題性資訊(誰、在那、做什麼)壓縮成文字不過幾十個詞。用同等資料量訓練,視覺訊號能傳達的語義量遠小於文字:語義密度低,意味著相同的命題需要更多幀才能學到。世界模型恰恰需要大量視覺輸入,這意味著要訓練出能力對標當前 LLM 的世界模型,所需資料量和算力可能比 LLM 高出好幾個數量級,產出的能力卻可能還不如一個早期的 BERT。

歷史教訓不止一次:NLP 領域幾十年的語法樹、依存句法、詞性標註研究,LLM 出來之後幾乎整個作廢,當年寫這些工具的人不是方向錯了,是被規模定律碾過去了(The Bitter Lesson,Sutton,2019)。脈衝神經網路(SNN)最接近生物神經元的工作方式,研究了將近半個世紀,Transformer 出來之後在幾乎所有基準上被直接越過,連追趕的機會都沒有。

持這種觀點的人不反對世界模型的方向,他們反對的是現在就大規模押注:在視覺資料密度問題沒有根本突破之前,所需的目標函數、計算規模、資料量都還遠遠不夠,這個問號值得每一個認真考慮"要不要押注世界模型"的人先想清楚。

三種聲音不是非此即彼。LeCun 和謝賽寧在用融資和職業生涯押注方向;DeepMind 在用工程路徑逼近同一個目標;懷疑者在追問"就算方向對,現在的條件夠嗎"。這三個都是真問題:方向已經進入主流,但勝負還沒分。

八、結語

從 Craik 在 1943 年寫下"顱骨裡的小模型",到 2026 年 DreamDojo 從人類視訊裡教會機器人擰螺絲,這條線索走了 80 年,始終指向同一個問題:智能體怎麼在行動之前先想清楚?

LLM 回答的是"世界是什麼樣的",世界模型回答的是"如果我這樣做,世界會發生什麼"。這是兩個不同的問題,目前沒有任何一種架構同時把兩者都解決好了。

隨著機器人和具身智能從實驗室走向現實,第二個問題會越來越重要。 (Datawhale)