大摩重磅報告 | 資本狂砸千億！AI下一個風口：世界模型

2026/04/10

•

AI的下一場革命，是從“理解語言”轉向“理解物理世界”，而世界模型，正是這場革命的核心載體。

AI的下一個增長曲線在那裡？

摩根士丹利在2026年3月發佈的研究報告中，給出了明確答案——世界模型（World Model）。

世界模型將成為AI從“數字世界”走向“物理世界”的核心鑰匙，開啟又一個兆級產業賽道。

這份由Adam Jonas團隊撰寫的報告，系統拆解了世界模型的定義、技術路線、應用場景與投資邏輯。

報告指出，大語言模型紅利見頂，下一場競賽是世界模型。

大語言模型紅利見頂，AI進入物理時代

不可否認，大語言模型（LLM）重塑了AI的應用邊界，在文字生成、程式碼編寫、智能搜尋、白領辦公等數位領域展現出強大能力。但摩根士丹利在報告中直言，LLM的增長已觸達天花板，其核心短板在於——缺乏具身認知能力。

簡單來說，LLM能完美描述“把杯子放在桌子上”，卻無法判斷杯子是否會傾倒、桌子能否承載重量；能寫出自動駕駛的程式碼，卻無法理解車輛行駛中的物理慣性與路況變化。這種對三維空間、物理規律、時間演化與因果關係的“無知”，決定了純語言AI的時代正在走向頂峰。

報告核心論斷：AI的下一場革命，是從“理解語言”轉向“理解物理世界”，而世界模型，正是這場革命的核心載體。

什麼是世界模型？

不同於專注於文字互動的LLM，世界模型被摩根士丹利定義為AI的“想像引擎”——它能讓AI真正“看懂”物理世界、“預判”未來變化、“推演”行動結果，核心具備四大能力：

空間理解：精準掌握3D幾何結構、物體位置、空間關係，以及不同視角下的場景變化；

物理建模：模擬重力、運動、碰撞、流體動力學、摩擦等真實物理規律，還原世界運行邏輯；

時序預測：預判未來幾秒、幾分鐘乃至更長時間內的場景狀態演化，提前規避風險；

互動決策：在實際行動前進行虛擬推演，實現“先思考、後行動”，提升決策效率與安全性。

五大技術路線：全球競賽的核心賽道

當前，全球科技巨頭與初創公司正加速佈局世界模型，摩根士丹利在報告中梳理出五條平行且不斷融合的主流技術路徑，構成了行業研發的核心框架：

互動式動作條件模型（代表：DeepMind Genie）：類似“學習型遊戲引擎”，環境能隨智能體的動作即時響應、動態變化；

一致性3D世界生成器（代表：World Labs Marble）：生成的3D世界具備高度幾何一致性，支援任意視角探索，還原真實空間邏輯；

抽象表示模型（代表：Meta V-JEPA）：不追求像素級渲染，重點聚焦高層邏輯推理，提升模型的決策效率，其最新版本V-JEPA 2已能通過觀看海量視訊實現物理規律理解與機器人控制；

預測型生成模型（代表：Wayve GAIA、NVIDIA Cosmos Predict）：核心能力是預測場景下一狀態，為自動駕駛、機器人規劃提供支撐，其中Wayve的GAIA系列模型可通過文字、視訊輸入生成逼真駕駛場景，助力自動駕駛邊緣場景測試；

物理約束模擬引擎（代表：NVIDIA Cosmos Transfer）：結合世界模型與專業物理引擎，生成高保真合成資料，降低真實場景資料採集成本。

兆應用：從自動駕駛到數字內容全面重塑

世界模型並非停留在實驗室的概念，報告披露了多個已落地的標竿案例，其應用場景已覆蓋多個兆級產業，正在逐步重塑行業格局：

自動駕駛：Waymo基於DeepMind Genie系列模型，完成了數十億英里的虛擬路測，高效驗證極端天氣、複雜路況等邊緣場景，大幅降低實車測試成本，與Wayve GAIA系列模型共同推動自動駕駛虛擬測試落地；

機器人：通過世界模型建構物理一致的虛擬環境，訓練機器人完成抓取、搬運、組裝等複雜互動動作，Meta V-JEPA 2模型僅通過62小時機器人操作視訊，即可實現對未接觸過的機械臂的控制，提升機器人在真實場景的適配能力；

遊戲與影視：微軟Muse利用世界模型，可生成具備一致性、多樣性和持久性的遊戲場景，其基於7年人類遊戲資料訓練，能生成接近人類真實操作的遊戲序列，目前已應用於Xbox相關遊戲研發；Roblox則通過自研世界模型，打造沉浸式虛擬場景，提升使用者體驗；

設計與建築：設計師只需輸入文字提示，就能通過世界模型快速生成3D空間方案，並即時迭代調整，大幅提升設計效率；

工業自動化：利用預測性物理建模，最佳化生產線佈局、物流調度等環節，降低生產損耗，提升工業生產效率。

六大挑戰：通往成熟的必經之路

儘管世界模型前景廣闊，但摩根士丹利在報告中也客觀指出，當前技術仍面臨六大核心瓶頸，仍是通往規模化應用的必經之路：

時序一致性不足：長時間互動易出現場景狀態漂移，目前主流模型僅能支援分鐘級的穩定模擬，微軟Muse等模型當前可實現分鐘等級的穩定序列生成；

可控性有限：模型的動作空間較為狹窄，難以適配複雜多變的真實應用場景，限制了實用價值；

多智能體難題：多主體間的複雜動態互動（如多人協作、多機器人配合）建模尚未實現突破；

資料稀缺：高品質的物理互動資料採集難度大、成本高，成為模型迭代的重要制約，Wayve GAIA-1、微軟Muse等模型均需海量資料訓練，進一步凸顯資料稀缺問題；

評測基準缺失：目前行業缺乏衡量世界模型長期性能的通用評估標準，難以精準判斷模型優劣；

算力鴻溝顯著：訓練世界模型的算力需求，是普通大語言模型的10–100倍，微軟Muse訓練過程中需用到百台級GPU叢集，對算力基礎設施提出極高要求。

巨頭與初創的兆角逐

隨著世界模型成為AI下一站的共識形成，全球資本已掀起佈局熱潮，一場兆級的競賽已全面打響。報告預測，到2035年，世界模型賦能的產業規模將達到10兆美元，成為推動全球經濟增長的核心動力之一。

科技巨頭領跑：Google（DeepMind）、Meta、微軟、特斯拉、輝達等科技巨頭，每年投入超100億美元用於世界模型研發，搶佔技術制高點，其中Meta、微軟均已推出V-JEPA 2、Muse等標竿模型；

初創公司突圍：World Labs、AMI Labs、Wayve、Character.AI等明星初創企業，聚焦細分賽道，成為技術創新的重要力量，Wayve作為自動駕駛領域初創獨角獸，其GAIA系列模型已引發行業關注；

基於對世界模型產業的深度分析，摩根士丹利給出了明確的投資邏輯，清晰劃分出受益與受衝擊的賽道：

核心受益賽道：算力提供商（NVIDIA、AMD）、模擬平台、機器人硬體、自動駕駛解決方案，將直接受益於世界模型的規模化應用，其中算力提供商將持續受益於模型訓練的高算力需求；

面臨衝擊領域：那些僅專注於純語言模型、缺乏空間與物理能力的公司，將逐漸被行業淘汰；

長期投資邏輯：AI正從“數字智能”全面邁向“物理智能”，世界模型作為連線字與物理世界的關鍵基礎設施，是通往通用人工智慧（AGI）的必經之路，長期價值凸顯。 (未來科技X)

科技