大摩重磅報告 | 資本狂砸千億!AI下一個風口:世界模型
AI的下一場革命,是從“理解語言”轉向“理解物理世界”,而世界模型,正是這場革命的核心載體。
AI的下一個增長曲線在那裡?
摩根士丹利在2026年3月發佈的研究報告中,給出了明確答案——世界模型(World Model)。
世界模型將成為AI從“數字世界”走向“物理世界”的核心鑰匙,開啟又一個兆級產業賽道。
這份由Adam Jonas團隊撰寫的報告,系統拆解了世界模型的定義、技術路線、應用場景與投資邏輯。
報告指出,大語言模型紅利見頂,下一場競賽是世界模型。
大語言模型紅利見頂,AI進入物理時代
不可否認,大語言模型(LLM)重塑了AI的應用邊界,在文字生成、程式碼編寫、智能搜尋、白領辦公等數位領域展現出強大能力。但摩根士丹利在報告中直言,LLM的增長已觸達天花板,其核心短板在於——缺乏具身認知能力。
簡單來說,LLM能完美描述“把杯子放在桌子上”,卻無法判斷杯子是否會傾倒、桌子能否承載重量;能寫出自動駕駛的程式碼,卻無法理解車輛行駛中的物理慣性與路況變化。這種對三維空間、物理規律、時間演化與因果關係的“無知”,決定了純語言AI的時代正在走向頂峰。
報告核心論斷:AI的下一場革命,是從“理解語言”轉向“理解物理世界”,而世界模型,正是這場革命的核心載體。
什麼是世界模型?
不同於專注於文字互動的LLM,世界模型被摩根士丹利定義為AI的“想像引擎”——它能讓AI真正“看懂”物理世界、“預判”未來變化、“推演”行動結果,核心具備四大能力:
空間理解:精準掌握3D幾何結構、物體位置、空間關係,以及不同視角下的場景變化;
物理建模:模擬重力、運動、碰撞、流體動力學、摩擦等真實物理規律,還原世界運行邏輯;
時序預測:預判未來幾秒、幾分鐘乃至更長時間內的場景狀態演化,提前規避風險;
互動決策:在實際行動前進行虛擬推演,實現“先思考、後行動”,提升決策效率與安全性。
五大技術路線:全球競賽的核心賽道
當前,全球科技巨頭與初創公司正加速佈局世界模型,摩根士丹利在報告中梳理出五條平行且不斷融合的主流技術路徑,構成了行業研發的核心框架:
互動式動作條件模型(代表:DeepMind Genie):類似“學習型遊戲引擎”,環境能隨智能體的動作即時響應、動態變化;
一致性3D世界生成器(代表:World Labs Marble):生成的3D世界具備高度幾何一致性,支援任意視角探索,還原真實空間邏輯;
抽象表示模型(代表:Meta V-JEPA):不追求像素級渲染,重點聚焦高層邏輯推理,提升模型的決策效率,其最新版本V-JEPA 2已能通過觀看海量視訊實現物理規律理解與機器人控制;
預測型生成模型(代表:Wayve GAIA、NVIDIA Cosmos Predict):核心能力是預測場景下一狀態,為自動駕駛、機器人規劃提供支撐,其中Wayve的GAIA系列模型可通過文字、視訊輸入生成逼真駕駛場景,助力自動駕駛邊緣場景測試;
物理約束模擬引擎(代表:NVIDIA Cosmos Transfer):結合世界模型與專業物理引擎,生成高保真合成資料,降低真實場景資料採集成本。
兆應用:從自動駕駛到數字內容全面重塑
世界模型並非停留在實驗室的概念,報告披露了多個已落地的標竿案例,其應用場景已覆蓋多個兆級產業,正在逐步重塑行業格局:
自動駕駛:Waymo基於DeepMind Genie系列模型,完成了數十億英里的虛擬路測,高效驗證極端天氣、複雜路況等邊緣場景,大幅降低實車測試成本,與Wayve GAIA系列模型共同推動自動駕駛虛擬測試落地;
機器人:通過世界模型建構物理一致的虛擬環境,訓練機器人完成抓取、搬運、組裝等複雜互動動作,Meta V-JEPA 2模型僅通過62小時機器人操作視訊,即可實現對未接觸過的機械臂的控制,提升機器人在真實場景的適配能力;
遊戲與影視:微軟Muse利用世界模型,可生成具備一致性、多樣性和持久性的遊戲場景,其基於7年人類遊戲資料訓練,能生成接近人類真實操作的遊戲序列,目前已應用於Xbox相關遊戲研發;Roblox則通過自研世界模型,打造沉浸式虛擬場景,提升使用者體驗;
設計與建築:設計師只需輸入文字提示,就能通過世界模型快速生成3D空間方案,並即時迭代調整,大幅提升設計效率;
工業自動化:利用預測性物理建模,最佳化生產線佈局、物流調度等環節,降低生產損耗,提升工業生產效率。
六大挑戰:通往成熟的必經之路
儘管世界模型前景廣闊,但摩根士丹利在報告中也客觀指出,當前技術仍面臨六大核心瓶頸,仍是通往規模化應用的必經之路:
時序一致性不足:長時間互動易出現場景狀態漂移,目前主流模型僅能支援分鐘級的穩定模擬,微軟Muse等模型當前可實現分鐘等級的穩定序列生成;
可控性有限:模型的動作空間較為狹窄,難以適配複雜多變的真實應用場景,限制了實用價值;
多智能體難題:多主體間的複雜動態互動(如多人協作、多機器人配合)建模尚未實現突破;
資料稀缺:高品質的物理互動資料採集難度大、成本高,成為模型迭代的重要制約,Wayve GAIA-1、微軟Muse等模型均需海量資料訓練,進一步凸顯資料稀缺問題;
評測基準缺失:目前行業缺乏衡量世界模型長期性能的通用評估標準,難以精準判斷模型優劣;
算力鴻溝顯著:訓練世界模型的算力需求,是普通大語言模型的10–100倍,微軟Muse訓練過程中需用到百台級GPU叢集,對算力基礎設施提出極高要求。
巨頭與初創的兆角逐
隨著世界模型成為AI下一站的共識形成,全球資本已掀起佈局熱潮,一場兆級的競賽已全面打響。報告預測,到2035年,世界模型賦能的產業規模將達到10兆美元,成為推動全球經濟增長的核心動力之一。
科技巨頭領跑:Google(DeepMind)、Meta、微軟、特斯拉、輝達等科技巨頭,每年投入超100億美元用於世界模型研發,搶佔技術制高點,其中Meta、微軟均已推出V-JEPA 2、Muse等標竿模型;
初創公司突圍:World Labs、AMI Labs、Wayve、Character.AI等明星初創企業,聚焦細分賽道,成為技術創新的重要力量,Wayve作為自動駕駛領域初創獨角獸,其GAIA系列模型已引發行業關注;
基於對世界模型產業的深度分析,摩根士丹利給出了明確的投資邏輯,清晰劃分出受益與受衝擊的賽道:
核心受益賽道:算力提供商(NVIDIA、AMD)、模擬平台、機器人硬體、自動駕駛解決方案,將直接受益於世界模型的規模化應用,其中算力提供商將持續受益於模型訓練的高算力需求;
面臨衝擊領域:那些僅專注於純語言模型、缺乏空間與物理能力的公司,將逐漸被行業淘汰;
長期投資邏輯:AI正從“數字智能”全面邁向“物理智能”,世界模型作為連線字與物理世界的關鍵基礎設施,是通往通用人工智慧(AGI)的必經之路,長期價值凸顯。 (未來科技X)