李飛飛團隊提出世界模型基準：“世界生成”能力迎來統一評測，3D/4D/視訊模型同台PK

2025/04/09

•

世界模型領域最新進展，要比拚“世界生成”了。

李飛飛吳佳俊團隊提出了全面評測基準WorldScore，涵蓋了三大類評估指標，動態靜態都有涉及，其資料集中包含了3000個測試樣例。

並且，WorldScore將3D場景生成、4D場景生成和視訊生成三類模型的評估，統一到了一起。

利用WorldScore基準，團隊對一共19款模型進行了全面評估。

評估的結果揭示了當前世界生成技術面臨的相機控制能力不足、長序列世界生成困難等主要挑戰，為模型研究人員提供了重要參考。

正如網友所評價，從單一場景到整體世界建構的轉變，需要這樣的基準來對研究做出指導。

研究團隊認為，之前的基準測試（例如 VBench）僅能評估單個場景的生成能力，遠未達到“世界”生成的層次。

並且以前的基準測試僅考慮視訊模型，但世界生成模型還包括3D和4D方法，而WorldScore可以對所有這些模型進行統一評估。

WorldScore將世界生成任務分解成一系列連續的下一場景生成任務，每個任務由三個關鍵組成部分定義：

資料集方面，WorldScore包含了3000個測試樣例，其中2000個用於評估靜態世界生成能力，1000個用於評估動態世界生成能力。

靜態世界生成資料涵蓋了10個場景類別，包括5類室內場景（餐飲空間、居住空間、通道、公共空間、工作空間）和5類室外場景（城市、郊區、水域景觀、陸地景觀、綠色景觀）。

動態世界資料則包含了5種不同類型的運動：關節運動、可變形運動、流體運動、剛體運動和多物體運動。

每個測試樣例都有兩個版本——真實風格和藝術風格，以評估模型在不同視覺域的表現。

所涉及的指標則包括了可控性、質量和動態評估（靜態場景不涉及此項）三個大類。

其中可控性評估，具體又包括了三項指標：

質量評估，涵蓋了四項內容：

動態評估則包含三個方面：

最終，所有評估指標都經過線性歸一化處理到0-100區間，並通過計算控制和質量維度各指標的算術平均值得到WorldScore-Static得分。

在此基礎上，再加入動態維度的三項指標成績，就得到了WorldScore-Dynamic評分。

利用WorldScore，研究團隊對19款不同類型模型的世界生成能力進行了評測，包括2款閉源模型和17款開源模型。

評測結果顯示，在靜態世界生成方面，3D場景生成模型展現出明顯優勢。其中WonderWorld和LucidDreamer分別以72.69分和70.40分位居榜首，遠超表現最好的視訊模型CogVideoX-I2V的62.15分。

但在動態世界生成方面，則是視訊模型展現出了較強的實力，開源模型CogVideoX-I2V以59.12分的成績領先。

在不同場景類型的測試中，視訊模型在室內場景表現相對較好，但在室外場景生成時與3D模型的差距明顯擴大。

同時，序列長度對模型性能有顯著影響——所有模型在短序列任務上表現尚可，但視訊模型在處理長序列時性能顯著下降，而3D模型則相對穩定。

此外，研究者還對比了T2V和I2V兩類視訊模型的特點。結果表明，T2V模型在控制性和動態生成能力方面較強，更容易實現大幅度的相機運動。

相比之下，I2V模型傾向於保持輸入圖像的視角，雖然生成質量較高，但相機運動相對保守。

本文的兩名共同一作均來自吳佳俊團隊，分別是碩士生段皞一（Haoyi Duan）和博士生俞洪興（Hong-Xing Koven Yu）。

段皞一是浙江大學2023屆優秀畢業生，還獲得了竺院榮譽學位，本科期間在周釗教授的指導下研究多模態學習。

俞洪興本科和和碩士均就讀於中山大學，碩士期間導師是鄭偉詩教授（現任中山大學電腦學院副院長）。

俞洪興的主要研究方向是物理場景理解、動力學模型與模擬，以及3D/4D視覺生成。

目前，兩人正在進行密切合作。

今年入選CVPR HighLight的單圖生成互動式3D場景模型WonderWorld，也是兩人共同一作。

除了兩名共同一作和吳佳俊以及李飛飛之外，斯坦福碩士生Sirui (Ariel) Chen也參與了WorldScore的工作。 (量子位)