李飛飛世界模式爆火後,我們實測後發現離「真可用」還很遠

這周四,李飛飛 2024 年成立的創業公司 World Labs 發布了「世界模型」。 它可以根據單張圖片和提示詞來創建 3D 世界。有兩種用法:

可以直接透過提示詞產生世界,但提示詞+一張圖片效果更好。

也可以直接上傳圖片,不用提示詞,系統會根據圖片來產生提示詞和世界。

網站上的使用者範例:

我們也直接動手開始測評,基於Marble 搭了一段城市CBD 街景:初始視角下效果頗為亮眼,但一旦離開生成原點,畫質便迅速下降,場景出現明顯變形和未完全渲染的空白區域。比較其他使用者案例可以發現,這種「原點精細、周邊塌縮」的問題在目前版本中較為常見。


但在地圖邊界較窄、偏小的世界裡,生成的世界畫面品質與精美程度還是不錯的:

在初次體驗時,Marble 的生成效果令人震撼,然而隨著使用深入,我們觀察到其當前世界模型存在明顯的空間規模限制。當生成區域較小(例如只覆蓋使用者上傳的圖片附近)時,畫面品質很精細;但一旦嘗試產生更大範圍的場景,整體體驗出現明顯衰減。

1. 空間範圍擴展後質量快速下降當生成的世界邊界擴大,模型無法保持一致的幾何和紋理質量,遠離起始區域後場景會出現模糊、扭曲、拉伸等失真現象。

2. 現實輸入與生成空間之間存在明顯品質斷層使用者上傳的2D 影像區域通常作為「原點」呈現高品質渲染;但從影像提供的視角稍作移動,進入模型自主補全的3D 區域後,品質顯著降低,空間結構也容易崩塌。

3. 世界越大,細節越稀疏,整體一致性越差受算力與生成方式限制,模型能在局部區域提供精準重建,但在大規模場景中難以維持足夠的密度和幾何連續性,因此大範圍探索時的可玩性與沉浸感不足。


於是我們在想,既然單次生成的世界模型受制於算力與模型能力,那我們能不能多生成幾個世界,拼在一起?我們升級至 Pro 會員後,體驗了一下官網部落格重點介紹的「世界延展」功能,但延展後的區域仍然存在嚴重的幾何扭曲與紋理拉伸,並且整體畫面偏向高度抽象化,很難滿足可遊玩、可使用的世界構建需求。

“延展”功能的世界

體驗完世界延展功能後,我們又試用了同樣屬於Pro 會員核心能力之一的「多圖生成」。依產品設定,使用者可以上傳多張照片,模型會在同一個世界同時呈現這些畫面元素,進而建構出更完整、更豐富的場景。基於這個假設,我們選取了多張拉斯維加斯繁華街區的街景照片,希望在Marble 中復現一條包含多棟標誌性建築的Vegas 的Strip Road,即便建築的相對位置與真實街區不完全一致,只要能在同一世界中共存即可。

實際體驗卻不理想:多圖生成任務運行了兩個多小時仍停留在初始 loading 狀態,沒有進入可見的階段。隨後我們在Reddit 和小紅書等平台調查了其他用戶的反饋,發現類似問題相當普遍:多圖合成功能經常長時間卡在生成中,幾乎被視為“形同擺設”,難以在當前版本承擔構建大型、複合場景的實際用途。

拉斯維加斯的街景

生成持續三小時



Reddit上的用戶評論


小紅書上的使用者評論

使用過程中的Bug

官方案例中展示了一款基於Marble 搭建的遊戲項目,我們尚未完整體驗該遊戲本身,但從現有的效果圖與演示視頻來看,其呈現效果與普通用戶在實際使用Marble 時能夠達到的體驗之間存在明顯落差。此外,遊戲開發本身並不依賴Marble 才能完成,市面上已有多種成熟的關卡編輯器與遊戲引擎可供選擇。

換句話說,官網展示的這類用例更多體現了Marble 在專業開發者手中的潛力,而非普通To C 用戶可以輕易復現的日常使用場景。對於不具備專業背景、也不希望面對複雜功能配置的個人使用者而言,這些能力的可享程度有限。而從工具鏈的實用性與成熟度來看,Marble 在遊戲製作這一垂直方向上,相比既有的專業開發工具,還需要更多時間和來自開發者社群的系統性驗證。

遊戲設計師用Marble做成的遊戲

綜合以上體驗與觀察,我們傾向於將Marble 視為 「AI 生成遊戲與虛擬空間的一代早期雛形」:在技術概念和探索方向上十分前沿,但距離真正意義上可被主流開發團隊與普通用戶穩定採用,還有相當長的路要走。就目前階段而言,它更像是對世界模型+ 空間生成可能性的公開實驗,而非一款已經打磨成熟的生產工具。

即便如此,我們仍然認為,李飛飛團隊圍繞著「太空智慧(Spatial Intelligence)」 所做的嘗試具有重要意義:它在技術路徑上為未來的虛擬世界建構、機器人模擬、數位孿生等應用開啟了新的想像空間。 Marble 或許還不夠好用,但作為一個標誌性起點,它讓我們得以提前看到下一代空間運算與內容生產工具的輪廓,也讓人有理由繼續關注這一方向在未來幾年中的演化與落地。(深恩SenseAI)