一句話就能生成「我的世界」,騰訊發佈混元3D世界模型,繼續開源|WAIC2025

在 2025 世界人工智慧大會(WAIC)現場,騰訊正式發佈並開源了「混元 3D 世界模型 1.0」。

什麼是世界模型,它的能力聽起來頗具革命性,只需輸入一句話或一張圖,就能在幾分鐘內生成一個完整、可 360° 沉浸式漫遊的 3D 世界。

騰訊混元 3D 世界模型首頁

這是業界首個開源可沉浸漫遊、可互動、可模擬的世界生成模型,為遊戲開發、VR、數字內容創作等領域帶來了全新的可能性。

使用者可以用一句自然語言描述,快速生成一個360度、可互動、可匯出的 3D 場景,並匯入遊戲、模擬或視覺引擎中使用。

與此同時,騰訊混元還宣佈了一系列後續開源計畫,包括多模態理解模型、遊戲視覺模型,以及適用於邊緣裝置的端側大語言模型(0.5B、1.8B、4B、7B),覆蓋從 3D 世界生成到小模型部署的完整生態鏈條。

這一次,騰訊不僅把 3D 內容生成從「生成一個物體」升級到「生成一個世界」,還希望以開放原始碼的方式,撬動整個 3D AIGC 創作生態。

不只是「能看」,更是「能用」

混元 3D 世界模型 1.0 是騰訊混元大模型體系下的最新成果,它不再侷限於生成單個 3D 物體,而是首次支援完整三維世界的生成。這種「世界等級」的生成能力,主要體現在下面幾個方面。

一鍵生成 360 度全景世界

混元模型可基於一句文字描述或一張圖像輸入,生成一個 360 度沉浸式的三維場景。例如,你只需輸入「一個破舊的加油站,夜晚下著雨,遠處有霓虹燈」,它就能建構出加油站主體、環境、天空光照、閃電等元素構成的完整空間。

使用者可在其中進行 360° 視角切換、自由環視,視覺體驗接近 VR 世界,且支援匯出為全景貼圖用於虛擬展示。

可漫遊、可互動的 3D 世界

除了能看,還能動。混元世界模型支援建構「可行走」的場景地圖。生成的世界不僅是封閉空間和固定視角,也支援在場景中自由漫遊,體驗類似遊戲或虛擬現實的互動感。

通過 WASD 鍵控制角色走動、滑鼠拖動切換視角,在模型生成的三維空間中自由探索,幾乎可視為一座「即生成、即漫遊」的虛擬世界。

支援物理模擬與二次編輯

騰訊自研的層次化場景表徵演算法使得前景、中景、遠景分層生成。不僅生成視覺效果逼真的世界場景,生成的每一部分,即場景內的元素都可以被獨立編輯或物理模擬。

前景物體可單獨選中、繫結骨骼或加入行為邏輯;

天空與地形支援替換或個性化渲染;

可載入至 Unreal Engine(UE)、Blender、Unity 等引擎進行物理模擬與動畫植入。

此外,模型輸出為標準 mesh 檔案,符合行業通用規範,可直接被用於遊戲開發、影視特效製作、教育模擬、工業訓練等場景。

與全球領先的開源模型相比,混元 3D 世界模型 1.0 在文生世界、圖生世界的美學質量和指令遵循能力等關鍵維度均全面超越當前 SOTA 的開源模型。

這一模型今天正式發佈並開源,使用者既可在官網使用,也可在 Hugging Face 上部署模型本地運行。騰訊強調,這是首個支援物理模擬、CG 管線可用的開源世界模型。

2D 與 3D 結合,一條更聰明的「世界生成」路徑

創造一個既宏大又真實,既穩定又富於變化的 3D 世界,技術難度極高。目前,行業內主要有兩條技術路線:

純 3D 生成:優點是空間結構穩定,但受限於高品質 3D 資料的稀缺,生成的多樣性和創造力不足。

純 2D 視訊生成(如 Google 基礎世界模型 Genie):優點是互動和動態效果豐富,但缺乏三維空間的穩定性約束。你往前走再回頭,場景可能已經「面目全非」,無法建構一個邏輯自洽的世界。

騰訊混元團隊選擇了一條更聰明、也更複雜的「2D+3D 結合」的混合路線,取長補短。

混元 3D 世界模型架構
  • 前景物體:使用純 3D 生成,保證了物體的精細度和互動的真實性。你可以像在真實世界裡一樣 360 度無死角地觀察一個桌子。
  • 中景環境:使用 2.5D 的方式(多視角補齊)來建構,平衡了效果和生成效率。
  • 遠景(如天空):則直接使用 2D 生成,以極低的成本豐富了世界的層次感。

「我們對前景物體用 3D 的方式做,中景用 2.5D,遠景用 2D。這樣就兼顧了互動性和生成的多樣性。」騰訊混元 3D 負責人郭春超在媒體採訪中解釋道。

這種分層生成的策略,叫做「語意層次化 3D 場景表徵及生成演算法」,該演算法將複雜 3D 世界解構為不同語意層級,實現前景與背景、地面與天空的智能分離。最終讓混元世界模型在保證空間穩定性的同時,也擁有了由 2D 大模型帶來的豐富想像力。

從遊戲開發到具身智能,AIGC 的下一個戰場

這樣一個「世界生成器」究竟能用在何處?它的出現又將如何改變行業?

對於遊戲開發者而言,這是前所未有的生產力革命。 傳統的遊戲場景搭建,需要建模師耗費數周甚至數月的時間手動完成。現在,只需一句指令,就能快速生成一個高品質的場景原型,用於前期的玩法驗證。

這能極大地縮短開發周期,降低試錯成本。同時,模型生成的各種道具、建築也能作為基礎素材,大大提升資產生產效率。

對於普通 3D 愛好者和內容創作者,它則徹底拉低了創作的門檻。 你不需要懂複雜的三維建模軟體,也能創造屬於自己的虛擬世界,並將其匯入到 Vision Pro 等裝置中沉浸式體驗。

而從更宏大的視角看,世界模型是通向具身智能和通用人工智慧(AGI)的關鍵路徑。無論是自動駕駛汽車,還是未來的家庭服務機器人,都需要在一個模擬的「世界」中進行大量的訓練,去理解物理規律,學習如何與環境互動。

郭春超也坦言,目前世界模型在具身智能領域的應用還處於非常初級的階段,但其潛力是巨大的。相比於約束條件更多、場景相對單一的自動駕駛,具身智能需要面對的環境(如室內、港口、咖啡廳)要複雜得多,這正是世界模型需要攻克的難題。

開源,與世界共建「世界」

從發佈之初,騰訊就宣佈將混元世界模型 1.0 開源。這在行業內是相當罕見的,尤其是對於這樣一個具備核心競爭力的模型。

對此,騰訊混元 3D 負責人郭春超在與媒體交流時表示,開放原始碼的核心目的是與社區共建,加速技術迭代。在大模型領域,如果只是單兵作戰,是很難把一個事情給做大的。

在 WAIC 上,騰訊還表示,在LMArena Vision榜單拿下國內第一的多模態理解模型混元-large-vision,以及專為遊戲場景最佳化的互動式遊戲視訊生成框架混元GameCraft等也將於近期對外開源

通過開源,騰訊不僅能為廣大開發者和企業提供強大的工具,也能從社區獲得寶貴的反饋,發現模型的問題和新的應用方向,形成一個正向循環的生態。

從最初的 3D 物體生成,到如今的 3D 世界生成,再到未來對「世界」的理解和互動,騰訊混元正在一步一個腳印地探索 AIGC 的終極形態。

雖然距離真正創造齣電影《頭號玩家》中那個無限細節、無限可能的「綠洲」還很遙遠,但混元世界模型的發佈,無疑讓我們看到了一個激動人心的開端:一個任何人都能創造、擁有和分享自己虛擬世界的時代,正在加速到來。 (APPSO)