很長一段時間,人們談 AI 生成,指的是文字、圖片、視訊。語言模型生成文字,圖像模型生成圖片,視訊模型生成畫面。每一步都更靠近真實世界。但這些東西本質上是一回事:內容。能看、能存、能轉發——卻不能被進入,不能被改變,不能持續運行。
到了 2026 年,行業開始換關鍵詞了。新詞叫“世界模型”。
但熱詞歸熱詞,真問題被繞過去了:AI 要生成一個世界,第一步得先學會生成什麼?
內容是結果,世界是過程。一個世界得記得發生過什麼,得讓不同的人看到同一個東西,得讓你每一次操作都留下後果。它不會憑空從概念里長出來,得先有能被編輯、能被驅動的資產。如果 AI 生成的 3D 還停在展示層、進不了生產線,那它離“世界”還遠得很。
這正是 VAST 這輪融資值得關注的地方。
產業方投的不是概念
VAST 本月完成超 10 億元人民幣 A3 戰略輪融資。金額之外,更值得看的是誰來了。
本輪投資方覆蓋了 3D 產業諸多下游:既有吉利這樣的頭部車企,也有四三九九、貪玩遊戲、巨人網路等遊戲廠商,以及知名網際網路戰投。
遊戲公司、車企、網際網路公司,不會因為漂亮概念輕易下場,產業方的錢向來務實。這一輪能聚齊這個陣容,根本原因在於 Tripo 的 3D 資產生成能力已經進入產業方真實的生產管線。
在此之上,這輪融資還有另一層押注,很多產業方本身關心的是世界模型會怎樣改變研發模式,投的是自己每天都在面對的真實問題,而不是一個未來故事。
AI 3D從好看到好用
行業裡流傳一種說法:AI 3D 好看不好用。這句話只說對了一半。
首先,“好看”本身就是一種價值。3D 列印、電商展示、概念設計這些場景要的就是高精度的視覺呈現,高模本身就是終點。這裡 Tripo 已經站在行業天花板,H3.1 的高模生成精度逼近人工雕刻水平,近期上線的 8K 貼圖把材質細節推到行業極限,在盲測榜單 top3d.ai 上,Tripo 在紋理、幾何等維度穩居全球前列。
“不好用” 發生在遊戲這類對生產管線有嚴格要求的行業。比如專業美術拿到模型要看線框模式看底層布線等,如果即時渲染扛不住,模型繫結做不了,後續編輯無從下手。模型進管線前還要重拓撲、展 UV、清頂點,有時幾乎要重做一遍。
AI 花幾分鐘生成了模型,美術還要花大半天清理,提效還是增加返工,就很難說清了。
Tripo P1.0 也在正面解決不好用的問題,約 2 秒內直接輸出拓撲乾淨的生產級網格模型,生成出來那一刻就能進 UE 或 Maya,不需要人工清理,不需要重新布線。
VAST 首席科學家曹炎培把背後的邏輯總結成一句話:AI 現階段需要適應人類積累了幾十年的工業標準,而不是讓人類給 AI 生成的模型擦屁股。
這一步直接打開了一批可商用的場景。
過去行業裡大量 AI 生成的 3D 模型只做到了“皮”,視覺近似但支撐它進入生產管線的東西是缺失的。P1.0 解決的是“肉”:通過原生網格生成,模型擁有了嚴絲合縫的拓撲結構。正因為此,環境道具、建築元件、家具、簡單 NPC 和載具率先進入可用狀態,場景也延伸到 XR 和工業數字孿生。
真正難攻的是“骨”。繫結動畫要讓模型自帶運動學和物理結構,關節長在那,輪子怎麼轉,角色動作如何不違背身體結構。“骨”一旦成熟,複雜角色、面部動畫、帶繫結的遊戲主角才會真正進入可生成範圍,3A 管線的門才會打開。
再往後是“腦”,資產本身變成一個 NPC 或 Agent,能與玩家互動,也能與其他 Agent 互動。到那一步,AI 生成的就不再是單個資產,而是一個有行為、有關係、有底層邏輯的 3D 世界。
所以 Tripo 這條路線的特殊之處在於,它不用等生成世界這個終局成熟之後才開始有商業價值。它每往下補一層能力,都會打開一批新場景。“肉”讓靜態資產進入生產管線,“骨”讓可動資產進入遊戲和動畫工作流,“腦”則把資產推向可互動世界。
世界模型是更遠的終點,但生產力和商業化價值已經在路上兌現。
3D 就是世界的原始檔
VAST 的 3D 大模型和世界模型之間有著真實的技術脈絡邏輯關係。
做 3D 生成,必須從大量無標註視訊中反向提取結構化訊號,深度、幾何、多視角一致性、相機位姿。這是 VAST 過去幾年一直在做的事。
而這套能力和 know-how 產出的,恰恰是狀態解耦式世界模型訓練最需要的核心資料:帶有空間結構和狀態資訊的原生 3D 訊號。
VAST 不是在做完 Tripo 之後才轉向世界模型,而是長期做 3D 的過程本身,就在為世界模型積累最關鍵的底層材料,這些能力,是只做視訊生成的團隊拿不到的。
當下世界模型領域最熱的路線是端到端視訊生成,但這條路有一個根本問題沒有解決:視訊是三維世界壓縮到二維平面的結果,丟掉了絕對空間尺度。畫面裡有桌子,不代表系統知道桌子的幾何和狀態;畫面裡火滅了,不代表底層世界記錄了“火已熄滅”。
純視訊生成學到的是光影變化規律,而非三維世界本身的物理規則,這正是視訊世界模型反覆出現常識性、邏輯性錯誤的根源。
原生 3D 訊號才是物理世界本來的表徵方式,其長期技術延展性在研究界被嚴重低估。
Project Eden 是 VAST 在世界模型方向上的研究預覽,核心是把狀態維護和畫面渲染徹底拆開。它分三層:最核心用 3D 方式精確記錄環境中每個對象的位置、屬性和變化,落在儲存上,能記很多也不會忘;中間轉換層把 3D 狀態轉成帶時空一致性和語義約束的抽象表示;最上層才是渲染,把抽象狀態翻譯成人能看到的真實感畫面。畫面不再負責保存世界,世界在畫面背後運行,畫面只是觀察它的一扇窗。
這套架構對應三個具體目標:多人同時線上互動、長時間大空間的一致性與記憶、即時可互動。賽車裡 A 超過了 B 就應該穩定待在前面,多人線上時不同視角看到的是同一個底層世界,離開很久再回到原來的場景還在。
——這才是真實世界應該有的樣子。
這也解釋了這輪密集融資的邏輯:AI 3D 大模型本身已經有非常豐富的產業應用價值,而世界模型則代表了更廣闊的想像空間,也需要更多研發投入和探索。
寫在最後
這輪融資背後,產業上下游投下的是一個清晰的判斷:當 AI 從生成內容走向生成世界,3D 可能是被低估很久的主路。
VAST已經證明,AI 生成的 3D 可以從展示層進入生產管線,這是一條已經在產生收入的生產力路線。而在更遠處,VAST 長期做 3D 積累下來的能力,正在成為其世界模型的底座。它要解決的不是畫面能不能更像世界,而是畫面背後的世界能不能真的記住、響應,並繼續運行。
語言大模型教 AI 說話,圖像和視訊模型教 AI 看和畫。下一步更難:AI 要理解一個物體為什麼在這裡,也要理解它被移動後為什麼不該還在那裡。
這就是從內容到世界的距離。 (矽星人Pro)
