從生成內容到生成世界，AI 需要一套新的底層語言

2026/07/02

•

很長一段時間，人們談 AI 生成，指的是文字、圖片、視訊。語言模型生成文字，圖像模型生成圖片，視訊模型生成畫面。每一步都更靠近真實世界。但這些東西本質上是一回事：內容。能看、能存、能轉發——卻不能被進入，不能被改變，不能持續運行。

到了 2026 年，行業開始換關鍵詞了。新詞叫“世界模型”。

但熱詞歸熱詞，真問題被繞過去了：AI 要生成一個世界，第一步得先學會生成什麼？

內容是結果，世界是過程。一個世界得記得發生過什麼，得讓不同的人看到同一個東西，得讓你每一次操作都留下後果。它不會憑空從概念里長出來，得先有能被編輯、能被驅動的資產。如果 AI 生成的 3D 還停在展示層、進不了生產線，那它離“世界”還遠得很。

這正是 VAST 這輪融資值得關注的地方。

產業方投的不是概念

VAST 本月完成超 10 億元人民幣 A3 戰略輪融資。金額之外，更值得看的是誰來了。

本輪投資方覆蓋了 3D 產業諸多下游：既有吉利這樣的頭部車企，也有四三九九、貪玩遊戲、巨人網路等遊戲廠商，以及知名網際網路戰投。

遊戲公司、車企、網際網路公司，不會因為漂亮概念輕易下場，產業方的錢向來務實。這一輪能聚齊這個陣容，根本原因在於 Tripo 的 3D 資產生成能力已經進入產業方真實的生產管線。

在此之上，這輪融資還有另一層押注，很多產業方本身關心的是世界模型會怎樣改變研發模式，投的是自己每天都在面對的真實問題，而不是一個未來故事。

AI 3D從好看到好用

行業裡流傳一種說法：AI 3D 好看不好用。這句話只說對了一半。

首先，“好看”本身就是一種價值。3D 列印、電商展示、概念設計這些場景要的就是高精度的視覺呈現，高模本身就是終點。這裡 Tripo 已經站在行業天花板，H3.1 的高模生成精度逼近人工雕刻水平，近期上線的 8K 貼圖把材質細節推到行業極限，在盲測榜單 top3d.ai 上，Tripo 在紋理、幾何等維度穩居全球前列。

“不好用” 發生在遊戲這類對生產管線有嚴格要求的行業。比如專業美術拿到模型要看線框模式看底層布線等，如果即時渲染扛不住，模型繫結做不了，後續編輯無從下手。模型進管線前還要重拓撲、展 UV、清頂點，有時幾乎要重做一遍。

AI 花幾分鐘生成了模型，美術還要花大半天清理，提效還是增加返工，就很難說清了。

Tripo P1.0 也在正面解決不好用的問題，約 2 秒內直接輸出拓撲乾淨的生產級網格模型，生成出來那一刻就能進 UE 或 Maya，不需要人工清理，不需要重新布線。

VAST 首席科學家曹炎培把背後的邏輯總結成一句話：AI 現階段需要適應人類積累了幾十年的工業標準，而不是讓人類給 AI 生成的模型擦屁股。

這一步直接打開了一批可商用的場景。

過去行業裡大量 AI 生成的 3D 模型只做到了“皮”，視覺近似但支撐它進入生產管線的東西是缺失的。P1.0 解決的是“肉”：通過原生網格生成，模型擁有了嚴絲合縫的拓撲結構。正因為此，環境道具、建築元件、家具、簡單 NPC 和載具率先進入可用狀態，場景也延伸到 XR 和工業數字孿生。

真正難攻的是“骨”。繫結動畫要讓模型自帶運動學和物理結構，關節長在那，輪子怎麼轉，角色動作如何不違背身體結構。“骨”一旦成熟，複雜角色、面部動畫、帶繫結的遊戲主角才會真正進入可生成範圍，3A 管線的門才會打開。

再往後是“腦”，資產本身變成一個 NPC 或 Agent，能與玩家互動，也能與其他 Agent 互動。到那一步，AI 生成的就不再是單個資產，而是一個有行為、有關係、有底層邏輯的 3D 世界。

所以 Tripo 這條路線的特殊之處在於，它不用等生成世界這個終局成熟之後才開始有商業價值。它每往下補一層能力，都會打開一批新場景。“肉”讓靜態資產進入生產管線，“骨”讓可動資產進入遊戲和動畫工作流，“腦”則把資產推向可互動世界。

世界模型是更遠的終點，但生產力和商業化價值已經在路上兌現。

3D 就是世界的原始檔

VAST 的 3D 大模型和世界模型之間有著真實的技術脈絡邏輯關係。

做 3D 生成，必須從大量無標註視訊中反向提取結構化訊號，深度、幾何、多視角一致性、相機位姿。這是 VAST 過去幾年一直在做的事。

而這套能力和 know-how 產出的，恰恰是狀態解耦式世界模型訓練最需要的核心資料：帶有空間結構和狀態資訊的原生 3D 訊號。

VAST 不是在做完 Tripo 之後才轉向世界模型，而是長期做 3D 的過程本身，就在為世界模型積累最關鍵的底層材料，這些能力，是只做視訊生成的團隊拿不到的。

當下世界模型領域最熱的路線是端到端視訊生成，但這條路有一個根本問題沒有解決：視訊是三維世界壓縮到二維平面的結果，丟掉了絕對空間尺度。畫面裡有桌子，不代表系統知道桌子的幾何和狀態；畫面裡火滅了，不代表底層世界記錄了“火已熄滅”。

純視訊生成學到的是光影變化規律，而非三維世界本身的物理規則，這正是視訊世界模型反覆出現常識性、邏輯性錯誤的根源。

原生 3D 訊號才是物理世界本來的表徵方式，其長期技術延展性在研究界被嚴重低估。

Project Eden 是 VAST 在世界模型方向上的研究預覽，核心是把狀態維護和畫面渲染徹底拆開。它分三層：最核心用 3D 方式精確記錄環境中每個對象的位置、屬性和變化，落在儲存上，能記很多也不會忘；中間轉換層把 3D 狀態轉成帶時空一致性和語義約束的抽象表示；最上層才是渲染，把抽象狀態翻譯成人能看到的真實感畫面。畫面不再負責保存世界，世界在畫面背後運行，畫面只是觀察它的一扇窗。

這套架構對應三個具體目標：多人同時線上互動、長時間大空間的一致性與記憶、即時可互動。賽車裡 A 超過了 B 就應該穩定待在前面，多人線上時不同視角看到的是同一個底層世界，離開很久再回到原來的場景還在。

——這才是真實世界應該有的樣子。

這也解釋了這輪密集融資的邏輯：AI 3D 大模型本身已經有非常豐富的產業應用價值，而世界模型則代表了更廣闊的想像空間，也需要更多研發投入和探索。

寫在最後

這輪融資背後，產業上下游投下的是一個清晰的判斷：當 AI 從生成內容走向生成世界，3D 可能是被低估很久的主路。

VAST已經證明，AI 生成的 3D 可以從展示層進入生產管線，這是一條已經在產生收入的生產力路線。而在更遠處，VAST 長期做 3D 積累下來的能力，正在成為其世界模型的底座。它要解決的不是畫面能不能更像世界，而是畫面背後的世界能不能真的記住、響應，並繼續運行。

語言大模型教 AI 說話，圖像和視訊模型教 AI 看和畫。下一步更難：AI 要理解一個物體為什麼在這裡，也要理解它被移動後為什麼不該還在那裡。

這就是從內容到世界的距離。 (矽星人Pro)

科技