獨家對話逆矩陣創始人陳博遠：“世界模型一定會迎來自己的GPT-3時刻”

2026/07/01

•

AI速讀

虎嗅專訪逆矩陣創始人陳博遠，揭秘其打造「通用世界基座模型」的野心。陳博遠認為 AI 需從單純的視訊模擬轉向理解物理因果，提出應在「物理隱空間」而非像素空間實現 Scaling Law，並強調第一人稱互動數據的重要性。該團隊由 00 後組成，估值已超 50 億元人民幣，並透過與智源研究院的合作，將前沿研究與大規模場景落地結合。其目標是讓 AI 真正掌握物理規律，為工業模擬、具身智能等實體產業提供底層能力，推動 AGI 走向真實物理世界。

世界模型是屬於00後們的

虎嗅註：世界模型是屬於00後的任務。在具身智能、世界模型行業，我們已經看到了太多00後和“天才少年”。而今天我們聊的這個團隊，也幾乎全部由00後組成，他們也是當下估值最高的AI圈00後團隊之一。“AI原生100”是虎嗅科技組推出針對AI原生創新欄目，這是本系列的第「58」篇文章。

00後陳博遠今年剛從北大元培畢業，他另一個身份是逆矩陣創始人。

2026年初，尚未畢業的陳博遠創立了逆矩陣，首輪即獲得高瓴和北大系基金超千萬美元投資，到今天，這家公司即將完成新一輪過億美元融資，估值超50億元人民幣。

這也是“00後創立的AI公司”中，估值最高的公司之一。

“大家都希望看到年輕人在AI時代下做出一些不一樣的創新突破。”陳博遠對虎嗅說道

陳博遠的團隊在做的事情是“通用世界基座模型”，他們的英文名字叫Physis 。Physis（φύσις）是 physics（物理）的希臘詞根，通常譯為“自然”，其更本源的詞義是“生長、生成”——指向回到自然與物理的本源去理解世界如何運轉。

故事回溯到逆矩陣還未成立的時候，陳博遠還是北大元培學生期間便已嶄露頭角，當時，他就已經憑藉強化學習和大模型的研究獲得ACL最佳論文；與此同時，那一屆ACL中，內地另外一篇最佳論文則來自DeepSeek團隊。從某種意義上講，這個團隊曾經還和DeepSeek“並肩”過。

關於通用世界基座模型，經常有投資人提出質疑。在陳博遠看來，“基模”這個概念如今放在行業似乎被誤解了。

“投資人在聽到‘基模’這個詞的時候，會天然有一些偏見。因為他們見過很多團隊只是拿開源模型，用部分資料做微調，最後包裝成一個預訓練故事。但實際上，我們是從頭開始搭建整個預訓練架構。”陳博遠對虎嗅解釋道。

而在融資速度上，逆矩陣並不算這個行業裡最激進的一批公司。“我們不急著融資，而是希望踏實做技術第一性的突破。”陳博遠告訴虎嗅。

而這也是他與智源研究院結緣的原因。虎嗅獲悉，陳博遠已於4月16日正式以逆矩陣創始人的身份，擔任智源研究院行為世界模型創新中心負責人，直接向智源研究院院長王仲遠匯報。

2025年11月，虎嗅曾與王仲遠有過一次對話。當時他告訴虎嗅，智源沒有太強的組織層級；相比商業化，研究始終是更核心的事情。但在具身智能時代，智源同樣會背負一種使命——去成為一個類似Deepmind的角色。

目前，我們看到的大模型明星公司中，已經有相當一部分與智源研究院存在關聯，包括銀河通用、智譜AI、月之暗面和面壁智能。其中，前三家公司估值均已超過百億元，智譜AI已完成上市。

行為世界模型創新中心是智源研究院專門設立的前沿創新中心，用於支援下一代通用世界基座模型的研發與創新，承擔更大規模、更系統的前沿攻堅。陳博遠以逆矩陣創始人的身份，兼任這一中心的負責人，聚焦通用世界基座模型最底層的探索與前沿試驗，並將已經驗證的世界模型能力放大到更通用、更大規模的場景裡去落地。兩個角色彼此賦能、互為支撐，推動同一件事：讓AI真正理解物理規律。技術願景是統一的，凝聚共同的力量去逼近同一個目標。

近期，虎嗅與逆矩陣創始人陳博遠進行了深入對話。我們談到了通用世界基座模型與垂類世界模型的概念、區別與聯絡；世界模型目前存在的卡點，以及世界基座模型如何解決具身智能所缺失的資料問題；當然，也包括這個平均年齡00後的團隊本身。

以下為虎嗅和陳博遠的精選對話：

01 “世界模型一定會迎來自己的GPT-3時刻”

Q 虎嗅：你們做的是通用世界基座模型。但現在行業裡，很多公司都在講“世界模型”，而且每家的定義都不太一樣。所以我想知道，逆矩陣現在做的這個“通用世界基座模型”，核心到底是什麼？背後的行業洞察又是什麼？為什麼你們會選擇做這件事？

A 陳博遠：我覺得這個問題非常關鍵。現在行業裡幾乎 anything is a world model（一切皆是世界模型），所有人都在講世界模型。但我認為，世界模型今天其實還處於一個“百家爭鳴”的階段。我們更想回到第一性原理去看這件事。

過去幾年，大語言模型讓AI學會了處理文字和知識，但AI未來一定會從虛擬世界走向真實的物理世界。無論是遊戲物理，還是工業產線，本質上都處在一個連續、不確定、且受到複雜物理約束的環境裡。

在這個過程中，AI不僅要理解文字，還需要真正理解重力、接觸、因果等物理規律，它們其實共享同一個底層事實：對於物理一致性和物理正確性的要求，是硬約束。

同時，一個場景裡學到的物理規律，本身也是可以遷移的。物理定律不會因為場景變化而改變。

所以我們的核心判斷是：未來一定會出現一個能夠跨場景遷移的通用物理世界模型，它會成為AI走向物理世界的基礎設施。

現在行業裡的很多世界模型關注於解決特定場景的問題。有人做3D世界模型，有人做遊戲世界模型，也有人做具身世界模型。但我們更強調的是，不同垂類場景背後的物理規律，其實是通用的。

就像今天的大語言模型，可以同時處理金融、法律、程式碼等不同任務。我們也希望未來存在一個通用的世界基座模型，再基於它去適配不同下游場景。

Q 虎嗅：那麼，通用世界基座模型和“世界模型”本身，它們的區別和聯絡是什麼？以及為什麼你一定要強調“基座”這兩個字？

A 陳博遠：我覺得可以類比自動駕駛。自動駕駛會有L0到L5的分級。L0到L2，本質上還是需要大量人工干預；而L3以上，其實代表的是一個自主性能力的階躍，不只是技術能力變化，也意味著應用市場的擴大。

世界模型其實也會存在類似的W0到W5體系。現在行業裡很多所謂的世界模型，本質上還停留在W0或者W1階段。

比如OpenAI在Sora時期提出“世界模擬器”概念，很多視訊生成模型，本質上是在學習世界的連貫表徵，生成流暢、好看的視訊；再比如Google的Genie 3這類可互動世界模型，它已經能夠響應動作互動，但本質上還是偏“遊戲世界”。這類模型更多解決的是影視、遊戲等內容生成問題。

但物理AI不只是遊戲，也不只是影視。真正的嚴肅工業場景、具身智能、物理模擬、互動世界、科學預測科技計算、工業模擬、工業安全驗證，面對的是大量複雜物理約束，它需要的是W2+模型。

W2最核心的特徵，就是“真正懂物理”。所以我們強調“通用世界基座模型”，首先它必須是一個W2+模型；其次，它不只是解決某一個垂類場景，而是希望用同一套物理規律，去解決不同物理場景的問題。

今天很多行業已經有領域專用的世界模型，比如自動駕駛世界模型。但它們往往只能解決單一場景的問題。

而我們回到第一性原理會發現，很多物理規律其實天然是通用的。它既是 one for all，也是 all for one。

不同物理場景的資料和學習過程，本質上遵循的是同一套物理範式，所以不同場景之間其實能夠互相增強。最終，我們希望用一個統一的通用世界基座模型，在不同垂類場景裡，達到比領域專用模型更好的效果。

如果繼續往下劃分：

W2解決的是“物理專業性”；
W3解決的是“跨領域能力”；
W4才是真正意義上的通用泛化。

這其實有點像大語言模型的發展過程。

2023、2024年的時候，行業裡還會強調金融大模型、法律大模型這些垂類模型；但隨著通用大模型能力提升，很多任務開始被統一，zero-shot、few-shot就能泛化解決。

我們認為，物理世界未來也會走向同樣的路徑。

Q 虎嗅：有人認為世界模型更接近Scaling Law這條路線，也有人堅持做VLA。所以你覺得今天世界模型最大的卡點是什麼？以及你們現在做的通用世界基座模型，卡點又是什麼？

A 陳博遠：我覺得這是一個特別關鍵的問題。

我們其實非常認可Scaling Law背後的底層邏輯。大語言模型之所以成功，本質上是因為它符闔第一性原理，比如next token prediction這種非常簡單、統一的目標。隨著資料量、模型規模提升，它就能不斷壓縮語言裡的智能。

但世界模型沒辦法簡單復用“大語言模型那套路徑”，原因有三個。

第一個是資料問題。網際網路文字可以無限爬取，但物理互動資料不一樣。真正的物理資料，要麼來自真實世界採集，要麼來自模擬建構，它不是一個能無限堆積的資料體系。

第二個問題是，像素不等於物理。今天很多世界模型還是建立在視訊、圖像這些視覺輸入上，但視訊裡90%的資訊其實是紋理、光照、運動模糊，這些東西和物理規律本身沒關係，反而會成為模型學習物理的負擔。模型花了大量參數去擬合“光長什麼樣”，但這並不是核心矛盾。

第三個問題，也是最核心的問題：相關性不等於因果性。大語言模型本質上是一種“觀察式學習”。你見過越多資料，就越容易學習相關性。但物理世界真正重要的是因果。

所以僅靠觀察，模型學到的是統計相關性，而不是真正的物理因果。因此，我們認為通用世界基座模型一定會走一條新的Scaling路徑。真正的Scaling，不應該發生在token空間或者像素空間，而應該發生在“物理隱空間”。

也就是說，我們需要模型學習一種更加抽象的物理表徵。這有點像人類的大腦。比如我們看到一個杯子快倒了，會自然預測水可能怎麼灑出來。這個過程，本質上就是一種高維物理隱空間裡的推演。

第二個關鍵點，是必須原生引入Action。因為物理理解本身來自互動，而不僅僅是觀察。比如你不去搬一個東西，就無法真正理解它的重量；不去掰一個物體，就無法理解它的剛性。所以世界模型不能只是“看世界”，它必須“和世界互動”。

模型需要學習的是：“在當前狀態下，我採取動作A，會導致什麼物理狀態；採取動作B，又會導致什麼結果。”也就是從“next token prediction”，轉向“next physical state prediction”。

第三個關鍵點，是驗證。為什麼數學、程式碼、圍棋這些領域能快速提升？因為它們可驗證。強化學習之所以有效，本質上就是因為存在明確獎勵訊號。而物理世界其實同樣是可驗證的。

比如物體不會憑空消失、不會違反光滑性約束，這些都可以被驗證。

所以我們認為，強化學習會是學習物理規律最高效的方法。最終，我們的路徑其實是一個閉環：在物理隱空間裡做壓縮；原生引入動作互動；再通過強化學習完成驗證。

我們內部已經觀察到這樣一條曲線存在：隨著資料規模、模型參數量提升，當模型開始引入Action和強化學習之後，它在預測“下一個物理狀態”時，泛化誤差會持續下降，甚至開始出現類似“湧現”的能力。

所以我一直認為，世界模型未來一定會迎來自己的“GPT-3時刻”。

但這個時刻，不會是某個Benchmark刷榜。而是當模型真正能夠隨著算力、資料和互動規模提升，在真實物理世界裡持續提升能力的時候。那才是世界模型真正屬於自己的Scaling Law。

02 “世界基座模型不需要太多的真機資料”

Q 虎嗅：現在行業裡很多人都會覺得，具身智能真正有效的資料其實並不多。那我剛剛聽下來，通用世界基座模型對於資料的要求可能會更高一些。你們到底需要什麼樣的資料？它和VLA、傳統世界模型所需要的資料有什麼區別？

A 陳博遠：現在很多人也在做自己的具身世界模型，它們主要依賴真機資料，微調機器人的動作輸入輸出，從而實現控制能力。

但對於通用世界基座模型來說，真機資料固然重要，但它不是唯一的資料來源。

我可以做一個類比。人類學習數學的時候，也不是一開始就學微積分，而是先學1+1=2，再學平面坐標系，最後才進入更複雜的體系。

物理規律的學習其實也是一樣，它存在一個“從易到難”的過程。比如模擬引擎、遊戲引擎、虛幻引擎裡的資料，雖然場景不同，但背後很多物理規則其實是共通的。無論是《荒野大鏢客》還是《塞爾達》，一個擊打動作背後，本質上都是人類手寫的簡化物理規則。

這些規則可能只是真實物理世界50%或者70%的對應，但它能夠成為學習真實物理規律的鋪墊。所以我們第一件事，就是建立一個從模擬到真實世界的資料躍遷過程。

第二個關鍵點，是跨領域資料。因為對於通用世界基座模型來說，它本質上是一個“all for one”的問題。不同場景背後反映的真實物理規律其實是一致的。

我們內部發現，當引入跨場景資料之後，在某一個垂類場景裡，資料需求量甚至能夠降低20倍，但效果反而更好。因為模型學到的是更通用的物理規律，而不是某個特定硬體、本體或者場景裡的“偽規律”。如果只依賴單一場景資料，其實很容易過擬合。

第三個關鍵點，是長尾物理資料。物理規律很多時候恰恰發生在稀疏和突變場景裡。比如YouTube、B站每天會產生大量視訊，但其中真正包含物理互動的資料比例其實非常低。可能只有5%的視訊包含抓取、拿取等簡單互動，而像玻璃破碎、爆炸這種強物理變化場景，可能只有0.5%。

但恰恰是這些“突變”，最能體現真實物理規律。

所以我們在做預訓練時，會重點篩選那些具有動態互動屬性的視訊，而不是簡單堆資料量。

同時，我們也在建構自己的資料飛輪。比如通過模擬引擎、數字孿生渲染，主動生成一些現實世界裡很難採集到的強物理資料。舉個例子，一個杯子放在桌子上，被外力撞倒——這種場景在真實世界裡很難大規模採集，但我們可以在模擬環境裡不斷生成。這些稀疏、邊緣、強物理屬性的資料，其實對通用世界基座模型非常重要。

Q 虎嗅：你們現在做通用世界基座模型時，使用的資料的比例大概是多少？

A 陳博遠：如果從視角的維度來看，我們更關注的其實是第一人稱（egocentric）資料和多視角（multi-view）資料之間的配比。我們內部目前探索出來的比例，大概是9:1，甚至10:1。而且我們認為，未來這個比例甚至可能擴展到100:1。

之所以這麼看重第一人稱視角，是因為egocentric本質上代表了拍攝主體和視角互動的過程——“我採取了什麼動作，世界相應發生了什麼變化”。它天然帶有Action→State的因果結構，這正是世界模型最需要的訊號。而多視角資料更多是從外部去觀察同一個場景，更偏向補全空間結構和狀態表徵。

Q 虎嗅：我們假設未來第一人稱資料和多視角資料能達到100:1，那是不是意味著，對那個“1”的要求會非常高？而且這裡真正高品質的互動資料，應該更多來自真實工業場景，而不是實驗室，對嗎？

A 陳博遠：對，那個"1"的質量要求確實非常高。

不過其實今天行業裡的很多資料，還沒有真正走到"實驗室資料"和"工業場景資料"之間的區別這一步。當然這步很重要。因為更早的問題是，很多真實採集來的資料本身質量還不夠高。比如採集過程中會存在大量噪音、硬體誤差，以及裝置和真實物理世界之間的不匹配。現在很多動捕裝置、手套裝置，本質上都還是"近似真實"，它和真正的物理互動之間仍然有 gap。

也正因為這樣，我們才會特別看重第一人稱視角的資料——它直接來自互動主體本身，能比較真實地反映"動作導致狀態變化"這個過程，而不是隔著裝置去近似。

在此基礎上，我們會把整個資料體系總結成一個“三層金字塔”。

第一層，是學習世界裡“有哪些狀態”。比如水會流動、物體能被抓起、玻璃會破碎。這一層主要依賴大量真實世界視訊，以及複雜互動場景資料。

第二層，是學習“什麼動作會導致什麼狀態變化”。也就是Action→State。這一層的本質是在構造因果。這也是為什麼我們尤其需要大量第一人稱（egocentric）資料，同時輔以模擬資料、真機資料。因為egocentric代表了拍攝主體和視角互動的過程，天然就帶有Action→State的因果屬性，是構造因果最直接的來源。

第三層，則是長尾和稀疏物理規律。因為真實物理世界很多關鍵規律，都發生在突變場景裡。比如玻璃爆炸、物體遮擋、複雜空間關係等等。這一層我們會引入大量第三人稱視訊，以及資料飛輪生成的稀疏物理場景。

而且我們內部發現，這一層的資料量甚至不需要很多。可能只佔前兩層的1%，甚至0.5%，就能帶來很明顯的空間理解和泛化能力提升。

因為當模型已經建立起比較通用的物理規律之後，再去補充這些稀疏資料，它的學習效率會非常高。

而且最重要的是，我們整個模型訓練過程並不是“被動觀察資料”。模型始終在學習：“什麼Action，會導致什麼下一狀態。”

這也是為什麼我們認為，基於資料金字塔、互動和強化學習，世界模型會形成一條和大語言模型完全不同的Scaling曲線。

03 屬於00後的“Aha Moment”

Q 虎嗅：逆矩陣是什麼時候成立的？現在大概到了一個什麼階段？

A 陳博遠：逆矩陣是今年年初正式成立的。但實際上，我們從2025年初就已經開始做面向真實物理世界的世界基座模型這件事了。現在我們已經看到了一些Scaling up的潛力，以及一些真正的“aha moment”。

整個團隊目前大概30人。我們凝聚了一批非常年輕、但能力很強的人。包括來自北大、清華的一些奧賽背景成員，也有不少來自大廠的核心工程師。

Q 虎嗅：在擔任智源中心負責人之前，你們已經開始融資了嗎？整體和投資人交流下來的感受是什麼？

A 陳博遠：投資人最常問我們的，其實有兩個問題。第一個是：你們是不是在做真正的“基模”？第二個是：你們到底看到了什麼，才決定做這件事？我們的答案，其實來自內部實驗。

我們已經觀察到，隨著資料量、參數規模提升，以及引入主動互動和狀態預測之後，模型誤差還在持續下降。所以我一直認為，一旦世界模型的Scaling Law開始形成行業共識，技術路線會迅速收斂。

我自己特別欣賞兩家公司：DeepSeek和DeepMind。因為真正的創新，很多時候都來自這種研究型組織。一個方向可能一開始只有兩三個人、幾個idea，但會不斷Scaling up，最後產生真正底層的突破。

我們也相信，扁平化組織本身是能夠“湧現”創新的。

Q 虎嗅：投資人經常會問“基模”這個事情。你會覺得，是你們做的事情被誤解了，還是“基模”這個概念本身被誤解了？

A 陳博遠：我覺得更多是“基模”這個概念被誤解了。“基座模型”這個詞，從一開始出現，本質上就是希望通過一套模型解決不同場景的問題。

但過去幾年，“基模”這個詞被濫用了。就拿具身智能舉例，投資人稱見過很多團隊其實只是基於開源視訊模型或者開源語言模型，再微調一些自己的真機資料，最後包裝成一個“預訓練”的故事。

但我們做的，是從頭開始做整個預訓練架構。也就是說，我們真正想做的是一個通用世界基座模型，而不是一個微調後的垂類模型。

Q 虎嗅：你擔任智源世界模型中心負責人。投資人怎麼看這件事？

A 陳博遠：逆矩陣更偏前沿探索，我們會不斷去擴展一些新的技術方向；而在智源，我們會把已經驗證出的世界模型能力，進一步放到更大規模、更通用的場景裡做實驗和落地。

但本質上，大家都在做同一件事：如何建構真正面向物理世界的通用基座模型。

Q 虎嗅：所以我能不能理解為，智源也希望在Physical AI時代，再次“押中”像月之暗面、智譜AI、面壁智能這樣的公司？

A 陳博遠：對，我覺得智源一直都非常重視人才和前沿研究，而且它始終是站在全球視野裡看AI範式變化的。

Q 虎嗅：所以你們團隊年齡基本都是00後？

A 陳博遠：對，雖然我們團隊平均年齡在00後，不過我更願意稱之為凝聚了一個“心態年輕化”的團隊，無論是原大廠核心工程師，還是科研青年們，大家都是非常有衝勁的。因為我們發現，做這種全新的事情，需要敢於打破路徑依賴，融合不同技術背景去做出底層的第一性突破。

Q 虎嗅：現在做Physical AI的產業，其實聚集了很多00後。它看起來很像一個“屬於00後的時代”。

A 陳博遠：我不太想簡單地把它定義成“屬於 00 後的時代”。Physical AI 應該屬於所有真正相信這個方向、願意長期投入、敢於做底層探索的人，而不只是屬於某一個年齡段。

但更重要的是，Physical AI 不只是一個技術熱點。我們越來越相信，AGI 的下一步一定要走向真實物理世界。過去的大模型主要理解語言、圖像和數字資訊，而未來的世界模型需要理解真實物理世界背後的約束，理解物體如何運動、碰撞如何發生、能量如何轉化，以及行動如何改變環境。只有這樣，AI 才能真正進入具身智能、工業模擬、遊戲引擎、AI for Science 等場景。

再往前看，Physical AI 也和國家未來的新質生產力高度相關。低空經濟、商業航天、智能製造、能源系統、可控核聚變等方向，本質上都需要 AI 更深地理解物理規律、複雜系統和真實世界的因果關係。我們真正想做的，不只是一個服務某個垂直場景的模型，而是面向整個物理世界的通用世界模型，為未來更多實體產業提供底層能力。

與其說這是一個“屬於 00 後的時代”，不如說這是一個屬於所有相信 Physical AI、敢於做底層探索、願意為國家未來產業基礎能力負責的人的時代。 (AGI介面)

科技