#世界模型 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#世界模型

世界模型融資兇猛：它是AI的終局嗎？

去年11月，史丹佛大學教授李飛飛提出一個概念：世界模型，在AI行業引發廣泛討論。與此同時，李飛飛的公司——World Labs，估值飆升至50億美元；同樣關注大模型的科學家楊立昆，估值也超過30億美元。於是，一個關鍵的話題產生：世界模型是人工智慧的終局嗎？本文將對該話題展開探討。參與本次探討的嘉賓如下：核心亮點提前看：1、什麼是“世界模型”？答：讓AI理解和預測現實世界的模型。版本很多，沒有共識。2、為什麼世界模型如此火？答：融資猛，估值高，對人類極其有用。3、世界模型是AI的終局嗎？答：可能是。AI把執行幹了，人類只需要去捲創意。4、世界模型可以怎麼賺錢？答：做成產品，比如具身智能的大腦。更多精華，請看圓桌現場實錄。- 01 -世界模型到底是啥？林覺民：現在“世界模型”確實很火，大家看到楊立昆融到了幾十億美金，李飛飛也融到了50億美金，這些公司的估值都在飛速上漲，國內也掀起了一波新的浪潮。但有意思的是，到底什麼是“世界模型”，好像大家各有各的說法。王晟：首先，大家對世界模型的理解可能並不一致。實際上，世界模型有兩種典型的流派：一種是具身智能的世界模型，另一種是數字空間的世界模型。我們理解的世界模型，並非完全模擬真實世界，而是針對特定的領域或“world”進行建模。比如醫療領域、金融領域、法律領域，每個領域都可以看作一個獨立的world。以醫療為例，假設我們建構了一個“醫療世界模型”，它可以模擬你得病後的整個過程。人們若得了甲流，通過這個模型，我們可以看到患者不干預時的身體反應、症狀變化、以及生化指標的變化。如果患者進行了治療，模型會顯示你用藥後的效果，直到康復或是病情加重。我們通過這種模型來探索真實的“ground truth（基礎真理）”。比如我們投資的清華紫荊智康團隊，他們的醫療AI在30多個、接近40個疾病診療領域，診斷水平已經超過了全球97%的醫生。他們的成功，正是因為通過醫療世界模型，模擬出疾病發展的全過程。通過這種world model（世界模型），我們可以讓AI更快地學習，甚至讓它在短時間內積累經驗，成為世界頂尖的醫生。武偉：我們認為，要搞清楚世界模型的本質，首先需要理解它的兩個核心關鍵詞：模擬和互動。“模擬”是指通過模擬技術建構一個虛擬世界，來訓練AI進行推理和決策。而“互動”則是指通過與環境和人類進行互動，讓AI能夠更好地適應並反饋現實世界的變化。從學術和產業發展的角度來看，世界模型的概念大概是從2018年開始被提出的，至今已經發展了七八年。期間，世界模型主要有三種不同的流派：第一個流派是將世界模型用於模擬器，通過雲端合成大量模擬資料，供智能體訓練使用。輝達的Omniverse和Cosmos系統就是走這一路線。第二個流派是將世界模型作為通用互動介面，Google的Gemini3、李飛飛團隊的Marble等項目都屬於這一類，主要是用於娛樂和數字型驗的應用。第三個流派也是我們關注的重點，是將世界模型的推理能力直接賦能大腦，讓AI具備內生的空間推理和想像能力。通過這種方式，AI可以在沒有見過某些資料的情況下，通過推理和模擬，指導機器人進行更高效的決策和互動。這種方法與傳統的模仿學習不同，因為模仿學習依賴於離線資料的積累，而我們則更關注AI如何通過內生的模擬能力，來預測和適應新環境。武偉：在我們的理解中，世界模型是“基礎模型”（foundation model），是機器人原生所需要的基礎模型。我們需要建模的是：物理空間的移動和操作層面的內生認知，這是我們的技術路線。從我們的定義來看，世界模型其實是一個端到端的模型，或者可以理解為兩端式端到端的大模型。相比之下，千訣科技主要是做內腦架構，也就是人的大腦有多個分區，每個分區對應不同的小模型，或者用現在agent領域比較流行的詞彙——skills（技能）。這些小模型和頂層模型結合起來，可以實現更低功耗的大腦模擬。這是我對兩者的理解，當然，團隊的基因也起到決定性作用。我們基因決定了我們專注於模型的端到端建構，以及資料的擴展（scaling）。宋亞宸：李飛飛最近剛融了一輪，估值已經達到了50億美金。我悄悄看了他們的BP，裡面提到李飛飛所定義的世界模型有三個主要應用場景：第一個是娛樂行業的3D生成（3D generation in entertainment）；第二個是XR（擴展現實）和元宇宙中的空間智能（spatial intelligence）；第三個是機器人技術（robotics）。其實最早做的是前兩個場景。我想說的重點是，我認為世界模型可能確實是AI時代的終極答案，包含了兩件事：第一，世界模型能助力發展具身能力，讓各種各樣的具身場景變得更加普及，能讓更多的機器人替代人類的工作。第二，勞動力如果被解放了，那人類應該做些什麼呢？從農業時代到工業時代，再到資訊化時代，我們發現有兩個特點：1、人類的幸福指數越來越高，生命的周期越來越長，嬰兒的存活率越來越高，超市裡能買到的商品選擇越來越多；2、大家的工作時間卻越來越長，變得越來越“卷”。從最早的農業時代，人們的工作時長很短，但隨著時代發展，我們進入了一個更加“卷”的社會，特別是資訊時代，996（早九晚九）已經成為常態，大家為了大廠的“福報”而拚命工作。但AI的出現改變了這一切，理論上講，AI時代是更“卷”的，但實際上似乎沒有什麼需要再去“卷”的東西了，因為機器人可以代替人類做所有的事情。那麼，生產力和勞動力將去向何方？我自己有個理論，認為人類最終要卷的，是自己的創意本身。當AI可以零門檻、零成本、即時地幫助人類放大創意時，每個人都能創造世界級的、可互動的體驗，就像神創造了這個世界一樣，定下了物理規則，又造了萬物。如果這一天到來，人人都能創造出屬於自己的虛擬世界，甚至可以有更好的體驗。比如，重力不再侷限於9.8，你可以飛，可以長翅膀，也可以創造不同的社會規則、評價體系，甚至是物理規則。人類將有更多的選擇，把時間投入到自己真正喜歡的事情上。這將是一個人人為我，我為人人的時代，每個人都可以用AI放大自己的創意，吸引更多人加入到自己的世界中來。如果這種世界真能到來，那麼我們就是在為別人創造極樂世界的時代，像聖人一樣去為他人提供最好的體驗。AI在其中的角色，就是讓每個人像神一樣去創造完整的、世界級的、可互動的體驗。這就是我認為世界大模型對於AI終局如此重要的原因。未來每個人都能像“馬良”一樣，手握神筆，心想事成。蔣屹舟：世界模型最早的研究，主要是為了理解和預測我們周圍的物理世界。就像牛頓通過觀察蘋果掉下來的現象，推匯出了萬有引力的規律。沒有世界模型，我們的推理能力有限，只能根據已經觀察到的現象做判斷。隨著研究深入，李飛飛提出，世界模型不僅僅是理解世界，更重要的是預測世界。我們在十年前開始做“視訊預測”，用它來預測機器人的運動軌跡，這一思路對機器人非常有用。機器人在現實中需要能夠預測未來的情況，而不是只根據過去的資料做決策。比如，疊衣服這個看似簡單的任務，不同形狀的衣服需要不同的操作。通過世界模型，機器人能更好地理解衣服的特性，從而做出更精準的動作。類腦智能是我目前關注的方向，它強調多個小模型的協作，而不是一個大模型解決所有問題。在機器人領域，世界模型幫助機器人預測未來的情景，這樣它們在執行任務時可以更加高效。比如，機器人在打掃衛生時，會根據預測的結果調整任務步驟，提高執行效率。一個有趣的實驗是給塑料袋打結。我們最初的訓練方法並不夠靈活，後來我們創造了一個“塑料袋世界模型”，讓機器人理解不同塑料袋的物理特性，能夠智能化地處理各種情況。這種方法讓模型能適應更多的場景，而不僅限於特定的任務。簡單來說，世界模型幫助機器人更好地理解和預測未知世界，從而提高工作效率。- 02 -世界模型怎麼落地？誰能跑出來？林覺民：世界模型的發展方向如此多樣，大家最終競爭的是什麼？每個人的技術路線不同，最後如何比較？王晟：從投資人的角度來看。為什麼大家都在關注世界模型？對我們投資人來說，“世界模型”現在是共識標籤——就像前兩年的“具身智能”，一聽就覺得很想投。但實際上，這只是一個共識的標籤。大家對世界模型的定義並不相同，就像我們今天在座的幾位嘉賓，每個人的理解都不完全一致。作為投資人，我們願意接受所有看似合理的世界模型定義，關鍵在於它是否能夠落實到具體的技術實施，是否能夠持續增長，且有較高的市場潛力。從我個人的視角來看，未來的世界模型需要具備兩個核心要素：首先是擁有一套接近“真實世界”（ground truth）的驗證系統，這個系統必須能夠生成大量高品質的資料。資料不僅僅是要多，還要足夠真實和高品質，以便為模型訓練提供有價值的反饋。其次，資料分佈要平衡，既要有稠密資料，也要涵蓋稀疏資料的情況，這樣才能避免模型過擬合，也能確保訓練出更具泛化能力的模型。通過世界模型生成大量高品質資料，是訓練模型的基礎。武偉：如果從商業本質角度來看，世界模型的競爭還是要回到一個核心問題：一個公司能否在競爭中存活。作為商業公司，我們必須明白，只有兩種方式能夠確保生存。要麼有健康現金流，要麼有高增長、高天花板的路徑。從世界模型的發展階段來看，目前更接近第二種模式——快速增長的階段。做世界模型的公司，是否能找到適合自己的落地方向，並且能夠快速增長，是決定能否存活的關鍵。以我們為例，我們的第一個產品化方向就是具身大腦。我們通過思維實驗來推算，人類一生收集的資料量大約是300萬段每分鐘的視訊片段（clips），這相當於18歲之前積累的經驗。如果我們假設一個工種需要一年時間來熟練掌握，那麼大約是3億段clips的資料量。我們通過這些資料的積累，來預估人類世界模型的最大智能化上限。如果我們能夠建構一個擁有十億級資料量的世界模型，並通過預訓練使其在零樣本和少樣本的情況下表現得足夠強大，那麼這個世界模型的商業價值就會非常高。因此，未來的關鍵是如何收集足夠高品質的資料，進行良好的預訓練，並最終在實際應用場景中具備強大的泛化能力。宋亞宸：其實，我們需要思考一個核心問題：為什麼現在大家都在討論世界模型？為什麼創業公司、資本和頂尖人才都在湧向這個領域？是因為AI發展到一定階段，世界模型應運而生嗎？還是因為具身智能技術發展成熟了？我認為，這兩個因素並不是世界模型崛起的根本原因。世界模型的出現，最根本的原因在於資訊載體的變化。過去，資訊載體的提升是一個不斷升維的過程，從文字到圖片，再到視訊，直到今天的3D世界。隨著資訊密度和體驗質量的提升，我們也迎來了3D和世界作為新的資訊載體。以往，文字、圖片和視訊曾是資訊表達的主流。但現在，隨著AI技術和硬體基礎設施的進步，3D以及更高維度的世界成為了我們表達和傳遞資訊的最終載體。過去幾千年，文字是表達世界的工具，但隨著資訊技術的發展，3D和世界的表達形式才剛剛開始成為主流。我們即將進入一個新時代，AI能夠幫助我們直接處理和理解3D世界，並且創造更豐富的互動體驗。這其實是資訊利用效率的提升。資訊密度越高，傳播效率就越快。當我們只能在古代的龜殼上刻字時，資訊傳播效率非常低；但隨著技術進步，網際網路、圖片、視訊的出現，傳播效率逐漸提高。而3D和世界本身，最終將成為我們資訊傳遞和創造的主要載體。蔣屹舟：我個人對世界模型的理解有些不同。我們做的是類腦智能，偏向非端到端的設計。最初我們是做類腦機器人的，尤其是在國家項目中，認為世界模型不僅僅侷限於視覺或某種單一的輸入模式。以一個盲人操作物體為例，即使他無法通過視覺來感知世界，但他依然能通過其他感官掌握物體的特性，並推測出自己的行為可能帶來的後果。這種因果關係的理解，才是我們認為最為核心的部分。通過類腦模型，我們的優勢在於對資料的需求不那麼大，傳統的強化學習需要大量資料，而我們採用的非端到端方法，通過理解世界的因果關係，就能有效減少資料需求。我們相信，世界模型不僅限於自然世界，它同樣適用於人類建構的世界。大語言模型（LLM）就是一個典型的例子，語言作為人類對世界的抽象工具，能夠幫助我們理解和表達大部分的事物。通過對這些抽象的理解，機器也可以建構出一個符合邏輯的世界模型。 (鉛筆道)

世界模型教父教母創業，公司估值加起來近百億美元

AI 時代，獨角獸已經不稀奇了，但世界模型這塊還是有所空缺的。從估值的變化上來看，李飛飛的World Labs，最有可能成為全球首個世界模型獨角獸公司。根據報導，World Labs的估值已經突破了50億美元，並且擬融資5億美元。而2024年9月的時候，這家公司才以10億美元估值完成2.3億美元融資，正式在公眾面前亮相。從結果上來看，從登場到50億美元估值，李飛飛僅用了16個月的時間。這個速度有多快?OpenAI從2015年成立，到 2019年微軟首次投資，此時他們的估值也只有10億美元。最接近World Labs速度的可能是Anthropic，但也花了25個月。如果說李飛飛是世界模型教母，那麼楊立昆可以說是世界模型教父。2025年12月，楊立昆在LinkedIn上確認離開Meta，結束了他在這家公司長達12年的職業生涯。楊立昆創立的新公司名為Advanced Machine Intelligence Labs，總部設在巴黎。AMI Labs正在尋求以30至35億歐元估值融資5億歐元。不過，這兩家企業高估值背後，並非對世界模型這一技術的吹捧，而是實打實的技術落地和商業化。何為World Labs？World Labs的投資方陣容包括Andreessen Horowitz、NEA、Radical Ventures（李飛飛本人是Radical Ventures的科學合夥人）、輝達風投部門、沙烏地阿拉伯Sanabil Investments和新加坡淡馬錫。天使投資人包括GoogleDeepMind首席科學家傑夫·迪恩（Jeff Dean），以及圖靈獎得主傑佛瑞·辛頓（Geoffrey Hinton）。World Labs的核心技術理念叫做空間智能，這是一種“升維”的概念。目前的頂尖AI雖然看起來很聰明，但它們本質上是“二維”的。它們只是處理文字序列或者像素排列，它們並不理解體積、有重量、受重力影響的實體。World Labs的空間智能技術，就是要賦予AI“對三維世界的認知能力”。以生成視訊為例，空間智能是直接生成一個具有三維結構、且符合物理規律的虛擬環境，然後再在這個環境裡去模擬要生成的實體。實體不僅有長寬高，還有材質和物理反饋。在傳統的AI訓練中，模型學習的是像素之間的機率關聯，比如藍天下面通常是綠地，綠地旁邊通常是小溪。但World Labs的世界模型則是基於三維幾何與物理模擬的原理進行訓練的。它在學習資料的過程中，得到的不僅僅是圖像的紋理，還有圖像背後的空間幾何資訊（比如深度、遮擋關係、透視角度）以及物理動力學規則（比如剛體如何碰撞、流體如何流動、光線如何反射）。2025年11月，World Labs推出首款商業產品Marble，這是一個能夠從文字、圖像、視訊或粗略3D佈局生成持久化3D世界的模型。Marble的技術底層採用神經輻射場（NeRF）和高斯點雲（3D Gaussian Splatting）技術，而非傳統的多邊形網格。神經輻射場是一種利用神經網路表示三維場景的技術，它將場景表示為連續的體積函數，輸入三維空間坐標和觀察方向，輸出該點的顏色和體積密度。這種方法通過多層感知機學習場景的幾何和光照資訊，然後通過體積渲染生成逼真的新視角圖像。相當於在相同場景內，從每一個角度對實體進行拍攝，這樣生成實體以後，使用者從那個角度看都符合物理規律。高斯點雲則是另一種三維表示方法，它用數百萬個帶有位置、大小、形狀、顏色和透明度屬性的高斯橢球體來表示場景，渲染速度比神經輻射場快得多，同時保持了高品質的視覺效果。類似於樂高，通過小積木塊最終搭建成完整的實體。這使其能夠生成連續的輻射場，包含空間理解、光照和深度資訊的完整環境，而不是簡單地組裝多邊形。在2026年CES大會上，李飛飛在AMD CEO蘇姿丰的主題演講中展示了Marble的能力。李飛飛說：“將少數圖片變成連貫、即時的世界，不再是對遙遠未來的一瞥，而是下一章的開始。AI 正在給人們的生活帶來一些改變，將少數圖片或照片轉化為一個即時可探索的世界。空間智能需要極致算力支援，才能實現可互動級影格率和無限持久的世界互動。”World Labs採用免費增值模式，免費版提供4次生成，20 美元每月可獲得更多生成次數，最高95美元每月提供75次生成和商業使用權。目標客戶包括遊戲開發者、影視特效製作、虛擬現實應用。而且Marble還支援蘋果Vision Pro和Quest 3 VR頭顯，每個生成的世界都可以在VR中查看。更重要的是，Marble可以匯出與Unreal Engine和Unity相容的格式，這意味著它可以無縫整合到現有的遊戲開發流程中。李飛飛曾在訪談中表示，這項技術可能顛覆Unity和Epic Games的Unreal Engine等傳統遊戲引擎。除了AIGC產業，World Labs還瞄準機器人訓練市場，通過模擬環境訓練機器人的自主導航軟體。世界模型可以為機器人提供一個安全的虛擬訓練場，讓它們在數字空間中學習物理互動、因果關係和長期規劃，然後再應用到真實世界。AMI Labs的技術優勢是什麼？但AMI Labs不像李飛飛的World Labs那樣擁有實際的產品，目前還只停留在技術概念階段。潛在投資方包括Cathay Innovation、Greycroft、Hiro Capital（楊立昆是Hiro Capital的顧問）、20VC、法國公共投資銀行Bpifrance、Daphni和HV Capital。要注意，楊立昆在AMI Labs裡擔任的是執行主席而非CEO。該公司CEO職位由亞歷克斯·勒布朗（Alex LeBrun）擔任，他是醫療AI初創公司Nabla的聯合創始人兼前CEO。LeBrun的前一家公司Wit.ai被Meta收購後，他曾在FAIR直接向楊立昆匯報。團隊還包括Meta歐洲副總裁勞倫特·索利（Laurent Solly），他於2025年12月離職加入AMI。不僅如此，AMI Labs有法國總統親自背書。法國總統馬克宏對楊立昆選擇巴黎表示自豪，承諾將盡一切努力確保他從法國取得成功。AMI Labs的核心技術是楊立昆多年倡導的聯合嵌入預測架構（JEPA，Joint Embedding Predictive Architecture）。以往的AI，都是逐token生成輸出的，然而聯合嵌入預測架構能一口氣直接以抽象表示的形式來建立世界，能夠更好地預測未來狀態。聯合嵌入預測架構的工作原理是，它不預測原始像素或token，而是預測高層次的嵌入表示。系統有兩個編碼器，一個處理上下文資訊，另一個處理目標資訊，還有一個預測器在嵌入空間中進行預測。這種方法避免了生成模型的一個關鍵問題，生成模型必須預測每一個像素或token，包括那些不可預測的隨機細節，而聯合嵌入預測架構只關注可預測的高層次特徵，忽略無關緊要的細節。楊立昆在哈佛演講中解釋，這類系統通過在嵌入空間中進行最佳化來實現規劃和推理。AMI Labs公司將推進AI研究並開發可靠性、可控性和安全性真正重要的應用，特別是工業過程控制、自動化、可穿戴裝置、機器人、醫療保健等領域。AMI Labs的第一個應用將是醫療保健。具體來講，AMI Labs通過與Nabla合作，開發臨床護理AI助手。截止發稿，這個AI助手已獲得了1.2億美元融資，預計兩年內達到1億美元年度訂閱收入。作為交易的一部分，Nabla獲得AMI世界模型的特權訪問權，而亞歷克斯從CEO轉為首席AI科學家兼董事長。亞歷克斯表示，他加入AMI的一個重要原因是將世界模型應用於醫療保健的前景，因為醫療保健的複雜性和高風險性使其成為測試世界模型的理想場景。FDA認證要求確定性、可解釋的推理，這正是LLM無法提供而世界模型承諾實現的。大語言模型存在幻覺問題，在醫療場景中可能導致嚴重後果，而世界模型通過建立對患者生理狀態的內部模擬，可以預測疾病進展，提供更可靠的決策支援。2026年1月，楊立昆還加入了另一家初創公司Logical Intelligence，擔任技術研究委員會創始主席。這家公司推出了名為Kona 1.0的能量基礎推理模型，通過對約束條件評分來驗證和最佳化解決方案，尋找最低能量也就是最一致的結果。這種非自回歸模型也和AMI Labs的聯合嵌入預測架構相似，能夠一口氣生成完整的推理軌跡。能量基礎模型是一類通過能量函數來定義機率分佈的模型。在這個框架中，每個可能的輸出都被賦予一個能量值，能量越低表示該輸出越符合約束條件。模型通過最佳化過程尋找能量最小的解決方案。這種方法的優勢在於可以同時考慮多個約束條件，並且可以進行全域最佳化，而不是像自回歸模型那樣只能做局部決策。楊立昆表示，AGI的最終狀態不會來自單一模型類別，而需要能量基礎模型、LLM、世界模型等組成的相互依存的生態系統。都是世界模型，兩家又有什麼不同？雖然李飛飛和楊立昆都在建構世界模型，但技術路線存在根本差異。由於技術還處於早期，World Labs的Marble本質上還是傳統的生成式AI方法。它確實能生成3D世界，但這些世界本身還不具備物理知識。World Labs聯合創始人在採訪中表示，Marble生成的羅馬拱門並不知道如果移除一塊磚，其他磚可能會掉落。它只是學會了羅馬拱門在視覺上應該是什麼樣子，而不是理解支撐它的物理原理。這種方法在創意內容生成方面表現出色，可以快速產出視覺上令人信服的場景，但缺乏對因果關係的深層理解。相比之下，因為楊立昆的聯合嵌入預測架構能夠直接生成完整的結果，它就能夠表示出來這裡面的因果關係。但是在市場方面，World Labs已經獲得了早期客戶。World Labs透露已有多家組織採用了Marble API。這種先發優勢使其在融資談判中佔據有利位置。World Labs明確瞄準創意產業，這些市場已經存在，客戶有明確的痛點，3D 內容製作成本高、周期長，Marble提供了立竿見影的價值。遊戲開發者可以用Marble快速生成背景環境，然後在Unity或Unreal Engine中加入互動邏輯。影視製作團隊可以用它進行虛擬場景預覽，大幅縮短前期製作時間。從商業角度看，World Labs的策略更加務實。它選擇了一個已經存在的市場，提供了一個可以立即使用的產品，並且建立了清晰的商業模式。AMI Labs有點超前，它押注於一個尚未成熟的市場，追求技術突破，給這片全新的市場帶來需求。這種方法風險更高，但如果成功，回報也會更大。李飛飛的World Labs紮根矽谷，投資方以美國VC為主，雖然也包括沙烏地阿拉伯和新加坡主權基金。這使其能夠充分利用矽谷的人才、資本和客戶網路。反觀楊立昆，他選擇巴黎作為總部，這不僅是個人偏好，更是戰略選擇。歐盟正在建立AI主權，減少對美國科技巨頭的依賴。AMI Labs獲得法國政府的高調支援，可能在歐洲監管環境中獲得優勢，特別是在醫療保健等高度監管的領域。兩家公司的人才策略也有所不同。World Labs主要招募的是大量電腦視覺和圖形學背景的研究者，這些人擅長處理視覺資料和渲染問題。AMI Labs方面則更傾向於招募有機器學習理論和物理建模背景的研究者，這些人更關注模型的數學基礎和泛化能力。李飛飛相信通過大規模資料和計算，可以讓模型學會對空間的隱式理解，即使它不明確建模物理規律。這種方法在電腦視覺領域已經被證明有效，ImageNet項目就是最好的例證。楊立昆則堅持認為，真正的智能需要顯式的世界模型，需要理解因果關係而不僅僅是相關性。他多年來一直批評純粹的生成式方法，認為它們無法達到人類水平的推理能力。所以看下來，雖然兩個人的技術完全不同，然而實際上，這兩條路之間好像也沒有那麼水火不相容。事實上，它們可能最終會融合。World Labs的生成能力可以為楊立昆的因果模型提供豐富的訓練資料，而聯合嵌入預測架構的推理能力可以增強Marble的物理一致性。AI的未來可能不是選擇其中一條路，而是找到兩者的最佳結合點。無論那條路徑最終勝出，世界模型都代表了AI從理解語言到理解物理世界的重要轉變。它意味著我們不再滿足於讓AI模仿人類的語言能力，而是要讓它理解什麼才叫客觀規律。 (新浪科技)

Google開放世界模型Genie 3試用：AI即時生成可玩世界，人人都能創造“我的世界”

剛剛，Google開放了世界模型Genie 3實驗性研究原型Project Genie的使用，此前在25年8月，Google曾初步預覽了Genie 3的世界模型，它能夠生成多樣化的可互動環境。早期測試者已經用它創造了一系列世界和體驗，並行現了全新的使用方式。現在，通過這個專注於沉浸式世界建立的互動原型，Google決定擴大其使用範圍年滿18歲的美國Google AI Ultra訂閱使用者今天起可以率先體驗，這個原型，旨在讓使用者能夠建立、探索並重混屬於自己的互動世界體驗地址：https://labs.google/projectgenie介面長這樣：如何玩轉Project GenieProject Genie是一個原型Web應用，由Genie 3、Nano Banana Pro和Gemini共同驅動，使用者可以通過它親身體驗世界模型帶來的沉浸式感受。工作流程如下：🔵 設計：使用文字和視覺提示設計你的世界和角色。🔵 預覽： Nano Banana Pro會生成一個圖像預覽，供你在進入前進行調整。🔵 生成： Genie 3世界模型會隨著你的移動即時生成環境。🔵 重混：在作品庫中重新混合現有世界或發現新世界。該體驗圍繞三個核心能力建構：1. 世界草圖繪製 (World sketching)通過文字提示以及生成或上傳的圖像，建立一個生動且不斷擴展的環境。你可以建立自己的角色和世界，並定義探索方式——從步行、騎行、飛行到駕駛，以及任何其他方式為了實現更精確的控制，Google整合了“世界草圖繪製”與Nano Banana Pro。這讓使用者可以在進入世界前預覽其樣貌，並修改圖像以進行微調。你還可以定義角色的視角——如第一人稱或第三人稱——從而在進入場景前控制你的體驗方式2. 世界探索 (World exploration)你創造的世界是一個等待探索的可導航環境。當你移動時，Project Genie會根據你採取的行動即時生成前方的路徑。在穿越世界的過程中，你還可以調整鏡頭。3. 世界重混 (World remixing)你可以基於現有世界的提示詞進行建構，將其重混成新的詮釋。你也可以在作品庫或通過隨機功能探索精選世界以獲取靈感，或在它們的基礎上進行創作。完成後，你可以下載你的世界和探索過程的視訊AGI與世界模型世界模型用於模擬一個環境的動態變化，預測其演變方式以及行為所帶來的影響。儘管Google DeepMind在國際象棋或圍棋等特定環境中已擁有成熟的智能體，但建構AGI需要能夠駕馭現實世界多樣性的系統。為此，Google開發了Genie 3。與靜態3D快照中的可探索體驗不同，Genie 3能夠在你移動和與世界互動時，即時生成前方的路徑。它能為動態世界模擬物理和互動，其突破性的一致性使得模擬任何真實世界場景成為可能——從機器人技術、建模動畫和小說，到探索地點和歷史場景。基於與各行業和領域的信任測試者合作的模型研究，Google通過實驗性研究原型Project Genie邁出了下一步寫在最後Project Genie是Google Labs中的一個實驗性研究原型，由Genie 3驅動。由於Genie 3仍是一個早期的研究模型，存在一些已知的待改進領域：生成的世界可能看起來不完全逼真，或不總是嚴格遵循提示詞或圖像，或不符合現實世界的物理規律角色有時可能不太可控，或在控制時延遲較高生成時長限制在60秒內此外，去年8月宣佈的某些Genie 3模型功能，例如在你探索時可以改變世界的“可提示事件”（promptable events），尚未包含在此原型中。 (AI寒武紀)

黃仁勳預言落地，物理AI開年第一槍竟是中國公司打響

2026自動駕駛最熱黑科技——世界模型，開年第一個進展，來自中國明星企業文遠知行。當自動駕駛圈關於世界模型該放在車端還是雲端爭論不休時，文遠知行給出了一個大膽的答案——為什麼不直接做“上帝”呢？這正呼應了黃仁勳此前預言的物理AI“ChatGPT 時刻”已至——通過模擬建構可學習、可互動的虛擬世界，正成為自動駕駛進化的關鍵路徑。從特斯拉的世界模型到輝達借高精模擬打造的虛擬試驗場Cosmos，行業已清晰指向：誰能建構並掌控高度擬真的數字世界，誰就能加速駛向泛化與落地。文遠知行發佈的WeRide GENESIS是一個“通用模擬模型” ，它建構起物理AI（Physical AI）與生成AI（Generative AI）之間的融合橋樑：可以無限生成、回放和變化“長尾場景”的虛擬世界系統，可以在任何時間、任何地點、任何天氣，精準還原物理世界的法則、因果——如同駭客帝國中的Matrix世界。但WeRide GENESIS又超越行業常見的“自動駕駛版Sora”內涵，在建構世界之外，還給這個世界配齊了一整套自動化的反饋、調參、部署、驗證工具。簡單地說，“上帝”創造、修改虛擬世界的方式，也AI起來了。WeRide GENESIS，是什麼？文遠知行剛剛公佈的WeRide GENESIS，是一個自動駕駛模擬平台，但更加強調通用。這意味著和以前常見的自動駕駛卡車、Robotaxi、物流小車等專用模擬環境不同，WeRide GENESIS可以支撐各種自動駕駛產品研發。這本身就與文遠知行“搏二兔”——既有量產L2+，又有無人化L4——的戰略契合。對應不同產品，WeRide GENESIS既可以模擬量產一段式端到端的L2+車輛，也能模擬Robotaxi，當然還有各種無人小巴、清掃車等等。通用的另一個含義，是WeRide GENESIS本身對於環境的精準建構，幾乎能“一句話”無限生成、回放和變化“長尾場景”：△ WeRide GENESIS可模擬任意空間內的位移，自動生成新視角模擬，指數級擴大模擬世界範圍你可能會聯想到3D遊戲開發引擎，實現各種以假亂真的視覺效果：從“渲染場景”這個角度，它的確和遊戲引擎有相似之處，但除基本場景外，其他完全不同：WeRide GENESIS不關心材質、紋理細節，也不需要“光追”等級的計算資源，更加關心的首先是場景環境的物理法則：包括光照、重力、雨霧、碰撞力學等等。第二點，則是事物、事件之間的因果關係，生成的環境場景連續、低時延、可解釋，模擬測試中的任何bad case或good case，都能反映真實情況，而且能夠根據WeRide GENESIS的反饋資料迅速歸因。一句話概括：無限生成、回放和變化“長尾場景”，系統性地驗證演算法能力。WeRide GENESIS的核心包括四大AI模組，首先是AI場景，負責建構各類關鍵情境，模擬自動駕駛車輛可能遇到的多種場景，包括臨車侵入、無保護左轉、緊急避險、行人騎手闖入、火災地震、道路受阻、極端天氣以及其他稀有事件，全面覆蓋了數十億公里的自然駕駛資料。更重要的是，文遠知行超八年來從公開道路上採集的海量長尾和極端案例，也都成為WeRide GENESIS的“創作素材”。第二個模組是AI主體，針對駕駛員、行人、騎手等不同交通參與者建構了智能行為模型，能夠模擬從日常駕駛到高風險行為的全譜系反應，也就是讓模擬環境中發生的事永遠在真實範圍內，避免產生離譜的資料影響模型行為。如對比視訊所示，在左側“原始演算法+無AI主體”的組合下，自車表現猶豫，直至對向車輛完全通過後才開始通行，無法滿足效率要求；在中間“新演算法+無AI主體”的模擬中，自車僅按預設軌跡行駛，缺乏對周邊車輛行為的預測，最後發生碰撞，無法滿足安全要求；在最右側“新演算法+AI主體”的加持下，自車能夠即時判斷周邊車輛的行駛意圖，在確保安全的前提下流暢通過，實現了效率和安全雙重保障。高精度的智能實體建模其實是行業公認的技術難題，核心在於超越“平均化”的交通參與者行為模型，真實反映客觀世界中複雜且難以預測的互動行為，例如人類駕駛員突然魯莽加塞到自動駕駛車輛行駛的車道等場景：這兩個模組配合，可復刻任意路況、可編寫任意場景、可合成任意不同感測器位置視角、可適配任意感測器套件、可模擬任意大範圍街區……另外兩個模組分別是AI指標和AI診斷，前者建立了一套覆蓋安全、合規、舒適、效率等維度的量化評估體系，能夠將駕駛行為轉化為可對比、可分析的資料表現，從而自動判定演算法迭代的實際效果。後者則能夠自動捕捉不理想的駕駛行為、分析其根本原因，並提供可執行的改進方案。四大模組協同，WeRide GENESIS建構了完整的閉環迭代體系：自動生成高價值場景、自動量化性能瓶頸、自動定位弱點環節、自動給出最佳化方向。以經典科幻IP打個比方，文遠知行扮演了《駭客帝國》中“建築師”的角色，創造了一個供AI司機訓練、實戰的無限武器庫、訓練道場：AI司機在其中的體驗、經驗，和在現實世界沒有任何不同，一顆“藍藥丸”就能快速部署到實際任務中：不過，從基本能力來看，WeRide GENESIS算得上是熱門前沿的世界模型嗎？實際上，自動駕駛、智能汽車領域關於世界模型一直有爭論：有玩家認為世界模型就是單純後端的模擬器，用於資料生成模擬訓練。尤其是端到端、資料驅動成為共識後，訓練資料的分佈、質量直接影響模型能力，但關鍵少數的困難場景資料又很難在道路實測中碰到，所以世界模型的生成能力，被認為是解決corner case，降低接管率最重要的手段。但是，也有另一派玩家把車端的系統直接叫世界模型，任務是進行即時環境認知與決策，強調的車端“平行世界推演”能力，相當於“腦內小劇場”。其實，兩派並沒有根本矛盾，屬於工程落地與宣傳上側重點不同，因為AI行業對於世界模型是有階段性共識的：從海量資料中自主提煉物理與社會規律，形成對世界運作方式的抽象理解。從這個定義出發，WeRide GENESIS當然是世界模型。只不過文遠知行的WeRide GENESIS，意義又超越常見的“自動駕駛版Sora”。WeRide GENESIS給“Robotaxi第一股”上分家家都說世界模型，但大部分玩家都把重點放在“生成”能力，比如XX秒連續視訊、XX種目標模擬等等，不自覺對齊OpenAI宣傳Sora的套路。但對於自動駕駛而言，容易被忽略的重點其實是WeRide GENESIS後兩個模組——AI指標、AI診斷。因為這是“真·資料驅動”的最直接證據。也不瞞各位，自動駕駛圈很多資料閉環，其實是“偽閉環”。一種稍微好點的，是各個演算法團隊內部的“小閉環”，代表這支團隊完成了“模型化”，但還沒有建構起統一基座模型能力。這種模式最可能出現的場景是：使用者吐槽+工作群截圖，引發老闆的不滿……接到投訴反饋的研發，連夜加trigger試圖把bad case撈上來。這是問題驅動資料，而不是資料自動發現問題。真正的資料閉環應該是這樣的：首先系統能從海量運行的資料裡自動發現異常行為，然後將問題自動歸類、建成資料集，再針對性自動進行訓練/模擬，出瞭解決方案後，系統還能自動評估效果。資料能不能回來不是關鍵，而是bug、問題能自動走完從“被發現”到“被解決並被驗證”的路徑。比如現實中因急剎車引起的乘客不適，這一行為可在WeRide GENESIS模擬中被AI指標模組，量化為具體的舒適度評分，並即時反饋給演算法團隊，推動針對性最佳化與快速復驗。再比如，當自動駕駛車輛遇到複雜互動場景中識別感知延遲或預測偏差問題，WeRide GENESIS可通過“AI診斷”功能快速修復問題，並重新進行場景驗證，確保車輛行為始終符合預期標準。△ AI診斷模組的工作流程遵循了功能路測→問題檢測→問題歸類→根因分析→演算法改進→再測試與再驗證的閉環邏輯資料閉環的真正含義，應該是安全/體驗/效率等指標被持續量化、某項指標異常偏離後，系統自動報警，以及自動聚類對應封包，把相似問題聚成“問題簇”。研發中“人”的作用，是定義和監管、決策，而不是自己徒手標註、調參、評估、部署……“資料直接解決問題”，尤其是廣義端到端技術範式普及後，自動的資料處理、反饋能力成為持續迭代最關鍵的核心能力。這看似簡單，實際是自動駕駛行業最稀缺的能力，會直接影響泛化性、效率、成本。比如GENESIS實現的“生成場景-量化評估-診斷最佳化”完整閉環，可自動生成高價值場景、定位演算法弱點、提供最佳化方向，將數百萬公里測試壓縮至數天的虛擬模擬中。有“磨刀不誤砍柴工”的意思，高效資料閉環，直接影響的是自動駕駛玩家的產品泛化性、研發效率，以及整體營運成本。文遠知行能成功融合特斯拉路線和Waymo路線，成為全球唯一實現L4級無人駕駛和L2+級輔助駕駛規模商業應用——創始人、CEO韓旭所說的“搏二兔”——除了演算法能力之外，“資料閉環能力”也是關鍵因素。所以，綜合四個模組來看，WeRide GENESIS既是評價文遠知行研發能力現狀最好的指標，也是理解“Robotaxi第一股”的一個最直接切入點。文遠知行從容“搏二兔”眼下，文遠知行已經在全球10餘座城市部署了超過1000輛Robotaxi，其中，北京、廣州、阿布扎比已實現純無人商業營運。放眼整個L4賽道，蘿蔔快跑2025年11月公佈的所有Robotaxi的最新周訂單數是25萬單；小馬智行Q3財報顯示，其Robotaxi車隊數為961台，廣州單台車日均訂單量達到23單。北美“一哥”Waymo，“被”披露的資料是車隊2500輛、每分鐘就能完成45單。至於落地廣度，文遠知行則是整個L4賽道最早敏銳意識到海外需求和機遇的玩家，並且迅速付諸行動，率先在11個國家、40多座城市開展自動駕駛研發、測試及營運，也是行業唯一拿下8個不同國家自動駕駛牌照的科技企業。截至目前，文遠知行既是中國Robotaxi出海No.1，同時還是整個自動駕駛行業落地Robotaxi場景最豐富的玩家。另一邊，2023年文遠知行首次合作博世，幫助這家百年Tier 1追趕高階智能輔助駕駛方案：落地量產奇瑞旗下的星途星紀元車型。△ 奇瑞星途星紀元ES2025年年末，文遠知行又發佈了量產一段式端到端方案，同樣是幫助博世一夜間追趕上L2+最先進技術範式。從這個層面看，文遠知行首先是整個L4賽道唯一有穩定量產智能輔助駕駛項目的玩家；另一個角度，文遠知行也是整個自動駕駛行業內，唯一一家L4、L2技術堆疊覆蓋，且都有成熟落地案例的公司。從一段式量產節奏來看，文遠知行現在同樣也處於行業內的T0梯隊。也就是說，文遠知行現在明明白白在“搏二兔”，而且搏成了行業領先。L2+、L4落地場景、技術要求各不相同，海外迅速落地數十城，環境、路況、交通規則、基礎設施標準也各不相同。這樣的泛化性，除了演算法本身，背後離不開WeRide GENESIS建構的模擬測試、資料閉環體系——文遠知行“來時路”的一部分，現在終於清楚了。更進一步，WeRide GENESIS也可以解釋文遠知行為何能“搏二兔”，在量產智能輔助駕駛和Robotaxi這兩個看似尖銳對立的陣營遊刃有餘。L2陣營緊跟的端到端，本質不是一段式、兩段式、VLA，甚至不是絕對的模型化，而是資料驅動，是一種底層方法論。資料驅動下，可以純視覺，可以融合感知，可以一段式，可以多段式，可以世界模型，也可以VLA，甚至也可以有規則存在。所以對於L4陣營來說，探索世界模型根本談不上“轉軌”，甚至Waymo早就在做。文遠知行無意參與行業爭論口水仗，只是默默開啟探索規則+模型多元技術體系，自證自動駕駛L4的安全性、L2的泛化性可以共存，符合一貫的“行勝於言”。最後，從WeRide GENESIS，又能看出文遠知行未來的可能性。資料閉環能力之外，再次回到“生成”：WeRide GENESIS本身是物理AI（Physical AI）與生成AI（Generative AI）之間的融合橋樑，真正打通“現實物理世界”與“虛擬模擬世界”之間的能力通道。讓AI從海量資料中自主提煉物理與社會規律，形成對世界運作方式的抽象理解——而這是實現通用人工智慧（AGI）的關鍵路徑之一。黃仁勳預言物理AI的“ChatGPT 時刻”已至，從文遠知行的實踐來看，這個時刻很有可能最先出現在跑通通用自動駕駛的玩家身上。 (智能車參考)

Google4D世界模型來了，比SOTA快300倍！

Google DeepMind 發佈 D4RT，徹底顛覆了動態 4D 重建範式。它拋棄了複雜的傳統流水線，用一個統一的「時空查詢」介面，同時搞定全像素追蹤、深度估計與相機位姿。不僅精度屠榜，速度更比現有 SOTA 快出 300 倍。這是具身智能與自動駕駛以及 AR 的新基石，AI 終於能像人類一樣，即時看懂這個流動的世界。如果是幾年前，你問一位電腦視覺工程師：「我想把這段視訊裡的所有東西——無論它是靜止的房子還是奔跑的狗——都在 3D 世界裡重建出來，並且還能隨時知道它們下一秒會去那兒，需要多久？」他大概會遞給你一根菸，讓你先去買幾塊頂級顯示卡，然後給你畫一個由四五個不同模型拼湊起來的流程圖：先算光流，再算深度，再估相機位姿，最後還得用一晚上的時間去跑最佳化，祈禱結果別崩。但Google DeepMind 剛剛發佈的 D4RT（Dynamic 4D Reconstruction and Tracking），試圖終結這種混亂。這篇論文在電腦視覺領域扔下了一枚關於「效率革命」的重磅炸彈。它把原本割裂的 3D 重建、相機追蹤、動態物體捕捉，統一成了一個極簡的「查詢」動作。更重要的是，它的速度比現有 SOTA技術快了 18 到 300 倍。如果在你的認知裡，高品質的 4D 重建還是好萊塢特效工作室裡那些昂貴且緩慢的渲染農場，耗費漫長的時間等待生成完畢，那麼 D4RT 正在把這種能力變成一種可以塞進機器人大腦甚至 AR 眼鏡裡的即時直覺。Demo 演示為了理解 D4RT 到底做到了什麼，我們需要先看一眼它眼中的世界。在論文展示的演示中，最直觀的震撼來自於對「動態混亂」的駕馭能力。想像一下這個畫面：一隻天鵝在水面上劃過，或者一朵花在風中快速綻放。傳統的 3D 重建演算法（比如 MegaSaM 或）處理這種場景通常是一場災難——因為它們假設世界是靜止的，所以它們往往會在 3D 空間裡留下一串「重影」，就像老式膠片重疊曝光一樣，天鵝變成了長著幾十個脖子的怪物，或者花朵直接變成了一團無法辨認的噪點。但 D4RT 給出的結果極其乾淨。它不僅可以精準還原天鵝的 3D 形態，還完美剝離了相機的運動和天鵝自身的運動。在它的視野裡，時間變成了一個可以隨意拖動的滑塊。更令人印象深刻的是它的全像素追蹤能力。你可以點選視訊中花瓣上的任意一個像素，D4RT 就能畫出這個點在過去和未來的完整 3D 軌跡，那怕這個點在中間幾幀被蜜蜂遮擋了，或者跑到了畫面之外，模型依然能根據上下文「腦補」出它的去向。這種視覺效果給人的感覺是：AI 不再是在一幀幀地「看」視訊，而是把整段視訊吞下去，在大腦裡生成了一個完整的、流動的全息全景圖，然後你可以隨意從任何角度、任何時間去檢視它。模型能力對比圖拆解「神話」是真的快，還是文字遊戲？科技公司發論文，資料通常都很漂亮。作為觀察者，我們需要剝離 PR 濾鏡，看看資料背後的定語。Google聲稱 D4RT 比之前的 SOTA 快了 300 倍，處理一分鐘的視訊只需要 5 秒鐘。這是真的嗎？答案是：在特定維度上，是真的。這裡的「300倍」指的是吞吐量，具體來說是「在保持相同影格率（FPS）的前提下，模型能同時追蹤多少條 3D 軌跡」。資料對比：在 24 FPS 的標準電影影格率下，之前的強者 SpatialTrackerV2 隻能同時追蹤 84條軌跡，再多就卡了；而 D4RT 可以輕鬆處理 1570條。如果是和 DELTA 這種更慢的模型比，那就是 314 倍的差距。實際意義：這意味著之前的技術可能只能盯著畫面裡的主角（比如一個人），而 D4RT 可以同時盯著背景裡走動的路人、飄落的樹葉和遠處的車流——即所謂的「全像素級感知」。它比同類技術強在那兒？目前市面上的 4D 重建技術主要分兩派：「拼裝派」（如 MegaSaM）：把深度估計、光流、分割等多個現成模型串起來。雖然效果不錯，但不僅慢，而且一旦一個環節出錯（比如光流飄了），後面全完。「多頭派」（如 VGGT）：雖然是一個大模型，但為了輸出不同的任務（深度、位姿、點雲），需要掛載不同的解碼頭，結構臃腫。D4RT 的牛，在於它做到了架構層面的統一。它不需要為深度單獨做一個解碼器，也不需要為位姿單獨做一個。它只用同一個介面解決所有問題。有沒有代價？當然有。D4RT 的「快」主要體現在推理階段。在訓練階段，它依然是一個龐然大物。它的編碼器使用了 ViT-g，擁有 10 億參數，並且需要在 64 個 TPU 晶片上訓練兩天。這絕不是普通開發者在自家車庫裡能復現的玩具，它是典型的「大廠重武器」。技術解碼把 4D 重建變成「搜尋引擎」那麼，D4RT 到底是怎麼做到的？論文的核心邏輯可以用一句話概括：先全域「閱讀」視訊，再按需「搜尋」答案。不再逐幀解碼，而是「全域記憶」傳統的視訊處理往往是線性的，處理第 10 幀時可能已經「忘」了第 1 幀的細節。D4RT 的第一步是使用一個巨大的 Transformer 編碼器（Encoder），把整段視訊壓縮成一個全域場景表徵（Global Scene Representation, F）。你可以把這個 F 想像成 AI 對這段視訊形成的「長期記憶」。一旦這個記憶生成了，原本龐大的視訊資料就被濃縮在了這裡。「那裡不會點那裡」的查詢機制這是 D4RT 最天才的設計。它發明了一種通用的查詢（Query）語言。當 AI 想要知道某個像素的資訊時，它會向解碼器（Decoder）傳送一個查詢 q：這個公式翻譯成人話就是：平行計算的藝術因為每一個查詢（Query）都是獨立的，D4RT 不需要像穿針引線一樣按順序計算。它可以一次性扔出幾萬個問題，利用 GPU/TPU 的平行能力同時算出答案。這就是為什麼它能比別人快 300 倍的根本原因：它把一個複雜的序列幾何問題，變成了一個大規模平行的搜尋問題。關鍵的「作弊」技巧：9x9 Patch論文作者還發現了一個有趣的細節：如果只告訴解碼器坐標點，AI 有時候會「臉盲」，分不清紋理相似的區域。於是，他們在查詢時順便把那個像素點周圍 9x9的小方塊圖像（RGB Patch）也喂給了模型。這就像是你讓人在人群中找人，光給個坐標不行，還得給他一張那個人臉部的特寫照片。消融實驗證明，這個小小的設計極大地提升了重建的銳度和細節。產業影響 Google的野心與具身智能的眼睛D4RT 的出現，對Google現有的業務版圖和未來的 AI 戰略有著極強的互補性。具身智能與自動駕駛的最後一塊拼圖現在的機器人之所以笨，很大程度上是因為它們「看不懂」動態環境。一個掃地機器人能避開沙發，但很難預判一隻正在跑過來的貓。D4RT 提供的即時、密集、動態的 4D 感知，正是機器人急需的技能。它能讓機器人理解：那個東西不僅現在在那裡，而且下一秒它會出現在我左邊。對於自動駕駛而言，這種對動態物體（如行人、車輛）的像素級軌跡預測，是提升安全性的關鍵。增強現實（AR）的基石Google一直在 AR 領域尋找突破口（從當年的Google眼鏡，到現在的 Project Astra）。要在眼鏡端實現逼真的 AR，必須要有極低延遲的場景理解。D4RT 展示的高效推理能力（尤其是在移動端晶片上的潛力），讓「即時把虛擬怪獸藏在真實沙發後面」變得在工程上可行。對普通人的影響視訊編輯的「魔法化」對於普通使用者，這項技術最快落地的場景可能是手機相簿和視訊編輯軟體。想像一下，你拍了一段孩子踢球的視訊。有了 D4RT，你可以像在《駭客帝國》裡一樣，在影片播放過程中隨意旋轉視角（儘管你拍攝時並沒有移動），或者輕易地把路人從複雜的背景中「扣」掉，甚至改變視訊中光源的方向。這是 D4RT 這種 4D 重建技術成熟後的應用之一。結語D4RT 讓我們看到了一種新的可能性：AI 對世界的理解，正在從二維的「圖像識別」跨越到四維的「時空洞察」。它告訴我們，要看清這個流動的世界，關鍵不在於每一幀都看得多仔細，而在於如何建立一個能夠隨時回應疑問的全域記憶。在 AI的眼中，過去並沒有消逝，未來也不再不可捉摸，它們只是同一個四維坐標系裡，等待被查詢的兩個不同參數而已。 (新智元)

騰訊混元世界模型1.5發佈：僅需輸入文字描述或圖片即可建立專屬互動世界

12月17日，騰訊混元世界模型1.5（Tencent HY WorldPlay）正式發佈。使用者只需輸入文字描述或者圖片即可建立專屬的互動世界。據騰訊混元官方介紹，混元世界模型1.5（WorldPlay）首次開源了業界最系統、最全面的即時世界模型框架，涵蓋資料、訓練、流式推理部署等全鏈路、全環節，並提出了重構記憶力、長上下文蒸餾、基於3D的自回歸擴散模型強化學習等演算法模組。混元世界模型1.5具備三大核心能力：1、即時的互動生成：通過原創的Context Forcing蒸餾方案以及流式推理最佳化，模型可以按照24 FPS的速度生成720P的高畫質視訊；2、長範圍的3D一致性：通過重構記憶機制（Reconstituted Memory），模型支援分鐘級內容的幾何一致性生成，可用於建構高品質的3D空間模擬器；3、多樣化的互動體驗：混元世界模型可廣泛適用於不同風格的遊戲或者現實場景，以及第一和第三人稱視角，也支援即時文字觸發事件和視訊續寫等功能。此前，今年7月，騰訊混元團隊發佈混元3D世界模型 1.0，支援文字或單張圖片輸入生成相容圖形學管線的3D場景；10月，混元團隊發佈世界模型1.1，支援多檢視或視訊一鍵創造3D世界。 (荊楚網)

李飛飛發佈顛覆型AI產品，極有可能重塑教育和創作方式

剛剛，李飛飛萬字長文發佈了首款商用世界模型Mable，AI教母再次引領變革。Marble內建一個原生的AI世界編輯器Chisel，使用者只需一句提示，就能按自己的想法自由改造世界。李飛飛說：空間智能能有潛力徹底變革我們創作和體驗敘事的方式，將其影響力從娛樂延伸到教育。孩子的學習將可能像探險一樣，內在動機將會被充分激發，學生可以利用Mable建構自己心中的文學世界、歷史場景或物理模型，從知識的接受者轉變為主動的創造者和講述者。太酷了！不由得重讀了一遍趙燦翻譯的《李飛飛傳》，激動不已，如果每個父母和孩子都可以好好讀一次這本書，他們大機率可以找到在AI時代，讓自己穿越焦慮、穿越恐懼、成就孩子的中國式答案。至少，你可以看到，一個普通中產家庭，如何通過家庭教育和個人選擇，讓孩子充滿溫情，又能擁有非凡的人生、改變人類的未來。推薦《李飛飛傳》每個孩子和父母必讀李飛飛是AI領域的頂級科學家，神奇的是，她在寫自傳的時候，不是從理性開始，反而從童年的感受開始。“從記事起，感知事物（無論是什麼）的純粹體驗總能以難以言喻的方式讓我深深沉浸其中。目之所及，彷彿總會有新鮮事物在等待著喚起我的驚奇之情，或許是一株植物的靜謐，或許是一隻昆蟲小心翼翼的步伐，又或許是遙遠山峰的朦朧深邃。年幼的我對這個世界還不甚瞭解，但我能感覺到，它值得探索。”在李飛飛之前，“從感受開始”的天才，並不是例外，而幾乎是頂級創造者的共性。愛因斯坦說過：“我們所能體驗到的最美的東西是神秘，它是一切真正的藝術和科學的源泉。一個人如果不再對世界感到驚奇、不能呆立在敬畏之中，那他幾乎等同於死去——他的眼睛是閉著的。”物理學家費曼把整本書命名為《發現事物的樂趣》，他解釋科學動機時說：真正驅動他的是“好奇心”，是去追問“是什麼讓風吹起海浪、讓水像空氣、像沙子那樣運動”——發現這些現象背後有共同的模式，是“看見一切如何運轉”的快感。在商業世界，賈伯斯在史丹佛演講裡沒有講商業模型，而是講直覺、好奇和“保持飢餓，保持愚蠢”——一種對未知持續敞開的心態，他把這當成創新者唯一值得堅守的“宗教”。生態學家蕾切爾·卡森強調，事實只是知識與智慧的“種子”，而“情感和感官印象是種子生長的肥沃土壤”；對於孩子來說，“知道”遠不如“先去感受”重要。正如李飛飛所說：“喚起我的驚奇之情，或許是一株植物的靜謐，或許是一隻昆蟲小心翼翼的步伐，又或許是遙遠山峰的朦朧深邃。年幼的我對這個世界還不甚瞭解，但我能感覺到，它值得探索。”難能可貴的是，李飛飛把這份感受力和驚奇之心，一直保留到了現在。從她的文字，你可以感受到，她的感受力不輸理性，甚至超越理性。而驚奇，則是她整個科研的支撐。還有對於星空的渴望，幾乎貫穿著她的人生始終——老師指向天空的更高處，說：“啊，快看，這是我最喜歡的一個星座。這七顆星星組成了北斗七星。現在沿著這條線往上看，”他指向右邊說，“看到那顆明亮的星星了嗎？這可能是幾百年來天上最重要的恆星，叫作北極星。”從那時起，李飛飛的人生，是被宇宙和星空所定義的。這是為什麼，她無法接受學校老師短視的教育。她曾公開頂撞老師、飽受質疑，一度成績一落千丈……老師跟媽媽投訴她的時候，媽媽對她說：這裡不適合你。李飛飛不是唯一一個“因為人生版圖太大，而容不下在一張課桌裡”的人。愛因斯坦十五歲時離開慕尼黑的路易特波德中學，因為他極度厭惡那種命令式、軍營式的教學——在他看來，那種教育只要求服從，不允許真正的思考。之後他去了瑞士阿勞州立中學，在那裡第一次感受到“受歡迎、被理解”，也看到了更自由的人生可能，於是才有後來的愛因斯坦。諾貝爾文學獎得主泰戈爾一生中頻繁轉學，先後在東方學院、普通學校、孟加拉學院、聖澤維爾學校輾轉，最後乾脆拒絕再上學。他覺得殖民地式的西式學校“枯燥而低劣”，遠不如大家庭裡的詩歌、音樂和思想交往來得豐盈。後來，他在聖地尼克坦親手創辦實驗學校，就是為了給孩子一種不被應試教育綁架的“開闊人生教育”。他們離開的，不是“學校”本身，而是一個過於狹隘的人生說明書。在這個到處都在談論“AI”的時代，我們很少停下來問一句：設計未來技術的人，本人是怎樣長大的？李飛飛給出的答案是——不是從論文、獎項、頭銜開始，而是從一個小女孩仰望星空、被世界驚奇擊中的那一刻開始。她記得北斗七星、北極星，記得山巒的輪廓、昆蟲的步伐，也記得自己如何因為嚮往更遼闊的人生，而不斷“轉學”、不斷離開只講功利的課堂。 (Madam Wang涉川和她的朋友們)

李飛飛和LeCun的世界模型之爭

AGI之路，終於交會到了世界模型的戰場。李飛飛，發佈了旗下首款商用世界模型Marble；幾乎在同一時間，Lecun離職Meta，準備創立自己的世界模型公司；在此之前，Google旗下的世界模型Genie 3，也曾掀起業界轟動。AI界三股大佬力量，雖然同樣進軍世界模型，卻意味著三種截然不同的技術路線賭注—世界模型之爭李飛飛剛剛為空間智能舉大旗的萬字長文發佈，她旗下的創業公司World Labs，就緊鑼密鼓推出了首款商用世界模型Marble。業界普遍認為Marble有商業化潛力，是因為它產生的是持久的、可下載的3D環境。團隊表示，這種方式能顯著減少場景變形和細節不一致的問題，而且還能將生成的世界匯出成高斯斑點、Mesh網格，甚至直接匯出影片。更進一步，Marble還內建原生的AI世界編輯器Chisel，使用者只需一句提示，就能依照自己的想法自由改造世界。對於做VR或遊戲的開發者來說，「一句提示→直接生成3D世界→一鍵匯出到Unity」這樣的鏈路，非常有幫助。然而，Hacker News的一名機器學習工程師指出，比起所謂的世界模型，Marble看起來更像是單純的3D渲染模型。這不就是高斯Splat模型嗎？我在AI產業做了這麼久，到現在都還是搞不懂「世界模型」裡的「世界」究竟指什麼。Reddit網友的說法則更直接：用高斯散射、深度和影像修復把圖片轉成3D環境，確實很酷，但這就是一組3D高斯生成流水線，不是機器人的大腦。這裡的高斯潑濺，指的是近幾年3D建模裡最火紅的一類新技術。它把一個場景表示成成千上萬個漂浮在空間中的彩色模糊小斑點（也就是高斯），再把這些斑點“潑濺”到螢幕上，讓它們自然融合成一張圖像。可以這麼理解：高斯就像是漂浮在立體空間、半透明、有光暈、邊緣柔軟的小氣泡。單一氣泡當然軟乎乎的成不了形，但如果成千上萬個這樣的氣泡聚在一起，再從不同角度渲染出來，就能組合出一幅精美的三維畫面。這樣做，不需要像傳統攝影測量那樣走複雜的建模流程，雖然犧牲了一些精確度，但速度極快，而且操作更輕鬆。Marble採取的正是這樣一種路徑。然而，這也意味著，Marble可能不是大家想的那種、可以直接用於機器人訓練的「世界模型」。Marble確實建構了一個完整世界，但我們看到的其實只是一個能被渲染器直接轉成像素的檢視。換句話說，它捕捉的是「表面是什麼樣子」，而並沒有內建「這個世界為什麼會這樣運作」的物理規律。這對人來說完全夠用了，但對機器人來說，重要的其實不是這些視覺訊息，而是背後的因果結構——例如，一放在斜坡上的球會滾下來，這對人類來說是看一眼就懂的事；但機器人想做出類似判斷，還需要質量、摩擦、速度……這些資訊在Marble里根本不存在。或許正是因為如此，在Marble自己的部落格上，雖然屢屢提及“世界模型”與“匯出高斯散射體、網格和視訊”，但幾乎完全沒有提到機器人。不過在商業化層面，Marble明顯更具優勢。相較於AI圈熱議的那類、可孕育具身智能世界模型，Marble已經不是一個遙遠的概念，而是一款能夠立刻融入遊戲開發者日常工作流程的實用工具。但這也不禁令人有些黯然，難道那條能通往AGI的「世界模型」之路，只是個噱頭嗎？當然不是。確實存在著能與機器人真正互動的世界模型，例如——LeCun的JEPA。LeCun所理解的「世界模型」，根子並不在3D圖形學，而是在控制理論和認知科學。它不需要輸出漂亮的畫面，因為你根本「看不到」這種世界模型。這類世界模型的任務，不是渲染精美的像素，是讓機器人能提前想幾步，學習在行動前預判世界的變化。JEPA走的正是這條路——LeCun認為，對AI來說，只有中間那個抽象表徵才重要，模型沒必要浪費算力去產生像素，只要專注於捕捉那些能用於AI決策的世界狀態。所以，這類模型雖然沒辦法像Marble那樣生成精緻的3D影像，看起來不那麼「驚豔」，但它更像是在訓練機器人的「大腦」。其優勢在於對世界更本質的理解，因此，更適合作為機器人的健身房。這麼一對比，李飛飛和LeCun在「世界模型」上的路線幾乎南轅北轍——前者做的是一個前端資產產生器；後者則更像一個後端預測系統。而在這二位神仙打架的中間，還站著一位科技巨頭——Google。今年8月，GoogleDeepMind推出了新版世界模型，這就是Genie 3。只要一句Prompt，模型就能產生一個可互動的影片環境，使用者可以在其中自由探索數分鐘。最令人印象深刻的是，Genie 3首次在這一類模型中解決了長時一致性的問題——不會再出現那種「轉個身整棟大樓消失」的狀況。同時，它也支援觸發世界事件，例如「開始下雨」「夜幕降臨」等，整個過程就像一款由模型而非傳統引擎驅動的電子遊戲。不過，Genie應該更像一款「世界模型式影片產生器」。儘管Genie 3讓「世界動了起來」，它的核心仍然是視訊邏輯，而非JEPA那種基於物理和因果的邏輯。也就是說，它雖然可以產生動態畫面，但也無法完全「理解」這些畫面背後的物理規律。依然可以用於機器人訓練，但不如JEPA那樣直擊本質。同時，畫面品質和解析度也有限，難以與Marble那種高精度、可匯出的3D資產相提並論。綜上來看，三種「世界模型」雖然都在描繪「世界」，但理解路徑完全不同，也因此各有千秋——Marble渲染「世界長什麼樣子」，Genie 3展示「世界怎麼變」，JEPA則探究「世界的結構是什麼」。而市面上幾乎所有的「世界模型」，大致也都可歸入這三種範式：世界模型金字塔第一種：世界模型即介面以Marble為代表，它讓人們能夠從文字或二維素材，直接產生可編輯、可分享的三維環境。在這個模式下，「世界」是呈現在VR頭戴裝置、顯示器或電腦螢幕上的那片可供人觀賞與遊走的空間。第二種：世界模型即模擬器：以Genie 3為代表，這類模型能產生連續、可控制的視訊式世界，讓智能體在其中反覆嘗試、失敗、再嘗試。像SIMA 2這樣的智能體，便可把這類世界當作「虛擬健身房」。第三種：世界模型即認知框架以JEPA為代表，這是一種高度抽象的形式，沒有像前兩種一樣可供人欣賞的畫面。在這裡，焦點不在於渲染，「世界」以潛在變數和狀態轉移函數的形式呈現，可以說是機器人完美的訓練基地。在智源學者趙昊看來，其實可以將三者拼裝為「世界模型金字塔」——自下而上依序是李飛飛、Genie 3、Lecun。站在地面仰望這座金字塔：越往上，模型越抽象、越貼近AI的思考方式，因此更適合用於機器人訓練與推理；越往下，模型在外觀、互動與視覺化等方面對人類來說更真實，但更難被機器人理解。（量子位元）