#DreamZero | 熱門關鍵字 | 鉅亨號

2025年，具身智能領域最火的詞就是VLA（視覺-語言-動作模型）。它成了一種席捲全行業的共識，一個關於具身基礎模型的標準答案。在過去的一年裡，資本和算力瘋狂湧入這條賽道，基本上所有的模型大廠，都在用這套範式。但很快，現實的物理世界給所有從業者潑了一盆冷水。因為VLA在物理動作執行上很弱。它能懂極其複雜的文字指令。但當機械臂真正去抓取時，它可能連如何調整手腕姿態以避開杯柄的阻擋都做不好，更別提讓它去執行解開鞋帶這種涉及複雜物理形變的動作了。VLA的另一個致命痛點是泛化。本來之所以大家要做模型更新，為的就是不用為每個特殊環境程式設計，看重的正是大模型的泛化能力。結果現在，任何超越訓練規定環境的動作，VLA基本都無法泛化，甚至出了訓練環境類似的環境都做不了。整個行業把泛化的無力，歸結於資料的不足。大廠們開始投入億萬資金，用各種方式去採集資料，試圖用海量的模擬演示來填補VLA的常識空缺。但2026年初，輝達（NVIDIA）發佈了兩篇論文《DreamZero: World Action Models are Zero-shot Policies》和《DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos》兩篇論文，建構了一套全新的具身智能基礎模型範式，打破了資料內卷的僵局。它們一起，給出了一個完全從視訊裡學習，Zero-shot（零樣本）就能泛化執行不同工作的具身模型的可能。01 VLA缺的不是資料，而是世界模型要理解DreamZero和Dream Dojo的顛覆性，必須先從底層剖析VLA的系統性缺陷。VLA的最大問題，就是缺乏世界模型。VLA的底層架構限制了它的認知方式。從譜繫上看，VLA和LLM的親緣更強，反而和純視覺、純物理的親緣較弱。它通過交叉注意力機制（Cross-Attention）將圖像的像素塊對應到文字的語義空間中，在這個空間裡，它理解了杯子和桌子的概念，理解了它們在二維畫面中的相對位置。但物理世界不是二維的語義切片。物理世界是連續的，充滿了質量、摩擦力、重力和幾何碰撞。VLA對物理動作和世界的理解相對較弱，因為它本質上是一個「翻譯器」。我們可以用物理學中的狀態轉移方程來解釋。一個完整的世界模型，本質上是在學習一個條件機率分佈。它能在給定當前世界的狀態（視覺觀測）和機器人即將執行的動作，預測世界下一秒會變成什麼樣。VLA從來沒有學過這個方程。VLA學習的是靜態視覺觀測+語言指令直接對應到可執行動作的函數關係；卻沒被系統性地訓練去預測動作後果、做反事實試錯。所以一旦環境、材質、約束關係稍微變形，性能就會斷崖式下滑。這就好比讓一個人在不理解幾何原理的情況下，去死記硬背一萬道幾何題的答案。遇到原題，他能快速寫出完美答案；遇到條件稍微變動的新題，他就徹底當機。VLA的泛化，本質上只是高維語義空間中的插值。當物理形態超出訓練集的包絡面時，插值就會失效。與之對比的，是視訊生成模型。在Veo3、Sora 2和最近大火的Seedance 2生成的物理互動畫面已經相當逼真，流體、剛體、柔性材料的動作如此連貫，幾乎與現實世界難以區分。這說明，大規模視訊生成模型在海量的網際網路視訊中，很可能已經隱式地壓縮並內化了物理世界的基礎運行規律，形成了一些世界模型。即使強大如斯，視訊生成之前仍然主要被用在給VLA提供模擬資料，而不是整合進機器人的工作流中。其實，大家想利用視訊生成模型來控制機器人的念頭並不是從此開始的。在DreamZero之前，學術界和工業界也提出了多個解決方法。但這些方法無一例外地陷入了工程和邏輯的死胡同。比如 LVP（大規模視訊規劃器）。它的思路是從一張圖和一句話，直接生成應該如何完成任務的未來視訊計畫。再把視訊中的人手運動重建成 3D 軌跡。是用視訊預訓練，而不是語言預訓練，作為機器人基礎能力的主軸。第二種則是類似輝達自己的DreamGen這種，生成視訊後，再反推動作。這是之前被寄予厚望的路線。它把整個基礎模型的架構切分為兩半，上半部分是一個視訊模型，負責預測未來；下半部分是一個獨立訓練的IDM網路，負責看著預測出來的視訊，反推並輸出動作。以上兩種分階段的模式，最大的問題就是動作和視訊生成對不齊。動作那塊要求特別精準，但視訊生成很難完美。一旦它產生的未來畫面帶有微小的像素偽影或物理幻覺，那不管是IDM或者點追蹤，都直接懵圈，成倍放大錯誤。視訊裡機器人的手指位置偏了一微米，現實中機器人就根本什麼都抓不住了。魯棒性極差。第三種是Unified Video-Action（UVA，聯合視訊-動作生成）。這算是最先進的方法了，它嘗試把視訊和動作放在同一個擴散模型裡的潛空間裡學習，兼顧了視訊預測和動作預測。而推理時又通過「解碼解耦」跳過視訊生成，以保證速度。但它的架構使用了雙向擴散（Bidirectional Diffusion）架構。為了匹配語言指令的長度，必須對生成的視訊序列進行大幅壓縮。這種做法徹底扭曲了原生的視訊時間流。時間都扭曲了，動作指令與視覺畫面的對齊幾乎就不可能了，所以這種方式的泛化性自然極差。除此之外，這些方法都有一個致命的共同缺陷，就是太慢。視訊擴散模型需要多步迭代去噪，生成幾秒鐘的動作往往需要幾十秒的計算。要是一個機器人把碗放進碗櫃要5分鐘，你怕是在邊上看著都得急瘋。因此在2026年前所有新具身智能企業中，幾乎只有前一陣剛推出家用機器人的1X Technologies在嘗試這種視訊預測的方法。他們利用海量的“影子模式”（Shadow Mode）資料，即在人類遙操作時，讓模型在後台同步運行預測，用這種極高品質的配對資料去硬生生訓練那個脆弱的IDM。但一時的失敗，並不意味著方向被否定。在去年的機器人大會上，我採訪了很多國內的具身智能學者。彼時正是Google Veo 3和 Genie 3剛剛發佈不久之時。大多數學者都對此印象深刻，意識到了視訊生成模型的世界理解能力。因此在交流中，他們幾乎是以一種共識的口吻，提出生成可能是後續具身智能最靠譜的路徑。這比在模擬環境下（Simulation）產生資料要可能性更高。模擬器（如Isaac Gym或MuJoCo）受限於人類硬編碼的物理引擎，永遠無法窮盡真實世界材質的複雜性、光影的多變性和接觸力的非線性。而吸收了全人類視訊資料的生成模型，才是那個真正包含了萬物物理法則的超級模擬器。但當時，這個思維還是停留在「資料」這個層面上，視訊生成取代VLA這個講法，基本還沒進入視野。但輝達的研究，很可能就是讓這個想法，第一次變成有效的工程化路徑的轉折點。02 DreamZero，以世界模型為基地的具身智能前面已經講了，過去利用視訊生成模型去建構機器人動作所面對的三個主要問題。一是分步導致的對齊問題。二是合一模式太差，沒法用的問題。三是太慢的問題。針對於此，輝達先用DreamZero，給出了一條解決方法。首先，DreamZero採用了視訊和動作預測同步端到端訓練的方式。這就解決了過去分階段模式的不對齊問題。其次，針對UVA的時空錯亂問題，DreamZero徹底拋棄了早期的雙向架構，轉而建構了一個14B參數的自回歸 Diffusion Transformer (DiT)。這是目前標準的視訊生成模型架構。它像語言模型生成文字一樣，嚴格按照時間順序，從左到右預測視訊和動作。在同一次擴散前向裡，同時預測視訊與動作。這帶來了兩個好處。第一，保留了原生影格率，動作和畫面在時間軸上實現了絕對對齊。第二，它利用了KV Cache（鍵值快取）技術。模型不需要每次都從頭計算歷史畫面，極大地節省了算力。之後，為瞭解決自回歸導致的“誤差累積”和幻覺問題。DreamZero還引入了真實觀測注入。模型預測出未來1.6秒的畫面和動作，機器人執行完畢。而在動作執行完的瞬間，獲取攝影機拍下的絕對真實的當前物理世界畫面，直接編碼並塞入KV Cache，覆蓋、替換掉模型剛才生成的假畫面。這一步，瞬間斬斷了誤差積累的因果鏈。模型被迫永遠站在絕對真實的物理基石上，去思考下一步。最後，也是最重要的一步，是解決生成慢的問題。為了達到機器人控制需要的頻率，DreamZero發明了DreamZero-Flash技術。擴散模型慢，是因為推理時需要走完漫長的去噪鏈。如果強行減少步數（比如只用1步去噪），生成的動作質量會斷崖式下跌，因為畫面還處在充滿噪點的模糊狀態，模型無法從中提取精確的動作。DreamZero-Flash的解法是「解耦噪聲調度」。在訓練時，它不再讓視訊和動作處於相同的噪聲等級。它強制模型看著極度模糊、充滿高強度噪聲的視覺畫面，去預測完全乾淨、精準的動作訊號。這等於是在訓練模型在看不清未來的情況下，憑藉物理直覺做出正確反應。對於人來講，這是不可能的任務，看不清就是做不了動作。但對模型來講，這似乎完全行得通。經過這一訓練，到了推理階段，模型只需要進行僅僅1步去噪就能生成精準動作。推理時間從350毫秒瞬間壓縮到了150毫秒。這使得系統能夠以7Hz的頻率輸出動作塊，結合底層控製器，實現了相對平滑的即時執行。經過了這一系列改造。DreamZero展現出了視訊生成世界模型的恐怖潛力。最突出的是泛化能力。在AgiBot雙臂機器人的測試中，研究人員拋出了訓練集裡完全沒有見過的任務解開打結的鞋帶、從假人模型頭上摘下帽子、拿著刷子畫畫。讓從頭訓練的VLA來做，任務進度幾乎為零，開始的地方都做不好。但DreamZero的平均任務進度達到了39.5%，某些特定任務（如摘帽子）甚至高達85.7%。這是因為DreamZero的學習過程是顛覆性的。在訓練時聯合預測視訊和動作，它被迫在潛空間中建立事物演變的因果鏈條。它知道如果不鬆開夾爪，被夾住的物體就不會掉落；它知道如果向前推倒一杯水，水會灑出來。因為預設了基於視訊的世界模型，WAMs擁有了物理直覺。當遇到未見過的任務時，它不是在記憶庫裡搜尋類似的動作，而是在腦海中模擬出了動作的物理後果。只要這個物理後果符合語言指令的語義目標，它就能直接湧現出執行動作。這就是為什麼它能在Zero-shot的情況下完成解鞋帶這種複雜任務。更讓人震撼的是跨機體（Cross-Embodiment）能力。在傳統的VLA範式下，你要讓一台新形態的機器人幹活，就必須僱人去給這台機器人錄製專屬的遙運算元據。但在DreamZero中，研究人員只讓模型觀看了人類視角的錄影（純視訊，沒有任何電機動作參數），僅僅看了12分鐘。模型在未見任務上的表現就實現了42%的相對提升。隨後，他們把在AgiBot上訓練的模型，直接遷移到一台完全不同的YAM機器人上。僅僅給它喂了30分鐘的非結構化「玩耍資料」（Play Data），模型就完成了軀體適應，並且完美保留了零樣本泛化執行複雜指令的能力。這就是世界模型的降維打擊。物理規律是通用的，它只需要極少的資料去微調自己對新軀體運動學邊界的認知。VLA最大的問題，DreamZero這樣預設了世界模型的動作模型 WAM（World Action Model）完美解決了。它不需要海量的機器人資料訓練就能達成很好的泛化。但我們必須保持清醒。基於視訊生成的工程化路徑，其實依然有很多卡點。相對於VLA動輒在消費級顯示卡上跑出20Hz、30Hz的驚人速度，DreamZero拼盡全力最佳化後的7Hz依然很慢。並且，它對硬體要求更高，依賴於H100或GB200這樣的頂級晶片組成的計算叢集來進行平行推理。對於邊緣端部署的獨立機器人來說，這在目前的算力成本下是不可接受的。不過，算力成本的下降服從摩爾定律，而演算法架構的物理認知上限則是天花板。用昂貴的算力去換取原本根本不存在的泛化能力，這筆交易在技術演進的長期視角下是絕對划算的。DreamZero的成功，意味著從VLA轉向視訊世界模型，不再是一個學術幻想，而是一個已經跑通的可能。03 世界模型需要的資料，和VLA不一樣在 DreamZero 的實驗中，輝達發現了一個反直覺的結論。我們通常認為資料越多越好。如果機器人學不會，那就再採集一萬小時資料。但在世界模型的語境下，這個定律失效了。DreamZero 揭示了新的法則資料多樣性 > 資料重複量。研究人員做了一組對照實驗，準備了兩份資料，總時長都是 500 小時。● 資料集 A（重複組）：包含 70 個任務，每個任務有大量重複的演示，位置和環境變化很小。這是傳統 VLA 喜歡的“刷題”模式。● 資料集 B（多樣組）：包含 22 個不同環境、數百個任務，資料極其雜亂，幾乎不重複。結果使用雜亂資料訓練的 DreamZero，在未見任務上的泛化成功率達到了 50%。而使用精美重複資料訓練的模型，成功率只有 33%。為什麼？這是因為 VLA 和 WAM 的學習邏輯根本不同。 VLA 是在背誦。WAM 是在學物理。DreamZero 證明了對於學習物理規律而言，看 1 次在火星上煎蛋，比看 1000 次在廚房裡煎蛋更有價值。因為前者提供了新的物理邊界條件，而後者只是在通過重複增加冗餘。世界模型需要的是覆蓋率，而不是重複率。04 下一步，是把世界模型訓練的更好DreamZero 的意義，是證明了WAM這條路完全能走通，還能非常好的泛化。但想要持續提升DreamZero這樣模型的能力，我們還需要對它加以訓練。儘可能強化它基於視訊生成的世界模型，最好還有個更嚴格的後驗裁判，能夠指導它在後訓練中持續提升精準性。這就是另一篇論文中 Dream Dojo 的作用。DreamZero 造出了引擎，DreamDojo 煉出了持續最佳化這個引擎的燃油。正如其名，它像是一座道場，要把世界模型訓練這件事，從DreamZero這種一次性的科研 demo，豐富成一套可重複的工業流程。這套流程涵蓋了從資料攝入、表徵對齊，到滾動預測、誤差診斷的全生命周期。在 DreamDojo 出現之前，VLA（視覺-語言-動作）模型在資料上總是碰壁，面臨三重死穴。1. 標籤稀缺：網際網路視訊浩如煙海，但只有畫面，沒有動作資料（Action Labels）。2. 工程地獄：機器人的身體千奇百怪。不同的自由度（DOF）、不同的控制頻率、不同的介面格式。試圖統一這些資料，是工程師的噩夢。3. 不可控：很多模型生成的視訊看著像，但在物理因果上是錯的。如果動作和後果不對齊，模型就無法進行反事實（Counterfactual）推演。無法推演，就無法規劃。但現在，因為有了視訊生成模型，這些就都不是問題了。DreamDojo 不是從零做 world model，它是站在「視訊基礎模型已經把世界的視覺與時空規律學到一定程度」的台階上，再強化對於具身智能來講，至關重要的互動因果和可控性。既然人類視訊裡沒有電機資料，那我們就不要電機資料了。DreamDojo 不再執著於感測器裡的讀數，而是去尋找動作的物理本質。動作，本質上就是一種讓世界狀態發生改變的力。DreamDojo 設計了一個自監督編碼器，專門盯著視訊的前後幀看。它在不斷地問自己一個問題，到底是什麼力量，讓上一幀變成了下一幀？機器自動提取出來的這個答案，就是連續潛在動作。DreamDojo 不再記錄絕對的關節姿態。因為絕對姿態在高維空間裡太稀疏、太難學。它記錄的是變化量。每一幀都以當前狀態為基準歸零。這讓動作的分佈變得更窄、更集中，模型更容易學會向左移一點這種通用的物理規律，而不是死記坐標。這就好比不需要知道一個人用了那塊肌肉（感測器資料），只要看他揮手砸杯子，杯子碎了，模型提取出揮手擊碎這個潛在動作的整個過程。同時，為了增強可控性。DreamDojo 不把整段動作軌跡當作全域條件灌進去，而是把連續 4 個動作拼成 chunk，只注入到對應的 latent frame。通過這樣的拆分，模型被強制要求理解是這一個微小的動作切片，導致了下一刻的畫面變化。讓世界模型不會造成因果混淆。視訊模型在這個過程中，把訓練目標從預測未來像不像，推向動作改變未來的方向與幅度是否一致。這徹底打通了不同具身體之間物種隔離。不同身體、不同場景做同一種動作，潛動作會趨於相近。模型不再需要知道手肘電機轉動 30 度，它只需要知道這個潛在動作會導致杯子被拿起。而因為這個潛空間的動作規律對誰都一樣，不存在空間異構，不存在資料格式不通。DreamDojo 在視訊生成這個世界模型的基礎上，用連續潛在動作這個數學上的通用語，把全人類的視訊資產轉換成了機器人可以理解的經驗。為了達成這個目標，輝達團隊建構了一個 DreamDojo-HV（加上 In-lab 與 EgoDex）的資料集，是一個約 44,711 小時的第一視角人類互動混合資料集，覆蓋極其廣的日常場景與技能分佈。包含上萬級場景、數千級任務、數萬級對象的長尾分佈。這個規模，比之前最大的機器人世界模型資料集大了 15 倍，場景豐富度高了 2000 倍。結果 DreamDojo 在沒見過任何真機器人的情況下，僅憑看人類視訊預訓練，就能在極少量的微調後，操控真機器人完成從未見過的任務。再通過蒸餾技術，他們把這個龐大的世界模型壓縮到了能跑 10 FPS 的即時速度。至此，結合Dream Dojo和DreamZero，這套建立在世界模型上的具身智能的閉環終於合上了。它的底座是視訊生成模型，因為它懂物理。構架是DreamZero 代表的世界動作模型（WAM），它能通過預測未來來決策，而且讓可執行與低延遲夠薄，能用。而其進步的燃料，是DreamDojo 把物理與可檢驗性做厚，讓全網的人類視訊，通過潛在動作轉化為機器人的經驗。我們不再需要讓幾萬個博士去遙操作機器人了。只要讓機器人坐在那裡，日夜不停地看人類幹活的視訊，它就能學會關於物理世界的一切。05 這，很可能是具身智能的範式轉變DreamZero的出現，敲響了具身智能純VLA時代的喪鐘。這場範式的轉變可能，將深刻地重塑整個行業的生態。首先是資料採集哲學的顛覆。在VLA範式下，從業者陷入了遙運算元據的囚徒困境，認為只有花重金採集幾萬小時的精準動作配對資料，機器人才能變聰明。但DreamZero展示了跨機體學習的恐怖潛力，僅僅通過觀看人類行為的純視訊，模型就能汲取物理策略。而Dream Dojo則意味著，YouTube、TikTok上那數以百億計的人類生活視訊，那座原本被認為缺乏動作標籤而對機器人無用的資料金礦，將被徹底解鎖。從高成本的實體遙操作，轉向低成本的網際網路視訊挖掘，這是獲取常識的降維打擊。最重要的是，我們對機器智能的認知正在發生根本性轉移。VLA時代，我們試圖通過教會機器認字來讓它幹活，結果得到了一個笨拙的翻譯官。現在，我們開始教會機器做夢，在腦海中生成、預測、模擬物理世界的演變。當一台機器不再是機械地復讀資料，而是能夠在內部建構一個符合物理定律的微縮宇宙，並在其中推演自己的行為後果時，我們就已經站在了通用具身智能的真正起點上。這是一條更陡峭的路徑，但也必定通往更廣闊的未來。 (騰訊科技)