大事不好！機器人學會預測未來了

2026/01/31

•

不得了，機器人現在開始學會腦補未來了。

這就是螞蟻靈波又又又又（連續第4天）開放原始碼的狠活兒——

全球首個用於通用機器人控制的因果視訊-動作世界模型，LingBot-VA。

怎麼個腦補法？

簡單來說啊，以前的機器人（尤其是基於VLA的）幹活兒，主打一個條件反射：眼睛看到什麼，手立刻就動一下。

這叫“觀察-反應”模式。

但LingBot-VA就不一樣了，它通過自回歸視訊預測打破了這種思考方式，在動手之前，腦子裡先把未來幾秒的畫面推演出來。

說實話，用想像力做決策，在機器人控制這塊還是相當新鮮的。

但這不是LingBot-VA唯一的亮點，還包括：

記憶不丟失：做長序列任務（比如做早餐）時，它會記得自己剛才幹了什麼，狀態感知極強。
高效泛化：只要給幾十個演示樣本，它就能適應新任務；換個機器人本體，也能hold住。

因此在LingBot-VA的加持下，像清洗細小的透明試管這種高精度任務，機器人已經是可以輕鬆拿捏：

正如我們剛才提到的，今天是螞蟻靈波連續第四天開源。

如果說前幾天的開源是給機器人加強了眼睛（LingBot-Depth）、大腦（LingBot-VLA）和世界模擬器（LingBot-World），那麼今天的LingBot-VA，就是讓這具軀殼真正擁有了靈魂——

一個行動中的世界模型，讓想像真正落到執行層面。

如此一來，通用機器人的天花板，算是被螞蟻靈波往上頂了一截。

正如網友所述：

從預測到執行；說實話這是巨大的飛躍。

讓想像力先行一步

LingBot-VA在架構設計上選擇了一條更進一步的路徑。

在傳統的VLA（視覺-語言-動作）範式中，模型通常會將視覺理解、物理變化推理、低層動作控制這三項複雜任務放在同一個神經網路中處理，這在學術界被稱為表徵纏繞（Representation Entanglement）。

為了追求更高的樣本效率和更強的泛化能力，LingBot-VA選擇把這團亂麻解開，提出了一套全新的解題思路：先想像世界，再反推動作。

為了實現這個想法，螞蟻靈波團隊採用了一個兩步走的策略：

視訊世界模型：先預測未來的視覺狀態（接下來會發生什麼）。
逆向動力學（Inverse Dynamics）：基於視覺的變化，反推出應該執行什麼動作（為了達到這個畫面，手該怎麼動）。

這與傳統VLA有著本質區別：它不直接從“現在”跳到“動作”，而是要經過一下“未來”這個步驟。

如何實現？螞蟻靈波團隊主要將三個架構層面作為突破口。

首先就是視訊與動作的自回歸交錯序列。

在LingBot-VA的模型裡，視訊Token和動作Token被放進了同一條時間序列裡。

為了保證邏輯嚴密，團隊引入了因果注意力（Causal Attention）。這就像給模型定了一條死規矩：只能用過去的資訊，絕對不能偷看未來。

同時，借助KV-cache技術，模型擁有了超強的長期記憶。它清楚地知道自己三步之前做了什麼，任務絕對不會失憶。

其次是Mixture-of-Transformers (MoT) 的分工協作。

這一步主要是為瞭解決我們前面提到的表徵纏繞的問題。

我們可以把過程理解為“左右互搏”，但又很默契的一種配合：

視訊流：寬而深，負責繁重的視覺推演。
動作流：輕而快，負責精準的運動控制。

這兩個流共享注意力機制，資訊互通，但在各自的表徵空間裡保持獨立。

這樣一來，視覺的複雜性不會干擾動作的精準度，動作的簡單性也不會拉低視覺的豐富度。

最後就是工程設計相關的工作。

畢竟光有理論是不好使的，“實踐才是檢驗真理的唯一標準”：

部分去噪（Partial Denoising）：做動作預測時，其實不需要每一次都把未來畫面渲染得高畫質無碼。模型學會了從帶有噪點的中間狀態裡提取關鍵資訊，計算效率大大提升。
非同步推理（Asynchronous Inference）：機器人在執行當前動作的時候，模型已經在後台瘋狂計算下一步了。推理和執行平行，延遲感幾乎消失。
FDM 接地（Grounding）：為了防止模型想像力脫離現實，系統會用真實的觀測資料不斷校正想像，避免出現開放式的幻覺漂移。

實驗結果與能力驗證

在瞭解完理論之後，我們再來看實驗效果。

螞蟻靈波團隊在真機實驗和模擬基準上，對LingBot-VA進行了全方位的實測。

在真機測試中，LingBot-VA覆蓋了三類最具挑戰性的任務。

首先是長時序任務，比如準備早餐（烤面包、倒水、擺盤）、拆快遞（拿刀、劃箱、開蓋）。

這些任務步驟繁多，但凡中間有一步有誤，那可以說是滿盤皆輸。從LingBot-VA的表現來看，一個字，穩。

即便是不小心失敗了，機器人也會記得進度，嘗試重來。

第二類是高精度任務，比如擦試管、擰螺絲。

這要求動作精度達到毫米級，得益於MoT架構，動作流不再受視覺噪聲的干擾，手極穩。

剛才我們已經看了擦拭管的案例，再來看個擰螺絲的：

第三類任務是針對可變形物體，例如折衣服、折褲子。

這些任務的難點在於物體處於一個隨時變化的狀態，但LingBot-VA通過視訊推演，預判了布料的形變，操作行雲流水。

除此之外，LingBot-VA在RoboTwin 2.0和LIBERO這兩個硬核模擬基準上，也是很能打的。

尤其是在RoboTwin 2.0的雙臂協作任務中，無論是簡單的固定場景（Easy），還是複雜的隨機場景（Hard），LingBot-VA都展現出了不錯的實力：

RoboTwin 2.0 (Easy)：成功率92.93%，比第二名高出4.2%。
RoboTwin 2.0 (Hard)：成功率91.55%，比第二名高出4.6%。

而且有一個趨勢非常明顯：

任務越難、序列越長（Horizon變大），LingBot-VA的領先優勢就越大。

在 Horizon=3 的長任務中，它的優勢甚至擴大到了9%以上。

而在LIBERO基準測試中，LingBot-VA更是拿下了98.5%的平均成功率，刷新了SOTA記錄。

總結一下，通過這些實驗，我們可以清晰地看到LingBot-VA的三個核心特質：

長期記憶：在一個來回擦盤子的計數任務中，普通VLA模型擦著擦著就忘了擦了幾下，開始亂擦；LingBot-VA 則精準計數，擦完即停。這就是KV-cache的起到的作用。
少樣本適應：面對全新的任務，只需提供50條左右的演示資料，稍微微調一下，它就能學會。這比那些動輒需要成千上萬條資料的模型，效率高了幾個數量級。
泛化能力：訓練時用的是某種杯子，測試時換個形狀、換個顏色，或者把杯子隨便擺個位置，它依然能精準識別並操作。

連續四天開源，已經產生影響

把時間軸拉長，回看這四天的連續開源，我們會發現螞蟻靈波下了一盤大棋。

因為這四個開放原始碼專案拼湊在一起，就會形成一條非常清晰的技術主線：

Day 1: LingBot-Depth——解決“看清”的問題。讓感知能夠更加清晰。
Day 2: LingBot-VLA——解決“連接”的問題。打通語言、視覺到動作的通用介面。
Day 3: LingBot-World——解決“理解”的問題。建構可預測、可想像的世界模型。
Day 4: LingBot-VA——解決“行動”的問題。把世界模型真正嵌入控制閉環，讓想像指導行動。

這四塊拼圖湊在一起，釋放了一個強烈的訊號：

通用機器人正在全面走向視訊時代。

視訊，不再僅僅是訓練用的資料素材，它正在成為推理的媒介，成為連接感知、記憶、物理和行動的統一表徵。

這對於整個行業來說，價值是巨大的。

對通用機器人來說，長任務、複雜場景、非結構化環境，這些曾經的硬傷，現在有了系統性的解法。

從具身智能路線來看，世界模型不再是一個可選項，它正式成為了機器人的中樞能力，從“能動”進化到“會想再動”。

並且螞蟻靈波的持續不斷地開源動作，不僅僅是提供了程式碼、模型這麼簡單，更是一條可復現、可擴展的技術範式。

而蝴蝶效應也在行業中開始顯現。

就在這兩天，Google宣佈通過Project Genie項目讓更多人體驗Genie 3；宇樹科技宣佈開源UnifoLM-VLA-0……

海外媒體也對螞蟻靈波的開源動作有了不小關注，點評道：

螞蟻集團發佈了名為LingBot-World的高品質機器人AI模擬環境。這家中國金融科技公司完善了一套完整的開源工具包，用於物理AI系統的開發。這也是在全球機器人領域主導權爭奪戰中的一項戰略性舉措。

嗯，螞蟻靈波的壓力是給到位了。

總而言之，LingBot-VA的出現，標誌著世界模型第一次真正站上了機器人控制的主舞台。

項目地址：
https://technology.robbyant.com/lingbot-va

GitHub地址：
https://github.com/robbyant/lingbot-va

項目權重：
https://huggingface.co/robbyant/lingbot-va
https://www.modelscope.cn/collections/Robbyant/LingBot-va (量子位)