不得了,機器人現在開始學會腦補未來了。
這就是螞蟻靈波又又又又(連續第4天)開放原始碼的狠活兒——
全球首個用於通用機器人控制的因果視訊-動作世界模型,LingBot-VA。
怎麼個腦補法?
簡單來說啊,以前的機器人(尤其是基於VLA的)幹活兒,主打一個條件反射:眼睛看到什麼,手立刻就動一下。
這叫“觀察-反應”模式。
但LingBot-VA就不一樣了,它通過自回歸視訊預測打破了這種思考方式,在動手之前,腦子裡先把未來幾秒的畫面推演出來。
說實話,用想像力做決策,在機器人控制這塊還是相當新鮮的。
但這不是LingBot-VA唯一的亮點,還包括:
因此在LingBot-VA的加持下,像清洗細小的透明試管這種高精度任務,機器人已經是可以輕鬆拿捏:
正如我們剛才提到的,今天是螞蟻靈波連續第四天開源。
如果說前幾天的開源是給機器人加強了眼睛(LingBot-Depth)、大腦(LingBot-VLA)和世界模擬器(LingBot-World),那麼今天的LingBot-VA,就是讓這具軀殼真正擁有了靈魂——
一個行動中的世界模型,讓想像真正落到執行層面。
如此一來,通用機器人的天花板,算是被螞蟻靈波往上頂了一截。
正如網友所述:
從預測到執行;說實話這是巨大的飛躍。
LingBot-VA在架構設計上選擇了一條更進一步的路徑。
在傳統的VLA(視覺-語言-動作)範式中,模型通常會將視覺理解、物理變化推理、低層動作控制這三項複雜任務放在同一個神經網路中處理,這在學術界被稱為表徵纏繞(Representation Entanglement)。
為了追求更高的樣本效率和更強的泛化能力,LingBot-VA選擇把這團亂麻解開,提出了一套全新的解題思路:先想像世界,再反推動作。
為了實現這個想法,螞蟻靈波團隊採用了一個兩步走的策略:
這與傳統VLA有著本質區別:它不直接從“現在”跳到“動作”,而是要經過一下“未來”這個步驟。
如何實現?螞蟻靈波團隊主要將三個架構層面作為突破口。
首先就是視訊與動作的自回歸交錯序列。
在LingBot-VA的模型裡,視訊Token和動作Token被放進了同一條時間序列裡。
為了保證邏輯嚴密,團隊引入了因果注意力(Causal Attention)。這就像給模型定了一條死規矩:只能用過去的資訊,絕對不能偷看未來。
同時,借助KV-cache技術,模型擁有了超強的長期記憶。它清楚地知道自己三步之前做了什麼,任務絕對不會失憶。
其次是Mixture-of-Transformers (MoT) 的分工協作。
這一步主要是為瞭解決我們前面提到的表徵纏繞的問題。
我們可以把過程理解為“左右互搏”,但又很默契的一種配合:
這兩個流共享注意力機制,資訊互通,但在各自的表徵空間裡保持獨立。
這樣一來,視覺的複雜性不會干擾動作的精準度,動作的簡單性也不會拉低視覺的豐富度。
最後就是工程設計相關的工作。
畢竟光有理論是不好使的,“實踐才是檢驗真理的唯一標準”:
在瞭解完理論之後,我們再來看實驗效果。
螞蟻靈波團隊在真機實驗和模擬基準上,對LingBot-VA進行了全方位的實測。
在真機測試中,LingBot-VA覆蓋了三類最具挑戰性的任務。
首先是長時序任務,比如準備早餐(烤面包、倒水、擺盤)、拆快遞(拿刀、劃箱、開蓋)。
這些任務步驟繁多,但凡中間有一步有誤,那可以說是滿盤皆輸。從LingBot-VA的表現來看,一個字,穩。
即便是不小心失敗了,機器人也會記得進度,嘗試重來。
第二類是高精度任務,比如擦試管、擰螺絲。
這要求動作精度達到毫米級,得益於MoT架構,動作流不再受視覺噪聲的干擾,手極穩。
剛才我們已經看了擦拭管的案例,再來看個擰螺絲的:
第三類任務是針對可變形物體,例如折衣服、折褲子。
這些任務的難點在於物體處於一個隨時變化的狀態,但LingBot-VA通過視訊推演,預判了布料的形變,操作行雲流水。
除此之外,LingBot-VA在RoboTwin 2.0和LIBERO這兩個硬核模擬基準上,也是很能打的。
尤其是在RoboTwin 2.0的雙臂協作任務中,無論是簡單的固定場景(Easy),還是複雜的隨機場景(Hard),LingBot-VA都展現出了不錯的實力:
而且有一個趨勢非常明顯:
任務越難、序列越長(Horizon變大),LingBot-VA的領先優勢就越大。
在 Horizon=3 的長任務中,它的優勢甚至擴大到了9%以上。
而在LIBERO基準測試中,LingBot-VA更是拿下了98.5%的平均成功率,刷新了SOTA記錄。
總結一下,通過這些實驗,我們可以清晰地看到LingBot-VA的三個核心特質:
把時間軸拉長,回看這四天的連續開源,我們會發現螞蟻靈波下了一盤大棋。
因為這四個開放原始碼專案拼湊在一起,就會形成一條非常清晰的技術主線:
這四塊拼圖湊在一起,釋放了一個強烈的訊號:
通用機器人正在全面走向視訊時代。
視訊,不再僅僅是訓練用的資料素材,它正在成為推理的媒介,成為連接感知、記憶、物理和行動的統一表徵。
這對於整個行業來說,價值是巨大的。
對通用機器人來說,長任務、複雜場景、非結構化環境,這些曾經的硬傷,現在有了系統性的解法。
從具身智能路線來看,世界模型不再是一個可選項,它正式成為了機器人的中樞能力,從“能動”進化到“會想再動”。
並且螞蟻靈波的持續不斷地開源動作,不僅僅是提供了程式碼、模型這麼簡單,更是一條可復現、可擴展的技術範式。
而蝴蝶效應也在行業中開始顯現。
就在這兩天,Google宣佈通過Project Genie項目讓更多人體驗Genie 3;宇樹科技宣佈開源UnifoLM-VLA-0……
海外媒體也對螞蟻靈波的開源動作有了不小關注,點評道:
螞蟻集團發佈了名為LingBot-World的高品質機器人AI模擬環境。這家中國金融科技公司完善了一套完整的開源工具包,用於物理AI系統的開發。這也是在全球機器人領域主導權爭奪戰中的一項戰略性舉措。
嗯,螞蟻靈波的壓力是給到位了。
總而言之,LingBot-VA的出現,標誌著世界模型第一次真正站上了機器人控制的主舞台。
項目地址:
https://technology.robbyant.com/lingbot-va
GitHub地址:
https://github.com/robbyant/lingbot-va
項目權重:
https://huggingface.co/robbyant/lingbot-va
https://www.modelscope.cn/collections/Robbyant/LingBot-va (量子位)