OpenAI重金押注,機器人NEO世界模型登場!機器人迎來ChatGPT時刻?



【新智元導讀】剛剛,OpenAI重金押注的人形機器人初創1X終於揭秘了背後的「世界模型」——它能夠根據真實資料,生成針對不同場景的中的行為預測!機器人領域的ChatGPT時刻,或許真的要來了。

月初,OpenAI投下重注人形機器人初創1X,終於放出了NEO官宣視訊。

它的首次現身,就驚豔到所有人。

不僅外觀上,被戲稱為「穿著西裝的人」,而且在能力上,幫女主拎包、一起下廚,妥妥的一個通用家庭機器人。



它專為人類設計,去完成我們不願意做的各種家庭任務,比如清潔、整理等等。

時隔半個月,1X終於發佈了NEO背後的「世界模型」。



有了這個虛擬世界模擬器,NEO可以預測有用的物體互動。

簡言之,它們完全可以生成,各種環境中的視訊畫面。

比如,疊一件T恤、拉開窗簾這類可變性物體,家裡隨處可見,但卻很難將其放入虛擬世界模擬器中。



有趣的是,1X AI副總裁Eric Jang稱,他們在辦公室專門放了一個全身鏡,這樣「模型」可以在鏡子中,認出自己。

NEO現在有了自我反思的能力,不過,自我意識還沒覺醒。



通過理解世界,並與之互動,1X「世界模型」可以生成高保真視訊,並在神經網路中,重新規劃、模擬和評估。



這也是世界模型,之於機器人的重要性。

1X創始人兼CEO Bernt Bornich表示,首次證明了人形機器人資料,正顯著地推進Scaling Law。



GoogleDeepMind機器人高級研究員Ted Xiao表示,1X的「學習型」世界模型能夠隨著驚豔、物理互動資料不斷改進。

- 世界模型很可能是在多智能體環境中,實現可重複和可擴展評估的唯一前進的方向。(參加自動駕駛中世界模型評估成功案例)

- 基於2024年AI技術,比基於去年的技術更容易建構世界模型。

- 一旦世界模型足以用於評估,它們很可能已經至少完成了90%的訓練工作。



機器人「世界模型」來了!

直白講,世界模型就是一種電腦程序。

它能夠想像出,世界如何隨著智能體的行為而演變。

基於視訊生成和自動駕駛汽車世界模型研究,1X由此訓練出自家的世界模型,作為NEO的虛擬模擬器。

從相同的起始圖像序列出發,1X世界模型可以根據不同機器人的動作,預測多種可能的未來場景。


左:去左側的門;中:彈空氣吉他;右:去右側的門


那麼,具身機器人的存在,最重要的是能夠與物理世界互動。

而在萬千繁雜的世界中,如何有效互動就成為了難題。

世界模型,能夠幫助NEO完成精準地互動,比如剛體、物體掉落的效果、不完全可見物體(杯子)、可變形物體(窗簾、衣物)、鉸接物體(門、抽屜、椅子)。


它能夠將餐盤放入瀝水架子中。


它還可以拉開窗簾。


從抽屜拿出東西等等。


具身機器人難題——評估

另外,世界模型解決了建構通用機器人時,一個非常實際但常被忽視的挑戰:評估。

假設訓練機器人執行1000個獨特的任務,那麼很難判斷一個新模型是否真的在所有任務上,都比之前的模型有所改進。

更令人困擾的是,即便模型權重相同,但由於環境背景或環境光線的細微變化,性能可能在短短幾天內下降。

研究人員訓練了一個機器人疊T恤的模型,性能在50天內逐漸下降。



而且,如果環境不斷持續變化,實驗的可重複性便成為難題。

尤其是,在家庭、辦公室這樣的環境中,去評估多工系統,這一問題就會變得更加棘手。

基於這些因素,使得在真實世界中,開啟嚴謹的機器人研究變得異常困難。

當scaling資料、算力、模型規模時,AI系統能力將如何擴展的問題,可以通過精準測量進行預測。

Scaling Law已經成為ChatGPT這樣的通用AI系統,性能提升的有力支撐。

因此,如果機器人領域想要迎來屬於自己的「ChatGPT時刻」,必須首先建立起它的「Scaling Law」。


從原生資料中學習,預測未來場景

基於物理模擬的引擎,諸如Bullet、Mujoco、Isaac Sim、Drake,已成為快速測試機器人策略的合理方法。

而且,這些模擬器可以重設、重複使用,進而研究人員能夠仔細比較不同控制演算法。

然而,這些模擬器主要是為「剛體動力學」設計的,並且需要大量人工資料收集。

那麼,如何讓模擬機器人打開一盒咖啡濾紙、用刀切水果、擰開一罐果醬,或與人類、其他AI智能體互動呢?

家庭環境中,常見的日常物品、寵物很難模擬,訓練機器人極度缺少真實世界的用例。

因此,在有限數量任務中,對機器人進行小規模真實/模擬評估,並不能精準預測其在真實世界中的表現。

也就是說,這樣訓練出的機器人,很難具備真實世界「通用泛化」能力。

1X研究團隊採取了全新的方法,來評估通過機器人:

直接從原生感測器資料中學習模擬,並利用它在數百萬情境中,評估機器人策略。


這種「世界模型」方法的優勢在於,可以一鍵獲得真實世界所有複雜資料,而無需手動建立資產。

過去一年裡,1X團隊收集了超5000小時EVE人形機器人資料。

這些封包括,機器人在家庭和辦公室環境中,執行各種移動操作任務,以及與人互動的場景。

然後,他們將視訊和動作資料結合,訓出一個世界模型。

這個模型非常強大,不僅能夠根據所觀察到的情況,執行動作,還能生成視訊,預測未來的場景畫面。


動作可控,「腦補」彈空氣吉他

1X世界模型能夠根據不同的動作指令,生成多樣化的輸出。

如下圖所示,展示了基於四種不同動作序列,生成的各種結果。這些動作序列,都是從相同的初始畫面幀開始。

與之前一樣,這些所展示的示例,都不包含在訓練資料中。



世界模型的主要價值在於,能夠模擬物體之間的互動。

在接下來的模擬生成中,研究人員為模型提供相同的初始場景,並設定了三組不同的抓取盒子的動作。

在每個模擬場景中,被抓取的盒子,會隨機械手運動而被提起和移動,而其他未被抓取盒子紋絲不動,保持原位。



即便沒有給出具體的動作指令,世界模型也能生成看起來合情合理的視訊。

比如說,它能自己在前行時,避開行人和障礙物,這種行為是很符合常理的。


模擬疊T恤,長期任務也在行

此外,1X還可以生成長視訊。

正如開頭所展示的例子,NEO模擬了一個完整的T恤摺疊演示。

值得一提的是,T恤等可變形物體,往往在「剛體模擬器」中難以實現。



當前存在的問題

不過,1X的世界模型同樣存在一些問題。

物體一致性

比如,模型在與物體互動的過程中,可能無法保持物體的形狀的和顏色一致性。

尤其是當物體被遮擋,或者以不理想角度呈現時,世界模型在生成視訊過程中,物體外觀可能會出現變形。



有時,物體甚至完全消失不見。

比如,在執行拿起紅色小球並放置在盤子上這一動作時,球在過程中莫名其妙地就消失了。


物理學定律

而且,它也不懂物理世界中的基本定律。

有時候,NEO能夠對物理屬性有自然的理解,比如鬆開機械手之後,勺子會掉落到桌子上。



但在很多情況下,生成的結果並沒有遵循物理法則,比如下面這個,盤子就直接懸在了空中。

這說明,世界模型並不理解所有物體,都受到豎直向下的重力作用。


自我認知

另外,研究人員讓AI機器人EVE走到鏡子前,觀察其是否會生成與鏡子中的相對應的行為。

沒想到,它在抬起另一隻手臂時,鏡子中沒有同步。

可見,現在1X模型沒有自我意識的表現。 (新智元)