特斯拉「擎天柱」機器人影片爆了!端對端AI大腦加持,挑戰高難度瑜伽

【導讀】特斯拉人形機器人「擎天柱」最新影片公開,在端對端神經網路加持下,能夠精準分類物體、找準身體平​​衡感,讓眾多網友驚呼將改變人類。



週末,特斯拉人形機器人「擎天柱」一波更新,引眾多網友圍觀。

在官方發布的影片中,「擎天柱」現在可以自主對物件進行排序。

這全憑背後的神經網路完成了端到端的訓練,也就是「視訊輸入,控制輸出」。


它現在能夠自我精確操控手部,以及腿部的動作,更有效率地學習各種任務。


甚至,只利用視覺和關節位置編碼器,就能夠在空間中精確定位手的位置。


另外,它的神經網路完全在車載設備上運行,而且僅使用視覺能力。

在強大技術加持背後,使得「擎天柱」能夠自動分類不同顏色的積木塊。


就算有人幹擾,「擎天柱」也不畏懼,還在認真工作。它還有自主糾正的能力,積木倒了,拿起來再擺正。

不僅能分類積木,還能執行與之相反的動作,把積木再拿出來。


做了一天的活,再做個舒展運動。此時,「擎天柱」單腳直立,雙臂伸展,有模有樣。

最後雙手合十「Namaste」。


看過影片的網友驚嘆道,不到2年前,「擎天柱」還需要被推上舞台,但現在卻能如此快速地完成表演!而且,這不是事先編好的戲法!它使用的是AGI,太神奇了!


還有網友調侃道,看看「擎天柱」那平衡感......已經在瑜珈上打敗我了。


這是2022年10月,在AI DAY上,「擎天柱」原型被三個壯漢,抬上來和大家打招呼。


馬斯克曾介紹,「擎天柱」與特斯拉FSD(全自動駕駛)所建構的強大視覺系統能夠共通,兩者的底層模組已經打通。

在他看來,特斯拉一直以來都是AI公司,而不僅僅是汽車公司。


「很快,我們將會看到『擎天柱』的數量,將遠遠超過特斯拉汽車。」




如何實現?

在今年特斯拉的股東會上,放出了5個「擎天柱」同時前進的影片。


相較於與去年首次亮相的“擎天柱”,已經完成了非常大的迭代升級。

再到這次,透過視覺,精細控製手部動作,更是加滿了buff。

英偉達高級科學家Jim Fan對擎天柱進行了「逆向工程」,對其技術堆疊可能實現的方式進行了分析。


值得一提的是,Jim Fan的深度分析,甚至吸引了馬斯克的回關!


1. 模仿學習

幾乎可以肯定,Optimus流暢的手部動作,是基於對人類操作員的模仿學習(行為克隆)而訓練出來的。

相較之下,如果採用在模擬中進行強化學習的方法,則會造成抖動的動作和不自然的手部姿勢。

具體來說,有至少4種方法,可以用來收集人類的示範:

(1)客製化遠端作業系統:這是特斯拉團隊最有可能採用的手段。

開源實例:ALOHA是由史丹佛、UC伯克利和Meta開發的一種低成本的雙機械手臂和遠端作業系統。它能達到非常精確、靈巧的動作,例如將AAA電池裝入遙控器或操作隱形眼鏡。


ALOHA專案地址:https://tonyzhaozh.github.io/aloha/

(2)動作捕捉(MoCap)方法一:利用好萊塢電影中使用的MoCap系統來捕捉手部關節的細微動作。

Optimus具有五個指頭的雙手是一​​個很好的設計策,從而可以實現直接映射——與人類操作員沒有「具象化差距」。

例如,演示人員戴上Cyber​​Glove並抓住桌上的方塊。此時,Cyber​​Glove會即時捕捉運動訊號和觸覺回饋,並將其重新定向到Optimus。


(3)動作捕捉(MoCap)方法二:透過電腦視覺技術。

英偉達的DexPilot可以實現少標註、無手套的資料收集,人類操作員只用自己的雙手即可完成任務。

其中,4個英特爾RealSense深度相機和2個英偉達Titan XP GPU(是的,這是2019年的工作),可以將像素轉化為精確的運動訊號,供機器人學習。

在英偉達官方演示中,DexPilot系統加持下的機器手臂,能夠精準完成抓握、放置任務。


(4)VR頭顯:將訓練室變成VR遊戲,讓人類「扮演」Optimus。

使用原生VR控制器或Cyber​​Glove來控制虛擬Optimus的雙手,可以帶來遠端資料收集的優勢——來自世界各地的標註人員可以在不到現場的情況下做出貢獻。

例如,Jim Fan參與的iGibson家庭機器人模擬器等研究項目,就有類似的VR展示技術。


iGibson計畫地址:https://svl.stanford.edu/igibson/

以上4種並非互相排斥,Optimus可以依照不同的場景進行組合使用。

2. 神經架構

Optimus是端到端訓練的:輸入視頻,輸出動作。

可以肯定,這是一個多模態Transformer,其中包含以下元件:

(1)影像:高效率的ViT變體,或只是舊的ResNet/EfficientNet骨幹網路。塊的取放演示不需要複雜的視覺技術。影像骨幹的空間特徵圖可以很容易地進行分詞。


EfficientNet論文網址:https://arxiv.org/abs/1905.11946

(2)影片:兩種方法。要么將視頻壓縮成一系列圖像並獨立生成token,要么使用視頻級的分詞器。

高效處理視訊像素卷的方法有很多。你不一定需要Transformer骨幹網絡,例如SlowFast Network和RubiksNet。


SlowFast Network論文網址:https://arxiv.org/abs/1812.03982


RubiksNet計畫地址:https://stanfordvl.github.io/rubiksnet-site/

(3)語言:目前還不清楚Optimus是否支援語言提示。如果是的話,就需要一種將語言表徵與感知進行「融合」的方法。

例如,輕量級神經網路模組FiLM,就可以達成這個目的。你可以直觀地將其視為語言嵌入圖像處理神經通路中的「交叉注意力」。


FiLM論文地址:https://arxiv.org/abs/1709.07871

(4)動作分詞:Optimus需要將連續運動訊號轉換為離散的token,從而使自回歸Transformer能夠正常運作。

- 直接將每個手關節控制的連續值分配到不同的區間。[0,0.01)->token#0,[0.01,0.02)->token#1,等等。這種方法簡單明了,但由於序列長度較長,效率可能不高。

- 關節運動彼此高度依賴,這意味著它們佔據了一個低維的「狀態空間」。將VQVAE應用於運動數據,可獲得長度較短的壓縮token集合。

(5)將上述部分組合在一起,我們就有了一個Transformer控制器,它消耗視訊token(可選擇性地透過語言進行微調),並一步一步地輸出動作token。

表格中的下一幀畫面會回饋給Transformer控制器,這樣它就知道了自己動作的結果。這就是演示中所展現的自我修正能力。

其結構與Google的RT-1和英偉達的VIMA會比較相似:


Google RT-1:https://blog.research.google/2022/12/rt-1-robotics-transformer-for-real.html?m=1


NVIDIA VIMA:https://vimalabs.github.io

3. 硬體品質

如同前面所提到的,緊跟著人類形態是一個非常明智的決定,這樣在模仿人類時就沒有任何差距了。

從長遠來看,相較於波士頓動力簡陋的手部,Optimus擁有五根手指的的雙手,將會在日常工作中表現得更加出色。



FSD是前菜,擎天柱才是未來

還有一位網友對特斯拉人形機器人的升級,感慨地說「這將永遠改變世界」。

在接下來的長文中, 他分析了擎天柱的技術升級,還有未來憧憬。


2021年8月19日,特斯拉首次向世界,展示了將要推出的一款人形機器人「Optimus Bot」。

當場現身跳舞的只是穿著機器人表演套裝的人類。


然後,馬斯克進行了10分鐘的演示,概述了將產品陣容擴展到人形機器人的計畫。


時間快轉到現在,特斯拉已經創造出多個可用的機器人原型。

它們能夠自主行走、拾取、放置物體、周圍環境導航,以及執行排序等任務。


在最新影片中,擎天柱已經能夠完成積木分類。

乍一看,可能不會令人印象深刻,特別是當你將它與波士頓動力的機器人Artemis進行後空翻和跑酷相比時。


但它「如何學會排序」是我想要關注的突破,這不僅對特斯拉,而且對全球勞動市場都具有令人興奮的影響。

「視訊輸入,控制輸出。」

這是馬斯克已經談論了很長一段時間的主題。前提是建構一個神經網路系統,不需要人類寫告訴機器做什麼的程式碼。

而且,這套原理與特斯拉自動駕駛系統FSD相通。

前段時間,馬斯克直播試駕FSD v12時,自豪地介紹背後神經網路的訓練,全部使用的視訊數據,任務執行的能力,不需要手寫一行程式碼。


特斯拉總部有一個「AI大腦」,可以分析汽車收集的大量視訊數據,然後告訴汽車如何在道路上遇到的每個場景中行走。

特斯拉FSD沒有一行人類編寫程式碼來解釋停車標誌、交通號誌等,而是透過AI學會瞭如何透過觀察駕駛的情況來做到這一點。


這的確是一件大事。

這意味著,特斯拉現在受限於,可以從其電動車駕駛中收集多少視訊數據,以及有多少晶片(來自英偉達H100及和內部DOJO晶片)來處理這些數據。

還好,他們不再受到「代碼」突破的限制,所擁有的AI大腦,可以透過足夠的例子來解決這個問題。


更重要的是,這種解決現實世界駕駛問題的方法可以應用於任何物理任務。

只需要輸入視頻,AI就會發出控制信號。於是,「擎天柱」機器人才是真正的未來。

即使「擎天柱」和特斯拉汽車看起來像是兩個完全不同的物體,但它們的共同點比看起來要多得多。

它們都使用軟體來導航其環境的物理對象,使用相同的車載計算機來處理所述軟體,使用相同的電池為電機供電,使每個物體都能移動,使用人工智能大腦,通過分析無數視頻數據來自學如何執行任務。


根據特斯拉迄今為止公佈的信息,可以安全地假設機器人能夠做到這一點,不是因為人類編寫的程式碼「拿起藍色塊,放入藍色區域」...

但透過分析按適當顏色排序的區塊的影片片段,這與汽車學習自動駕駛的方式沒有什麼不同。

一個看似不起眼的動作凸顯了這一點,但卻證明了這種方法有多強大。

包括後面片段中,「擎天柱」擺正了側倒出的積木。這可能意味著AI大腦擁有的影片片段顯示,物體被正面朝上分類,而不是側面朝上。

機器人無需人類代碼即可自動理解它所排序的塊落在其一側,將其拾起,調整方向,然後將其放回正確的一側。

這意味著機器人能夠動態調整,無需任何關於如何處理現實世界的複雜性的明確指示。

只要特斯拉能夠製造出一種能夠從物理角度可靠地執行命令的機器人。這意味著執行器、電池、手、關節等都被製造得極其耐用並且能夠重複處理任務。

世界將永遠被改變。

憑藉足夠的力量和靈活性,特斯拉的機器人只需觀看人們執行上述任務的影片片段,就可以處理幾乎所有的體力任務。


拿起吸塵器並在房子裡運行、分類折疊衣物、收拾屋子、將物料從A點移動到B點、撿起垃圾並將其放入垃圾箱、推著割草機、監控某個區域是否存在安全相關問題、砌磚、錘擊釘子、使用電動工具、清洗盤子…

與汽車一樣,機器人在處理上述任務時不受程式碼突破的限制。

它受限於特斯拉AI大腦可以處理的視訊資料和晶片數量的限制,來告訴機器人該做什麼。

現在,憑藉著「擎天柱」,特斯拉開始轉型為世界上絕大多數人認為,需要數十年甚至數千年才能實現的產品類別。但事實上,該公司正在敲響範式轉移的大門,這可能會顛覆工作的意義。

在最新的「馬斯克傳」中,摘錄了馬斯克和他的工程師之間的討論。

「機器人的目標應該是在不充電的情況下運行16小時。」這相當於2個8小時輪班的人力勞動,而且完全不間斷。

它大大降低了勞動力成本,使產品和服務的預算可能只是現在的一小部分。而且它讓企業沒有理由在5年內以7倍的成本來僱用一個人來生產產品和服務,做同樣的工作。


現實是,這個未來比許多人想像的還要近得多。

特斯拉似乎已經解決了人類勞動中最困難的問題——AI大腦將根據在現實世界中分析的影片自動產生動作。

憑藉其製造專業知識,他們應該能夠在未來幾十年內,每年生產數百萬個這樣的產品,這應該會帶來巨大的豐富。(新智元)


參考資料:

https://twitter.com/Tesla_Optimus/status/1705728820693668189

https://twitter.com/DrJimFan/status/1705982525825503282

https://twitter.com/farzyness/status/1706006003135779299