谷歌家事機器人單挑史丹佛炒蝦機器人！端茶倒水逗貓，連甩三連彈開打

2024/01/06

•

【導讀】昨天的史丹佛炒蝦機器人，一日爆紅中文網路。谷歌DeepMind今天也毫不示弱地放出了自家的家務機器人，端茶倒水擦桌子，也是樣樣拿手。網友稱，2024年是妥妥的機器人年了。

火熱全網的史丹佛炒蝦機器人，一天之內人氣暴漲。

畢竟這樣能炒菜能洗碗的全能機器人，誰不想帶一個回家，把自己從家務事中解放出來呢！

據說，這個計畫是史丹佛華人團隊花了三個月的時間做出來的。

今天，團隊直接放出了更多細節。

這個機器人的技能多種多樣，令人眼花撩亂。

以前，聊天機器人愜意地吟詩作畫，人類苦逼地收拾打掃，這畫風怎麼看怎麼不對。

如今終於有人想起來了：機器人的一大任務，就該是幫人類做家事啊！

你還有什麼驚喜是我們不知道的？

史丹佛的這個炒菜機器人，它還能——

澆花。

掃地。

煮咖啡。

幫主人刮鬍子。

揪一片衛生紙，擦乾淨桌上的牛奶。

把洗碗機裡的碗拿出來。

陪貓玩。

洗衣服（包括把一袋髒衣服倒進洗衣機、從袋子中拿出洗衣凝珠、擰開洗衣液倒進去、按下洗衣機按鈕等過程）。

推著小籃子收衣服。

整理床單、換枕頭套。

疊衣服（注意，它甚至還能完成拉拉鍊這種程度的精細操作）。

旋開瓶蓋，給工作中的主人送去一瓶啤酒。

跟主人道晚安，幫躺在床上的主人蓋好杯子。

最後，還有一個彩蛋：忙碌的一天結束後，機器人還會自己為自己充電，迎接元氣滿滿的一天，繼續為主人服務了！

擂台對打，GoogleDeepMind機器人研究三連彈

谷歌DeepMind這邊，當然也不甘落後。

今天，GoogleDeepMind也官宣了一系列進展，就是為了能讓機器人技術在日常生活中幫助我們。

谷歌DeepMind的這個機器人，可以幫我們撿水果。

從抽屜裡拿出一罐可樂。

幫我們擺好牙刷。

總之，史丹佛炒蝦機器人能做的，它也不差。

解決兩大關鍵挑戰

谷歌採用了AutoRT、SARA-RT和RT-Trajectory等技術，讓機器人能夠更快地做出決策，並更好地理解環境，在環境中導航。

為了生產真正有能力的機器人，就必須解決兩個基本挑戰：

一個是提高它們將行為泛化到新情況的能力；第二個，就是提高它們的決策速度。

谷歌DeepMind團隊，在這兩個領域都進行了重大改進。

SARA-RT：讓機器人Transformer更有效率

首先，系統SARA-RT使用一種新穎的「向上訓練」方法，將機器人Transformer模型轉換為更有效率的版本。

這樣，就降低了機器人部署所需的運算要求，在維持品質的同時，提高了速度。

當研究者將SARA-RT應用於Google最先進的RT-2模型時，在獲得簡短的影像歷史後，最佳版本的準確率提高了10.6%，速度提高了14%。

雖然Transformer很強大，但它們可能會受到運算需求的限制，這會減緩它們的決策速度。

Transformer嚴重依賴二次複雜度的注意力模組。

這意味著，如果RT模型的輸入增加1倍，處理該輸入所需的運算資源就會增加4倍，導致決策速度減慢。

如上所述，SARA-RT「向上訓練」的方法來提高效率。「向上訓練」是將二次複雜度轉換為單純的線性複雜度，大大降低了計算要求。這種轉換不僅提高了原始模型的速度，還能保持其效能。

研究者表示，可以相信這是第一個可擴展的注意力機制，可以在不損失品質的情況下提供計算改進。

谷歌這個系統的設計是為了可用性，同時也希望更多的研究人員和從業者將其應用於機器人和其他領域。

因為SARA提供了加速Transformer的通用方法，而且不需要算力昂貴的預訓練，這種方法有助於擴大Transformer技術的使用。

同時，SARA-RT不需要任何額外的程式碼，因其可以使用各種開源的線性變數。

SARA-RT-2模型用於操作任務，機器人的行動以影像和文字命令為條件

SARA-RT可以應用於各種Transformer模型。例如，將SARA-RT應用於點雲Transformer，用於處理機器人深度攝影機的空間數據，速度提高了一倍以上。

RT-Trajectory：讓機器人學會泛化

第二，RT-Trajectory模型透過自動將描述機器人運動的視覺輪廓添加到其訓練中，來學習如何遵循指示。

要知道，人類可以直觀地理解該如何擦桌子，但機器人，則需要透過多種方式，將指令轉化為實際的身體動作。

這個RT-Trajectory模型，可以在訓練資料集中獲取每個視頻，並在執行任務時將其與機械臂抓手的2D軌跡草圖疊加在一起。

這樣，這些軌跡就以RGB影像的形式，在模型學習其機器人控制策略時，為它提供了低階的、實用的視覺提示。

它還可以透過觀看人工演示、理解草圖甚至VLM生成的圖紙來創建軌跡。

當對訓練資料中看不見的41項任務進行測試時，由RT-Trajectory控制的手臂取得了63%的成功率。

‍

傳統上，訓練機械手臂依賴將抽象的自然語言（「擦桌子」）映射到特定的動作（關閉抓手、向左移動、向右移動），這使得模型很難推廣到新的任務。

相較之下，RT-Trajectory模型使RT模型能夠透過解釋特定的機器人運動（如影片或草圖中包含的運動），來理解完成任務時應該「如何做」。

這個系統的用途很廣泛，它還可以透過觀看所需任務的人類演示來創建軌跡，甚至可以接受手繪草圖。

它可以很容易地適應不同的機器人平台。

AutoRT：大模型訓練機器人

第三，AutoRT利用基礎模型的強大功能來創建一個系統，該系統可以理解人類的實際目標，並使機器人能夠在新環境中收集訓練資料。

這可以幫助擴展機器人的學習範圍。

AutoRT將基礎模型（如LLM、VLM）與機器人控制模型（RT-1、RT-2）結合，以建立一個可以部署機器人在新環境中收集訓練資料的系統。

AutoRT可以同時指揮多個機器人，每個機器人都配備了一個攝影機，以及一個末端執行器，在一系列設定中執行不同的任務。

在這個過程中，系統首先使用的是VLM，來了解周圍環境。

(1)自主輪式機器人發現有多個物件的位置。(2)VLM向LLM描述場景和物件。(3)LLM建議機器人執行不同的操作任務，並在做出選擇之前決定機器人可以在沒有輔助的情況下完成哪些任務，哪些任務需要人類遠端控制，哪些任務不可能完成。(4)嘗試所選任務，收集經驗數據，並對數據的多樣性/新穎性進行評分。以此往復。

接下來，LLM為每個機器人提出創造性的任務，並選擇他們應該執行的任務。

在7個月的評估中，AutoRT安全地同時協調了多達20個機器人，讓它們有條不紊地穿梭在各個辦公室。

不過，有一個關鍵問題：要怎麼確保機器人一定會保護人類的安全呢？

首先，AutoRT就具有安全護欄，能夠為基於LLM的決策者提供「機器人憲法」。在為機器人選擇任務時，必須遵守這些安全提示。

這個「機器人憲法「，某種程度上受到了阿西莫夫機器人三定律的啟發。首先，機器人不得傷害人類。另外，機器人也不得嘗試涉及人類、動物、尖銳物體或電器的任務。

不過，這也不能保證安全性，因此，AutoRT系統是由經典機器人技術的使用安全措施所組成。

例如，透過程式設計可以設定，如果機器人關節上的力超過給定閾值，就會自動自動停止。

並且，所有活動機器人都必須經過物理停用機關，保持在人類主管的視線範圍內。

網友：今年是機器人的爆發年

2024年開局第一周，各種機器人研究就開始大爆發，讓每個人為之興奮。

一邊是史丹佛代表學術界的機器人成果，另一邊是Google帶著工業界的成果，雙雙亮相。

網友稱，機器人和人工智慧智能體今年開局強勁。為接下來的幾個月做好準備。

還有人將這週，稱為「機器人週」。

我認為，在未來2年的某個時候，人工智慧和機器人技術的交叉，將同生成式AI一樣爆炸。

「ChatGPT」時刻即將來臨。

英偉達高級科學家Jim Fan表示——

2024年是機器人年。

Mobile-Aloha是一個開源的機器人硬件，它可以靈活地完成雙手任務，例如做飯（人類遠端操控）。很快，硬體將不再是我們實現人類等級的機器人的瓶頸，而是「大腦」。

這項工作是由3名研究人員用學術預算完成的。多麼令人難以置信的工作！史丹佛大學太棒了！

由於資源限制，學術界不再是最前線的LLM的發源地。但至少在短期內，機器人技術讓學術界和產業界的競爭環境更公平。

硬體價格更實惠是必然趨勢。給有抱負的博士生的建議：擁抱機器人，至少人沒有那麼多，更有空間發揮實力。

不知道，接下來幾個月裡，機器人領域還會有什麼樣的驚喜等著我們。（新智元）

參考資料：

https://twitter.com/GoogleDeepMind/status/1742932234892644674 https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/?utm_source=twitter&utm_medium=social

https://twitter.com/zipengfu/status/1742973258528612724

從這裡可透過《Google 新聞》追蹤鉅亨號創作者