重磅進展!輝達推出sim2real前沿技術“DoorMan”,全模擬資料零樣本遷移,機器人快速掌握開門技巧

人形機器人攻克了武術動作與後空翻等技能,卻難以很好實現僅依賴RGB視覺的開門任務,日常移動操作仍是人形機器人自主化處理程序中最具挑戰的前沿方向之一。

那些看似簡單的家居場景互動——如拉開抽屜、旋轉旋鈕或打開門鎖——均需機器人在不確定性環境下實現精準的感知-動作耦合、富含接觸的控制以及全身協調

近年來,基於GPU的照片級真實感模擬技術取得顯著進展,為機器人學習開闢了一條可擴展的資料生成路徑,那僅靠模擬模擬資料能不能教會機器人學本事呢?

日前,NVIDIA GEAR團隊與加州大學伯克利分校、卡內基梅隆大學、香港中文大學合作發佈了一項新技術“DoorMan”,打開了人形機器人虛實遷移之門,這是一種經模擬訓練、僅依賴RGB圖像的人形機器人移動操作策略,基於100%模擬資料訓練,具備零樣本遷移性能,使得機器人能夠開啟多種真實場景下的門體。

此外,在相同的全身控制棧下,開門任務完成時間較人類遙操作操作員提升高達31.7%

解決兩大核心問題

對於機器人而言,開門任務的難度非常突出。

機器人需通過移動的第一視角攝影機識別抓取位置、旋轉帶彈簧的門把手、追蹤門板的柔性圓周運動,並在門軸作用力下維持平衡,這些高度耦合的需求,使得開門任務成為檢驗各類通用移動作業系統性能的嚴苛測試基準。

現有專門針對開門場景的系統通常難以實現這一更廣泛的目標:多數方案依賴深度感知、物體中心特徵或輪式平台上的硬編碼運動基元;而近年以遙操作為核心的框架仍存在魯棒性不足的問題。

隨著模擬、硬體及強化學習(RL)領域的技術進展,已在機器人移動、動作模仿和靈巧操作等任務中實現了優異的虛實遷移效果,然而,將這些技術應用於移動操作任務(感知、平衡、接觸與導航需動態互動的場景)仍處於研究不足的狀態。

NVIDIA GEAR團隊認為,機器人通用學習仍面臨的兩大核心挑戰:

1、演算法本身需具備簡潔性、可擴展性及對部分可觀測性的魯棒性,能夠生成在多樣化任務中協調視覺與全身控制(WBC)的自主策略——這些要求在現有研究中尚未得到滿足;

2、視覺虛實域差涵蓋了廣闊的外觀與物理特性變化空間,需依賴大規模異質資料,而非少量精心設計的場景。


為應對上述挑戰,研究人員提出一種新型可擴展的師生自舉(teacher-student-bootstrap)學習框架;此外,在IsaacLab模擬平台中建構了大規模域隨機化框架,可同時實現物理與外觀維度的規模化變異。


在真實場景評估中,DoorMan策略不僅能泛化至多種關節運動機制、外觀樣式及空間佈局,還在成功率與效率上超越了人類遙操作:策略成功率達到83%,而人類專家為80%、非專家為60%;在採用相同全身控製器的情況下,任務互動完成速度提升23.1%–31.7%,表明該框架能夠生成穩健、高效的自主移動操作行為。

截至目前,這是首個僅基於純RGB感知,即可實現多樣化鉸接式移動操作的人形機器人虛實遷移策略。

突破純行為克隆方法

DoorMan採用三階段訓練流程,其核心建構於經典“師生蒸餾”技術之上。

所有階段均在IsaacLab模擬平台中通過互動式方式完成。階段 1:利用特權觀測資訊訓練教師策略;階段2:採用DAgger演算法將教師策略蒸餾為基於RGB圖像的學生策略;階段3:基於二值化成功訊號,通過GRPO演算法對學生策略進行進一步訓練。

其次,在IsaacLab模擬平台中建構的大規模合成資料生成框架可生成物理真實且視覺多樣化的門體環境,用於模型訓練與評估,並將開門任務作為移動操作的代表性基準任務。

在物理模擬層面,該框架可對門體類型、尺寸、門軸阻尼、門鎖動力學特性、把手位置、把手樣式及阻力扭矩進行隨機化處理;視覺層面,隨機化材質、光照及相機內參/外參,這項研究並未復刻特定場景,而是刻意讓策略暴露於廣泛的變異空間中。

這項研究的核心課題是:基於RGB視覺的虛實遷移強化學習,能否突破純行為克隆方法的侷限,解決人形機器人在真實複雜環境中的開門難題。

研究人員推測,行為克隆的性能上限往往由人類遙運算元據質量決定,當前的全身遙操作技術由於操作邏輯不夠直觀,與人類直接操作相比,在效率和成功率上存在差距,而基於RGB視覺的虛實遷移強化學習有望實現更優性能。

測試表明,訓練過程中啟用全部可用紋理與穹頂光照隨機化時,模型在未見過場景中的泛化性能最優,各子任務成功率可達到81%-86%,這凸顯了大規模合成資料與可擴展強化學習框架在通用人形機器人移動操作領域的應用潛力。

不過也觀察到一些失效模式,常見的失效模式包括未觀測到的干擾、距離估計誤差以及未建模的環境狀態帶來的挑戰。

幕後的華人研究員

這項研究的主要作者和領導者均為華人研究員。

一作薛浩儒目前是加州大學伯克利分校-伯克利人工智慧研究院(BAIR)的博士生,現在在NVIDIA GEAR實驗室實習,研究方向是是利用可擴展的先驗知識進行機器人學習:從視訊、演示、強化學習後訓練等中學習。

項目領導者之一Jim Fan是輝達高級研究科學家,也是人工智慧代理計畫的負責人,使命是建構能夠在物理世界(機器人)和虛擬世界(遊戲、模擬)中通用的智能體。他曾在史丹佛大學視覺實驗室獲得博士學位,導師是“AI教母”李飛飛。

另一位項目領導者Yuke Zhu是德克薩斯大學奧斯汀分校電腦科學系的副教授,也是機器人感知與學習(RPL)實驗室的主任,同時,還在輝達研究院擔任董事和傑出研究科學家,領導NVIDIA GEAR小組。

研究人員表示,未來研究方向包括降低對任務專屬獎勵工程的依賴(例如利用大容量行為克隆教師模型),以及將該框架擴展至更廣泛的日常全身互動任務類別。

隨著模擬技術的進步,或許有一天,機器人真的可以完全在虛擬世界裡學習掌握更多其他技能,而且能快速應用到現實中。 (頭部科技)