機器人界「球星」竟被CMU輝達搞出來了!科比後仰跳投、C羅、詹皇霸氣慶祝動作皆被完美復刻。2030年,我們將會看到一場人形機器人奧運會盛宴。
機器人版科比、詹皇、C羅真的來了!
只見「科比」後仰跳投,在賽場上大殺四方。
「C羅」和「詹姆斯」也紛紛展示了自己的招牌慶祝動作。
以上這些還只是開胃菜,這款人形機器人還會側跳、前跳、前踢、右踢,甚至能夠完成深蹲、腿部拉伸等高難度動作。
更驚豔的是,它還會跳APT舞,非常嗨皮。
比起波士頓動力Altas,如今人形機器人早已進化到人們難以想像的樣子。正如Figure創始人所言,人形機器人iPhone時刻即將到來。
那麼,能夠成為「機器人界的科比」,究竟是用了什麼魔法?
來自CMU和輝達的華人研究團隊重磅提出ASAP,一個「real2sim2real」模型,能讓人形機器人掌握非常流暢且動感的全身控制動作。
它包含了兩大階段——預訓練和後訓練。
在第一個階段中,通過重新導向的人體資料,在模擬環境中預訓練運動跟蹤策略。
在第二階段,將這些策略部署到現實世界,並收集真實世界資料,訓練一個delta動作模型,來彌補動力學差異。
然後,ASAP把這個delta動作模型整合到模擬器中,對預訓練策略進行微調,讓它和現實世界的動力學更匹配。
輝達高級研究科學家Jim Fan激動地表示,我們通過RL讓人形機器人成功模仿C羅、詹姆斯和科比!
這些神經網路模型,正在輝達GEAR實驗室的真實硬體平台上運行。
在網上看到的多數機器人演示視訊都是經過加速處理的,而我們特意「放慢動作速度」,讓你能清晰觀賞每個流暢的動作細節。
我們提出的ASAP模型採用了「真實→模擬→真實」方法,成功實現了人形機器人全身控制所需的超平滑動態運動。
我們首先在模擬環境對機器人進行預訓練,但面臨眾所周知的模擬與現實差距:人工設計的物理方程難以精準模擬真實世界的動力學特性。
我們的解決方案簡明有效:將預訓練策略部署到實體機器人採集資料,隨後在模擬環境回放動作記錄。雖然回放過程必然產生偏差,但這些誤差恰恰成為修正物理差異的關鍵資料來源。通過額外神經網路學習差異參數,本質上是對傳統物理引擎進行「動態校準」,使機器人能依託GPU的平行計算能力,在模擬環境中獲得近乎真實的大規模訓練體驗。
未來屬於混合模擬時代:既繼承經典模擬引擎數十年錘煉的精準優勢,又融合現代神經網路捕捉複雜現實世界的超凡能力,實現兩者的協同進化。
一直以來,sim2real是實現空間與具身智能的主要路徑之一,被廣泛應用在機器人模擬評估當中。
而real2sim2real直接打破了繁瑣的動作微調的難題,彌合sim2real的差距,讓機器人能夠模仿各種類人的動作。
Jim Fan對此暢想道,2030年的人形機器人奧運會一定會是一場盛宴!
有網友期待地表示,真想看看它們打拳擊的表現。
由於模擬環境和現實世界的動力學差異,人形機器人想實現敏捷又協調的全身運動仍是巨大的挑戰。
現有方法,如系統識別(SysID)和域隨機化(DR)通常要花大量時間調整參數,或者生成的策略過於保守,動作不夠敏捷。
本文提出了ASAP(Aligning Simulation and Real Physics)是一個兩階段框架,旨在解決動力學不匹配問題,實現敏捷的人形機器人全身動作。
ASAP實現了許多以前很難做到的高難度動作,展現出delta動作學習在縮小模擬與現實動力學差距方面的潛力。
ASAP為「sim-to-real」提供了一個很有前景的方案,為開發更靈活、更敏捷的人形機器人指明了方向。
ASAP具體步驟如下:
ASAP包含兩個階段:預訓練階段和後訓練階段。
在預訓練階段,研究團隊將真人運動視訊作為資料來源,在模擬環境中訓練動作跟蹤策略。
先將這些運動資料重新導向到人形機器人上,然後訓練一個基於相位條件的運動跟蹤策略,讓機器人模仿重新導向後的動作。然而,如果將這一策略部署到真實硬體上,由於動力學差異,機器人的性能會下降。
為解決這一問題,在後訓練階段需要收集真實世界的運行資料,包括本體感知狀態,以及由動作捕捉系統記錄的位置資訊。隨後,在模擬環境中回放這些資料,動力學差異就會以跟蹤誤差的形式表現出來。
接著,訓練一個delta動作模型,通過縮小真實世界和模擬狀態的差異,學習如何補償這些偏差。這個模型實際上是動力學誤差的修正項。
最後,研究者借助delta動作模型對預訓練的策略進行微調,使其能夠更好地適應真實世界的物理環境,從而實現更穩定、敏捷的運動控制。
總的來說,這項研究的貢獻如下:
評估中,研究人員針對三種策略遷移進行了廣泛的實驗研究:IsaacGym到IsaacSim、IsaacGym到Genesis,以及 IsaacGym到真實世界的Unitree G1人形機器人。
接下來,他們一共回答了三個問題。
表III中的定量結果表明,ASAP在所有重放動作長度上都持續優於OpenLoop基線,實現了更低的Eg-mpjpe和Empjpe值,這表明與測試環境軌跡的對齊程度更好。
雖然SysID有助於解決短期動力學差距,但由於累積誤差的增加,它在長期場景中表現不佳。
DeltaDynamics在長期場景中相比SysID和OpenLoop有所改進,但存在過擬合問題,這從下圖5中隨時間放大的級聯誤差可以看出。
然而,ASAP通過學習有效彌合動力學差距的殘差策略,展示出了優越的泛化能力。
同時,作者在Genesis模擬器中也觀察到了類似的趨勢,ASAP相對於基線在所有指標上都取得了顯著改進。
這些結果強調了學習增量動作模型,在減少物理差距和改善開環重放(open-loop replay)性能方面的有效性。
為瞭解決問題2,研究人員評估了不同方法在微調強化學習策略,以提高測試環境性能方面的有效性。
如表IV所示,ASAP在兩個模擬器(IsaacSim和Genesis)的所有難度等級(簡單、中等和困難)中都持續優於Vanilla、SysID和DeltaDynamics等基線方法。
對於簡單等級,ASAP在IsaacSim(Eg-mpjpe=106和Empjpe=44.3)和Genesis(Eg-mpjpe=125和Empjpe=73.5)中都達到了最低的Eg-mpjpe和Empjpe,同時具有最小的加速度(Eacc)和速度(Evel)誤差。
在更具挑戰性的任務中,如困難等級,最新方法的表現依舊出色,顯著降低了運動跟蹤誤差。
例如,在Genesis中,它實現了Eg-mpjpe=129和Empjpe=77.0,大幅優於SysID和DeltaDynamics。
此外,ASAP在兩個模擬器中始終保持100%的成功率,而DeltaDynamics在更困難的環境中的成功率較低。
為了進一步說明ASAP的優勢,研究人員在圖7中提供了逐步可視化比較,對比了ASAP與未經微調直接部署的強化學習策略。
這些可視化結果表明,ASAP成功適應了新的動力學環境並保持穩定的跟蹤性能,而基線方法則隨時間累積誤差,導致跟蹤能力下降。
這些結果突顯了,新方法在解決模擬到現實差距方面的魯棒性和適應性,同時防止過擬合和利用。
研究結果驗證了ASAP是一個有效的範式,可以提高閉環性能並確保在複雜的現實場景中可靠部署。
針對第三個問題,研究人員在真實的Unitree G1機器人上驗證了ASAP的有效性。
由於感測器輸入噪聲、機器人建模不精準和執行器差異等因素,模擬到現實的差距比模擬器之間的差異更為顯著。
為了評估ASAP在解決這些差距方面的有效性,他們在兩個代表性的運動跟蹤任務(踢腿和「Silencer」)中比較了ASAP與Vanilla基線的閉環性能,這些任務中存在明顯的模擬到現實差距。
為了展示所學習的增量動作模型對分佈外運動的泛化能力,作者還對勒布朗·詹姆斯「Silencer」動作進行了策略微調,如圖1和圖8所示。
結果表明,ASAP在分佈內和分佈外的人形機器人運動跟蹤任務中都優於基線方法,在所有關鍵指標(Eg-mpjpe、Empjpe、Eacc和Evel)上都實現了顯著的跟蹤誤差減少。
這些發現突顯了ASAP在改進敏捷人形機器人運動跟蹤的模擬到現實遷移方面的有效性。
再接下來,研究人員就三個核心問題來全面分析ASAP。
首先是,如何最好地訓練ASAP的增量動作模型?
具體來說,他們研究了資料集大小、訓練時域和動作范數權重的影響,評估它們對開環和閉環性能的影響,如下圖10所示,給出了所有因素下的實驗結果。
其次,如何最好地使用ASAP的增量動作模型?
如下圖11所示,強化學習微調在部署過程中實現了最低的跟蹤誤差,優於免訓練方法。
兩種無強化學習的方法都具有短視性,並且存在分佈外問題,這限制了它們在現實世界中的適用性。
研究人員驗證了ASAP優於基於隨機動作噪聲的微調,並可視化了Delta動作模型在各個關節上的平均輸出幅度。
調整噪聲強度參數,能降低全域跟蹤誤差(MPJPE)。
圖13可視化了在IsaacSim訓練得到的Delta動作模型的平均輸出,結果揭示了不同關節的動力學誤差並不均勻。踝關節和膝關節的誤差最顯著。
作者介紹
共同一作Tairan He是卡內基梅隆大學機器人研究所的二年級博士生,由Guanya Shi(石冠亞)和Changliu Liu(劉暢流)。同時,也是NVIDIA GEAR小組的成員,該小組由Jim Fan和Yuke Zhu領導。
此前,他在上海交通大學獲得電腦科學學士學位,導師是Weinan Zhang(張偉楠)。並曾在微軟亞洲研究院工作過一段時間。
他的研究目標是打造能改善每個人生活質量的機器人;重點是如何為機器人建構資料飛輪,使其獲得媲美人類的運動能力和語義理解能力,以及如何讓機器人既能安全可靠,又能靈活適應各種環境,具備通用性和敏捷性來完成各類實用任務;採用的是隨計算能力和資料規模擴展的機器學習方法。
共同一作Jiawei Gao目前就讀於CMU。他曾獲得了清華學士學位,曾與Gao Huang教授、Jiangmiao Pang博士、Guanya Shi教授合作,參與了強化學習演算法及其在機器人領域應用的相關項目。
他一直在思考人類智能的起源,以及如何建構能夠像人類一樣學習和推理的機器。為此,他希望致力於研究通用決策演算法,使機器能夠在複雜的物理世界中進行互動、學習和適應。
除了研究興趣外,Jiawei Gao也熱衷於歷史、哲學和社會學。個人學習鋼琴已有十年,是西方古典音樂的忠實愛好者,貝多芬和馬勒是我最喜歡的作曲家。同時,他也喜歡旅行和攝影。
共同一作Wenli Xiao是卡內基梅隆大學機器人研究所(MSR)的碩士生,由Guanya Shi教授和John Dolan教授指導。
他目前在NVIDIA GEAR實驗室擔任研究實習生,與Jim Fan博士和Yuke Zhu教授一起研究人形機器人基礎模型。
此前,他在香港中文大學(深圳)獲得電子資訊工程專業學士學位。
共同一作Yuanhang Zhang目前是CMU機器人研究所(CMU RI)的碩士生,目前在LeCAR Lab研究,導師是Guanya Shi教授。
此前,他曾在上海交通大學獲得了工學學士學位,期間Hesheng Wang教授Danping Zou教授指導。
本科期間,他擔任SJTU VEX 機器人俱樂部的程式設計組負責人,並參與了無人車(UV)和無人機(UAV)相關的各類競賽。
他的研究興趣包括機器人學、機器學習和最優控制。目前,他本人的研究方向是人形機器人和空中操控。
參考資料:
https://x.com/DrJimFan/status/1886824152272920642
https://agile.human2humanoid.com/ (新智元)