輝達機器人跳APT舞驚豔全網,科比C羅完美復刻!CMU 00後華人共同一作


機器人界「球星」竟被CMU輝達搞出來了!科比後仰跳投、C羅、詹皇霸氣慶祝動作皆被完美復刻。2030年,我們將會看到一場人形機器人奧運會盛宴。

機器人版科比、詹皇、C羅真的來了!

只見「科比」後仰跳投,在賽場上大殺四方。

「C羅」和「詹姆斯」也紛紛展示了自己的招牌慶祝動作。

以上這些還只是開胃菜,這款人形機器人還會側跳、前跳、前踢、右踢,甚至能夠完成深蹲、腿部拉伸等高難度動作。

更驚豔的是,它還會跳APT舞,非常嗨皮。

比起波士頓動力Altas,如今人形機器人早已進化到人們難以想像的樣子。正如Figure創始人所言,人形機器人iPhone時刻即將到來。

那麼,能夠成為「機器人界的科比」,究竟是用了什麼魔法?

來自CMU和輝達的華人研究團隊重磅提出ASAP,一個「real2sim2real」模型,能讓人形機器人掌握非常流暢且動感的全身控制動作。

項目首頁:https://agile.human2humanoid.com/
論文地址:https://arxiv.org/abs/2502.01143
開放原始碼專案:https://github.com/LeCAR-Lab/ASAP

它包含了兩大階段——預訓練和後訓練。

在第一個階段中,通過重新導向的人體資料,在模擬環境中預訓練運動跟蹤策略。

在第二階段,將這些策略部署到現實世界,並收集真實世界資料,訓練一個delta動作模型,來彌補動力學差異。

然後,ASAP把這個delta動作模型整合到模擬器中,對預訓練策略進行微調,讓它和現實世界的動力學更匹配。

輝達高級研究科學家Jim Fan激動地表示,我們通過RL讓人形機器人成功模仿C羅、詹姆斯和科比!

這些神經網路模型,正在輝達GEAR實驗室的真實硬體平台上運行。

在網上看到的多數機器人演示視訊都是經過加速處理的,而我們特意「放慢動作速度」,讓你能清晰觀賞每個流暢的動作細節。
我們提出的ASAP模型採用了「真實→模擬→真實」方法,成功實現了人形機器人全身控制所需的超平滑動態運動。
我們首先在模擬環境對機器人進行預訓練,但面臨眾所周知的模擬與現實差距:人工設計的物理方程難以精準模擬真實世界的動力學特性。
我們的解決方案簡明有效:將預訓練策略部署到實體機器人採集資料,隨後在模擬環境回放動作記錄。雖然回放過程必然產生偏差,但這些誤差恰恰成為修正物理差異的關鍵資料來源。通過額外神經網路學習差異參數,本質上是對傳統物理引擎進行「動態校準」,使機器人能依託GPU的平行計算能力,在模擬環境中獲得近乎真實的大規模訓練體驗。
未來屬於混合模擬時代:既繼承經典模擬引擎數十年錘煉的精準優勢,又融合現代神經網路捕捉複雜現實世界的超凡能力,實現兩者的協同進化。

一直以來,sim2real是實現空間與具身智能的主要路徑之一,被廣泛應用在機器人模擬評估當中。

而real2sim2real直接打破了繁瑣的動作微調的難題,彌合sim2real的差距,讓機器人能夠模仿各種類人的動作。

Jim Fan對此暢想道,2030年的人形機器人奧運會一定會是一場盛宴!

有網友期待地表示,真想看看它們打拳擊的表現。

ASAP,機器人奧運會不遠了

由於模擬環境和現實世界的動力學差異,人形機器人想實現敏捷又協調的全身運動仍是巨大的挑戰。

現有方法,如系統識別(SysID)和域隨機化(DR)通常要花大量時間調整參數,或者生成的策略過於保守,動作不夠敏捷。

本文提出了ASAP(Aligning Simulation and Real Physics)是一個兩階段框架,旨在解決動力學不匹配問題,實現敏捷的人形機器人全身動作。

ASAP實現了許多以前很難做到的高難度動作,展現出delta動作學習在縮小模擬與現實動力學差距方面的潛力。

ASAP為「sim-to-real」提供了一個很有前景的方案,為開發更靈活、更敏捷的人形機器人指明了方向。

ASAP具體步驟如下:

  1. 運動跟蹤預訓練與真實軌跡收集:先從真人視訊中提取動作並重新導向到機器人上,預訓練多個運動跟蹤策略,生成真實世界的運動軌跡。
  2. Delta動作模型訓練:基於真實世界軌跡資料,訓練Delta動作模型,縮小模擬狀態與真實世界狀態之間的差異。
  3. 策略微調:Delta動作模型訓練完成後,將其整合到模擬器中,使模擬器能匹配真實世界的物理特性,隨後對之前預訓練的運動跟蹤策略進行微調。
  4. 真實世界部署:最後,直接在真實環境中部署微調後的策略,此時就不再需要Delta動作模型了 。

兩階段:預訓練+後訓練

ASAP包含兩個階段:預訓練階段和後訓練階段。

在預訓練階段,研究團隊將真人運動視訊作為資料來源,在模擬環境中訓練動作跟蹤策略。

先將這些運動資料重新導向到人形機器人上,然後訓練一個基於相位條件的運動跟蹤策略,讓機器人模仿重新導向後的動作。然而,如果將這一策略部署到真實硬體上,由於動力學差異,機器人的性能會下降。

為解決這一問題,在後訓練階段需要收集真實世界的運行資料,包括本體感知狀態,以及由動作捕捉系統記錄的位置資訊。隨後,在模擬環境中回放這些資料,動力學差異就會以跟蹤誤差的形式表現出來。

接著,訓練一個delta動作模型,通過縮小真實世界和模擬狀態的差異,學習如何補償這些偏差。這個模型實際上是動力學誤差的修正項。

最後,研究者借助delta動作模型對預訓練的策略進行微調,使其能夠更好地適應真實世界的物理環境,從而實現更穩定、敏捷的運動控制。

總的來說,這項研究的貢獻如下:

  1. 提出ASAP框架:運用強化學習和真實世界的資料來訓練delta動作模型,有效縮小了模擬與現實之間的差距。
  2. 成功在真實環境部署全身控制策略,實現了不少以前人形機器人難以做到的動作。
  3. 模擬和現實環境中的大量實驗表明,ASAP能夠有效減少動力學不匹配問題,讓機器人做出高度敏捷的動作,同時顯著降低運動跟蹤誤差。
  4. 為了促進不同模擬器之間的平滑遷移,研究者開發並開源了一個多模擬器訓練與評估程式碼庫,以加快後續研究。

評估

評估中,研究人員針對三種策略遷移進行了廣泛的實驗研究:IsaacGym到IsaacSim、IsaacGym到Genesis,以及 IsaacGym到真實世界的Unitree G1人形機器人。

接下來,他們一共回答了三個問題。

Q1:ASAP能否優於其他基線方法,以補償動力學失配問題?

表III中的定量結果表明,ASAP在所有重放動作長度上都持續優於OpenLoop基線,實現了更低的Eg-mpjpe和Empjpe值,這表明與測試環境軌跡的對齊程度更好。

雖然SysID有助於解決短期動力學差距,但由於累積誤差的增加,它在長期場景中表現不佳。

DeltaDynamics在長期場景中相比SysID和OpenLoop有所改進,但存在過擬合問題,這從下圖5中隨時間放大的級聯誤差可以看出。

然而,ASAP通過學習有效彌合動力學差距的殘差策略,展示出了優越的泛化能力。

同時,作者在Genesis模擬器中也觀察到了類似的趨勢,ASAP相對於基線在所有指標上都取得了顯著改進。

這些結果強調了學習增量動作模型,在減少物理差距和改善開環重放(open-loop replay)性能方面的有效性。

Q2:ASAP能否在策略微調方面,優於SysID和Delta Dynamics?

為瞭解決問題2,研究人員評估了不同方法在微調強化學習策略,以提高測試環境性能方面的有效性。

如表IV所示,ASAP在兩個模擬器(IsaacSim和Genesis)的所有難度等級(簡單、中等和困難)中都持續優於Vanilla、SysID和DeltaDynamics等基線方法。

對於簡單等級,ASAP在IsaacSim(Eg-mpjpe=106和Empjpe=44.3)和Genesis(Eg-mpjpe=125和Empjpe=73.5)中都達到了最低的Eg-mpjpe和Empjpe,同時具有最小的加速度(Eacc)和速度(Evel)誤差。

在更具挑戰性的任務中,如困難等級,最新方法的表現依舊出色,顯著降低了運動跟蹤誤差。

例如,在Genesis中,它實現了Eg-mpjpe=129和Empjpe=77.0,大幅優於SysID和DeltaDynamics。

此外,ASAP在兩個模擬器中始終保持100%的成功率,而DeltaDynamics在更困難的環境中的成功率較低。

為了進一步說明ASAP的優勢,研究人員在圖7中提供了逐步可視化比較,對比了ASAP與未經微調直接部署的強化學習策略。

這些可視化結果表明,ASAP成功適應了新的動力學環境並保持穩定的跟蹤性能,而基線方法則隨時間累積誤差,導致跟蹤能力下降。

這些結果突顯了,新方法在解決模擬到現實差距方面的魯棒性和適應性,同時防止過擬合和利用。

研究結果驗證了ASAP是一個有效的範式,可以提高閉環性能並確保在複雜的現實場景中可靠部署。

Q3:ASAP是否適用於sim2real遷移?

針對第三個問題,研究人員在真實的Unitree G1機器人上驗證了ASAP的有效性。

由於感測器輸入噪聲、機器人建模不精準和執行器差異等因素,模擬到現實的差距比模擬器之間的差異更為顯著。

為了評估ASAP在解決這些差距方面的有效性,他們在兩個代表性的運動跟蹤任務(踢腿和「Silencer」)中比較了ASAP與Vanilla基線的閉環性能,這些任務中存在明顯的模擬到現實差距。

為了展示所學習的增量動作模型對分佈外運動的泛化能力,作者還對勒布朗·詹姆斯「Silencer」動作進行了策略微調,如圖1和圖8所示。

結果表明,ASAP在分佈內和分佈外的人形機器人運動跟蹤任務中都優於基線方法,在所有關鍵指標(Eg-mpjpe、Empjpe、Eacc和Evel)上都實現了顯著的跟蹤誤差減少。

這些發現突顯了ASAP在改進敏捷人形機器人運動跟蹤的模擬到現實遷移方面的有效性。

再接下來,研究人員就三個核心問題來全面分析ASAP。

首先是,如何最好地訓練ASAP的增量動作模型?

具體來說,他們研究了資料集大小、訓練時域和動作范數權重的影響,評估它們對開環和閉環性能的影響,如下圖10所示,給出了所有因素下的實驗結果。

其次,如何最好地使用ASAP的增量動作模型?

如下圖11所示,強化學習微調在部署過程中實現了最低的跟蹤誤差,優於免訓練方法。

兩種無強化學習的方法都具有短視性,並且存在分佈外問題,這限制了它們在現實世界中的適用性。

Q6:ASAP為什麼有效以及如何發揮作用?

研究人員驗證了ASAP優於基於隨機動作噪聲的微調,並可視化了Delta動作模型在各個關節上的平均輸出幅度。

調整噪聲強度參數,能降低全域跟蹤誤差(MPJPE)。

圖13可視化了在IsaacSim訓練得到的Delta動作模型的平均輸出,結果揭示了不同關節的動力學誤差並不均勻。踝關節和膝關節的誤差最顯著。

作者介紹

Tairan He(何泰然)

共同一作Tairan He是卡內基梅隆大學機器人研究所的二年級博士生,由Guanya Shi(石冠亞)和Changliu Liu(劉暢流)。同時,也是NVIDIA GEAR小組的成員,該小組由Jim Fan和Yuke Zhu領導。

此前,他在上海交通大學獲得電腦科學學士學位,導師是Weinan Zhang(張偉楠)。並曾在微軟亞洲研究院工作過一段時間。

他的研究目標是打造能改善每個人生活質量的機器人;重點是如何為機器人建構資料飛輪,使其獲得媲美人類的運動能力和語義理解能力,以及如何讓機器人既能安全可靠,又能靈活適應各種環境,具備通用性和敏捷性來完成各類實用任務;採用的是隨計算能力和資料規模擴展的機器學習方法。

Jiawei Gao(高嘉偉)

共同一作Jiawei Gao目前就讀於CMU。他曾獲得了清華學士學位,曾與Gao Huang教授、Jiangmiao Pang博士、Guanya Shi教授合作,參與了強化學習演算法及其在機器人領域應用的相關項目。

他一直在思考人類智能的起源,以及如何建構能夠像人類一樣學習和推理的機器。為此,他希望致力於研究通用決策演算法,使機器能夠在複雜的物理世界中進行互動、學習和適應。

除了研究興趣外,Jiawei Gao也熱衷於歷史、哲學和社會學。個人學習鋼琴已有十年,是西方古典音樂的忠實愛好者,貝多芬和馬勒是我最喜歡的作曲家。同時,他也喜歡旅行和攝影。

Wenli Xiao

共同一作Wenli Xiao是卡內基梅隆大學機器人研究所(MSR)的碩士生,由Guanya Shi教授和John Dolan教授指導。

他目前在NVIDIA GEAR實驗室擔任研究實習生,與Jim Fan博士和Yuke Zhu教授一起研究人形機器人基礎模型。

此前,他在香港中文大學(深圳)獲得電子資訊工程專業學士學位。

Yuanhang Zhang(張遠航)

共同一作Yuanhang Zhang目前是CMU機器人研究所(CMU RI)的碩士生,目前在LeCAR Lab研究,導師是Guanya Shi教授。

此前,他曾在上海交通大學獲得了工學學士學位,期間Hesheng Wang教授Danping Zou教授指導。

本科期間,他擔任SJTU VEX 機器人俱樂部的程式設計組負責人,並參與了無人車(UV)和無人機(UAV)相關的各類競賽。

他的研究興趣包括機器人學、機器學習和最優控制。目前,他本人的研究方向是人形機器人和空中操控。

參考資料:

https://x.com/DrJimFan/status/1886824152272920642

https://agile.human2humanoid.com/ (新智元)


最近長文
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題