輝達機器人跳APT舞驚豔全網，科比C羅完美復刻！CMU 00後華人共同一作

2025/02/05

•

機器人界「球星」竟被CMU輝達搞出來了！科比後仰跳投、C羅、詹皇霸氣慶祝動作皆被完美復刻。2030年，我們將會看到一場人形機器人奧運會盛宴。

機器人版科比、詹皇、C羅真的來了！

只見「科比」後仰跳投，在賽場上大殺四方。

「C羅」和「詹姆斯」也紛紛展示了自己的招牌慶祝動作。

以上這些還只是開胃菜，這款人形機器人還會側跳、前跳、前踢、右踢，甚至能夠完成深蹲、腿部拉伸等高難度動作。

更驚豔的是，它還會跳APT舞，非常嗨皮。

比起波士頓動力Altas，如今人形機器人早已進化到人們難以想像的樣子。正如Figure創始人所言，人形機器人iPhone時刻即將到來。

那麼，能夠成為「機器人界的科比」，究竟是用了什麼魔法？

來自CMU和輝達的華人研究團隊重磅提出ASAP，一個「real2sim2real」模型，能讓人形機器人掌握非常流暢且動感的全身控制動作。

項目首頁：https://agile.human2humanoid.com/
論文地址：https://arxiv.org/abs/2502.01143
開放原始碼專案：https://github.com/LeCAR-Lab/ASAP

它包含了兩大階段——預訓練和後訓練。

在第一個階段中，通過重新導向的人體資料，在模擬環境中預訓練運動跟蹤策略。

在第二階段，將這些策略部署到現實世界，並收集真實世界資料，訓練一個delta動作模型，來彌補動力學差異。

然後，ASAP把這個delta動作模型整合到模擬器中，對預訓練策略進行微調，讓它和現實世界的動力學更匹配。

輝達高級研究科學家Jim Fan激動地表示，我們通過RL讓人形機器人成功模仿C羅、詹姆斯和科比！

這些神經網路模型，正在輝達GEAR實驗室的真實硬體平台上運行。

在網上看到的多數機器人演示視訊都是經過加速處理的，而我們特意「放慢動作速度」，讓你能清晰觀賞每個流暢的動作細節。

我們提出的ASAP模型採用了「真實→模擬→真實」方法，成功實現了人形機器人全身控制所需的超平滑動態運動。

我們首先在模擬環境對機器人進行預訓練，但面臨眾所周知的模擬與現實差距：人工設計的物理方程難以精準模擬真實世界的動力學特性。

我們的解決方案簡明有效：將預訓練策略部署到實體機器人採集資料，隨後在模擬環境回放動作記錄。雖然回放過程必然產生偏差，但這些誤差恰恰成為修正物理差異的關鍵資料來源。通過額外神經網路學習差異參數，本質上是對傳統物理引擎進行「動態校準」，使機器人能依託GPU的平行計算能力，在模擬環境中獲得近乎真實的大規模訓練體驗。

未來屬於混合模擬時代：既繼承經典模擬引擎數十年錘煉的精準優勢，又融合現代神經網路捕捉複雜現實世界的超凡能力，實現兩者的協同進化。

一直以來，sim2real是實現空間與具身智能的主要路徑之一，被廣泛應用在機器人模擬評估當中。

而real2sim2real直接打破了繁瑣的動作微調的難題，彌合sim2real的差距，讓機器人能夠模仿各種類人的動作。

Jim Fan對此暢想道，2030年的人形機器人奧運會一定會是一場盛宴！

有網友期待地表示，真想看看它們打拳擊的表現。

ASAP，機器人奧運會不遠了

由於模擬環境和現實世界的動力學差異，人形機器人想實現敏捷又協調的全身運動仍是巨大的挑戰。

現有方法，如系統識別（SysID）和域隨機化（DR）通常要花大量時間調整參數，或者生成的策略過於保守，動作不夠敏捷。

本文提出了ASAP（Aligning Simulation and Real Physics）是一個兩階段框架，旨在解決動力學不匹配問題，實現敏捷的人形機器人全身動作。

ASAP實現了許多以前很難做到的高難度動作，展現出delta動作學習在縮小模擬與現實動力學差距方面的潛力。

ASAP為「sim-to-real」提供了一個很有前景的方案，為開發更靈活、更敏捷的人形機器人指明了方向。

ASAP具體步驟如下：

運動跟蹤預訓練與真實軌跡收集：先從真人視訊中提取動作並重新導向到機器人上，預訓練多個運動跟蹤策略，生成真實世界的運動軌跡。
Delta動作模型訓練：基於真實世界軌跡資料，訓練Delta動作模型，縮小模擬狀態與真實世界狀態之間的差異。
策略微調：Delta動作模型訓練完成後，將其整合到模擬器中，使模擬器能匹配真實世界的物理特性，隨後對之前預訓練的運動跟蹤策略進行微調。
真實世界部署：最後，直接在真實環境中部署微調後的策略，此時就不再需要Delta動作模型了。

兩階段：預訓練+後訓練

ASAP包含兩個階段：預訓練階段和後訓練階段。

在預訓練階段，研究團隊將真人運動視訊作為資料來源，在模擬環境中訓練動作跟蹤策略。

先將這些運動資料重新導向到人形機器人上，然後訓練一個基於相位條件的運動跟蹤策略，讓機器人模仿重新導向後的動作。然而，如果將這一策略部署到真實硬體上，由於動力學差異，機器人的性能會下降。

為解決這一問題，在後訓練階段需要收集真實世界的運行資料，包括本體感知狀態，以及由動作捕捉系統記錄的位置資訊。隨後，在模擬環境中回放這些資料，動力學差異就會以跟蹤誤差的形式表現出來。

接著，訓練一個delta動作模型，通過縮小真實世界和模擬狀態的差異，學習如何補償這些偏差。這個模型實際上是動力學誤差的修正項。

最後，研究者借助delta動作模型對預訓練的策略進行微調，使其能夠更好地適應真實世界的物理環境，從而實現更穩定、敏捷的運動控制。

總的來說，這項研究的貢獻如下：

提出ASAP框架：運用強化學習和真實世界的資料來訓練delta動作模型，有效縮小了模擬與現實之間的差距。
成功在真實環境部署全身控制策略，實現了不少以前人形機器人難以做到的動作。
模擬和現實環境中的大量實驗表明，ASAP能夠有效減少動力學不匹配問題，讓機器人做出高度敏捷的動作，同時顯著降低運動跟蹤誤差。
為了促進不同模擬器之間的平滑遷移，研究者開發並開源了一個多模擬器訓練與評估程式碼庫，以加快後續研究。

評估

評估中，研究人員針對三種策略遷移進行了廣泛的實驗研究：IsaacGym到IsaacSim、IsaacGym到Genesis，以及 IsaacGym到真實世界的Unitree G1人形機器人。

接下來，他們一共回答了三個問題。

Q1：ASAP能否優於其他基線方法，以補償動力學失配問題？

表III中的定量結果表明，ASAP在所有重放動作長度上都持續優於OpenLoop基線，實現了更低的Eg-mpjpe和Empjpe值，這表明與測試環境軌跡的對齊程度更好。

雖然SysID有助於解決短期動力學差距，但由於累積誤差的增加，它在長期場景中表現不佳。

DeltaDynamics在長期場景中相比SysID和OpenLoop有所改進，但存在過擬合問題，這從下圖5中隨時間放大的級聯誤差可以看出。

然而，ASAP通過學習有效彌合動力學差距的殘差策略，展示出了優越的泛化能力。

同時，作者在Genesis模擬器中也觀察到了類似的趨勢，ASAP相對於基線在所有指標上都取得了顯著改進。

這些結果強調了學習增量動作模型，在減少物理差距和改善開環重放（open-loop replay）性能方面的有效性。

Q2：ASAP能否在策略微調方面，優於SysID和Delta Dynamics？

為瞭解決問題2，研究人員評估了不同方法在微調強化學習策略，以提高測試環境性能方面的有效性。

如表IV所示，ASAP在兩個模擬器（IsaacSim和Genesis）的所有難度等級（簡單、中等和困難）中都持續優於Vanilla、SysID和DeltaDynamics等基線方法。

對於簡單等級，ASAP在IsaacSim（Eg-mpjpe=106和Empjpe=44.3）和Genesis（Eg-mpjpe=125和Empjpe=73.5）中都達到了最低的Eg-mpjpe和Empjpe，同時具有最小的加速度（Eacc）和速度（Evel）誤差。

在更具挑戰性的任務中，如困難等級，最新方法的表現依舊出色，顯著降低了運動跟蹤誤差。

例如，在Genesis中，它實現了Eg-mpjpe=129和Empjpe=77.0，大幅優於SysID和DeltaDynamics。

此外，ASAP在兩個模擬器中始終保持100%的成功率，而DeltaDynamics在更困難的環境中的成功率較低。

為了進一步說明ASAP的優勢，研究人員在圖7中提供了逐步可視化比較，對比了ASAP與未經微調直接部署的強化學習策略。

這些可視化結果表明，ASAP成功適應了新的動力學環境並保持穩定的跟蹤性能，而基線方法則隨時間累積誤差，導致跟蹤能力下降。

這些結果突顯了，新方法在解決模擬到現實差距方面的魯棒性和適應性，同時防止過擬合和利用。

研究結果驗證了ASAP是一個有效的範式，可以提高閉環性能並確保在複雜的現實場景中可靠部署。

Q3：ASAP是否適用於sim2real遷移？

針對第三個問題，研究人員在真實的Unitree G1機器人上驗證了ASAP的有效性。

由於感測器輸入噪聲、機器人建模不精準和執行器差異等因素，模擬到現實的差距比模擬器之間的差異更為顯著。

為了評估ASAP在解決這些差距方面的有效性，他們在兩個代表性的運動跟蹤任務（踢腿和「Silencer」）中比較了ASAP與Vanilla基線的閉環性能，這些任務中存在明顯的模擬到現實差距。

為了展示所學習的增量動作模型對分佈外運動的泛化能力，作者還對勒布朗·詹姆斯「Silencer」動作進行了策略微調，如圖1和圖8所示。

結果表明，ASAP在分佈內和分佈外的人形機器人運動跟蹤任務中都優於基線方法，在所有關鍵指標（Eg-mpjpe、Empjpe、Eacc和Evel）上都實現了顯著的跟蹤誤差減少。

這些發現突顯了ASAP在改進敏捷人形機器人運動跟蹤的模擬到現實遷移方面的有效性。

再接下來，研究人員就三個核心問題來全面分析ASAP。

首先是，如何最好地訓練ASAP的增量動作模型？

具體來說，他們研究了資料集大小、訓練時域和動作范數權重的影響，評估它們對開環和閉環性能的影響，如下圖10所示，給出了所有因素下的實驗結果。

其次，如何最好地使用ASAP的增量動作模型？

如下圖11所示，強化學習微調在部署過程中實現了最低的跟蹤誤差，優於免訓練方法。

兩種無強化學習的方法都具有短視性，並且存在分佈外問題，這限制了它們在現實世界中的適用性。

Q6：ASAP為什麼有效以及如何發揮作用？

研究人員驗證了ASAP優於基於隨機動作噪聲的微調，並可視化了Delta動作模型在各個關節上的平均輸出幅度。

調整噪聲強度參數，能降低全域跟蹤誤差（MPJPE）。

圖13可視化了在IsaacSim訓練得到的Delta動作模型的平均輸出，結果揭示了不同關節的動力學誤差並不均勻。踝關節和膝關節的誤差最顯著。

作者介紹

Tairan He（何泰然）

共同一作Tairan He是卡內基梅隆大學機器人研究所的二年級博士生，由Guanya Shi（石冠亞）和Changliu Liu（劉暢流）。同時，也是NVIDIA GEAR小組的成員，該小組由Jim Fan和Yuke Zhu領導。

此前，他在上海交通大學獲得電腦科學學士學位，導師是Weinan Zhang（張偉楠）。並曾在微軟亞洲研究院工作過一段時間。

他的研究目標是打造能改善每個人生活質量的機器人；重點是如何為機器人建構資料飛輪，使其獲得媲美人類的運動能力和語義理解能力，以及如何讓機器人既能安全可靠，又能靈活適應各種環境，具備通用性和敏捷性來完成各類實用任務；採用的是隨計算能力和資料規模擴展的機器學習方法。

Jiawei Gao（高嘉偉）

共同一作Jiawei Gao目前就讀於CMU。他曾獲得了清華學士學位，曾與Gao Huang教授、Jiangmiao Pang博士、Guanya Shi教授合作，參與了強化學習演算法及其在機器人領域應用的相關項目。

他一直在思考人類智能的起源，以及如何建構能夠像人類一樣學習和推理的機器。為此，他希望致力於研究通用決策演算法，使機器能夠在複雜的物理世界中進行互動、學習和適應。

除了研究興趣外，Jiawei Gao也熱衷於歷史、哲學和社會學。個人學習鋼琴已有十年，是西方古典音樂的忠實愛好者，貝多芬和馬勒是我最喜歡的作曲家。同時，他也喜歡旅行和攝影。

Wenli Xiao

共同一作Wenli Xiao是卡內基梅隆大學機器人研究所（MSR）的碩士生，由Guanya Shi教授和John Dolan教授指導。

他目前在NVIDIA GEAR實驗室擔任研究實習生，與Jim Fan博士和Yuke Zhu教授一起研究人形機器人基礎模型。

此前，他在香港中文大學（深圳）獲得電子資訊工程專業學士學位。

Yuanhang Zhang（張遠航）

共同一作Yuanhang Zhang目前是CMU機器人研究所（CMU RI）的碩士生，目前在LeCAR Lab研究，導師是Guanya Shi教授。

此前，他曾在上海交通大學獲得了工學學士學位，期間Hesheng Wang教授Danping Zou教授指導。

本科期間，他擔任SJTU VEX 機器人俱樂部的程式設計組負責人，並參與了無人車（UV）和無人機（UAV）相關的各類競賽。

他的研究興趣包括機器人學、機器學習和最優控制。目前，他本人的研究方向是人形機器人和空中操控。

參考資料：

https://x.com/DrJimFan/status/1886824152272920642

https://agile.human2humanoid.com/ (新智元)