最新1.5萬字演講全文：為實現AGI，輝達將如何建構「具身智能」和AI 智能體技術？

2024/03/25

•

在本週舉行的GTC大會上，輝達CEO黃仁勳（Jensen Huang）宣布推出通用人形機器人基礎模型計畫－輝達GR00T平台。

黃仁勳表示，GR00T是輝達為波士頓動力、宇樹科技和小鵬鵬行等人形機器人製造商提供的專用AI平台。

「建構通用人形機器人的基本模型，是我們今天可以在AI領域解決的最令人興奮的問題之一。這些技術正融合在一起，使世界各地領先的機器人專家，能夠在通用人形機器人領域取得巨大飛躍。」黃仁勳稱，而GR00T這一名字似乎是致敬漫威宇宙的超級英雄Groot。

而在3月23日，GTC大會官方釋出輝達公司研究經理、輝達GearLab實驗室負責人Jim Fan進行的一場接近一個小時左右的演講，題目為《在開放世界中的通用智能體》。

Jim Fan在演講中詳細整理分享輝達在「具身智能」（Embodied AI）、人形機器人平台以及AI 智能體（AI Agents）等方面的技術進展。

事實上，所謂“具身智能”，就是指機器人或智慧系統能夠透過感知器和執行器與其所處的環境進行即時互動，通常具備感知、認知、決策和行動的能力，能夠根據環境的變化做出相應的調整。

與傳統機器人相比，具身智慧對環境的感知和反應能力相對更出色。而且，具身智能不僅能接收外在訊息，還能理解這些訊息，並作出適當的反應。

在此之前，華人電腦科學家、史丹佛大學教授李飛飛，上海交通大學教授盧策吾等人都曾提出「具身智能」這個概念技術。

隨著2022年底發布的ChatGPT風靡全球，在ITF World 2023 半導體大會上，黃仁勳表示，AI 的下一個浪潮將是“具身智能”，即能理解、推理、並與物理世界互動的智能係統，引發全球關注。

今年GTC大會上，黃仁勳在現場展示了由Disney Research研發、由輝達Jetson 機器人晶片驅動的迪士尼機器人。黃仁勳對此非常滿意。

Jim Fan透露，今年2月，在黃仁勳的支持下，輝達建立了通用化身智能體研究實驗室－GearLab，Jim Fan是該實驗室的負責人。他將帶領團隊研究和佈局具身智慧、AI 智能體等下一代AI 與機器人結合的創新技術。

在演講中，Jim Fan表示，通用智能體擁有三大特徵──能在開放世界中探索、擁有大量世界知識、能執行無數任務。因此，這項領域技術研究需要足夠開放的環境、大規模預訓練資料和強大的基礎模型。

從AlphaGo、MineCLIP，到Voyager、Eureka、Groot，從具身化（Embodiment）和技能（Skill），從單一形態到多形態，輝達在「具身智能」和AI 智能體方面進行了多年的佈局研究，希望能在AI 通用體方面有所成果。

目前，輝達擁有多模態具身智慧系統Nvidia VIMA，其能在視覺文本提示的指導下，執行複雜任務、獲取概念、理解邊界、甚至模擬物理學——這也標誌著AI 能力的顯著進步。

Jim Fan指出，如今Groot計畫的目標，是為最通用的人形機器人打造基礎模型，透過海量環境訓練獲得通用性，並與各種基礎設施共建生態。而且，未來新的人形機器人不僅會搭載Jensen Thor晶片，也有望在邊緣運算設備上驅動Groot。

Jim Fan強調，GEAR 實驗室是一項以使命為驅動的研究。 “通用AI 之路任重道遠，GEAR 實驗室正朝著這一使命不懈努力。”

以下是Jim Fan在輝達GTC大會上的演講全文，影片和文字翻譯來自baoyu.io網站，鈦媒體App編輯進行部分人工修正，資訊僅供參考：

歡迎來到GTC。本次會議將很快開始。我叫Nathan Horrocks，我在NVIDIA 工作。有時，我會參與Jim 的專案。我很高興能來到這裡。我們現在就開始吧。

Jim Fan 是輝達NVIDIA的研究經理（Research Manager），也是「具身智慧」的主導者之一。他主要致力於開發具有泛化能力的自主智能體。為了應對這個重大挑戰，他的研究涵蓋了基礎模型、政策學習、機器人、多模態學習和大規模系統。他在史丹佛大學獲得了電腦科學博士學位。

以下是Jim Fan的演講內容。

開場：見證AlphaGo 戰勝李世乭的歷史時刻

謝謝大家這麼早就來參加會議。我想告訴大家一個關於2016 年春天的故事。那時候，我在哥倫比亞大學上課，但其實我並沒有在聽講座。我正在筆記型電腦上觀看的是一場棋類比賽，這可不是一場普通的比賽，而是非常特別的一場。這場比賽的對手是DeepMind 的AlphaGo 和李世乭。 AI 贏得了五局中的三局，成為了第一個在圍棋比賽中擊敗人類冠軍的AI。我仍然記得那種見證歷史的激動，當AI 智能體終於成為主流的那一刻，是何等的輝煌。

但是當興奮退去後，我意識到雖然AlphaGo 很強大，但它只能做一件事。它不能玩其他的遊戲，像是《超級瑪利歐》或《我的世界》，更別提做洗衣或洗碗這樣的家事了。而我們真正想要的是像《瓦力》那樣多才多藝的AI 智能體，像《星際大戰》中各種不同形態和實體的機器人一樣豐富多樣，能夠在無限的虛擬或現實世界中工作，就像在《頭號玩家》裡一樣。那麼，我們該如何在不遠的未來實現這個目標呢？這就是你通往通用AI 智能體的指南。

研究地圖：通往通用AI 智能體之路

大多數正在進行的研究可以從下面三個方面來看：一個AI 智能體可以掌握的技能數量，它可以控制的實體數量，以及它能夠理解的現實世界的數量。 AlphaGo 的位置就在這裡，但我們想到達的是右上角。因此，我在我的職業生涯中的大部分時間都在思考如何跨越這些挑戰，走向這個右上角。

今年初，我有幸在老黃的支持和祝福下建立了GearLab，我對這個名字感到非常自豪。 GearGAR 是通用化身智能體研究的簡稱。我與Yuko Zhu 共同領導這項工作，這是我們七年前在史丹佛大學拍攝的照片，那時，Yuko 和我都還是李飛飛團隊的博士生。我們經常舉辦機器人程式設計馬拉松，尤其是在截止日期前，我們的生產力最高。這裡的Jay 來自Dita 的團隊，他也在輝達研究中與GEAR 緊密合作。我們三人都從史丹佛大學搬到了輝達。哎，那時我們真年輕。看看博士學位讓我們變成了什麼樣。尋求通用人工智慧的過程充滿了痛苦和挑戰。

通用智能體的三大特徵

那麼，讓我們回到基本原則。一個通用智能體需要具備哪些基本特質呢？我認為有三點。

首先，它應該能夠在一個開放的世界中生存、導航和探索。一個具體的目標只有一個，而這個目標並不是開放的。

其次，世界知識。智能體應該擁有大量的預訓練知識，而不是只知道環境中的幾個概念。

第三，作為一個通用智能體，它必須能夠執行多項任務，理想情況下，應該能夠執行無數任務。你只要使用任意語言給予提示詞，智能體就應該能夠為你完成任務。

那麼，我們需要做些什麼呢？因此，我們需要的環境要有足夠的開放性，因為智能體的複雜性受到環境複雜性的限制。以我們所處的地球為例，正是因為地球的開放性，才催生了名為自然演化的演算法，創造了地球上所有多樣化的生命行為。那麼，我們能否創造一個基本上是低保真度的地球模擬器，但我們仍可以在實驗室的電腦上運作呢？

接下來，我們需要為智能體提供大量的預訓練數據，因為在如此開放的世界中從零開始探索幾乎是不可能的。這些數據將成為如何操作的參考手冊，更重要的是，它會告訴我們什麼是值得嘗試的有趣事物。

最後，我們需要一個可擴展性強的基礎模型，能將這大規模的數據轉化為可操作的洞察資訊。基於此，我們想到了"我的世界"，這是史上最暢銷的電玩遊戲。對於不熟悉的人來說，"我的世界"遊戲是一個由3D 立體像素程式生成的世界。在這個遊戲中，你可以盡情發揮你的想像。所以，該遊戲的獨特之處在於，"我的世界"並沒有設定具體的最高得分或要遵循的目標。這使它非常適合作為一個真正開放的環境。

"我的世界"作為通用智能體發展的沙盒

因此，我們看到了一些令人印象深刻的創作，如有人在《我的世界》中一塊一塊地建造了霍格華茲城堡。還有一些人，顯然是尋求挑戰，構建了一個功能性的神經網絡，因為"我的世界"具有邏輯門，而且被證明是圖靈完備的。

我想強調一個數字，"我的世界"有1.4 億活躍玩家。為了讓你更理解這個數字，這比英國的人口多了一倍以上。而且，遊戲玩家通常比博士們更愉快。他們熱愛遊戲，並樂於在網路上分享自己的遊戲經驗。這個龐大的玩家群每天都會產生大量的數據。問題在於，我們如何利用這些資料寶庫？

因此，我們推出了MineDojo，這是一個新的開放式框架，旨在幫助社區利用"我的世界"作為一種"原始湯"，開發通用AI 智能體。 MineDojo 主要由模擬器、資料庫和模型三部分組成。我們開發的模擬器API 解鎖了遊戲對AI 研究的全面潛力。我們支援像RGB、體素和GPS 等觀察空間，以及兩個不同層級的行動空間。 MineDojo 可以根據地形、天氣、怪物生成等各種細節進行客製化。此外，它還支持自由形式和開創性的任務。

例如，我們可能希望AI 智能體建造一棟房子。但是，什麼才算是房子呢？在簡單的Python 程式碼中實現這種成功標準非常困難。唯一的方法就是使用在網路技能知識上進行訓練的基礎模型，以捕捉"房子"這個抽象概念。

接下來，我們整理了一個關於"我的世界"的網路技能知識庫，目的是幫助AI 智能體從基礎開始學習，因為從零開始探索是非常困難的。這個資料庫包含三部分內容。首先是影片。我們發現"我的世界"是網上直播最多的遊戲之一，遊戲玩家喜歡分享他們的遊戲經驗，因此，我們收集了超過300,000 小時的遊戲視頻，視頻的文字轉錄包含超過20 億個單詞。第二部分是"我的世界" Wiki，它包含了7000 頁的多媒體內容，包括圖片、表格和圖表等。第三部分是"我的世界"的Reddit 版塊，我們發現人們在遇到"我的世界"的問題時會像在Stack Overflow 上尋求幫助一樣在這裡尋求解答。

以下是我們的MineDojo Wiki 資料集的一部分展示。你能相信嗎，有人列出了所有的製作配方，有數千個，並且詳細解釋了所有的怪物，基本上包含了你在任何版本的"我的世界"中可能遇到的各種遊戲機制。我從中領悟到，遊戲玩家們真是有很多時間投入遊戲。不過，我對此並無怨言，畢竟，感謝他們提供了這麼多的數據。感謝這些數據。

那麼，我們該如何利用這些數據呢？是時候訓練一個基礎模型了。

這裡的想法十分直接。對於我們的YouTube 資料庫而言，我們擁有時間同步的影片剪輯和劇本。這些實際上是真實的教程視頻，就像在TextPrompt 3 中看到的那樣。當我在這隻豬面前舉起斧子，你知道接下來會發生的唯一的事情。這其實是來自YouTube 的一個教學。

接下來，我們可以訓練一對編碼器，將影片和劇本映射到一個向量嵌入。然後，透過一個被稱為對比學習的過程，可以對這些嵌入進行訓練，這個過程實際上是將匹配的影片和文字聯繫在一起，將不匹配的影片和文字分開。這對編碼器就稱為MineCLIP 模型。

從直觀來看，MineCLIP 學習了影片和描述影片中動作的劇本之間的關聯。它會輸出一個在0 到1 之間的分數，1 代表完美的描述，而0 代表劇本與影片完全無關。

所以，這實際上變成了一種語言條件化的基礎獎勵模型，能理解森林、動物行為、建築，以及你在"我的世界"中可以想到的所有抽象概念細微差別。那我們要如何將MineCLIP 付諸實踐呢？

在這裡，一個智能體在和我們的MineDojo 模擬器交互，任務是用英語去剪羊毛。智能體在探索過程中會產生一個視訊片段，這個片段可以編碼並輸入到MineCLIP 中，然後，它會計算關聯度分數，越高智能體的行為就越符合文字提示詞，這就成為了你可以選擇的強化學習演算法的獎勵函數，這看起來很熟悉，對吧？

因為這就是來自人類回饋的強化學習，或者說RLHF。 RLHF 是支撐ChatGPT 的基石，我相信它在驅動實體化智能體方面也將發揮關鍵作用。這裡有一些我們訓練出來的智能體在各種任務中的表現。現在，我們把MineCLIP 應用到這個《銀河系漫遊指南》的任務中，它能完成的任務比AlphaGo 更多，但是你需要手動設定任務提示詞並為每個技能進行訓練，這是它的局限性。智能體本身並不能自我發現新的任務。

Voyager：GPT-4 驅動的自主探索者

但是，這一切在2023 年GPT-4 模型問世後發生了變化。 GPT-4 是一個在程式設計和規劃方面非常強大的語言模型。因此，我們開發了Voyager，這是一個在技能數量上擴大了很大規模的智能體。當我們把Voyager 放入"我的世界"遊戲中，它能夠在無人幹預的情況下連續玩遊戲好幾個小時。我展示的這些影片片段都是從一次連續的遊戲過程中提取出來的。 Voyager 一直在進行任務，它探索地形、開採各種資源、與怪物戰鬥、製作數百種配方，並且不斷解鎖新的技能樹。那麼，是什麼讓它如此神奇呢？

關鍵的理念就是把編碼當作行動。我們透過一個叫做MinePlayer 的開源"我的世界"模組，將3D 世界轉換成了文字形式。 Voyager 呼叫GPT-4 產生JavaScript 程式碼片段，這些程式碼片段在遊戲中變成了可執行的技能。就像人類工程師一樣，Voyager 寫的程式並不總是一次就能做對。所以，我們提供了一種自我反思機制來幫助它改進。這種自我反思機制依賴三個面向：JavaScript 執行錯誤，智能體的現況（如飢餓和健康度），以及世界狀態（例如地形或附近的怪物）。智能體採取行動，觀察其行動對世界和自己的影響，反思如何做得更好，然後不斷嘗試新的行動並持續改進。

當技能達到一定程度時，Voyager 會把這些程式存入一個技能庫，你可以把它看作是一個程式碼庫，這個庫完全是GPT-4 透過試誤的方式建立起來的。然後，當智能體在未來遇到類似的情況時，就可以從庫中取出技能來使用。透過這種方式，Voyager 在"我的世界"中探索和實驗的同時，遞歸地提升自己的能力。

我們一起來快速看一個例子。此時，智能體的飢餓條已經非常低，所以它需要尋找食物。它感知到周圍有四個生物：一隻貓，一個村民，一隻豬，還有一些小麥種子。於是，它開始內心獨白，我該殺貓還是村民來獲取食物？這感覺上似乎不太對。那小麥種子呢？我可以種植出農場，但那需要花太多時間。所以，真的很抱歉小豬，你被選中了。接著它查看背包，從庫中調取一項舊技能來製作一把鐵劍，然後開始學習一項新的技能，叫做獵豬。現在我們也知道，不幸的是Voyager 並不是素食者。

那麼仍然有一個問題。 Voyager 是如何持續不斷地探索的？我們給予Voyager 一個高階指令，那就是要盡可能多地取得新的物品。 Voyager 便實施了一項計劃，以尋找新的挑戰，並解決過程中日漸增加的困難。把所有這些結合起來，Voyager 就能夠在旅途中不斷掌握和發現新的技能。我們並沒有預設任何程式設計。你所看到的這個就是所謂的終身學習，這是一個智能體永遠抱持好奇心、總是勇於冒險的過程。

這是"我的世界"地圖的兩個鳥瞰圖。最大的橘色圈表示Voyager 行走的距離。智能體之所以能探索這麼大的範圍，是因為它需要透過移動來獲取盡可能多的新奇物品。因為它熱愛旅行，所以我們叫它Voyager。相較於MineCLIP，Voyager 能夠自我掌握更多的技能，但是它仍然只能控制"我的世界"中的一個身體。我們是否能有一個在不同的身體形式中都能運作的模型呢？

MetaMorph：適應多種形態的機器人控制器

進入MetaMorph。這是我與史丹佛研究人員共同開發的一個專案。我們創建了一個基礎模型，它不僅適用於一個，還適用於成千上萬個具有不同手臂和腿部配置的機器人。 MetaMorph 能夠輕鬆適應不同身體的極其多樣的運動特性。

這是我們的直覺。我們發展了一個詞彙表來描述機器人的部件，然後每個身體基本上就是用這個詞彙表語言寫出的一句話。更具體地說，每一個機器人可以被表達成一張關節圖或運動學樹。你可以把身軀轉換成一串token，透過深度優先搜尋遍歷這棵運動樹。這裡的每一個token 代表的是關節的一些物理性質，這個序列則描述了機器人的形狀。不同的機器人可能有不同數量和配置的關節，但分詞器並不在乎，對吧？它會將它們轉換成不同長度的序列，就像文字字串一樣。

那我們要怎麼處理這些序列呢？身為AI 研究人員，我們的本能反應就是應用transformer，這正是我們所做的。所以，MetaMorph 輸出的不是文本，而是每個關節的馬達控制。由於我們想學習一種適用於各種形態的通用策略，我們將所有的機器人描述批量處理，並訓練一個大型的多任務神經網絡，就像ChatGPT 一樣。

不論一個機器人看起來怎樣，對MetaMorph 來說都是一樣的。在MetaMorph 看來它們都只是句子而已。我們可以透過並行訓練所有的形態並進行強化學習來擴大其規模。在我們的實驗中，我們展示了MetaMorph 能夠控制數千個機器人，這些機器人具有極其不同的運動性質，使其能夠在不規則的地形上行走，並避開障礙物。

我們也發現了一個有趣的現象。我們發現MetaMorph 甚至可以零樣本地推廣，到從未見過的形態，這意味著只要使用正確的語言，Transformer 就能夠在不同實體之間進行轉換。

讓我們稍微推測一下未來。如果我們進一步擴大機器人身體詞彙，我設想有一天，MetaMorph 2.0 可以推廣到機器手臂、機器狗、不同類型的類人機器人，甚至更遠。所以與Voyager 相比，MetaMorph 在多體控制方面邁出了一大步。現在是時候將技能和身體跨越現實進行轉移了。

Isaac Sim：GPU 加速的虛擬世界

進入Isaac Sim，這是NVIDIA 的模擬模擬專案。 Isaac Sim 的最大優點是它能夠運行物理模擬，以比真實時間快1000 倍的速度。例如，這個角色學到了令人印象深刻的武術技能，透過在GPU 上僅用三天的模擬時間進行了10 年的虛擬訓練，這就如同電影《駭客任務》中的虛擬格鬥道場。

在這個賽車場景中，模擬已經越過了不可思議的山谷，感謝硬體加速器光追。我們可以渲染出驚人的複雜世界，並具有令人嘆為觀止的細節。這裡的逼真畫面有助於我們訓練電腦視覺模型，這將成為具身智能體的視覺。

更重要的是，在Isaac Sim 中，我們可以利用程式產生無限的世界，而且沒有兩個世界會看起來完全一樣。這兒有個有趣的設想。如果一個智能體在1 萬個不同的模擬中接受訓練，他們可能很好地適應我們的物理世界，這是第10001 個現實。

讓我們深入思考這個設想。那麼，Isaac Sim 能夠實現哪些新能力呢？這是Eureka，一個達到超人等級機器人靈巧度的智能體。好吧，可能不是所有的人，至少比我要好，因為我在小時候就放棄了學習轉筆，現在我終於可以讓我的AI 來彌補我的技能不足了。

Eureka：用語言引導強化學習

這就是我們的設想。 Isaac Sim 有一個Python API，用於建立訓練環境，例如在模擬中創建一個五指的模擬手，以與筆互動。我們也假設人類編寫的程式碼確定了成功的標準。例如，如果筆能夠一致地達到特定的3D 方向。這個成功標準只告訴你要做什麼，卻並沒有告訴你如何用手指關節來做。

Eureka 的第一步是將環境代碼和任務描述作為上下文輸入到GPT-4 中。這裡的任務是讓模擬的手將筆轉到目標方向。然後，Eureka 會取樣一個獎勵函數。這是一個非常細緻的訊號，有助於將神經網路控制器引導到良好的解決方案。通常來說，專業的人類工程師需要手動調整獎勵函數，這通常是一個繁瑣且困難的過程，需要大量的迭代和專業知識。如果你對物理模擬不夠熟悉，這項任務可能無法完成。所以我們選擇將其自動化。

一旦我們設定了獎勵函數，我們就可以運行強化學習，透過大量的嘗試和錯誤來最大化這個函數。對Eureka 來說，對其中一個獎勵函數進行完整的訓練只需要大約20 分鐘，而不是幾天，這多虧了Isaac Sim 中的大規模平行模擬。

當訓練循環結束時，它會提供一個自動回饋報告，告訴Eureka 它的表現。報告也會詳細分析獎勵函數中的不同部分，例如速度獎勵和姿勢獎勵。綜合這些訊息，GPT-4 會產生一系列獎勵函數的候選項，並對每個候選項進行完整的強化學習訓練。 Eureka 將自動回饋傳遞給大語言模型，要求它對結果進行自我反思。然後，大語言模型會思考如何改進，並提出下一代獎勵函數候選人，然後再次進行這個過程。這就像是一種基於上下文的進化式搜尋。

相較於專業的人類工程師，Eureka 能夠為每個任務，例如沿著不同軸旋轉筆，找到更好的獎勵函數。實際上，為了確保每種配置的正常運行，都需要對應的獎勵函數。這對機器人學者來說，一個手動調整無疑是個惡夢。相信我，我以前試過，簡直快要抓狂了。 GPT-4 比我們所有人都有更多的耐心。

所以值得注意的是，Eureka 是一種能彌補高層推理和底層馬達控制之間鴻溝的通用方法。 Eureka 採用了一種我稱之為"混合梯度架構"的全新方法，大語言模型作為黑箱推理器指導一個可學習的神經網路。所以外層循環是無梯度的，運行GPT-4 在編碼空間中優化獎勵函數。而內層循環則是基於梯度，訓練一個強化學習控制器去實現你想要的技能。你必須同時進行這兩個過程才能取得成功。

但是問題是，為什麼只停在獎勵函數呢？如果你夠細心，你會發現機器人體系裡的每一樣東西都像是程式碼，像是任務規格、機器人硬體規格，甚至是模擬環境本身，都可以透過程式碼來實現。對嗎？

所以舉個例子，我們可以使用像URDF 這樣的現成工具，而不是使用一種特別的語言來描述機器人的身體，人們通常在模擬堆疊中使用URDF。 URDF 只不過是一個XML，可以用來描述機器人的身體形態。所以在未來，我設想Eureka++ 將成為一個完全自動化的機器人開發者，利用這個基礎設施去訓練更優秀的智能體，並持續迭代。

我夢想的是有一天我可以去長假，而Eureka 會一直向我更新進度，即使我正在海灘度假。我們來看看離這個夢想還有多遠，但不要告訴老黃。在這個意義上，Eureka 並不僅僅是我們地圖上的一個點，而是一種力量向量，它可以推動任何方向的前沿發展。

Groot：人形機器人的基礎模型

隨著我們在地圖上的探索，我們最終會找到一個能夠在所有三個維度上泛化的模型，這就是右上角的"基礎智能體"。我相信，訓練這種基礎智能體的過程將會和ChatGPT 非常相似。所有的語言任務都可以被歸類為文字輸入和輸出，無論是寫詩、翻譯，或是做數學。訓練ChatGPT 就是在大量的文字資料上進行擴大。同樣的，基礎智能體會接受一個實體化提示詞和指令提示詞作為輸入，然後輸出行動指令。我們只需在大量環境中大規模擴大它。

基礎智能體是GearLab 的下一章。昨天，老黃在他的主題演講中宣布了我們路線圖上的一項重要倡議，即Groot 計畫。我們的目標是為人形機器人建立一個基礎模型。為什麼要選擇人形呢？因為這是最通用的形式。我們所生活的世界是為了適應人類和人類的習慣而形成的。理論上，我們在日常生活中可以做到的所有事情，都可以在足夠先進的人形機器人硬體上實現。因此，我非常興奮能與全球多家領先的人形機器人公司合作，讓Groot 能夠在不同的實體之間進行遷移。這是我在我們準備GTC 的過程中最喜歡的一張照片，拍攝於NVIDIA 總部前。

事實上，背後那棟大樓的名字叫做Voyager。在這裡，我們可以看到電子傅立葉的敏捷性和統一性，看看他們在NVIDIA 總部是多麼的快樂。

在一個更高的層面上，Groot 可以接受包括語言、視訊和示範等多模態指令，並在模擬以及真實世界中開發技能。這有一個視訊指令的例子。這是傅立葉智慧的GR1 機器人，它透過觀看影片學習模仿人類的舞蹈動作。 Groot 也可以透過人類的遙控示範來學習，例如Apollo 的榨汁技能。為了這個演示，我們在GearLab 買了很多水果，然後全部報銷了。謝謝老黃。接下來是GR1 透過模仿人類老師的動作來演奏鼓。

Groot 是在OSPO 上誕生的，這是一個新的計算調度系統，用於在DGX 上提升模型的規模，以及在OVX 上進行模擬。我們在Isaac 實驗室為人形機器人運行了許多不同的環境，期望模型能適應各種技能和環境，並能在模擬與真實的場景間無縫遷移，以便我們可以大規模擴展訓練，利用GPU 加速的模擬環境。

放眼看去，我相信未來所有的物體都將達到自主運動。Groot 專案和人形機器人只是我們追求的第一步。有一天，我們將意識到，無論是在《瓦力》、《星際大戰》或《頭號玩家》中，無論是虛擬世界還是物理世界，所有的智能體都只是對同一基礎模型的不同輸入。這，朋友們，就是我們追求通用人工智慧的目標。請和我們一起踏上這趟旅程。

謝謝。

問答環節

好的，感謝Jim 的分享。會議現在進入問答環節。如果有人有問題，請到這個麥克風後面排隊，我們會給他們提問的機會。

問題1：關於MineCLIP 與Dreamery 3 的任務訓練

好的，我非常欣賞Jim 這次的演講。我對即將到來的一切感到興奮。現在，當我看到像"我的世界"這樣的東西，你們有Voyager，它正在使用GPT-4 來獲取所有這些資訊。然後又有與之相反的方式，例如使用Dreamery 3，它是完全從零開始，透過強化學習來學習。對於這個基礎智能體，你認為哪兩種任務更可能成為主要任務，還是說，可能是這兩種任務的結合？

Jim：我覺得這是個很好的問題。我認為必然會是這兩種任務的結合，因為我們必然會有系統一和系統二推理的區別，這是人類自己也存在的情況。所謂的系統二推理，其實就是緩慢、深思熟慮、高層次的推理。而係統一則更偏向快速、直接、和動作控制。尤里卡就是其中的例子。你的大腦有一個緩慢的部分，它負責編寫獎勵函數，或者有朝一日，編寫完整的模擬和各種環境。然後，你的大腦還有一部分迅速反應，利用強化學習來控制一隻靈巧的手，這是像GPT-4 這樣的系統幾乎無法直接控制的。你要如何用純文字輸出來控制那隻手？而且這個過程還很慢。你必須以數百赫茲的速度進行。所以，我覺得一定會有這種區分。它們也會以不同的頻率推理，系統二的推理頻率較低，系統一的推理頻率較高。我覺得這也是人類思考問題的方式。我們會深思熟慮某些事情，形成全局的規劃，然後這個規劃就會影響我們的四肢動作。舉個例子，當你拿起一個瓶子的時候，你並不會真正去考慮每個手指的具體位置，也不會去感知你手指接觸瓶子的觸感回饋。你不需要去深思它。這就像是另一種低階神經網路在執行任務。

問題2：關於MetaMorph 與GAN 框架的關係

嗨，Jim。非常感謝你。這真讓人驚訝。我是表達公司資料科學副總裁Lei Yu。我有一個關於你在初步階段使用心靈連結作為回饋的問題。在那個框架中，你稱這個為強化學習。我在想，這是否與GAN 框架有關係，你使用心靈連結作為直接回饋，評估結果的好壞，作為判別器。然後你的生成器產生動作。你能解釋一下嗎？

Jim：是的。我認為這裡確實存在聯繫。我認為更接近的類比可能是RLHF，你正在從人類回饋中獲得強化學習。而人類的回饋部分是根據人類的偏好來學習。這裡的情況實際上也是一樣，只不過人類的偏好不是由我們僱用的承包商來提供標籤，而是通過學習大量的視頻來獲取，因為在線遊戲的玩家們已經在描述他們正在做的事情。所以你有這種文字和影片之間的匹配。你可以把這個當作一個訊號，確保無論智能體在做什麼，它產生的影片都與文字提示相匹配，透過優化這個獎勵函數。因此，我覺得這個模型確實有點像判別器，但現在它是基於語言的。因此，它是一個更強大的獎勵模型，一個更強大的判別器。所以，你能說你的判別器是基於語言的判別器嗎？我認為可以。它是一種基於語言的，像是分級的，對吧？評價影片或你的行動的好壞。所以它是一種判別器。

問題3：關於NVIDIA 對GEAR 實驗室的定位、合作夥伴以及長期看法

我是來自加州大學柏克萊分校的研究員，我認為這是一項優秀的研究。我們需要GPU 加速器，從模擬到整合到這個過程的所有部分。所以我的問題是，NVIDIA 對這個GEAR 實驗室的長期看法是什麼？你們是想要進行研究並為研究人員提供加速器基礎設施以加速這個實體化的過程，還是你們希望提供像是服務於通用人形機器人的高層次解決方案？

你認為最大的挑戰是什麼，接下來關注的步驟是什麼？

Jim：這是一個很好的問題，因為我在創建GEAR 時也深思過這個問題。我對GEAR 的定位是，主要以研究為導向。

我認為GEAR 在根本上仍然是一個研究實驗室，因為與LLMs 不同，雖然現在已經有了一套成熟的方法，但機器人學領域並沒有。目前還沒有人真正知道如何擴大機器人技術的規模，以及如何讓它在各個系統之間進行通用。還沒有人找到這個問題的答案。由此可見，這本質上仍是一個研究計畫。

同時，黃仁勳這次不僅宣布了Groot，還有一些與Groot 相配的東西。其中之一就是OSMO，我在我的幻燈片裡也提到過。這是一個計算編排系統，就像一個異構計算框架，來調度DGX 和OVX，一個用於訓練大型模型，一個用於模擬。因此，OSMO 與Groot 一起推出，因為Groot 需要這種非常特殊的基礎設施。對於LLMs，你不會有這個問題。你沒有模擬器。但一旦你有了模擬器，計算圖就變得非常複雜，你需要像OSMO 這樣的東西，它可以作為雲端服務提供。

接下來是Jensen Thor，未來有一天它會在邊緣運算裝置上驅動Groot。或是所有已經部署的類人機器人上。所以我們在這裡正在建構的其實是一個生態系統。我看Groot 是這個生態系統中的一個基石，你需要一個真正可以運作的基礎模型，來讓類人機器人變得有用。現在的類人機器人更像是個新奇玩意，他們並不實用。就像沒人真的在家裡有個可以為他們做所有雜活的類人機器人，這順便說一下，是我的夢想。不過，我現在還是很懶，我正在努力保持我的懶散。所以我一直在研究這個。但還沒有類人機器人能達到那個程度。

所以我們首先需要確保這些機器人能運作，然後我們可以開始部署，甚至進行大規模部署，我們可以將模型的計算一起打包發送。我們可以將這些模型與計算基礎設施一起提供。我們甚至可以開放API，讓人們可以部署在自己的機器人上客製化Groot。但現在這個設想還未實現。所以，它更像是目標驅動的研究。

好的，謝謝。

問：再問一個快速的問題。我聽到老黃提到你們有合作與一些大型機器人公司，對嗎？那些製造人形機器人的公司。那像是新創公司或研究團隊呢？你們預計會和他們有合作嗎？對於像研究實驗室這樣的機構來說，接受這種基礎設施，你們認為這是你們在尋找的合作夥伴嗎？

Jim：是的，許多製造人形機器人的公司本身就是新創公司。當然，我們歡迎像你這樣的研究人員和學生加入我們。你可以透過這個連結申請。我們正在招募。請隨時申請，我希望全球最優秀的人才都能加入我們，與我們一起在這個宏大計畫上共同努力。

對於與研究實驗室這樣的合作夥伴，我認為這更多是因情況而定的，因為對於類人機器人來說，硬體目前還沒有廣泛應用。但我願意進行討論。

我明白了，謝謝。

問題4：關於科技產業與學校合作培養學生

你好，Jim。首先，我也在期待一種可以來打掃房子的機器人。所以我非常期待它，我要問你一個完全不同的問題。我和學區做了很多工作，和高中生們一起，這是我熱衷的計畫之一，我不斷看到學生們所學的知識和勞動力市場真正需要的知識之間的鴻溝，隨著AI 和機器人科技的發展，這個鴻溝正在急劇擴大。那麼，你對科技產業與學校之間的合作有什麼建議，學校該如何為學生做好準備？我說的不只是大學階段。我比較關注的是高中四年級的學生，我看到很多很多的困惑，我也為他們做了很多講座和會議，也很樂意邀請你參加。

Jim：對，我認為對於像高中生這樣的學生或者說是教育總的來說，我覺得現在AI 的一個優點就是它的入門門檻已經顯著降低了。比如說，任何一個學生，無論是國中生還是別的，都可以註冊一個大語言模型帳戶，然後開始使用這個API，建立智能體。他們實際上可以在不需要太多資金的情況下複製Voyager 專案。我們已經把程式碼開源了。你可以把它連接到NVIDIA 的大語言模型API。你可以將其連接到OpenAI 的API。這非常便利且成本不高。因此，我認為現在的入門門檻已經降到了前所未有的程度。當我還是高中生的時候，我甚至沒有機會接觸電腦科學課程。我在大學時才編寫了我的第一行程式碼，我感覺現在的情況已經改變了，我很願意回到年輕時，從國中就開始使用大語言模型API 程式設計。那將是最酷的經歷。

是的，謝謝。非常感謝你，我很高興邀請你與學生們一起，向你學習。

問題5：關於智能體如何學習物理知識

你好，Jim，謝謝你的演講。我想問一個關於物理的問題。在你演講的開頭，你提到了智能智能體的一個特性就是對世界的理解。能否詳細解釋一下？你是如何從這種訓練中學習物理的？因為你向我們解釋了任務計畫可以嵌入到類似GPT 的模型中，但物理知識的學習卻大不相同。如果你能詳細解釋一下，我將非常感謝。

Jim：是的，我認為這是一個非常深入的問題。我不認為我們有一個非常明確的答案，但我可以分享我的理解。我認為如果在大量的視頻上進行訓練，並且做得足夠好，模型將能夠學習到一種我們稱之為'直觀物理'的物理知識，這也是人們在實際生活中的做法。我們在日常生活中並不會在大腦中計算微分方程或精確的物理現象。比如說，如果我現在打翻這杯水，我並不知道每個水分子會如何移動，我並不會去計算這個。但我知道我會把這件事弄得一團糟，然後Nathan 就會對我很生氣。這就是我們所說的"直覺物理"，我能大致預測出我的行為會帶來什麼後果。

因此，我認為在大量影片上訓練的模型，例如預測性模型如Sora，如果你在預測未來方面做得很好，那就意味著你必須實現一種隱式的直觀物理引擎，以實現泛化。你需要理解，當你打翻一杯水，它會破碎，這樣一些抽象的概念。我個人認為，如果你用這些模型去做精確的物理計算，可能效果並不理想，但如果你在機器人技術中使用這些模型，那麼這可能就是我們需要的數據。因為對機器人來說，他們並不需要精確計算每個水分子的運動，他們需要的只是像人類一樣的操作方式，對世界的直覺理解，以及從中學習因果關係。物理其實也是一種因果推理。這就是我認為影片和這類模型將如何幫助機器人智慧的發展。

問題6：關於Eureka 發現不同技能的能力

嗨，Jim，感謝你的演講。我對你的工作有幾個問題，這些問題對我們很激勵。問題主要和你的混合梯度框架有關，對我來說，這個框架更像是無縫對接到文獻中的無獎勵框架。我們如何確保Eureka 能發現與眾不同的技能呢？ Eureka 如何幫忙找到新的、不同的技能，以便更好地探索，找到新的可能性？

Jim：我認為，Eureka 的能力在某種程度上會受到基礎模型本身的影響。 Eureka 是基於GPT-4 建構的，這已經是很久以前的事了。我認為，GPT-4 本身已經得到了改進，現在還有Gemini 模型和雲端模型。因此，哪個模型更富有創造性、更具多樣性，Eureka 就會從這個模型繼承下來。

所以，如果模型本身缺乏多樣性，那麼可能只會陷入某種局部最低點，無法提出新的解決方案。但至少在我們論文中的實驗裡，我們針對一些需要靈巧操控的任務，我認為Eureka 在這個功能空間的搜尋做得非常好。

實際上，我們在論文中有一張圖表顯示Eureka 設計的獎勵函數實際上比人類工程師能提出的要優秀。就像我說的，人類工程師不得不進行反覆試驗，這樣做簡直就像是一場惡夢。因此，Eureka 就是為了自動化這個過程並做得更好。但這並不意味著它可以在所有領域都發揮出色的作用。這真的取決於LLM。

問題7：關於將研究從實驗室應用到現實世界的挑戰

你好，Jim，感謝你分享關於你的使命驅動的研究。我是哥倫比亞商學院的Dave。我想知道，你認為你的研究從實驗室應用到現實世界的最大挑戰是什麼？

JIm：謝謝。關於最大的挑戰，我認為，將模擬應用到現實中非常困難。因此，我相信，如果你在10,000 個模擬中接受訓練並且在它們中都表現優秀，你就有很大的機會成功地將其應用到現實世界。但實際情況並非總是那麼簡單，對吧？這取決於很多因素。其中之一就是模擬的逼真度。你肯定希望模擬能盡可能精確或至少不在關鍵的領域出現系統性的錯誤。機器人的硬體本身也可能出現故障，對吧？軟體實現現實應用時也可能有錯誤。出錯的可能性是多方面的。

但是到目前為止，我們以及過去NVIDIA 研究的工作，在實現模擬轉移到現實應用方面已經取得了相當大的成功。我們採用了一種被稱為"領域隨機化"的方法，就像創建了10,000 種不同的模擬環境，每一種都有稍微不同的物理參數，例如不同的重力，不同的摩擦力。如果你的模型能對所有這些變化保持穩健，那麼它就能有效地應對現實世界中的各種情況。因為你可能不完全知道現實世界的重力和摩擦係數，它們可能會有些許的偏差。但如果你的模型對這些參數的分佈具有穩健性，那麼現實世界中的參數其實也就落在你模型能處理的範圍之內，你的模型就能泛化到現實世界。但這只是理想情況，實際情況中並不總是如此。我認為將模擬應用到現實中是這裡的關鍵挑戰。這是一方面。

另一方面，目前還沒有人能完全解決機器人技術的問題。如果有人告訴你他們已經解決了機器人技術的問題，那你要有所懷疑。我並不相信現在已經有人能完全解決這個問題。機器人技術面臨的關鍵問題，也是它所面臨的困難點，就是數據。對於像我之前說的ChatGPT 這樣的模型，你可以取得大量的網路文字數據，然後擴大模型的訓練規模。但在網路上取得機器人控制的數據幾乎是不可能的。這就是為什麼機器人技術像是像GPT-4 這樣的技術要困難得多的一個原因。那麼，你又該如何蒐集這類資料呢？在我們的GEAR 實驗室的規劃中，我們正在考慮多種數據的組合。你需要網路數據，你需要模擬數據，你也確實需要真實的機器人數據。這些不同來源的數據各有優缺點，互為補充。所以比起只需要網路資料的語言模型訓練，這個過程要複雜得多。因為在這裡你需要考慮其他兩種來源的數據。對於機器人技術來說，你需要考慮整個系統。

因此，除了將模擬應用到現實中，數據問題是我看到的第二個關鍵挑戰。

第三個挑戰是如何將規模做大。儘管這與數據問題有關，但是如果你有互聯網上的所有視頻，你又能從中學到什麼呢？你會預測下一幀嗎？即使你有一個SORA 模型，你又該如何將這個模型應用在機器人技術上？這個問題不容易回答，為什麼呢？因為SORA 模型並沒有包含動作這個要素。這是從文字轉化為影片的過程，但你想要的是其中的動作。動作的捕捉是非常困難的，尤其是在你有靈巧手部的人形機器人中。動作的取得真的非常困難。所以，即使你擁有全世界的運算能力，擁有全世界的數據，如何從中抽取具象化智能體的訊號，這仍是一個未解決的難題。這就是為什麼我說GEAR 實驗室是一項以使命為驅動的研究，儘管面臨許多困難，但這是我們無法推遲的關鍵任務。

謝謝。感謝你的分享。(鈦媒體AGI)