黃仁勳:機器人要爆發了|輝達把訓練場搬進“數字世界”(Omniverse + Cosmos)

黃仁勳的核心觀點是:機器人(Physical AI)將迎來能力爆發,關鍵在於把訓練場搬進可規模化的數字世界——用 Omniverse 搭建可物理模擬的 3D 世界平台、用 Cosmos 作為面向物理世界的“世界模型”,並像“PDF/搜尋”那樣引入 ground truth(事實錨點):用模擬把牛頓物理等規律“編碼”進去,去約束/校準模型生成的未來情境保持物理可信;這樣機器人就能在虛擬環境裡以安全、低成本、超高頻的方式覆蓋海量光照/材質/場景組合,學到能力後再遷移到真實世界,構成爆發的技術基礎。

來源:AI工業(採用 AI 工具整理)

本文基於 黃仁勳 等的公開視訊(https://www.youtube.com/watch?v=-bMIq_WM4gg)進行學習復盤,僅供學習交流參考。亦可加入知識星球閱讀更多資料(方式見文末)。

從「無解難題」到深度學習拐點

來源:AI工業(採用 AI 工具整理)

2012 年前,電腦視覺、語音識別、語言理解這些關鍵智能問題幾乎沒有解法,只能算是人類「強烈渴望但無能為力」的難題。深度學習出現之後,這些問題開始在短短幾年內被逐一攻克,從“沒有解決方案”變成“一個接一個被解決”,這讓押注這條路線的人,看到了足夠堅定的理由:未來一定會徹底改變。

在這樣一條長期路線上,要穿過八到十年的「真空期」,關鍵在於你有沒有一套穩固的核心信念。這套信念必須從第一性原理出發推理——要麼基於物理規律,要麼基於對行業結構的深刻理解,要麼基於對相關科學的深入理解。只要這些底層原理和初始假設沒有變化,就沒有理由去改變自己的核心判斷。中間可能會有很長一段時間看不到明顯成果,你會微調方向,但不會輕易推翻整套信念。也正因為如此,輝達在真正結果出現之前,已經在這條路線投入了數百億美元,即便外界有聲音希望公司“多留利潤、抬股價”,他們仍選擇優先投資自己的未來。

兩大核心判斷:計算範式與深度學習本質

來源:AI工業(採用 AI 工具整理)

這背後最重要的是兩個核心判斷。第一個是關於計算範式的判斷:未來的主線是加速計算和平行計算,而不是只依賴傳統通用 CPU。通過專門為平行和加速設計的處理器,可以重新定義高性能計算的方式,這一判斷從公司早期就被提出,一直到今天依然成立。

第二個判斷是對深度學習本質的認知:

深度神經網路可以從各種不同模態的資料中學習模式和關係,

並且隨著模型規模與資料規模的增大,能夠學到更細膩、更豐富的特徵。

實踐已經證明,模型越大、資料越多,能學到的知識確實越多,而且目前並沒有發現明確的物理極限、架構極限或數學極限,這意味著這條路線可以持續沿著「更大模型 + 更多資料」的方向推進。

在這個視角下,資料本質上是人類經驗的數位化。深度學習已經能夠從圖像中學習物體識別,從聲音中學習語音,從海量文字中學習語言、語法、詞彙、句法等結構;更進一步,它可以在不同模態之間進行「翻譯」:文字到文字(摘要、翻譯)、文字到圖像(圖像生成)、圖像到文字(圖像描述)、氨基酸序列到蛋白質結構,未來甚至是蛋白質到自然語言(用一句話解釋一個蛋白的功能,或根據目標性質反推一個蛋白結構)。同理,也可以從文字到視訊,從文字到機器人動作 token。從計算的角度看,這些只是不同模態之間的對應問題,而深度學習已經證明它幾乎可以處理任何模態到任何模態的轉換,於是很多原本看似遙遠的難題,其實都已經在拐角處等待被解決。

回顧過去十年,更多的是在夯實「AI 的基礎科學」:摸清模型、演算法、算力、資料之間的關係,證明這條路線真的能走得通。而接下來的十年,在繼續推進基礎研究的同時,重心會明顯轉向「AI 的應用科學」——也就是:如何把這些能力嵌入到具體行業裡。包括數字生物學、氣候科技、農業和漁業、機器人與自動駕駛、交通與物流最佳化、教育與教學、內容與媒體等,AI 不再只是研究課題,而是會成為各行各業的通用基礎能力。

Physical AI:在數字世界裡訓練機器人

在所有應用方向裡,Physical AI——也就是機器人——是一個特別典型的例子。傳統做法要麼在真實世界中訓練機器人,風險高、成本高、磨損大;要麼依賴有限的資料來源,比如讓人穿動捕服採集動作,

這會導致樣本不足、學習緩慢。現在的轉變在於:我們開始在數字世界中訓練機器人,讓它們在虛擬環境裡進行高頻訓練,每天可以經歷遠超現實的重複次數和環境變化,學習速度因此大幅提升。這意味著,機器人領域可能正在走向一次能力「大爆炸」。

為此,輝達在搭建配套的「世界」與「工具」。Omniverse 是一個 3D 數字世界平台,用來訓練機器人系統,讓它們不必完全依賴物理世界才能學習;而 Cosmos 則讓這些 3D 世界變得更加真實與多樣:同一張桌子、同一項任務,可以模擬無數種光照、時間、場景與材質組合,讓機器人在虛擬環境中經歷極其豐富的“人生體驗”。

通過 Omniverse + Cosmos,機器人可以在虛擬世界中以安全、低成本、超高頻的方式訓練,然後再把學到的能力遷移到物理世界,構成 Physical AI 爆發的技術基礎。

ChatGPT 剛出來時非常驚豔:它能根據提示詞生成文字。但它也有明顯問題——當對話變長,或它對自己並不真正瞭解的話題開始“高談闊論”時,會出現幻覺(hallucination):仍能生成看起來很合理的答案,但不一定基於事實,缺少“真實錨點”。

下一代能力是:模型能被上下文(context)約束。你上傳 PDF,那 PDF 就成為 ground truth(事實基準);模型聯網搜尋,搜尋結果就成為它的事實依據。在“生成模型 + 事實錨點”的組合下,它再去推理如何回答問題,就更可靠。也就是說:第一部分是生成式 AI,第二部分是ground truth(真實依據)。

把這個思路延伸到物理世界:要讓機器人真正理解現實,需要一個物理世界的基礎模型(foundation model)。機器人必須理解重力、摩擦、慣性,具備幾何與空間認知;理解物體恆存(object permanence)(看不見時物體仍存在);理解因果關係(推倒會倒、傾斜會翻)。這些“物理常識”需要被編碼進世界基礎模型,讓 AI 擁有world common sense(世界常識)。

他們用Cosmos去做這件事:建構一個**“世界模型 / world language model”,就像 ChatGPT 是語言模型一樣,Cosmos 是面向物理世界的模型。但僅有模型還不夠,還要像“PDF/搜尋”那樣加入ground truth。他們用 Omniverse 的物理模擬來做“事實錨點”:模擬基於牛頓物理等已知規律,通過原則性求解器把物理定律“編碼”進去,

因此可以用來約束/校準 Cosmos,使其生成的未來場景是物理上可信(physically plausible)的。

因此,Omniverse(模擬) + Cosmos(世界模型) 能生成無限多符合物理規律的未來情境,讓機器人在數字世界裡快速學習。

比如工廠機器人要學習所有可能路線,

不必在現實中一條條試(耗時且磨損),而是通過模擬在更短時間裡覆蓋更多情況(黑暗、阻塞等),實現更快學習。

他預測:未來 10 年,“所有會移動的東西都會變得機器人化”,而且會很快。

車輛將更自動化;機器人會先在“Omniverse + Cosmos”裡學習,再進入真實世界。

風險、幻覺與「社區式安全架構」

來源:AI工業(採用 AI 工具整理)

同時也必須討論風險:包括 偏見、毒性、幻覺(對未知內容過度自信導致人們依賴錯誤資訊)、生成假資訊/假新聞/假圖像,以及冒充(impersonation)(AI 能高度擬人甚至擬某個具體人)。

在安全工程上,他強調兩類問題:一類是系統本意正確但因工程失誤導致傷害(如自動駕駛的感測器故障、漏檢、策略錯誤);另一類是 AI 想阻止風險但系統鏈路失敗。解決方式類似航空:依靠冗餘與多層安全網,建構“社區式安全架構”——系統正常時可靠運行,異常時不把人置於危險,並由周圍的安全與防護系統兜底。 (AI工業)