【GTC 2026】黃仁勳(聖何塞)演講全文實錄
美國當地時間3月16日中午,黃仁勳在聖何塞發表了GTC主題演講,下面是演講的摘要和全文實錄
摘要:
一、生態與市場
CUDA 20 周年:歷經 13 代迭代,全球數億台 CUDA 裝置建構生態飛輪,庫下載量爆發,老架構 GPU 雲端價格持續上漲。
算力需求爆發:截至 2027 年,Blackwell 與 Rubin 架構需求規模達1 兆美元,推理算力需求較兩年前提升約 10000 倍。
定位轉型:從晶片公司轉向 AI 工廠、AI 基礎設施公司,打造垂直整合、水平開放的計算生態。
二、關鍵硬體規格與性能指標
NVLink 72:第六代互聯技術,72 顆 GPU 全互聯頻寬130TB/s,Vera Rubin 升級至260TB/s,支援液冷與 CPO 共封裝光學。
Vera Rubin 超級電腦:7 顆晶片、5 款機架,十年算力提升4000 萬倍;Vera CPU 為全球首款資料中心 LPDDR5 CPU,單線程與每瓦性能領先。
Groq LP 30 融合方案:單晶片 500MB SRAM,2026 年 Q3 量產,與 Vera Rubin 解耦推理,高價值場景性能提升35 倍,延遲降低約一半。
能效突破:Grace Blackwell 較 Hopper 每瓦性能提升35 倍(實測最高 50 倍),Token 成本全球最低;1 吉瓦資料中心 Token 產量兩年提升 350 倍。
量產進度:Spectrum-X、Vera 系統已量產,供應鏈每周生產數千台機架,支撐月均數吉瓦 AI 工廠建設。
三、軟體與生態發佈
資料加速庫:cuDF(結構化資料)、cuVS(向量資料),聯合 IBM 等實現資料處理速度提升 5 倍、成本降低 83%。
智能體生態:支援 OpenClaw,推出企業級 NemoClaw 參考方案,成立 Nemotron 聯盟,整合近 300 萬個開放模型。
AI 工廠平台:Omniverse DSX 實現吉瓦級工廠數字孿生,Max-Q 動態最佳化電力與吞吐量。
四、行業合作落地
自動駕駛:新增比亞迪、現代、日產、極氪,聯合優步部署自動駕駛計程車。
雲廠商:Azure 上線首台 Vera Rubin 機架,深度整合 AWS、Google Cloud 等全球雲服務商。
機器人:GR00T、Alpamayo 模型賦能產業,合作西門子、ABB、迪士尼等,現場展示 110 台機器人。
以下是全文實錄:
-----------------
黃仁勳:
歡迎來到GTC 大會。
我想提醒大家,這是一場科技大會。看到大家一大早就排起長隊,現場座無虛席,我倍感振奮。本屆GTC 大會,我們將探討科技,探討平台生態。輝達擁有三大平台:大家最熟悉的是CUDA-X平台,我們的系統平台是其二,如今我們又推出了全新的AI 工廠平台。我們會逐一講解,而最重要的,是探討生態體系。在開始之前,我要感謝開場環節的主持人,他們的表現非常出色。
來自Conviction 的薩拉,來自紅杉資本的阿爾弗雷德・林,紅杉資本是輝達最早的風險投資機構,加文・貝克則是輝達最早的大型機構投資者。這三位人士深耕科技領域,對行業趨勢有著深刻洞察,擁有廣泛的科技生態資源。同時,我還要感謝今天親自邀請到場的各位貴賓,這支全明星團隊。感謝大家的到來。我也要感謝所有參展企業。
眾所周知,輝達是一家平台型公司,我們擁有核心技術、平台生態和豐富的合作夥伴體系。今天到場的企業,幾乎涵蓋了全球百兆級產業的全部領域。本次大會有450 家贊助商,1000 場技術講座,2000 位演講嘉賓。大會將覆蓋人工智慧五層架構的每一個層面:從算力、電力、基礎設施,到晶片、平台、模型,以及最重要的應用層。最終推動整個行業騰飛的,是各類應用。而這一切,都始於這裡。
今年是CUDA誕生 20 周年,我們深耕 CUDA 架構已有 20 年。這項革命性的發明,實現了單指令多線程執行,讓標量程式碼能夠輕鬆拓展至多線程應用,程式設計難度遠低於單指令多資料流架構。我們近期新增了瓦片式程式設計模型,助力開發者更好地使用張量核心,以及當下人工智慧領域至關重要的數學運算結構。我們建構了數千種工具、編譯器、框架和庫,開源社區中有數十萬公開項目。CUDA 已經深度融入每一個生態體系。這張圖表,精準詮釋了輝達 100% 的戰略佈局。從一開始,我就一直在用這張幻燈片和大家溝通。而最難實現的,是最底層的裝機量。我們用了 20 年時間,在全球建構了數億台運行 CUDA 的 GPU 和計算系統,覆蓋每一朵雲、每一家電腦廠商,服務幾乎所有行業。CUDA 的裝機量,正是生態飛輪加速轉動的核心原因。裝機量吸引開發者,開發者創造新演算法,實現技術突破,比如深度學習。諸如此類的突破數不勝數。這些突破催生了全新市場,圍繞這些市場建構新的生態,吸引更多企業加入,進而擴大裝機量。如今,這個飛輪正加速運轉。輝達庫的下載量呈爆發式增長,規模空前,增速前所未有。正是這個飛輪,讓我們的計算平台能夠支撐海量應用和無數新突破。更重要的是,它讓這些基礎設施擁有了超長的使用壽命。原因顯而易見:輝達 CUDA 平台可運行的應用數不勝數,我們支援人工智慧生命周期的每一個階段,覆蓋所有資料處理平台,加速各類科學計算求解器。
應用場景的廣泛性,使得輝達GPU 一旦部署,使用壽命就會極長。這也是六年前發佈的安培架構 GPU,如今在雲端的價格仍在上漲的原因之一。這一切的核心,都源於龐大的裝機量、高速運轉的生態飛輪和廣泛的開發者覆蓋。在此基礎上,我們持續更新軟體,計算成本不斷下降。加速計算極大提升了應用運行速度,同時,我們在產品生命周期內持續最佳化和更新軟體,不僅能實現一次性性能躍升,還能讓加速計算的成本持續降低。我們願意為全球每一款 GPU 提供持續支援,因為它們在架構上完全相容。龐大的裝機量讓這一切成為可能 —— 每一次最佳化更新,都能惠及數百萬使用者,惠及全球每一位使用者。這種動態合力,讓輝達架構不斷拓展邊界,在加速增長的同時降低計算成本,進而催生新的發展機遇。
CUDA 是整個生態的核心,但我們的征程早在 25 年前就已開啟GeForce,我知道很多人的成長都伴隨著 GeForce。它是輝達最成功的行銷品牌,早在大家有能力自主消費前,就通過父母的購買,成為了我們的潛在使用者。年復一年,父母為你們買單,直到某天你們成為優秀的電腦科學家,成為輝達真正的客戶和開發者。這就是 GeForce 鑄就的根基。25 年前,我們踏上了通往 CUDA 的征程,發明了可程式設計著色器—— 全球首款可程式設計加速器,這是讓加速器實現可程式設計化的必然創新。像素著色器的誕生,推動我們不斷探索前行。
五年之後,也就是20 年前,CUDA 問世。這是我們最大的投資之一,當時甚至超出了公司的承受能力,耗費了企業絕大多數利潤。我們依託 GeForce,將 CUDA 普及到每一台電腦。我們全心投入打造這個平台,因為我們堅信它的無限潛力。儘管初期歷經艱難,我們始終堅守信念。20 年間,歷經 13 代產品迭代,如今 CUDA 已遍佈全球。像素著色器引發了 GeForce 的革命,大約十年前,我們推出了RTX,徹底重構了面向現代電腦圖形學的架構。GeForce 將 CUDA 推向世界,也讓亞歷克斯・克里澤夫斯基、伊利亞・薩斯凱弗、傑佛瑞・辛頓、吳恩達等先驅發現,GPU 可以成為加速深度學習的利器。十年前,人工智慧大爆炸就此開啟。我們決定融合可程式設計著色技術,推出兩大創新理念:硬體光線追蹤,這是一項極具挑戰的技術。另一個在當時看來超前的理念:我們認為,人工智慧將徹底變革電腦圖形學。正如 GeForce 將 AI 推向世界,如今 AI 將反過來重塑整個電腦圖形學的實現方式。
今天,我將向大家展示未來的技術—— 我們的下一代圖形技術,名為神經渲染,融合 3D 圖形與生成式人工智慧。這就是DLSS 5。
(演示環節)
我們做了什麼?我們融合了可控制的3D 圖形 —— 虛擬世界的真實基礎、結構化資料,請記住這個詞,虛擬世界與生成世界的結構化資料。我們將 3D 圖形結構化資料與生成式人工智慧、機率計算相結合。一邊是精準可預測,一邊是機率化卻高度逼真。我們融合這兩種技術,通過結構化資料實現完美控制,同時完成生成創作。最終的內容既精美逼真,又可精準調控。這種融合結構化資訊與生成式 AI 的理念,將在一個又一個行業中落地。結構化資料是可信人工智慧的基礎。接下來的內容可能會讓大家有些驚訝,我要切換幻燈片,請不要驚呼。接下來的時間,我們將圍繞這張示意圖展開。這是我最滿意的一張幻燈片,每次我問團隊那張最好,答案都是它。他們勸我:“黃仁勳,別用這張。” 但我堅持,對部分觀眾來說,這是免費的座位,這就是你們入場的 “代價”。這就是結構化資料,大家都有所耳聞:SQL、Spark、Pandas、Velox,這些重要的大型平台,Snowflake、Databricks、亞馬遜 EMR、Azure Fabric、Google雲 BigQuery,所有這些平台都在處理資料幀 —— 巨型電子表格,承載著世間所有資訊。這就是結構化資料,是商業的真實基礎,是企業計算的核心依據。未來,人工智慧將運用這些結構化資料,我們必須全力加速其處理效率。過去,加速結構化資料處理只是為了降低成本、提升處理頻率,讓企業營運更高效。而未來,AI 將主導這些資料結構的使用,其處理速度遠超人類。
未來的智能體也將使用結構化資料庫,同時還有非結構化資料庫、生成式資料庫,它們佔據了全球資訊的絕大部分:向量資料庫、非結構化資料、PDF 檔案、視訊、演講內容。全球每年產生的資訊中,約 90% 都是非結構化資料。直到今天,這些資料對世界而言幾乎毫無價值 —— 我們閱讀後存入檔案系統,卻無法查詢、檢索,核心原因是非結構化資料難以建立索引,必須理解其語義與用途。如今,人工智慧可以做到這一點。正如 AI 實現了多模態感知與理解,我們可以用同樣的技術,讀取 PDF 檔案,理解其內涵,並將其語義嵌入可檢索、可查詢的結構化體系中。
輝達打造了兩大基礎庫:正如我們為3D 圖形推出 RTX,我們為資料幀(結構化資料)推出cuDF,為向量儲存(語義資料、非結構化資料、AI 資料)推出cuVS。這兩大平台將成為未來最重要的基礎設施。我非常期待它們在全球複雜的資料處理系統網路中得到廣泛應用。資料處理領域發展已久,匯聚了眾多企業、平台和服務,我們花了很長時間才深度融入這個生態。我為團隊的工作感到無比自豪。今天,我們宣佈多項合作:SQL 的發明者 IBM,史上最重要的領域專用語言締造者,將通過cuDF加速 Watsonx Data,請看演示。
【播放視訊】
60 年前,IBM 推出 System/360,首款現代通用計算平台,開啟了計算時代。隨後,SQL—— 一種無需逐行指令即可查詢資料的聲明式語言,以及資料倉儲,共同奠定了現代企業計算的基石。今天,IBM 與輝達攜手,為 AI 時代重塑資料處理:通過輝達 GPU 計算庫加速 IBM Watsonx Data 的 SQL 引擎。資料是賦予 AI 上下文與意義的真實基礎,AI 需要快速訪問海量資料集。如今的 CPU 資料處理系統已無法滿足需求。雀巢每天要做出數千個供應鏈決策,其訂單快取資料集市彙總了全球 185 個國家的所有供應訂單與交付資訊。在 CPU 環境下,資料集市每天僅能更新數次;而基於輝達 GPU 運行的加速版 Watsonx Data,雀巢可將相同工作負載的速度提升 5 倍,成本降低 83%。全新計算平台已然到來:面向 AI 時代的加速計算。
【回到黃仁勳】
輝達在雲端加速資料處理,也在本地部署場景中實現加速。戴爾是全球領先的電腦系統製造商,也是頂尖的儲存服務商,我們與戴爾合作打造了戴爾AI 資料平台,整合 cuDF 和 cuVS,建構面向 AI 時代的加速資料平台。這是我們與 NTT Data 合作的案例,實現了大幅性能提升。再看Google雲,我們與Google雲合作已久,加速其 Vertex AI,如今又實現了對 BigQuery 的加速 —— 這是至關重要的框架與平台。這是我們與 Snapchat 的合作案例,將其計算成本降低了近 80%。加速資料處理、加速計算,不僅能帶來速度與規模的提升,更能實現成本最佳化,三者相輔相成。
這原本是摩爾定律的使命:每兩年性能翻倍,意味著在價格基本不變的前提下,每年性能提升一倍,或計算成本降低一半。如今摩爾定律已逐漸失效,我們需要全新路徑,而加速計算讓我們實現跨越式發展。正如後續大家將看到的,我們持續最佳化演算法—— 輝達本質上是一家演算法公司。憑藉廣泛的覆蓋範圍和龐大的裝機量,我們能夠持續降低計算成本,提升全球使用者的計算規模與速度。這是Google雲的案例,我想展示三個不同的實例。輝達打造了加速計算平台,上層搭載眾多庫,RTX、cuDF、cuVS 都是其中代表,後續還會展示更多。這些庫建構於我們的平台之上,最終我們將其整合到全球雲服務、原始裝置製造商以及其他平台中,觸達全球使用者。
輝達、Google雲、Snapchat 的合作模式,將不斷複製推廣。我們與Google雲合作,加速 BigQuery,在 PyTorch 上表現卓越,同時也是全球唯一在 JAX、XLA 上同樣出色的加速廠商。我們服務的客戶包括 Base、CrowdStrike、Puma、Salesforce 等,它們並非直接的輝達客戶,而是我們的開發者客戶 —— 我們將輝達技術整合到其產品中,最終落地到雲端。我們與雲服務商的關係,本質上是為其帶來客戶。我們整合庫、加速工作負載,將客戶引入雲端。顯然,大部分雲服務商都樂於與我們合作,不斷要求我們將下一個客戶引入其平台。我想告訴大家,我們的客戶數量眾多,我們會為所有客戶提供加速支援,會有源源不斷的客戶落地到你們的雲端,請大家耐心等待。
這是Google雲,接下來是AWS。我們與 AWS 合作已久,今年最令人振奮的合作之一,是將 OpenAI 引入 AWS,這將極大推動 AWS 的雲端運算消耗,拓展 OpenAI 的服務範圍與算力規模 ——OpenAI 目前完全受限於算力。我們為 AWS 的 EMR、SageMaker、Bedrock 提供加速,輝達技術已深度整合到 AWS 生態,AWS 是我們的首家雲合作夥伴。
再看微軟Azure,我們打造的首台百億億級超級電腦,就部署在 Azure,這也開啟了與 OpenAI 的成功合作。我們與 Azure 的合作由來已久,為其雲服務提供加速,如今 Azure 已成為其 AI 工廠。我們深度合作,加速必應搜尋,共建 Azure 區域節點。隨著 AI 在全球的普及,機密計算成為一項關鍵能力:確保即使是雲服務商,也無法查看你的資料、觸碰或訪問你的模型。輝達 GPU 是全球首款支援機密計算的 GPU,如今我們能夠通過機密計算,在全球各雲端和區域安全部署 OpenAI、Anthropic 等極具價值的模型。這是我們與新思科技等客戶的合作案例,加速其電子設計自動化與電腦輔助設計工作流,並落地到微軟 Azure。
我們是甲骨文的首家AI 客戶,很多人以為我們是其首家供應商,實則不然。我很自豪,是我首次向甲骨文闡釋了 AI 雲的理念,我們成為了其首家 AI 客戶。此後,甲骨文 AI 業務飛速發展,我們將眾多合作夥伴引入其中,包括 Cohere、Fireworks,以及著名的 OpenAI。我們與 CoreWeave 也建立了深度合作,它是全球首家 AI 原生雲服務商,成立的唯一目標就是在加速計算時代提供 GPU 託管服務,服務於 AI 雲。
CoreWeave 擁有眾多優質客戶,增長勢頭迅猛。還有一項令人振奮的合作:瓦倫西亞、戴爾與輝達三家企業,攜手打造了全新類型的 AI 平台 ——主權 AI 平台。我們可以在任何國家、任何隔離區域,完全本地部署、現場部署、邊緣部署這些平台。AI 可以部署到世界的每一個角落,而這一切,離不開我們的機密計算能力、端到端系統建構能力,以及覆蓋從資料處理(向量、結構化資料)到 AI 全端的加速計算能力。
我想展示這些案例,體現我們與全球雲服務商的特殊合作關係。所有雲服務商都到場參會,我在巡展期間與他們交流,內心無比激動。感謝大家的辛勤付出。輝達所做的,是成為全球首家垂直整合、水平開放的公司。這一模式的必要性顯而易見:加速計算並非單純的晶片問題,也不是系統問題,完整的表述應該是應用加速計算—— 我們如今已省略了 “應用” 二字。如果能讓一台電腦加速所有任務,那是 CPU 的定位,但如今 CPU 已難以滿足需求。未來,實現應用加速、持續提升速度、降低成本的唯一路徑,就是應用級或領域專用加速。這就是輝達必須持續打造各類庫、覆蓋各個領域、實現垂直整合的原因。我們是垂直整合的計算公司,別無選擇:必須理解應用、理解領域、理解底層演算法,必須明確如何在不同場景(資料中心、雲端、本地、邊緣、機器人系統)部署演算法,這些計算場景各不相同。
最終,我們實現了晶片與系統的垂直整合。而其強大的核心,在於輝達的水平開放—— 我們願意將技術整合到任何平台,提供軟體與庫,與合作夥伴的技術融合,讓加速計算惠及全球每一個人。本屆 GTC 大會就是最好的證明。很多時候,我會以汽車、金融服務等垂直領域為例 —— 本屆 GTC 參會者中,金融服務行業的佔比最高。我希望是開發者,而非交易員。在座的各位,構成了輝達供應鏈上游與下游的完整生態。過去一年,我們整個上游供應鏈,無論是擁有 50 年、70 年,甚至 150 年歷史的企業,都加入了輝達生態,成為我們上下游的合作夥伴。去年,你們都創下了業績紀錄,對嗎?恭喜大家,我們正在開創一項偉大的事業,這只是開端。
在加速計算領域,我們已搭建好計算平台,而要啟動這些平台,需要領域專用庫,解決各個垂直領域的核心問題。大家可以看到,我們的業務覆蓋自動駕駛、金融服務等所有領域。我剛才提到,金融服務領域的演算法交易,正從基於人工特徵工程的傳統機器學習(量化交易),轉向由超級電腦自主分析海量資料、挖掘洞察與模式的新模式,正經歷深度學習與Transformer 架構的變革。醫療健康領域,正迎來屬於自己的 ChatGPT 時刻,我們有專門的主題演講環節,金伯利・鮑爾的演講精彩紛呈。我們探討 AI 物理、AI 生物在藥物研發中的應用,用於客戶服務、輔助診斷的 AI 智能體,以及物理 AI、機器人系統。輝達為這些不同的 AI 方向提供了專屬平台。工業領域,我們正在重新規劃並啟動人類歷史上最大規模的基礎設施建設。
全球絕大多數行業,都在建設AI 工廠、晶片工廠、電腦工廠,相關企業均到場參會。媒體娛樂、遊戲領域,我們提供即時 AI 平台,實現翻譯、直播支援,讓即時遊戲與視訊通過 AI 實現大幅增強。我們還有Holoscan 量子平台。本次大會有35 家企業,與我們共同打造下一代量子 - GPU 混合系統。零售與快消品行業,利用輝達技術最佳化供應鏈,打造生成式購物系統,部署客戶服務 AI 智能體,相關工作成果豐碩,這是一個 35 兆美元規模的產業。
機器人與製造業,市場規模達50 兆美元,輝達在該領域深耕十年,打造了建構機器人系統所需的三大核心電腦,與全球幾乎所有機器人企業深度合作。本次展會展示了 110 台機器人。
電信行業,規模堪比全球IT 產業,約 2 兆美元,基站遍佈全球,是上一代計算的核心基礎設施,如今將迎來徹底重構。原因很簡單:傳統基站僅承擔通訊功能,未來將成為 AI 基礎設施平台,AI 將在邊緣端運行。我們在該領域的平台名為Aerial(AI RAN),與諾基亞、T-Mobile 等企業建立了深度合作。我們業務的核心,是計算平台,以及至關重要的CUDA-X 庫。CUDA-X 庫承載著輝達自研的演算法,我們是一家演算法公司,這是我們的核心優勢,讓我們能夠深入每一個行業,暢想未來,匯聚全球頂尖電腦科學家,描述並解決問題,重構演算法,將其轉化為庫檔案。
本次大會,我們將發佈上百個庫、70 余個庫、約 40 個模型,這只是本次展會的成果,我們還會持續更新最佳化。這些庫是公司的核心瑰寶,讓計算平台能夠落地解決實際問題、創造價值。我們打造的最重要的庫之一,是cuDNN(CUDA 深度神經網路庫),它徹底變革了人工智慧領域,引爆了現代 AI 的大爆炸。接下來,請看一段關於 CUDA-X 的短片。
【播放視訊】
20 年前,我們打造了 CUDA,面向加速計算的統一架構。今天,我們重塑了計算。1000 個 CUDA-X 庫,助力開發者在科學與工程的各個領域實現突破。cuOpt 用於決策最佳化,cuLitho 用於計算光刻,cuDSS 用於直接稀疏求解器,cuEquivariance 用於幾何感知神經網路,Aerial 用於 AI RAN,DiffPhys 用於可微分物理,Parabricks用於基因測序。其核心,都是演算法,精妙絕倫的演算法。
【回到黃仁勳】
大家剛才看到的所有內容,都是模擬模擬。一部分是基於原理的求解器、基礎物理求解器,一部分是AI 代理模型、AI 物理模型,還有物理 AI 機器人模型。所有內容均為模擬,無任何動畫渲染,完全通過模擬實現。這就是輝達的核心價值:通過對演算法的深刻理解與計算平台的深度融合,解鎖無限機遇。輝達是垂直整合的計算公司,同時向全球開放水平整合。以上就是 CUDA-X 的介紹。剛才大家看到了眾多企業,沃爾瑪、勞氏、摩根大通、羅氏,這些定義現代社會的巨頭企業,豐田也在其中,它們都是全球規模最大的企業。
同時,還有很多大家從未聽過的企業,我們稱之為AI 原生企業,大量初創企業,名單數不勝數,我只展示了一小部分,我糾結於展示多少,最終選擇隱藏全部,避免傷害任何企業的情感。但這份名單中,包含眾多全新企業,比如大家耳熟能詳的 OpenAI、Anthropic,還有更多服務於不同垂直領域的企業。過去兩年,尤其是去年,行業發生了巨變。我們與 AI 原生企業合作已久,去年其數量呈爆發式增長。
我來解釋背後的原因。整個AI 行業飛速發展,風險投資對初創企業的投資規模達 1500 億美元,創下人類歷史新高。這也是歷史上首次,投資規模從數百萬、數千萬美元,躍升至數億、數十億美元。原因在於,歷史上首次,每一家 AI 企業都需要海量算力、海量 Token。它們要麼自主建立、生成 Token,要麼整合 OpenAI、Anthropic 等企業生成的 Token,實現價值增值。
這個行業在諸多方面都與眾不同,但有一點非常明確:它們創造的價值、帶來的影響,已經實實在在地顯現。AI 原生企業的崛起,源於我們對計算的重塑 —— 正如 PC 革命、網際網路革命、移動雲革命催生了大量新企業,每一次革命都有其專屬標準,我們今天也將探討一項至關重要的新標準。這一代計算革命,也將催生一大批影響世界未來的重要企業,如同Google、亞馬遜、元宇宙公司,它們都是上一代計算平台變革的產物。
我們正站在全新平台變革的起點。過去兩年,為何會發生如此巨變?我們深耕深度學習與AI 領域,親歷現代 AI 的大爆炸,推動行業發展已久,但為何是過去兩年?
三大核心因素:
第一,ChatGPT 開啟了生成式 AI 時代,它不僅能理解、感知,還能翻譯、生成獨特內容。我剛才展示了生成式 AI 與電腦圖形學的融合,讓圖形學煥發生機。全世界都應該使用 ChatGPT,我每天早上都在用,今天早上也用了。ChatGPT 開啟了生成式 AI 時代,而生成式計算,與傳統計算模式截然不同。生成式 AI 是軟體的一項能力,卻深刻改變了計算的本質:傳統計算以檢索為核心,如今則以生成為核心。請記住這一點,後續大家就會明白,為何我們的所有工作,都將改變電腦的架構、交付方式、建設模式,以及計算的本質意義。生成式 AI,始於 2022 年末、2023 年。
第二,推理型AI 模型 GPT-4 問世,隨後 o1 系列大放異彩。推理能力讓 AI 能夠反思、思考、規劃,拆解複雜問題,將無法理解的問題分解為可處理的步驟或模組,基於事實依據進行推理。o1 讓生成式 AI 更可信、更貼合事實,推動 ChatGPT 徹底爆發。這是一個里程碑式的時刻,推理所需的輸入 Token 與輸出 Token 量大幅增加,模型規模略有擴大,卻極大提升了計算量。
隨後,Claude Code問世,首款智能體模型,能夠讀取檔案、編寫程式碼、編譯、測試、評估,迭代最佳化。Claude Code 徹底變革了軟體工程,輝達 100% 的工程師都在使用 Claude Code、Codex、Cursor 中的一種或多種工具。如今,沒有任何一位軟體工程師不借助 AI 智能體輔助編碼。Claude Code 帶來了全新的拐點:人類首次不再向 AI 詢問 “是什麼、怎麼做”,而是直接指令 “建立、執行、建構”,要求 AI 呼叫工具、處理上下文、讀取檔案。AI 能夠自主拆解問題、推理、反思,解決問題並執行任務。從具備感知能力的 AI,到具備生成能力的 AI,再到具備推理能力的 AI,如今,AI 已成為能夠完成高效工作的實用工具。
過去兩年,算力需求呈爆發式增長,在座的各位都清楚,輝達GPU 的需求一飛衝天,現貨價格暴漲,一卡難求。與此同時,我們仍在大規模出貨 GPU,但需求依舊持續攀升。背後的原因,就是這一核心拐點:AI 終於能夠完成高效工作,推理拐點已然到來。AI 要思考,就必須推理;要執行,就必須推理;要讀取資訊,就必須推理;要推理,就必須推理。AI 的每一個環節,思考、推理、執行,都需要生成 Token、執行推理。如今,早已超越訓練階段,推理時代全面到來。而推理拐點到來的同時,所需 Token 量、算力規模提升了約 10000 倍。綜合這兩大因素:過去兩年,工作所需算力提升 10000 倍,使用量提升約 100 倍。我曾說過,我相信過去兩年算力需求提升了 100 萬倍,這是我們所有人的直觀感受,每一家初創企業、OpenAI、Anthropic 都有同感。如果它們能獲得更多算力,就能生成更多 Token,收入就會增長,更多使用者就能使用,AI 就會更智能、更先進。
我們正處於正向飛輪循環中,推理拐點已然到來。去年此時,我表示,截至2026 年,布萊克韋爾與Rubin架構的需求與訂單規模已達5000 億美元。我去年就說過這句話。不知道大家是否有同感,5000 億美元是一個天文數字,但大家似乎並不驚訝,我知道原因 —— 你們去年都創下了業績紀錄。今天我要告訴大家,距離上屆 GTC 僅一年時間,如今我可以明確,截至 2027 年,相關需求規模至少達到1 兆美元。這是否合理?接下來的時間,我將為大家解讀。事實上,我們的產能仍將供不應求,我確信算力需求將遠超這個數字。原因之一:過去一年,我們付出了巨大努力,2025 年是輝達的推理之年。
我們不僅要在訓練與後訓練階段表現出色,更要在AI 的每一個環節都做到極致,確保基礎設施投資能夠長期規模化擴展,讓輝達基礎設施擁有超長使用壽命,進而實現極致的成本效益。使用時間越長,成本越低。我堅信,輝達系統是全球 AI 基礎設施中成本最低的選擇。去年,我們聚焦 AI 推理,推動了這一拐點的到來。同時,我們欣喜地看到,Anthropic 選擇輝達,Meta 選擇輝達。這三家企業,佔據了全球 AI 算力開源模型的三分之一。開源模型已接近前沿水平,應用無處不在。而輝達,是全球唯一能夠運行所有 AI 領域、所有 AI 模型的平台,覆蓋語言、生物、電腦圖形學、電腦視覺、語音、蛋白質、化學、機器人等領域,無論是邊緣還是雲端,任何語言場景。
輝達架構對所有場景都具備通用性,且表現卓越。這讓我們成為成本最低、可靠性最高的平台。當你規劃兆美元級的基礎設施投資時,必須確保每一分投入都能得到充分利用,實現高性能、高成本效益、超長使用壽命。基於輝達的基礎設施投資,你可以擁有絕對的信心。我們已經證明,輝達是全球唯一能夠讓你在任何地點、放心建構AI 基礎設施的平台。無論是部署在任何雲端、本地,還是任何國家,我們都全力支援。我們的計算平台,支撐著全部 AI 應用。我們的業務資料已體現這一點:60% 的收入來自超大規模雲廠商,即全球前五的超算中心。即便在這前五家企業中,一部分是內部 AI 消耗,比如推薦系統,正從傳統的表格、協同過濾、內容過濾,轉向深度學習與大語言模型;搜尋業務,也在向深度學習大語言模型轉型。幾乎所有超大規模工作負載,都在向輝達 GPU 擅長的領域遷移。
除此之外,我們與每一家AI 實驗室合作,加速 AI 模型研發,擁有龐大的 AI 原生企業生態,將其引入雲端。無論算力需求規模多大、增長多快,都能被快速消化,這部分業務佔比 60%,剩餘 40% 則遍佈全球:區域雲、主權雲、企業、工業機器人、邊緣計算、大型系統、超級電腦、小型伺服器、企業伺服器,應用數量數不勝數。AI 的多樣性,正是其韌性所在;應用的廣泛性,正是其韌性所在。毫無疑問,這並非單一應用技術,而是全新的、基礎性的計算平台變革。我們的使命,是持續推動技術進步。去年我提到的最重要的事情之一,就是推理之年。我們全力以赴,在霍珀架構巔峰時期,毅然做出重構決策:將霍珀架構的 NVLink 8,升級至全新水平,徹底重構系統聚合模式,打造NVLink 72,其建構、製造、程式設計方式均實現全面革新。
Grace Blackwell、NVLink 72,是一場豪賭,過程充滿挑戰。感謝在座所有合作夥伴的辛勤付出。NVLink 72、NVFP4—— 並非普通 FP4,而是紅標精度,NVFP4 是全新的張量核心與計算單元。我們已證明,基於 NVFP4 執行推理可實現無損精度,同時帶來性能與能效的巨大提升。NVFP4 也可用於訓練。NVLink 72、NVFP4,以及 Dynamo、TensorRT LLM 等全新演算法,我們甚至打造了超級電腦,助力核心最佳化與全端最佳化,名為DGX Cloud。我們投入數十億美元建構超級計算能力,研發支撐推理的核心與軟體。所有努力終獲成果。
曾有人對我說:“黃仁勳,推理很簡單。” 但推理是最難的任務,也是最重要的任務 —— 因為它直接決定收入。這是相關分析結果,是全球規模最大、最全面的 AI 推理測評。左側縱軸是每瓦 Token 數,這一指標至關重要,因為所有資料中心、AI 工廠都受限於電力,1 吉瓦的工廠永遠無法擴展為 2 吉瓦,受物理定律約束。在 1 吉瓦的資料中心中,我們要最大化 Token 產量 —— 這是工廠的核心產品,要儘可能提升這一指標。橫軸是互動性,即推理速度,推理速度越快,響應越快,更重要的是,能支援更大規模的模型、處理更多上下文、思考更多 Token,這一軸代表 AI 的智能程度。請注意,AI 越智能,吞吐量越低,這符合邏輯 —— 思考時間更長。這一軸是速度,我接下來會重點講解,這是全球每一位 CEO 都將採用的業務分析模式,因為這就是你的 Token 工廠、AI 工廠,直接決定你的收入。縱軸是吞吐量,即給定電力下的智能產出效率,吞吐量越高,生成的 Token 越多;右側是成本。大家可以看到,輝達的性能全球領先,這並不意外。
令人震驚的是,一代架構的提升幅度:摩爾定律通過電晶體迭代,每代性能提升約50%、1.5 倍,大家預期霍珀 H20 的性能提升約 1.5 倍,但沒人想到提升了35 倍。去年此時,我就說過 Grace Blackwell、NVLink 72 的每瓦性能提升 35 倍,沒人相信。隨後 Semi Analysis 發佈報告,迪倫・帕特爾評價我 “刻意保守”,他說:“黃仁勳留了一手,實際提升達 50 倍。” 他說得沒錯。我們的單 Token 成本全球最低,無可匹敵。我曾說過,如果架構選錯,即便免費,也不夠便宜。因為無論如何,你都要建設 1 吉瓦的資料中心,15 年的攤銷成本約 400 億美元,即便不部署任何裝置,也要投入 400 億美元。你必須確保部署最優秀的計算系統,實現最優的 Token 成本。
輝達的Token 成本,全球頂尖,目前無可撼動。這一切,都源於極致的協同設計。我很高興他稱我們為 “Token 之王”。如我所說,我們垂直整合,同時水平開放,將所有軟體與技術整合,打包後融入全球推理服務提供商。這些企業增長迅猛,Fireworks 等企業,去年增長達 100 倍。它們就是 Token 工廠,工廠的效率、性能、Token 生產成本,是其核心競爭力。我們為其更新軟體,在相同硬體條件下,Token 處理速度從平均每秒約 700 個,提升至近 5000 個,提升 7 倍。
這就是極致協同設計的強大力量。剛才我提到了工廠的重要性,你的資料中心,曾經是儲存檔案的場所,如今是生成Token 的工廠。所有工廠都受限於土地、電力、基礎設施,一旦建成,就受限於電力。你必須確保推理工作負載 —— 也就是 Token 這一全新商品、算力即收入 —— 的架構實現最優最佳化。
未來,每一家雲服務提供商、電腦公司、雲端企業、AI 公司,乃至所有企業,都將關注其 Token 工廠的效率。這就是你未來的核心工廠,因為在座的每一位都由智能驅動,而未來,這種智能將由 Token 賦能。
接下來,我為大家梳理發展歷程。
【播放視訊】
2016 年 4 月 6 日,十年前,我們推出DGX-1,全球首款專為深度學習設計的電腦,搭載 8 顆帕斯卡 GPU,採用第一代 NVLink,單台算力達 170 兆次浮點運算。這是全球首款為 AI 研究者打造的電腦。隨後,我們推出 NVLink 交換機,16 顆 GPU 實現全互聯頻寬,宛如一台巨型 GPU,邁出重要一步。但模型規模持續增長,資料中心需要成為單一計算單元。
2020 年,DGX A100 SuperPod成為首款 GPU 超級電腦,融合縱向擴展與橫向擴展架構:NVLink 3 實現縱向擴展,ConnectX 6 與 Quantum InfiniBand 實現橫向擴展。隨後,霍珀架構問世,首款搭載 Transformer 引擎的 GPU,開啟生成式 AI 時代,NVLink 4、ConnectX 7、BlueField 3 DPUs、第二代 Quantum InfiniBand,徹底變革計算。布萊克韋爾架構通過 NVLink 72 重新定義 AI 超級計算系統架構,72 顆 GPU 實現。每秒 130 太字節的全互聯頻寬。整合Blackwell GPU、Grace CPU、ConnectX 8 與 BlueField 3。支援乙太網路 Spectrum,三大擴展定律全面發力:預訓練、後訓練與推理。如今,生成式系統的算力需求呈指數級增長。Vera Rubin架構,覆蓋生成式 AI 的全生命周期,升級計算的每一個支柱:CPU、儲存、網路與安全。Vera Rubin、NVLink 72,算力達 3.6 倍浮點運算,全互聯 NVLink 頻寬達每秒 260 太字節,引擎全面賦能生成式 AI 時代。Vera CPU 機架,專為生成式工作負載編排設計;STX 機架,AI 原生儲存,基於 BlueField 4 打造,通過 Spectrum-X 共封裝光學技術橫向擴展,提升能效與穩定性。還有一項重磅新增:Groq3 LPX 機架,與 Vera Rubin 機架緊密連接。Groq擁有海量片上SRAM,作為 Token 加速器,與極速的 Vera Rubin 協同工作,每兆瓦吞吐量提升 35 倍。全新 Vera Rubin 平台,7 顆晶片、5 款機架級電腦,構成一台革命性 AI 超級電腦。短短十年,算力提升 4000 萬倍。
【回到黃仁勳】
過去,我展示霍珀架構時,會舉起一顆晶片,如今看來十分可愛。這就是Vera Rubin,我們眼中的 Vera Rubin,是完整的系統,垂直整合、全端最佳化、端到端協同,宛如一台巨型系統。其專為生成式系統設計的原因顯而易見:智能體最重要的工作負載是思考,大語言模型規模將持續擴大,更快生成更多 Token,思考速度更快,同時需要頻繁訪問記憶體、KV 快取、結構化資料(cuDF)、非結構化資料(cuVS),對儲存系統的訪問壓力極大,這也是我們重構儲存系統的原因。AI 還會呼叫工具,與人類對慢速裝置的容忍度不同,AI 要求工具極致快速,包括網頁瀏覽器,未來還包括雲端虛擬 PC。我們打造了全新 CPU,專為極致高單線程性能、超高資料輸出、優秀的資料處理能力與極致能效設計,是全球首款採用 LPDDR5 的資料中心 CPU,單線程性能與每瓦性能全球領先。
這就是我們為生成式處理配套打造的CPU。這是 Grace Blackwell?不,是Vera Rubin。就是它。這就是 Vera Rubin 系統,請注意,全面採用液冷技術,取消所有線纜,過去需要兩天完成的安裝,如今僅需兩小時,製造周期大幅縮短。這台超級電腦採用 45℃熱水冷卻,降低資料中心的製冷壓力,節省的成本與能源可用於系統運行。這是我們的核心技術:全球唯一一家打造出第六代縱向擴展交換系統的企業,這不是乙太網路,不是 InfiniBand,而是NVLink,第六代 NVLink。這項技術的研發難度超乎想像,我為團隊感到無比自豪。NVLink 實現全面液冷。這是全新的 Groq系統,後續我會詳細介紹。該系統搭載8 顆 Groq晶片,這是LP 30,全球首創產品,已是第三代,目前已量產。全球首款共封裝光學 Spectrum-X 交換機,也已量產。共封裝光學技術直接整合到晶片,電子訊號轉換為光訊號,直接與晶片連接。我們與台積電聯合研發了這項工藝技術,是全球唯一量產該技術的企業,名為Co-Packaged Optics(CPO),具有革命性意義。
輝達Spectrum-X 已全面量產。Vera 系統,每瓦性能是全球任何 CPU 的兩倍,也已量產。我們從未想過會單獨銷售 CPU,但如今銷量可觀,無疑將成為我們數十億美元級的業務。我對 CPU 架構團隊的表現非常滿意。這是搭載 Vera CPU 的 ConnectX-9、BlueField 4—— 我們全新的儲存平台。這就是四大機架,通過 NVLink 機架互聯。我之前向大家展示過,裝置非常厚重,每年似乎都更重,因為線纜越來越多。這就是 NVLink 機架。我們將這項高效的布線技術應用於乙太網路,單機架可容納 256 個液冷節點,採用高性能連接器。接下來,請看RubinUltra。這是RubinUltra 計算節點,與水平插入的Rubin不同,RubinUltra 採用全新的Kyber 機架,可在單個NVLink 域內連接 144 顆 GPU。Kyber 機架非常厚重,我肯定能舉起來,但我不會這麼做。這是一個計算節點,垂直插入Kyber 機架,連接到中板。頂部的四個NVLink 連接器插入中板,成為一個節點。每個機架都是一個獨立的計算節點。最精彩的部分來了:中板與背板,傳統線纜的傳輸距離有限,而我們的系統可連接 144 顆 GPU。這是全新的 NVLink,垂直部署,連接後端中板,前端計算、後端 NVLink 交換機,構成一台巨型電腦。這就是RubinUltra。
所有這些因素,最終將決定未來Token 的市場與定價。Token 是全新的大宗商品,與所有大宗商品一樣,一旦迎來拐點、走向成熟,就會細分層級:高吞吐量、低速度的層級,可用於免費服務;下一層級為中等層級,模型更大、速度更高、輸入上下文更長,對應不同定價。大家可以看到各類服務的定價:免費層級、每百萬 Token3 美元層級、每百萬 Token6 美元層級。我們要不斷突破邊界,模型越大、越智能,輸入 Token 上下文越長、相關性越高,速度越快、思考迭代越充分,AI 就越智能。這就是更智能的 AI 模型,每一次層級提升,都能實現定價上漲,比如 45 美元每百萬 Token,未來或許會推出高端模型,針對關鍵路徑或長期研究場景,定價 150 美元每百萬 Token。假設一名研究人員每天使用 5000 萬 Token,按 150 美元每百萬 Token 計算,對研究團隊而言,成本完全可控。我們相信,這就是 AI 的未來,從當前起步,確立價值與實用性,持續最佳化升級。未來,大多數服務將覆蓋全層級。這是霍珀架構的表現,大家預期下一代架構會有所提升,但沒人想到提升幅度如此之大。這是 Grace Blackwell,在免費服務層級大幅提升吞吐量,而在核心盈利層級,吞吐量提升 35 倍。這與所有企業的產品邏輯一致:層級越高,質量、性能越好,容量、產量越低。Grace Blackwell 實現了 35 倍的層級提升,並推出全新高端層級,相比霍珀實現巨大飛躍。這是 Vera Rubin,
試想一下:在每一個層級,我們都提升了吞吐量,在最高定價、最具價值的層級,性能提升10 倍。這背後是無數的努力,難度超乎想像。這就是 NVLink 72 的價值,是極致低延遲的價值,是極致協同設計的價值 —— 我們將整個性能區域全面上移。
從客戶角度看,假設將25% 的電力用於免費層級、25% 用於中等層級、25% 用於高端層級、25% 用於頂級層級,資料中心總電力為 1 吉瓦,你可以自主分配。免費層級吸引更多客戶,高端層級服務最有價值的客戶,綜合起來,直接決定收入。在這個簡化模型中,Blackwell 可實現 5 倍收入增長,Vera Rubin 同樣實現 5 倍增長。因此,大家應盡快部署 Vera Rubin,降低 Token 成本,提升吞吐量。但我們追求更高目標,回到這張圖表:吞吐量需要海量浮點運算,延遲、互動性需要超大頻寬。晶片的表面積有限,無法同時滿足極致浮點運算與極致頻寬需求,高吞吐量與低延遲最佳化,本質上是相互矛盾的。而我們與 Groq融合後,改變了這一切。我們收購了Groq晶片團隊,獲得技術授權,攜手整合系統。在最具價值的層級,性能提升35 倍。這張簡單的圖表,精準揭示了輝達強大的核心原因,以及為何目前絕大多數工作負載都選擇我們。
原因在於,高吞吐量場景至關重要,而NVLink 72 具有顛覆性,是最適配的架構,即便加入 Groq也難以超越。但如果將圖表延伸,追求每秒1000 個 Token 而非 400 個的服務,NVLink 72 就會達到頻寬極限,無法滿足需求。此時,Groq就將發揮作用,突破NVLink 72 的極限。換算成收入,相對於 Blackwell,Vera Rubin 提升 5 倍;如果大部分工作負載是高吞吐量,可 100% 採用 Vera Rubin;如果大量工作負載是編碼等高價值工程 Token 生成,可將 25% 的資料中心算力分配給 Groq,其餘75% 採用 Vera Rubin。這就是 Groq與Vera Rubin 融合的價值,進一步提升性能與價值。對比來看,Groq吸引我的核心原因,是其確定性資料流處理器架構,靜態編譯、編譯器調度—— 編譯器提前規劃計算時序,資料同步到達,無動態調度,架構搭載海量 SRAM,專為推理這一單一工作負載設計。而這一工作負載,正是 AI 工廠的核心。隨著全球對高速、高智能 Token 生成的需求持續增長,這種融合的價值將愈發凸顯。這是兩款極致處理器:一顆 Groq晶片搭載500MB 記憶體,一顆 Vera Rubin 晶片搭載 288GB 記憶體,要儲存Rubin的參數規模及上下文、KV 快取,需要大量 Groq晶片。這限制了Groq走向主流市場,直到我們想出一個絕妙的主意:通過Dynamo軟體,徹底實現推理解耦,重構推理流水線架構,將適配 Vera Rubin 的任務交由其處理,將解碼生成、低延遲、頻寬受限的工作負載解除安裝給 Groq。我們將兩款差異巨大的處理器融合:一款專注高吞吐量,一款專注低延遲。但記憶體需求依然巨大,因此我們將大量Groq晶片組合,擴充記憶體容量。試想,兆參數模型的所有參數,儲存在Groq晶片中,緊鄰輝達Vera Rubin,後者承載處理這些系統所需的海量 KV 快取。基於這種解耦推理理念,我們執行預填充(相對簡單),同時緊密整合解碼環節:解碼的注意力層交由需要大量算力的輝達 Vera Rubin 處理,前饋網路層、Token 生成層交由 Groq晶片處理。兩者通過乙太網路特殊模式緊密協同,延遲降低約一半。這一能力讓我們實現兩大系統的整合,在其上運行Dynamo—— 這款專為 AI 工廠打造的卓越作業系統,實現 35 倍性能提升,更推出全球前所未有的推理性能新層級。這就是 Groq融合Vera Rubin 系統。感謝三星為我們生產 GroqLP 30 晶片,全力保障產能。Groq晶片已量產,將於下半年(預計第三季度)出貨。GroqLPX 融合 Vera Rubin。Grace Blackwell 的早期採樣因 NVLink 72 的整合難度極高而充滿挑戰,但 Vera Rubin 的採樣進展異常順利。
微軟已經完成測試,微軟Azure 的首台 Vera Rubin 機架已上線運行。我為此感到無比振奮,我們將持續大規模生產這些系統。目前,我們的供應鏈每周可生產數千台機架,每月可支撐數吉瓦級 AI 工廠的建設。我們在生產 GB 300 機架的同時,也在大規模生產 Vera Rubin 機架,全面量產。Vera CPU 取得了巨大成功,原因在於 AI 需要 CPU 呼叫工具,而 Vera CPU 完美適配這一核心場景,是下一代資料處理的理想選擇。Vera CPU 搭配 ConnectX-9、BlueField 4 儲存棧,全球 100% 的儲存行業企業都加入了這一系統。原因顯而易見,儲存系統將面臨巨大的訪問壓力:過去是人類使用儲存、使用 SQL,未來是 AI 使用這些儲存系統,包括 cuDF 加速儲存、cuVS 加速儲存,以及至關重要的 KV 快取。這就是 Vera Rubin 系統。令人震撼的是,短短兩年時間,在 1 吉瓦的工廠中,憑藉我們的架構設計,Token 生成速度將從 2200 萬提升至 7 億,提升 350 倍。這就是極致協同設計的力量,垂直整合最佳化,水平開放惠及全球。這是我們的技術路線圖。布萊克韋爾架構已推出,Rubin架構對應Oberon 系統,我們始終保持向後相容,使用者可無需任何修改,平滑遷移至新架構。傳統標準機架 Oberon 仍將提供,採用銅纜縱向擴展,也可通過光學縱向擴展,升級至 NVLink 576。
很多人問輝達會採用銅纜縱向擴展還是光學縱向擴展,答案是:兩者兼備。我們將通過Kyber 實現NVLink 144,通過 Oberon 實現 NVLink 72 + 光學擴展,升級至 NVLink 576。下一代RubinUltra,將推出RubinUltra 晶片,同時推出全新 LP 35 晶片,首次整合輝達 NVFP4 計算單元,實現數倍性能提升。這是 Oberon 與 NVLink 72 光學縱向擴展,採用全球首款共封裝光學 Spectrum-X,所有技術均已量產。
再下一代是費曼(Feynman)架構,搭載全新 GPU 核心,以及全新 LP 40 晶片,技術實現重大飛躍,輝達與 Groq團隊聯合打造,性能卓越。全新CPU 名為羅莎(Rosa),致敬羅莎琳德・富蘭克林;BlueField 5,連接下一代 CPU 與超級計算節點;CX 10。我們將通過 Kyber 實現銅纜縱向擴展,同時首次通過CPO 實現縱向擴展,銅纜與共封裝光學雙路徑擴展。很多人問我:“黃仁勳,銅纜還重要嗎?” 答案是肯定的。“你們會實現光學縱向擴展、光學橫向擴展嗎?” 我們生態系統的每一位夥伴,都需要更多產能,這是核心。我們需要更多銅纜產能、光學產能、CPO 產能,這也是我們與所有合作夥伴攜手,為這一增長奠定基礎的原因。費曼架構將實現所有這些突破。我確認一下,沒有遺漏。
每年,我們都推出全新架構。輝達迅速從晶片公司,轉型為AI 工廠公司、AI 基礎設施公司、AI 計算公司,我們如今打造完整的 AI 工廠。AI 工廠中存在大量能源浪費,我們要確保 AI 工廠以最優方式設計建設。過去,大多數技術供應商的元件直到資料中心部署階段才會整合,如今,我們必須提前虛擬協作。因此,我們打造了Omniverse與Omniverse DSX World平台,讓所有合作夥伴虛擬協作,設計吉瓦級 AI 工廠。我們擁有針對機架、機械、熱學、電氣、網路的模擬系統,整合到生態合作夥伴的各類專業工具中。同時,系統與電網互聯,實現資訊互動,動態調整電網與資料中心電力,節約能源;在資料中心內部,通過Max-Q技術,動態調整系統電力與製冷,協同所有技術,杜絕能源浪費,以最優狀態運行,實現海量 Token 吞吐量。
我確信,這裡存在兩倍的性能提升空間,在當前規模下,兩倍提升意味著巨大的價值。我們稱之為輝達DSX 平台,與所有平台一樣,分為硬體層、庫層、生態層。請看演示。
【播放視訊】
人類歷史上規模最大的基礎設施建設正在推進。全球正競相打造晶片系統與人工智慧工廠,每延遲一個月,就會造成數十億美元的收入損失。人工智慧工廠的收益與每瓦算力產生的令牌量直接掛鉤。因此在電力受限的情況下,每一度未被利用的電力都意味著收益流失。輝達DSX 是一套基於統一數字孿生的藍圖,用於設計和營運人工智慧工廠,實現令牌吞吐量、系統韌性與能源效率的最大化。開發者可通過多個應用程式介面接入:DSXM 用於物理、電氣、熱學及網路模擬,DSX Exchange 用於人工智慧工廠營運資料互動,DSX Flex 用於電網側的安全動態電力管理,DSX Max Cube 則用於動態最大化令牌吞吐量。
項目始於輝達及裝置製造商提供的模擬就緒資產,由PTC Windchill 產品生命周期管理系統進行管理,隨後基於模型的系統工程在達索系統 3D EXPERIENCE 平台中完成。雅各布工程公司將資料匯入其定製的統一應用程式中完成最終設計。項目採用頂尖模擬工具進行測試:西門子 STAR-CCM + 用於外部熱模擬,楷登電子 Reality 軟體用於內部熱模擬,DTAP 用於電氣模擬,還有輝達網路模擬器 DSX AIR,並通過 Procore 進行虛擬偵錯,以縮短建設周期。項目落地投產後,數字孿生將成為營運中樞,人工智慧智能體與 DSX Max Q 協同工作,動態編排基礎設施。智能體負責監控製冷與電氣系統,並向 Max Q 傳送訊號,由後者持續最佳化計算吞吐量與能源效率。Emerald 人工智慧智能體即時解析電網需求與負荷壓力訊號,動態調整電力分配。
輝達正攜手DSX 及生態合作夥伴,在全球範圍內加速建設人工智慧基礎設施,保障極致的系統韌性、能效水平與吞吐量。
【回到黃仁勳】
這太不可思議了,對吧?Omniverse 從誕生之初就旨在承載全球範圍的數字孿生,從地球尺度起步,未來將容納各種規模的數字孿生體。我們擁有極為強大的合作夥伴生態。在此我要感謝在座的各位。幾年前,我們與其中許多企業還素未謀面,而如今我們緊密協作,共同打造人類有史以來規模最大的電腦,並且是在全球尺度上實現這一目標。
輝達DSX 是我們全新的人工智慧工廠平台,今天我不會花費過多時間介紹它。接下來,我們要邁向太空。我們的技術早已進入太空領域,Thor 晶片已通過抗輻射認證,並應用於衛星之中。未來可通過衛星開展成像作業,我們還將在太空建設資料中心。顯然,這一任務極具挑戰性,因此我們正與合作夥伴共同研發一款名為 Vera Rubin Space One 的新型電腦,它將進入太空,部署太空資料中心。在太空環境中,不存在熱傳導與熱對流,僅有輻射散熱,我們必須攻克太空系統的散熱難題,而我們擁有頂尖的工程師團隊正在攻克這一課題。
接下來,我想介紹一項全新成果。彼得・施泰因貝格爾也來到了現場,他開發了一款名為OpenClaw 的軟體。或許他當時並未預料到這款軟體會取得如此巨大的成功,但其重要性極為深遠。OpenClaw 是人類歷史上最受歡迎的開放原始碼專案,僅用數周時間,其影響力就超越了 Linux 三十年的發展歷程,它的重要性毋庸置疑。我們在此正式宣佈,將為 OpenClaw 提供支援。我快速為大家演示一下,只需在控制台輸入指令,系統就會自動檢索、下載 OpenClaw,並為你建立一個人工智慧智能體,之後你便可向它下達任何任務指令。我們一起來看演示。
【播放視訊】
一款開放原始碼專案剛剛發佈。安德烈・卡帕西推出了一項名為Research 的成果,這是一個重大突破。
你只需給人工智慧智能體下達一項任務,便可無需值守,它會在夜間自動執行上百次實驗,保留有效結果,剔除無效嘗試。我非常認可這款工具為使用者帶來的價值。有一位60 歲的父親使用者告訴我,他僅用簡單操作,就通過相關裝置將機器與 OpenClaw 連接,實現了全流程自動化,甚至涵蓋了使用者下單的整套流程。
數百人正在排隊等候。在深圳搶購龍蝦,OpenClaw,OpenClaw。我們希望用 OpenClaw 來建構 OpenClaw 本身,如今所有人都在討論 OpenClaw。究竟什麼是 OpenClaw?難以置信的是,專門的 ClawCon 開發者大會已經誕生。
【回到黃仁勳】
太驚人了。我用這樣的方式清晰闡釋了OpenClaw,讓大家都能理解。我們不妨思考一下它的本質:OpenClaw 是一款智能體,一套生成式系統,能夠呼叫並連接大語言模型。首先,它具備資源管理能力,可訪問各類工具、檔案系統與大語言模型,能夠執行任務調度、定時任務,將你輸入的提示詞拆解為分步執行流程,還能建立並呼叫子智能體。它擁有多模態互動能力,你可以通過任何方式與它溝通,揮手示意即可被識別,可對接任意模型,接收簡訊、郵件等消息。基於這些能力,事實上,它就是一款作業系統。
我剛剛描述它的語法邏輯,與描述作業系統完全一致。OpenClaw 是開放原始碼的,本質上是智能體電腦的作業系統,這與 Windows 推動個人電腦普及的邏輯如出一轍。如今,OpenClaw 讓個人智能體的建立成為可能,其影響極為深遠。首先,其普及速度本身就說明了一切。而更重要的是,如今每家企業、每家軟體公司、每家科技公司的首席執行長都必須思考:你的 OpenClaw 戰略是什麼?就像我們過去都需要制定 Linux 戰略、支撐網際網路誕生的 HTTP/HTML 戰略,以及推動移動雲發展的 Kubernetes 戰略一樣。
當今全球所有企業,都必須制定OpenClaw 戰略、智能體系統戰略。這就是新一代電腦的核心。以上還只是令人振奮的表層變化,這是 OpenClaw 誕生前的企業資訊技術格局。我此前提到過傳統企業資訊技術的運作模式,資料中心之所以得名,是因為這些大型機房、樓宇承載著資料、個人檔案與企業結構化資料,資料通過搭載工具、記錄系統與各類標準化工作流的軟體流轉,最終成為人類、數字工作者使用的工具,這就是傳統資訊技術行業的模式:軟體公司開發工具、儲存檔案,全球系統整合商與諮詢公司幫助企業應用並整合這些工具。這些工具在治理、安全、隱私與合規領域價值非凡,這一價值依然存在。
但在OpenClaw 與智能體技術普及之後,行業格局將徹底改變。最非凡的變革在於,每家資訊技術企業、每家軟體即服務企業,都將轉型為智能體即服務企業,這是必然趨勢。令人驚嘆的是,OpenClaw 在最關鍵的時刻,為行業提供了亟需的解決方案,正如當年 Linux、Kubernetes、HTML 在正確的時間點推動行業變革一樣,它讓整個行業能夠依託這一開源技術堆疊,開拓全新可能。但存在一個關鍵問題:企業網路中的智能體系統可訪問敏感資訊、執行程式碼並對外通訊。試想一下,訪問員工資訊、供應鏈資料、財務資料並對外傳輸,這顯然是絕不允許的。
因此,我們與彼得合作,匯聚全球頂尖的安全與計算專家,共同打造企業級安全、私有化部署的OpenClaw 版本,我們將其命名為輝達 OpenClaw 參考方案 ——NemoClaw,它搭載了全套人工智慧智能體工具套件。其中核心技術為OpenShell,目前已整合至 OpenClaw 中,讓這一技術堆疊具備企業級應用能力。這套參考設計方案我們稱之為 NemoClaw,你可以下載試用,並對接全球所有軟體即服務企業的策略引擎。這些策略引擎至關重要、價值極高,可與NemoClaw或搭載OpenShell 的 OpenClaw 對接執行,它內建策略規則、人工智慧網路護欄與隱私路由,從而保障智能體在企業內部安全運行。
我們還為智能體技術系統新增了多項能力,其中最重要的功能之一,就是支援使用者打造定製化智能體與專屬模型,這正是輝達開放模型計畫的核心。如今,我們在人工智慧模型的所有領域都處於前沿位置:無論是Nemotron語言推理模型、Cosmos 物理世界生成模型、GR00T通用機器人基礎模型、Alpamayo自動駕駛模型、BioNemo 數字生物模型,還是 Earth2 人工智慧物理模型,我們均走在行業前列。請看展示。
【播放視訊】
世界是多元的,沒有任何單一模型能夠服務所有行業。開放模型是全球規模最大、最多元的人工智慧生態之一,涵蓋語言、視覺、生物、物理、自主系統等領域的近300 萬個開放模型,為垂直領域的人工智慧應用開發提供支撐。輝達是開源人工智慧領域的最大貢獻者之一,我們建構並行布了六大開放前沿模型系列,同時提供訓練資料方案與框架,助力開發者定製化應用。目前,每個系列都推出了登頂榜單的全新模型:核心的 Nemotron推理模型,覆蓋語言、視覺理解、檢索增強生成、安全與語音領域。
Cosmos 前沿模型用於物理人工智慧、世界生成與理解;Alpamayo是全球首款具備思考與推理能力的自動駕駛人工智慧;GR00T基礎模型用於通用機器人;BioNemo 開放模型用於生物、化學與分子設計;Earth2 模型基於人工智慧物理技術,用於氣象與氣候預測。輝達開放模型為研究人員與開發者奠定了基礎,助力他們針對自身垂直領域建構並部署人工智慧應用。
【回到黃仁勳】
我們的模型對大家極具價值,首先是因為它們登頂全球榜單,具備世界級水準;而更重要的是,我們將持續深耕最佳化,永不停歇。Nemotron3 之後將推出 Nemotron4,Cosmos 1 之後將推出 Cosmos 2,GR00T也將迭代至第二代。我們將持續推進這些模型的升級,堅持垂直整合與橫向開放,讓所有人都能參與到人工智慧革命中。我們在研究、語音、世界模型、通用機器人、自動駕駛與推理領域的模型均位居榜單首位。
其中最重要的成果之一,就是整合於OpenClaw 的 Nemotron3。它位列全球三大頂尖模型之中,我們始終站在技術前沿。我們致力於打造基礎模型,讓大家能夠進行微調、後訓練,獲得自身所需的智能能力。這款 Nemotron3 Ultra,將成為人類有史以來最優秀的基礎模型。這將助力每個國家打造自主人工智慧,我們正與全球眾多企業展開合作。今天我在此宣佈一項重磅舉措:成立 Nemotron聯盟。我們對此投入巨大,斥資數十億美元建設人工智慧基礎設施,研發人工智慧核心引擎、推理庫等關鍵技術,同時打造人工智慧模型,賦能全球所有行業。大語言模型的重要性不言而喻,人類智能本身就是最好的證明。但全球不同行業、不同國家,都需要具備定製專屬模型與垂直領域模型的能力,這些領域從生物、物理到自動駕駛、通用機器人、人類語言,差異巨大。我們有能力與各個地區合作,打造垂直領域專屬的自主人工智慧。今天我們宣佈成立聯盟,攜手合作夥伴共同推動Nemotron實現更大突破,聯盟成員包括眾多頂尖企業:成像企業Black Forest Labs、知名程式設計企業Cursor、下載量超十億的定製智能體開發框架 LangChain、亞瑟提到的 Mistral(其代表也來到現場)、備受全球使用者青睞的 Perplexity、多模態智能體系統 Reflection、來自印度的 Sarvam、Thinking Machine、Mira Marathi 實驗室等,感謝這些卓越企業的加入。
我曾說過,全球每家企業、每家軟體公司,都需要佈局智能體系統、制定智能體戰略,都需要制定OpenClaw 戰略,如今所有企業都認同這一理念,並與我們合作整合 Nemo 技術、NemoClaw參考設計、輝達人工智慧智能體工具套件以及我們所有的開放模型。越來越多的企業加入我們的合作陣營,我對此深表感謝。這是屬於我們的時代,這是一場重塑,是企業資訊技術的復興,這個規模2 兆美元的行業,將成長為數兆美元的龐大產業,未來提供的不再只是人類使用的工具,而是深耕各垂直領域的專業智能體,可供企業租用。我完全可以預見,未來我們公司的每位工程師,都將擁有年度令牌預算,他們的基本工資為每年數十萬美元,而我還將額外提供相當於基本工資一半的令牌額度,讓他們的工作效率提升十倍。如今,令牌配額已成為矽谷的招聘條件之一,這份工作能提供多少令牌,成為求職者關注的重點。原因顯而易見,擁有令牌權限的工程師工作效率將大幅提升,而這些令牌,正是由我們與各位合作夥伴共同建設的人工智慧工廠生產的。
如今的每家企業,都依託檔案系統與資料中心營運;而未來的每家軟體公司,都將實現智能體化,成為令牌生產商—— 既為自身工程師提供令牌,也為所有客戶生產令牌。OpenClaw 帶來的變革,其重要性再怎麼強調都不為過,它堪比 HTML、Linux 的誕生。如今我們擁有了世界級的開源智能體技術框架,所有人都能依託它制定 OpenClaw 戰略。我們打造了名為 NemoClaw的參考設計,經過最佳化調校,性能卓越、安全可靠。說到智能體,它們具備感知、推理與執行能力。目前我們討論的大多是數字智能體,在數字世界中運作、推理、編寫程式碼;但我們長期以來也在研發具身智能體,也就是機器人,它們的人工智慧應用於物理世界。在此我們宣佈多項重磅合作。全球幾乎所有研發機器人的企業,都在與輝達合作。我們擁有三大計算平台:訓練電腦、合成資料生成與模擬電腦、搭載於機器人本體的機器人電腦,同時提供全套所需軟體棧與人工智慧模型,所有技術都整合進全球生態系統中,我們的合作夥伴包括西門子、楷登電子等行業巨頭。今天我們宣佈一大批全新合作夥伴。我們深耕自動駕駛領域多年,自動駕駛的ChatGPT 時刻已經到來,我們已成功實現汽車自動駕駛。今天我們宣佈,輝達自動駕駛計程車就緒平台新增四家合作夥伴:比亞迪、現代、日產、極氪,這些企業每年生產 1800 萬輛汽車,加入我們現有的合作夥伴梅賽德斯、豐田、通用陣營,未來自動駕駛計程車就緒車輛的規模將極為可觀。我們還宣佈與優步達成重大合作,將在多個城市部署這些自動駕駛計程車就緒車輛,並接入優步網路。此外,我們還有 ABB、優傲機器人、庫卡等眾多機器人企業合作夥伴,我們攜手將物理人工智慧模型整合至模擬系統中,助力這些機器人部署到全球各類生產線。現場還有卡特彼勒、德國電信的代表,因為在未來,傳統的無線電塔將升級為輝達 Aerial 人工智慧無線接入網,成為機器人化無線電塔,能夠推理分析通訊流量,最佳化波束賦形,實現最大程度的節能與訊號保真提升。現場展示了眾多人形機器人與機器人產品,而我個人最喜愛的是迪士尼機器人。接下來,讓我們觀看幾段視訊。
【播放視訊】
物理人工智慧首次實現全球規模化部署,核心就是自動駕駛汽車。依託輝達Alpamayo,汽車具備了推理能力,能夠在各類場景中安全智能地行駛。我們讓汽車對自身操作進行語音播報。
我正在向右變道,以遵循規劃路線。並在決策時解釋其思考邏輯。我的車道內有一輛違停車輛,我將繞行通過。同時遵循指令。梅賽德斯,你可以加速嗎?好的,我將加速。
這就是物理人工智慧與機器人的時代。
全球開發者正在研發各類機器人,但現實世界極為多元、不可預測,充滿極端場景,真實世界資料永遠無法覆蓋所有訓練場景。我們需要通過人工智慧與模擬生成資料。對機器人而言,計算就是資料。開發者基於網際網路規模的視訊資料與人類演示資料預訓練世界基礎模型,評估模型性能,並通過傳統與神經模擬技術開展後訓練,生成海量合成資料,規模化訓練策略,加速開發者研發處理程序。
輝達打造了開放原始碼的Isaac Lab 機器人訓練、評估與模擬平台,用於可擴展、GPU 加速的可微物理模擬的 Newton 平台,用於神經模擬的 Cosmos 世界模型,以及用於機器人推理與執行的 GR00T開源機器人基礎模型。依託充足的算力,全球開發者正在填補物理人工智慧的資料缺口。
PeritasAI在輝達Isaac Lab 中訓練其手術室輔助機器人,並通過輝達 Cosmos 世界模型擴充資料量;SkildAI利用Isaac Lab 與 Cosmos 為其智能大腦生成後訓練資料,通過強化學習讓模型在數千種場景變體中完成強化訓練;Humanoid通過Isaac Lab 訓練全身控制與操作策略;Hexagon Robotics利用Isaac Lab 開展訓練與資料生成;富士康、Noble Machines 在 Isaac Lab 中微調 GR00T模型;迪士尼研究則將其Kamino物理模擬器搭載於Newton 與 Isaac Lab,為旗下全系列角色機器人訓練行為策略。
(迪士尼角色登場,並對話)
這一切都得益於物理模擬技術,依託我們與迪士尼、DeepMind 聯合研發的、運行於輝達 Warp 之上的 Newton 求解器,讓你能夠適應物理世界。你能想像嗎?未來的迪士尼樂園,所有這些機器人、角色都將在園區內自由行走。
通常我會在主題演講結尾總結今天的內容:我們探討了推理、算力變革,討論了人工智慧工廠、OpenClaw 智能體革命,以及物理人工智慧與機器人技術。但今天,不如讓幾位朋友和我們一起收尾。
【播放視訊,機器人角色唱歌總結,歌詞大意如下】
人工智慧工廠落地、智能體學習駕駛技術,從開放模型到機器人應用。我們將為你全面解析。計算性能實現飛躍,我們從CNN 技術到 OpenClaw,見證智能體在全球範圍內應用,但它們需要充足的算力支撐需求,而我們攻克了這一難題。我們將算力提升 4000 萬倍。訓練範式不斷革新,模型驅動全球運轉,成本降低 35 倍。布萊克韋爾架構讓令牌生成高效運轉,曾經需要數年建設的資料中心,如今通過機架與裝置的快速部署,逐步搭建完成,而規模化發展曾面臨諸多瓶頸。DSX 與 Dynamo 技術破解難題,將電力轉化為收益。智能體不再被動觀望,實現自主運行,一旦出現越界行為,安全模組將立即攔截。Nemo 技術守護系統安全,汽車具備思考能力,如同電影場景變為現實,機器人迎來屬於自己的 AGPT 時刻,從模擬走向真實道路,自主行駛。物理人工智慧時代已然到來,我們為人工智慧打造更完善的技術支撐,各類機房與網路架構推動推理技術突破,融合創新帶來巨大商業價值。我們每年都推出全新架構,滿足智能體對令牌的持續需求,人工智慧技術堆疊向全行業開放。未來前景光明,路徑清晰,開放模型引領我們前行。資料缺失無需擔憂,依託算力即可生成更多資料,機器人完美學習成長,遵循四大縮放定律。未來已來,誠邀你共同見證,歡迎各位來到 GTC 大會。
(火龍呼呼貓)