以下為黃仁勳2026年6月1日台北GTC主題演講全文,按原文章節完整保留,未作任何編輯加工。
開場致詞
很高興見到大家,很高興回到家鄉。我把我的父母也帶回來了——我的爸爸媽媽在那裡?請大家為我的父母鼓掌。也請為我們的開場表演鼓掌,台灣的超級明星們,看看他們多可愛。今天現場有這麼多人,我們正在向台灣全島70個觀看派對同步直播,70場同步舉辦的大會正在收看這場主題演講。
我們今天有太多內容要分享,也有太多合作夥伴要感謝。台灣的生態系統已經變得無比龐大,令人驚嘆。通常人們談到生態系統,會想到我們的軟體技術堆疊,想到輝達(NVIDIA)建構的計算系統之上的開發者生態系統。但輝達的生態系統向上游延伸,覆蓋台灣全體供應鏈合作夥伴;向下游延伸,一直到資料中心,直至終端使用者。今天我們將介紹幾乎整個生態系統。
今年,我們共同的業務正在以驚人的速度增長。事實上,昨晚有人告訴我,台灣今年的年度GDP將增長近10%,令人歎為觀止。我們要講的內容很多,讓我們開始吧。
第一部分:智能體AI時代的到來
兩年前我站在這裡,開始向大家介紹AI從生成式AI轉向下一波浪潮的趨勢。那下一波浪潮就是——智能體AI(Agentic AI)。今天,我可以宣佈:智能體AI已經到來,實用AI已經到來。
這意味著什麼?我們來看GitHub。軟體程式設計是智能體AI最早落地的應用場景之一。全球有3000萬至4000萬名專業軟體開發者,加上學生和愛好者,總體上數以億計的人以寫程式碼為生。GitHub的Commit(程式碼提交)數量就是最好的佐證:
- 2023年:約3億次
- 2024年:約4億次
- 2025年:約5億次
- 2026年前幾個月:數量已接近三倍增長
這意味著什麼?全球3000萬軟體開發者,每年產生約3兆美元的工資性GDP,帶動了約100兆美元的全球產業增長。而現在,同樣3兆美元的工資,正在產生將近3倍的產出——相當於9兆美元的生產力。
有人說AI會減少就業崗位,這完全是無稽之談。AI實際上正在促使更多軟體工程師被僱用。道理很簡單:如果僱用一名軟體工程師就能創造9兆美元的生產價值,誰會不想多僱人?這一趨勢很快就會在我們的經濟中顯現出來。
第二部分:Token經濟與算力需求的爆發
實用AI的到來,從產業角度意味著什麼?這意味著Token(推理令牌)正處於前所未有的需求爆發期。AI已成為利潤來源,Token已成為可變現的盈利單元。正因為AI已經可以盈利,AI公司正爭相生產更多Token,建設更多AI工廠,這正是台灣算力需求急劇攀升的根本原因。
算力模式已經改變,一切都變了。AI不再只是大語言模型,而是一個完整的智能體系統。今天我們要談的幾乎所有內容,都建立在這一基礎之上。
第三部分:智能體架構解析
讓我來詳細解釋智能體是什麼。這是一個智能體應用。過去,系統架構是:應用程式→程式碼→作業系統。今天,它是一個智能體,由一個或多個大語言模型(LLM)巢狀在一個"框架(Harness)"中構成,框架負責協調整個系統完成實際工作。
輸入進來之後,智能體需要:觀察(Observe)→推理(Reason)→行動(Act)→使用工具(Use Tools)。工具可以是電子表格、網路瀏覽器、資料處理引擎、資料庫引擎等。這個框架負責協調所有資訊流轉。
智能體還具備短期工作記憶(Working Memory,即KV快取)和長期記憶(Long-term Memory),就像人類一樣。整套系統——大語言模型負責思考,框架連接一切,就像作業系統一樣——這就是新的計算模型。
這也是一次重大突破:大語言模型在推理、規劃、工具使用方面已達到相當水平,配合管理記憶與編排的框架,我們現在能做到令人歎為觀止的事情。
第四部分:CUDA-X 庫——智能體的工具寶庫
很多人說,智能體AI的到來意味著所有軟體公司都將被顛覆。我的判斷恰恰相反:因為會有無數智能體,世界將不再受限於人的數量,這些智能體將使用比以往更多的工具。這是軟體公司的絕佳時機,但前提是軟體必須以智能體能夠呼叫的方式提供。
輝達的CUDA-X庫正是這一寶庫。20年前,我們建構了CUDA——一個統一的加速計算架構,重新定義了計算;1000多個CUDA-X庫幫助開發者在每個科學和工程領域取得突破。這些庫涵蓋:
- cuLitho(計算光刻)
- cuOpt(決策最佳化)
- cuDSS(稀疏直接求解器)
- AIQ(結構化與非結構化文件的深度研究)
- Aerial(AI-RAN,AI驅動的無線接入網)
- Warp(可微分物理模擬)
- Parabricks(基因組學)
這些庫的底層是精美的數學演算法。未來,CUDA-X庫將以"技能包(Skills)"形式提供給智能體,配備使用說明文件,供AI學習如何呼叫——其效果甚至將超越人類使用者。
第五部分:Vera Rubin——為智能體時代而生的超級電腦
智能體系統是一種高度分散化、分佈式的計算模型。正是這一架構需求,催生了Vera Rubin的完整設計。處理一次智能體呼叫,需要啟動整套計算基礎設施:
- 大語言模型負責思考(每次啟動均需一整套Vera Rubin NVL72系統,採用NVLink 72互連技術)
- 工具呼叫使用CPU(可能是C編譯器、Python、JavaScript或加速計算)
- 框架的編排與安全運行在CPU和DPU(Bluefield)上
- 記憶體管理(KV快取的壓縮、檢索、知識圖譜)極其複雜
智能體的記憶體系統,將徹底革新儲存系統的形態。
Vera Rubin不是一顆晶片,也不只是GPU,而是一套完整的端到端系統,包含:Vera Rubin GPU(NVL72,採用NVLink 72互連)、Vera CPU、CX9網路、全端軟體、Bluefield安全處理器(支援靜態、傳輸中和使用中的資料加密),整套系統遵循機密計算(Confidential Computing)標準,因為AI模型太珍貴了。
Vera Rubin是輝達歷史上最宏大的工程壯舉,全公司40,000名工程師以及在座的所有合作夥伴都參與其中。Vera Rubin是一個奇蹟——它由五個相互連接的機架級系統構成,涉及台灣150家供應鏈合作夥伴,數百萬平方英呎的工廠地板,數百個生產點位。
我很高興宣佈:Vera Rubin現已進入全面量產階段!其供應鏈規模是Grace Blackwell的兩倍,而一個機架的組裝時間從原來的2小時縮短至僅需5分鐘。
第六部分:DSX——AI工廠的藍圖
世界正在競相建造AI工廠,這是人類歷史上規模最大的基礎設施建設浪潮。AI工廠極其複雜,每一層——晶片、機架、網路、電力、冷卻、電網——都必須從端到端整體設計。因為算力就是營收,輝達DSX(資料中心基礎設施藍圖)正是AI工廠的標準參考設計。
DSX主要包含:
- DSX Sim(模擬):通過Omniverse藍圖,合作夥伴在第一台機架落地前,便可在數字孿生中完成AI工廠的設計、驗證、模擬電力和冷卻、網路規劃;
- DSX OS:工廠上電後自動接管,負責資源調配、營運監控與故障修復,將已安裝系統轉化為可信、多租戶、高可用的AI就緒產能;
- DSX MaxLPS:當前AI工廠普遍超額配置電力達40%,DSX MaxLPS允許在相同電力預算內部署更多GPU,每年創造數十億美元額外收益;支援45℃熱液冷卻,節水節能;動態電力分配可在機架間即時調度,回收"擱淺瓦數";
- DSX Flex:將AI工廠作為靈活儲能資產,即時讀取電網訊號,在電網需要調峰時動態調整工廠用電。
到本十年末,將有100吉瓦的AI工廠上線。輝達DSX AI工廠以最高效率運行、生產成本最低的Token,同時使電網更加穩定。
第七部分:算力即營收——AI基礎設施的經濟學
輝達已從GPU公司、系統公司,進化為AI基礎設施公司。值得注意的是,當前每座吉瓦級AI工廠的建設造價已從最初的200億至300億美元,攀升至500億至600億美元,並很快將達到800億至1000億美元。如此規模的資本投入,必須一次建成、立即運轉,資本成本極高,容錯空間極小。
為什麼選擇輝達至關重要?原因在於四點:
第一,更短的投產時間(Time to First Token):我們將整套基礎設施完整連接,自行建設,確保一切正常運行,因此客戶能更快開始推理和訓練。
第二,更高的每瓦Token數(Tokens per Watt):如果您的資料中心有1吉瓦的電力,就是1吉瓦,不會更多。在這個約束下,每瓦效能即營收。選擇便宜但低效的架構並不合算——您需要確保每多買一台,就能多賺一分。
第三,超高的可靠性:大規模資料中心有數百萬根線纜,極難保證系統協同穩定運行。輝達長期營運超大規模系統,這一經驗至關重要。
第四,更長的系統生命周期:過去數年間,從CNN到Transformer,從MoE(混合專家模型)到現在的智能體系統,AI軟體持續快速演進。如果架構缺乏靈活性,生態系統不夠豐富,系統生命周期就會很短。輝達生態系統已無處不在,軟體開發者天然從CUDA起步,因此系統的有效資產壽命遠長於其他方案,總擁有成本(TCO)大幅降低。
第八部分:Vera CPU——為智能體而生的處理器
過去所有的CPU都是為人類而建,我們生活在以秒計時的世界裡。但智能體是沒有耐心的,它們活在以納秒計時的世界裡。智能體呼叫工具時,需要響應越快越好;訪問資料庫時,必須盡快返回結果——每一刻的等待,都阻礙著智能體進入下一步。
因此,我們為智能體時代打造了全新的Vera CPU。其核心是輝達自研的Olympus資料中心CPU核心架構,專為現代資料中心工作負載最佳化——包括分支密集的Python執行階段、工具呼叫和沙箱程式碼執行。
Vera CPU具備四大核心設計目標:
第一,極高的單線程性能(IPC):每時鐘周期可獲取、解碼並執行10條指令,全球最高。智能體需要低延遲而非高吞吐量。
第二,超高的核心頻寬:輝達第二代可擴展一致性互聯架構(Scalable Coherency Fabric),將88個Olympus核心通過整體網格連接,核心到核心通訊速度比傳統CPU快50%;採用NVLink晶片到晶片互連,可將GPU直接接入記憶體一致性互聯架構,還可多插槽擴展。
第三,驚人的系統頻寬:LPDDR5X記憶體,1.2 TB/s頻寬,相當於最高性能x86 CPU的3倍;率先支援PCIe Gen6;支援多位元錯誤糾正同時不損失頻寬,峰值記憶體延遲比x86低40%。
第四,極致的能效:CPU不能搶奪GPU生成Token所需的電力,必須在高性能的同時做到極度節能。
Vera的基準測試結果令人震驚:
- SQL資料庫查詢:速度提升3倍
- 紐約證券交易所即時流處理:速度提升6倍
- 智能體沙箱性能:比x86 CPU高1.8倍
Vera已與全球幾乎所有主流ODM和伺服器廠商合作,正在開闢一個全新市場。由於未來智能體數量將遠超人類數量,且智能體極度沒有耐心,這個市場的規模必將超過以往任何一代CPU市場。
第九部分:輝達企業AI工具包——讓每家企業都能建構智能體
每家公司都將成為智能體公司。我們為此打造了輝達企業AI工具包(Nvidia Agent Toolkit for Enterprise AI),包含四個核心元件:
第一,模型(Models):輝達開放的世界級模型,可直接使用或按需微調。也可運行來自任何供應商的智能體,包括Claude Code(Anthropic)、Codex(OpenAI旗下程式設計智能體)等。
第二,框架(Harness):Open Shell——一個高安全性的企業級智能體框架(開源)。它為智能體提供安全沙箱保護、企業安全策略繫結、隱私保護、權限與身份管理。Red Hat、Canonical、微軟等公司已紛紛採用,將在全球廣泛普及。此外還有Hermes——另一款強大的智能體框架。
第三,工具與技能(Tools & Skills):CUDA-X加速庫,以及不斷擴充的智能體專用技能包。
第四,執行階段(Runtime):針對輝達AI平台深度最佳化,可在任意雲端、本地(On-Prem)乃至裝置端運行。
很多人說,智能體會顛覆SAP、ServiceNow、Palantir、CrowdStrike這樣的企業軟體公司。我的判斷恰恰相反——智能體將為這些公司創造有史以來最大的機遇。智能體需要工具,這些公司正是最好的工具提供者。
以Cadence合作為例:輝達與Cadence聯合打造了晶片設計超級智能體,以Codex或Claude Code為編排核心,以RTL(暫存器傳輸級)程式碼和架構規格為輸入,呼叫Cadence Xcelium進行RTL模擬驗證,呼叫Jasper進行形式化驗證,配合Nemotron模型在Open Shell安全環境中運行。結果:原本需要數周的驗證周期,現在縮短至數小時,提速超過40倍。輝達計畫僱用成千上萬個Cadence超級智能體,以加速自身的晶片研發。
第十部分:Nemotron 3 Ultra——面向所有人的開放模型
要建構能力卓越的智能體,首先需要一個出色的基礎模型。輝達致力於為全世界建構開放模型,讓所有人都能據此建立自己的智能體。今天,我們正式發佈Nemotron 3 Ultra。
Nemotron 3 Ultra的特點:
- 完全開放:模型權重、訓練資料、訓練指令碼全部公開;
- 全球首個基於SSM(狀態空間模型)與MoE(混合專家模型)混合架構的模型;
- 推理速度提升5倍,推理總成本(含FLOPs與推理時間)降低30%;
- 在推理能力與推理速度上同時領先全球最優秀的開放模型;
- 訓練資料來自輝達及合作夥伴聯盟的高品質長文推理與工具呼叫資料集。
Nemotron 4目前也在研發中,敬請期待。
第十一部分:重新定義PC——RTX Spark與全新PC產品線
40年前,PC的出現改變了世界。現在,輝達與微軟共同歷經3年,正式重新定義PC。值得一提的是,明天黃仁勳將與微軟CEO薩提亞·納德拉(Satya Nadella)聯合亮相,共同深入介紹雙方合作成果。
新的PC作業系統,是舊作業系統加上大語言模型。大語言模型在很多方面是DirectX的現代版本:它理解輸入輸出、理解提示(Prompt)、支援電腦視覺、可生成視訊與聲音——它是電腦的智能延伸。在此之上,原有的應用程式將被智能體執行階段(Agentic Runtime)所取代。
今天,我們發佈RTX Spark:
核心規格:
- Blackwell RTX GPU,6144個CUDA核心,1 PFLOP AI算力
- 定製化20核Grace CPU(與聯發科合作研發,晶片代號N1X)
- NVLink統一互連,128GB統一記憶體
- 台積電3nm製程,700億電晶體
RTX Spark演示場景:本地運行Hermes框架,連接雲端Claude Sonnet模型,實現AI輔助建築設計。智能體呼叫Rhino建模工具、Blender渲染器、Flux 2圖像生成模型,將構思草圖轉化為專業3D效果圖,全程自主糾錯,實現"以想像力驅動設計"的全新工作流。
Adobe已針對RTX Spark重構了Photoshop和Premiere的核心架構,速度提升2倍,並增加MCP伺服器支援,實現與本地智能體的無縫互動。
完整新PC產品線(三大形態):
- RTX Spark筆記型電腦:全新設計,搭載N1X晶片(輝達與聯發科聯合研發),100%相容輝達完整軟體棧;
- RTX桌上型電腦:可全天候運行本地AI智能體,7×24小時線上,可連接家中所有裝置;
- DGX Station for Windows:768GB記憶體,可運行兆參數模型,20 PFLOPS算力,8 TB/s記憶體頻寬,專為大模型開發者設計。
輝達已建立新PC產品線的完整路線圖:每一代架構都將對應桌面、筆記本和工作站三種形態。全球PC產業100%參與,共同開啟PC的新紀元。這場再發明,與智慧型手機的誕生同等量級。
第十二部分:物理AI——Cosmos 3、自動駕駛與機器人系統
智能體AI也將遍佈各類物理裝置。其中,物理AI最難的問題是資料——絕大多數視訊資料是第三人稱視角,而機器人AI需要第一人稱視角資料。輝達通過遙操作示範、模擬強化學習、第三人稱到第一人稱的視角重投影,逐步建立起世界基礎模型。
Cosmos 3——物理AI的基礎模型
今天,我們發佈Cosmos 3,這是物理AI領域的前沿基礎模型。Cosmos採用全新的混合Transformer架構,像素、動作、聲音和語言同時流入自回歸Transformer(負責推理與規劃),並驅動擴散Transformer(負責生成下一幀內容)。
Cosmos可作為:VLM(視覺語言模型)觀察並描述物理世界;世界模型生成物理精確的合成視訊;模擬器實現閉環策略訓練與評估;世界行動模型逐幀預測未來,生成各類機器人的動作指令。Cosmos同樣完全開放——模型、資料、訓練方法全部公開。
在自動駕駛領域,今天我們還發佈了面向自動駕駛汽車的開放推理模型Alphamayo 2。約80%的全球汽車製造商已加入輝達Hyperion平台,約97%的全球出行服務商也已接入。演示中,搭載該系統的梅賽德斯車輛可即時語音播報自身的推理過程與駕駛決策,這正是AI"思考中"的外化體現。
在人形機器人領域,Isaac Groot平台包含模型、資料生成、模擬與執行階段的完整技術堆疊。今天我們還發佈了Isaac Groot參考機器人:由Schaeffler製造,25個手部自由度,全身31個自由度;身高6英呎,體重150磅;搭載Thor處理器及輝達完整軟體棧;專為高校和研究機構設計,大幅降低人形機器人研究門檻。
總結與展望
過去6個月,一切都變了。智能體AI已經實現,並與最新的前沿模型融合,使AI真正能夠完成實用工作。智能體這一計算模式——模型+框架+工具與技能+執行階段——將在雲端、本地、PC、機器人、衛星、基站、工廠中無處不在地運行。
今天的主要發佈:
Vera Rubin全面量產:為智能體時代而建的多機架叢集級超級電腦,從GPU(NVL72)、CPU、網路(Spectrum-X,全球首款整合200Gb共封裝光學的乙太網路交換機)、儲存到安全處理器(Bluefield 4),完整覆蓋;
Vera CPU:為智能體而生的全新架構處理器,單線程性能、頻寬、能效全面領先,將成為輝達歷史上最快速成功的產品之一;
輝達企業AI工具包:涵蓋Nemotron 3 Ultra開放模型、Open Shell/Hermes框架、CUDA-X工具庫、執行階段,幫助每家企業建構屬於自己的智能體;
RTX Spark與全新PC產品線:與微軟聯合重新定義PC,40年來首次全面革新;
Cosmos 3:物理AI基礎模型,完全開放;
Alphamayo 2:面向自動駕駛的開放推理模型;
Isaac Groot參考機器人:人形機器人開發平台。
我對個人電腦的預判是:十年後,家庭AI超級電腦可能像家庭影院一樣普及,持續運行您的智能體助手,越來越像R2-D2,越來越像C-3PO,而不再只是一台打開應用、點選輸入的工具。這是一場與智慧型手機的誕生同等量級的再發明。 (滄海札記)
