輝達的AI基礎設施版圖大幅擴張。
輝達憋了許久的晶片大招,終於來了。
智東西6月1日報導,今日,在GTC台北大會上,輝達創始人兼CEO黃仁勳穿著閃亮的黑色皮衣發表主題演講,發佈2款晶片、1款桌面級AI超算、多款開源AI模型、框架、函數庫,還與宇樹科技聯合發佈了基於宇樹H2 Plus機器人的全新人形機器人參考設計。
傳聞已久的輝達首款Arm架構PC晶片終於亮相,名為RTX Spark超級晶片。黃仁勳宣佈與微軟推出全新PC產品線,並稱“這是40年來PC產品線首次全面革新”,同樣的智能體處理模式還將延展到各種裝置上。
他說,電腦的這次革命,重要程度不亞於普通手機演變為智慧型手機,輝達已為此制定產品路線圖,每一代架構(Grace Blackwell、Vera Rubin、Rosa Feynman)都將配備桌上型電腦、筆記本和工作站。
輝達還發佈了全球最強大的Windows平台桌面AI超級電腦DGX Station,以及輝達豪賭2000億美元市場的大招——專為智能體設計的Vera CPU。這正是輝達為智能體運行開拓的兩大全新市場。
Anthropic、OpenAI、SpaceX三家AI巨頭均率先部署Vera CPU。
在Q1財報期間,輝達曾透露全新Vera CPU將開啟一個價值2000億美元的市場,預計Vera晶片收入將在本財年末達到200億美元,成為“第二大銷售貢獻者”。
今日,黃仁勳稱Vera CPU具有革命性意義,其產能爬坡令他非常滿意,“目前的訂單量已註定它將成為我們公司歷史上最快速、最成功的產品發佈。”
“NVIDIA Vera是英特爾和AMD x86_64處理器有史以來最強大的競爭對手。”Phoronix CPU Benchmark Suite作者Michael Larabel評價說。
面向智能體部署,輝達推出迄今最強模型Nemotron 3 Ultra、企業級智能體工具箱。其中,Nemotron 3 Ultra的智能體生產力測試分數超過或打平了三個領先的國產智能體模型智譜GLM 5.1、月之暗面Kimi K2.6、阿里Qwen3.5。
面向物理AI,輝達開源世界基礎模型Cosmos 3、自動駕駛推理模型Alpamayo 2 Super,並宣佈成立Cosmos聯盟。
面向AI工廠,輝達宣佈Vera Rubin全面投產,並掏出了幫AI工廠更穩定、節能的兩大利器DSX OS和DSX MaxLPS。
黃仁勳也一如既往地曬了一下輝達龐大的“朋友圈”,並繼續鞏固熱愛美食的人設,特別感謝了在夜市的水果攤販,還給了花娘小館、富霸王豬腳餐廳等幾家飯店名字的特寫鏡頭。
在演講中,黃仁勳連飆金句:
“實用AI時代已經到來。”
“AI現在是利潤生成器、GDP生成器。”
“計算即收入。”
“買得越多,賺得越多。”
“Token已成為盈利的收入單位。”
“僅僅因為晶片更便宜就選擇錯誤的架構,是沒有意義的。”
黃仁勳認為,在AI工廠時代,每產生1個token就能盈利,每瓦性能、可靠性和系統壽命才是核心財務槓桿。
AI工廠每吉瓦成本是200億~300億美元起步,現已攀升至500億~600億美元,不久後將達到800億~1000億美元。這些投資必須確保一次成功。
在黃仁勳看來,AI會減少工作崗位的說法“完全是無稽之談”,AI反而推動了軟體工程師需求的增長。
作為GTC慣例,輝達的機器人生態全家福再次展出。
最後,在演講末尾,輝達播放了由一群人形機器人、OpenClaw龍蝦、黃仁勳數字人共同參演的音樂MV。
01. 輝達自研PC晶片登場:3nm製程,最高1P算力,能跑1200億參數大模型
“時隔40年,微軟與輝達將重新發明PC(個人電腦)。”黃仁勳宣佈,輝達與微軟面向個人智能體時代重新構想PC,推出為遊戲和智能體而生的RTX Spark超級晶片。
RTX Spark超級晶片採用台積電3nm工藝,內建700億顆電晶體,提供128GB LPDDR5X統一記憶體和1PetaFLOPS FP4 AI算力,號稱是“史上能效最高的RTX晶片”。
其中,Blackwell RTX GPU有6144個CUDA核心和第五代Tensor Core,並通過NVLink C2C晶片間互連技術連接到與聯發科合作開發的定製20核Grace CPU。
黃仁勳將RTX Spark稱作“世界上製造過的最神奇的晶片”,“輝達100%的軟體棧都在其上運行”。
RTX Spark融合了輝達33年的創新成果,為全球首款專為個人智能體打造的Windows PC提供動力。輝達CUDA可在RTX Spark上原生運行。
搭載RTX Spark的PC,可以使用OptiX和DLSS渲染90GB超大型3D場景,使用輝達Blackwell解碼器編輯12K 4:2:2視訊,運行具有100萬個token上下文的1200億參數大語言模型,以及使用光線追蹤、DLSS和Reflex以1440p解析度和每秒100幀以上的速度玩3A遊戲。
以前使用PC,使用者要啟動應用程式,點選滑鼠,輸入文字。現在使用RTX Spark和微軟Windows,使用者只需提出請求,電腦就能完成工作。
此外,Adobe為RTX Spark重新設計了Adobe Photoshop和Premiere的架構,新版本在創意工作流程中,可將AI、編輯、調色和特效的處理速度最高提升至2倍。
微軟與輝達正在對整個PC進行全面重塑,發佈了面向智能體的全新三大Windows產品線,涵蓋筆記型電腦、桌上型電腦、桌面超算。
搭載RTX Spark的筆記型電腦和緊湊型桌上型電腦將於今年秋季推出。
筆記型電腦厚度僅為14mm,重量僅3磅,有14至16英吋多種尺寸選擇,可以24小時不間斷本地“養龍蝦”。
02. 全球最強桌面級AI超算:748GB記憶體,20P算力,能跑兆參數模型
輝達今日還推出了一款適用於Windows的桌面AI超級電腦DGX Station。
DGX Station for Windows由微軟合作開發,基於輝達DGX Station系統設計,搭載輝達GB300 Grace Blackwell Ultra桌面級超級晶片,提供最高748GB統一記憶體、20PetaFLOPS FP4算力、800Gbps ConnectX-8 SuperNIC網路,與所有Windows軟體相容,可運行兆參數級AI模型,並可同時運行數百個智能體。
它支援額外配置一張RTX Pro 6000工作站級GPU,將前沿AI算力與光線追蹤可視化相融合,用於跨創意設計和工程應用運行智能體。
DGX Station for Windows預計將於今年第四季度由主流系統整合商上市。
黃仁勳預言,未來有一天,每個家庭都會有一台AI超級電腦,運行著你所有的智能體和助手。
03. Vera CPU:88核、1.2TB/s記憶體頻寬,專為智能體設計
傳統CPU追求每顆插槽的核心數,切片、虛擬化、按小時出租。在智能體時代,CPU已成為GPU利用率的瓶頸,直接影響token吞吐量、時延與使用者體驗。
對此,輝達推出其最先進的CPU——專為智能體而生的Vera CPU。
Vera CPU採用LPDDR5X記憶體(頻寬1.2TB/s)、支援PCIe Gen6,內外頻寬均達同類最高性能CPU的2至3倍,也是首款在糾正多位錯誤的同時不損失頻寬的CPU。
它基於輝達第二代可擴展一致性架構,將88個輝達定製Arm核心Olympus統一在一個單片Mesh網路上,在智能體工作負載上實現了最高的單線程性能與最佳能效比。
其核心並未分散在多個Chiplet上,核心之間的通訊速度比傳統CPU快50%。Vera支援記憶體一致性,NVLink-C2C晶片間互聯可將GPU直連到架構,還可以將Vera擴展到多個插槽,在CPU之間實現巨大頻寬。
與Grace CPU相比,Vera的每個核心每時鐘周期可多執行50%的指令。
與配備DDR5的x86 CPU相比,Vera每個核心的頻寬多達3倍;與x86 CPU相比,峰值記憶體延遲降低了40%,在檢索分析與沙箱執行中保持核心供給及時。
在Python程式碼分析、程式碼編譯等常見智能體工具的行業標準基準測試中,Vera的智能體沙箱性能是與x86 CPU競品性能的1.8倍。
該處理器有四大核心設計原則:領先的每時鐘指令數(IPC)/ 單線程性能、每核心頻寬、總頻寬以及能效。
Vera每時鐘可取指、解碼並執行10條指令,IPC全球最高。
輝達Olympus核心專為現代資料中心工作負載、分支密集型Python執行階段、工具呼叫和沙箱程式碼執行而最佳化。
每顆核心均為吞吐量調優:神經分支預測器可在每個周期評估兩個選定分支,10-Wide解碼引擎可在每個周期代入更多工作負載,大型亂序執行引擎維持著指令的運作,新型圖引擎的高階預取器可預測下一個資料路徑。
Vera片上高速互聯匯流排頻寬達3.4TB/s,無芯粒稅(chiplet tax),無跨片邊界損耗,所有核心可與其他任何核心及快取無延遲通訊,不存在調度衝突。
該CPU已進入全面量產,並將於今年秋季通過系統合作夥伴正式上市。
Anthropic、OpenAI、SpaceX均是Vera CPU的早期採用者。
在SQL 1TB基準測試中,Vera CPU的SQL運行速度達到競品的3倍。
Vera CPU正在為紐約證券交易所(NYSE)運行即時流處理,實現了6倍的性能提升。
Grace與Vera CPU是AI領域認證程度最高的CPU、每家企業只要與輝達合作AI,都將認證Grace和Vera。
04. 人形機器人參考設計:宇樹機身+Sharpa靈巧手,開箱即用
NVIDIA Isaac GR00T參考人形機器人是首款基於輝達Jetson Thor和Isaac GR00T平台建構的開放人形機器人參考設計。
這個參考設計整合了宇樹H2 Plus人形機器人、Sharpa Wave五指靈巧手、輝達Jetson Thor處理器以及Isaac GR00T軟體和工作流程,並預裝了輝達GR00T 1.7人形機器人模型,開箱即用。
具體包括:
- 宇樹H2人形機器人底盤:身高近6英呎,重150磅,全身有31個自由度,用於人體尺度測試。
- 雙Sharpa Wave觸覺五指靈巧手:可實現22個自由度的靈巧操作,使機器人在身體和手部達到75個自由度。
- 多視角感測器:包括一個頭戴式立體攝影機(水平140度,垂直102度),用於近距離操作的腕部攝影機,以及一個用於運動跟蹤的慣性測量單元。
- 全身控制:手臂扭矩高達120N·m,腿部扭矩達360N·m,手臂額定有效載荷為7公斤,峰值有效載荷為15公斤,舉升和伸展能力更強。
- 輝達Jetson AGX Thor T5000板載計算:配備NVIDIA Blackwell GPU,FP4 AI性能達2070TFLOPS,14核Arm CPU,128GB統一記憶體,以及可配置的40至130瓦功率範圍,用於即時感測器處理和機器人推理。
- 支援乙太網路、Wi-Fi 6、藍牙5.2、USB連接,並配備一系列麥克風和揚聲器,用於語音互動。
- 電池容量為15Ah,0.972kWh,續航時間約為3小時,可延長執行階段間。
- 遠端緊急停止功能,可快速安全地脫離機器人。
宇樹科技已在官方公佈Isaac GR00T參考人形機器人的全身配置:
今年年底,NVIDIA Isaac GR00T參考人形機器人將由宇樹科技提供。
NVIDIA Isaac GR00T開發者平台還將支援宇樹G1人形機器人。針對宇樹G1的參考工作流程預計很快將在GitHub和Hugging Face上提供給機器人開發人員。
為什麼要做這件事?
黃仁勳說,研究實驗室從人形機器人製造商那裡獲得的機器人,尚未達到量產就緒狀態,因此,實驗室將大量時間和精力花在使機器人的基本功能正常運作上。
而一個能夠規模化開發、配備備用零件、開箱即用的平台,將計算、軟體棧、手部和機身全部整合在一起,統一設計協同運行,並配備完整的模擬能力,使研究實驗室能直接開箱使用,立即投入研究。
05. 開源輝達最強世界模型:5500億參數,5倍速度、成本降低30%
輝達致力於為全世界建構開源模型,讓人人都能打造屬於自己的智能體。
Nemotron 3 Ultra是輝達迄今最強的新一代開源基礎模型,也是面向自主智能體能力最強的模型,共有5500億個參數。
這是全球首個基於SSM(狀態空間模型)與專家混合(MoE)混合架構的模型。
它的速度是同等級領先模型的5倍,完成相同智能體任務所需的運行成本降低30%。
“無論是總浮點運算量還是總推理時間,均優於目前最具性價比的開源模型。”黃仁勳總結說。
目前輝達正在研發Nemotron 4。
06. 打造智能體工具包,智能體將晶片設計驗證提速40多倍
黃仁勳說,下面這張圖是本場演講中最重要的一張幻燈片,也是最核心的結論:
這是未來十年的應用模式、計算模式,每家公司都會採用。
如何幫助企業安全地建構和運行智能體?為此,輝達推出了企業級智能體工具包(NVIDIA Agent Toolkit for Enterprise AI)。
輝達智能體工具包結合了大語言模型、智能體框架和企業級執行階段,能為企業內部提供高度安全的環境。
所有智能體都可以使用基於NVIDIA CUDA-X庫(包括 cuDF、cuOpt、AI-Q、NeMo、PhysicsNeMo和CUDA-Q)的智能體Skills。
這些經過驗證的輝達智能體Skills可在Claude Code外掛市場和Hermes Skills Hub中找到。
NVIDIA OpenShell是這些自主智能體的安全執行階段環境,為智能體操作提供獨立的沙箱、集中式策略執行和治理管理閘道器,並可在Ubuntu、Windows、Red Hat OpenShift等主流企業平台上運行。
黃仁勳說,他最喜歡的智能體應用案例之一是晶片設計。
輝達與Cadence合作,打造了一款晶片設計超級智能體。
通過協調暫存器傳輸級生成、測試平台建立、回歸測試和偵錯,這個超級智能體可自動運行數百次模擬和形式化檢查,可將原本耗時數周的工作壓縮到幾小時,驗證周期快了40多倍。
“輝達擁有數千名晶片設計師。我們將引入數十萬名Cadence超級智能體與我們協同工作,加速公司發展。”黃仁勳說。
07. 物理AI:全新世界模型、自動駕駛推理模型開源
物理AI最大的挑戰是資料。對此,輝達推出一款面向物理AI的開源世界基礎模型Cosmos 3。
Cosmos 3基於混合Transformer架構,將視覺推理和跨文字、視訊、圖像、環境音效和動作的多模態生成功能整合到一個模型中,幫助開發者建立具有物理上下文的世界資料。
該模型是VANTAGE-Bench測試榜上排名第一的開放視覺語言模型。
開發者可針對不同形態和應用場景對Cosmos 3進行後訓練(post-train),比如用於世界推理、合成資料、閉環模擬器或世界動作模型。
所有模型、程式碼和訓練方案均已在Hugging Face和GitHub上開放。
同時,輝達宣佈成立Cosmos聯盟(Cosmos Coalition),Agile Robots、Black Forest Labs、Runway、LightTricks、Skilled AI等部分頂尖AI實驗室正與輝達共同開發下一代Cosmos。
面向自動駕駛領域,輝達也推出了全新物理AI模型、框架、函數庫:
(1)Alpamayo 2 Super:一款擁有320億參數的開放自動駕駛推理模型,專為推理、規劃、標註和評估設計。
(2)AlpaGym:一款開源閉環強化學習框架,讓開發者能夠在模擬環境中訓練自動駕駛策略,模型動作能夠真實影響後續模擬結果。
(3)OmniDreams:一款基於Cosmos建構的專用角色模型,可大規模生成稀有、逼真的長尾駕駛場景。
(4)全新Omniverse NeRF函數庫:能在單塊GPU上以25ms以內的速度完成真實世界的重建與渲染,使開發者可即時評估模型的感知效果。
這些發佈共同為自動駕駛開發者提供了一條更快速、更安全的L4自動駕駛實現路徑。
08. Vera Rubin已全面投產
今年年初發佈的Vera Rubin,現已全面投產。
黃仁勳說,Vera Rubin是輝達史上最具雄心的項目,全公司40000名工程師都參與其中。
Vera Rubin專為運行智能體而生,是一套完整的分解式分佈式智能體處理系統,包含Vera Rubin NVL72系統、液冷Vera CPU機架、Vera BlueField-4 STX儲存和安全系統、Groq 3 LPX低延遲推理托架和Spectrum-X Ethernet Photonics網路。
該平台由台灣超過150家供應鏈生態合作夥伴參與,遍佈數百個工廠。所有元件均通過極致協同設計(extreme co-design)打造。
輝達為Vera Rubin打造的供應鏈,規模是Grace Blackwell的2倍。
以前組裝一個 Grace Blackwell機架需要2小時,現在只需5分鐘。產能更高,出貨速度也大幅提升。
單個液冷Vera CPU機架容納256顆CPU,負責模型編排、記憶體調度與工具呼叫。
在富士康與廣達,Groq LPX逐步成形。256顆Groq LPU分佈於16個托盤,片上靜態隨機儲存器(SRAM)頻寬高達40PB/s,實現超低時延。
Spectrum-X Ethernet Photonics是全球首款採用共封裝光器件的200Gb/s SerDes乙太網路交換機,現已投入生產。
Vera BlueField-4 STX由BlueField-4加速,在晶片層面處理安全問題:DOCA Argus可將威脅檢測時間從分鐘縮短至毫秒;DOCA Vault可在機架規模上保護AI資料。
09. DSX:幫企業建構和管理AI工廠,相同功耗下多塞40%的GPU
輝達曾經在電腦內部設計一顆晶片,然後在電腦內部模擬一個系統,如今終於可以在數字框架、數字模擬器、數字世界中建構這些龐大的系統,在破土動工、投入真金白銀之前驗證一切。
黃仁勳解釋說,RTX對應GPU,DGX對應系統,而DSX對應基礎設施。
世界正在競相建設AI工廠晶片、機架、網路、電力、冷卻、電網每一層都必須從頭到尾協同設計,因為“計算即收入”。
NVIDIA DSX是以最高效率和盈利能力設計、建設與營運AI工廠的參考設計,致力於實現最低Token成本,並守護能源電網安全。
今日,輝達推出適用於DSX平台的全新AI工廠作業系統DSX OS和DSX MaxLPS。
DSX OS是一款模組化、開源、可擴展的基礎設施軟體,專為AI工廠營運商設計,負責配置、營運、監控和修復基礎設施,將已安裝的系統轉化為可信賴的多租戶、高彈性、AI就緒的算力容量。
DSX OS開源元件的生態合作夥伴可接入自有軟體,並通過ISV(獨立軟體供應商)生態加以擴展。
DSX MaxLPS是一套專門設計的技術組合,能與Vera Rubin硬體的動態功耗特性協同配合,統籌最佳化算力吞吐,幫助資料中心營運商在相同功耗、電力預算下可多提供40%的GPU,每年可新增數十億美元的營收。
熱液冷卻技術在45℃下運行,耗水更少、能耗更低,將更多電力導向創收算力;動態電力調配技術將電力從機架到機架靈活調度,回收閒置功耗,將其輸送至有工作負載的地方;機架內削峰平滑技術抑制電流尖峰和功率浪湧,穩定整個工廠的供電;智能體團隊與DSX MaxLPS協作,持續協調冷卻與電力,以滿足工作負載需求。
10. 結語:一切為了幫客戶實現最高利潤
2026年正成為AI發展史上極為重要的一年。智能體的拐點正在推動生產力大幅提升,創造巨大的商業機遇。
黃仁勳總結了輝達建構AI基礎設施的優勢:
1、首個Token時延、首次推理啟動時延、訓練啟動時延都更短。
2、每瓦吞吐量、每瓦Token數是世界頂級。僅僅因為晶片更便宜就選擇錯誤的架構,這不划算。每瓦Token數才是關鍵,買得越多,賺得越多。
3、可靠性。輝達已經在超大規模下營運很久,這些經驗非常寶貴。
4、系統使用壽命。每隔幾個月,軟體行業就會湧現出新技術。輝達的系統遍佈全球,軟體開發者從輝達CUDA起步,因此生態系統和資產的有效使用壽命自然會更長。如果資產壽命長,則總擁有成本(TCO)低。
正如黃仁勳強調的,輝達已經不僅僅是一家GPU公司和系統公司,而是一家基礎設施公司,一切都是為了幫客戶實現最大營收、最高利潤,並盡快實現目標。 (智東西)
