剛剛,輝達CEO黃仁勳穿著鱷魚皮夾克,在全球最大消費電子展CES 2026上發佈AI新品。
這是五年來,輝達首次來到CES卻沒有發遊戲顯示卡,態度很明確:全力搞AI。
全力搞出來的結果也讓圍觀群眾直呼:競爭對手如何追上輝達?
下一代Rubin架構GPU推理、訓練性能分別是Blackwell GB200的5倍和3.5倍(NVFP4資料格式)。
除此之外,老黃還帶來了五大領域的全新發佈,包括:
同時,輝達宣佈持續向社區開源訓練框架以及多模態資料集。其中資料集包括10兆語言訓練token、50萬條機器人軌跡資料、45.5萬個蛋白質結構、100TB車輛感測器資料。
這次的核心主題,直指物理AI。
用網友的話來說:
這是輝達將護城河從晶片層進一步拓展到全端平台層(模型+資料+工具)的體現,通過這種方式可以持續拉動更多GPU與基礎設施投入,並顯著增強使用者與生態的鎖定。
值得一提的是,咱國產開源模型又雙叒被cue到了。
老黃在演講開篇便提及了DeepSeek,Kimi K2、Qwen也出現在PPT展示頁上。
老黃正式推出輝達下一代AI資料中心的機櫃架構Vera Rubin,披露架構細節。
六大核心組件共同構成Vera Rubin NVL72機架:
Vera CPU、Rubin GPU、NVLink 6 switch、ConnectX-9 SuperNIC、BlueField-4資料處理單元(DPU)、Spectrum-6 Ethernet switch。
在NVFP4資料類型下,Rubin GPU推理性能可達50 PFLOPS,是Blackwell GB200的5倍;NVFP4訓練性能為35 PFLOPS,是Blackwell的3.5 倍。
為支撐這些計算能力,每顆Rubin GPU封裝了8組HBM4記憶體,提供288GB容量和22 TB/s的頻寬。
隨著主流大模型轉向MoE架構,模型得以相對高效地進行規模擴展。然而,這些專家模組之間的通訊,對節點間頻寬提出了極高要求。
Vera Rubin引入了用於規模內擴展網路的NVLink 6。
它將單GPU的互連頻寬提升至3.6 TB/s(雙向)。每顆NVLink 6交換晶片提供28 TB/s的頻寬,而每個Vera Rubin NVL72機架配備9顆這樣的交換晶片,總規模內頻寬達到260 TB/s。
NVIDIA Vera CPU整合了88個定製的Olympus Arm核心,採用輝達稱為“spatial multi-threading”設計,最多可同時運行176個線程。
用於將Vera CPU與Rubin GPU進行一致性連接的NVLink C2C互連,其頻寬提升了一倍,達到1.8 TB/s。每顆Vera CPU可定址最多1.5 TB的SOCAMM LPDDR5X記憶體,記憶體頻寬最高可達1.2 TB/s。
為將Vera Rubin NVL72機架擴展為每組8個機架的DGX SuperPod,輝達推出了一對採用共封裝光學(CPO)的Spectrum-X乙太網路交換機,均基於Spectrum-6晶片建構。
每顆Spectrum-6晶片提供102.4 Tb/s的頻寬,輝達基於該晶片推出了兩款交換機。
SN688提供409.6 Tb/s的總頻寬,支援512個800G乙太網路連接埠或2048個200G連接埠。
SN6810則提供102.4 Tb/s的頻寬,可配置為128 個800G或512個200G乙太網路連接埠。
這兩款交換機均採用液冷設計,輝達表示,與不具備矽光子技術的硬體相比,它們在能效、可靠性和執行階段間方面表現更優。
隨著上下文窗口擴展到數百萬token,輝達還指出,儲存AI模型互動歷史的鍵值快取(KV cache)相關操作,已成為推理性能的瓶頸。
此前黃仁勳曾表態:沒有HBM,就沒有AI超算。
為突破這一限制,輝達推出新硬體BlueField-4 DPU,建構了一個新的記憶體層級,稱為推理上下文記憶體儲存平台(Inference Context Memory Storage Platform)。
輝達表示,這一儲存層旨在實現鍵值快取資料在AI基礎設施中的高效共享與復用,從而提升系統響應速度和吞吐能力,並實現Agentic AI架構可預測、能效友好的規模擴展。
這是Vera Rubin首次將輝達的可信執行環境擴展至整個機架等級。
整體來看,每個Vera Rubin NVL72機架可提供:
為保障機架系統的持續高效運行,輝達在機架層面引入了多項改進,包括無纜化模組托盤設計,使元件更換速度顯著快於此前的NVL72機架;增強的NVLink彈性能力,實現零停機維護;以及第二代RAS引擎,可在不中斷服務的情況下完成健康檢測。
另外,輝達表示,與Blackwell相比,Vera Rubin在訓練MoE模型時所需的GPU數量僅為四分之一;在MoE推理場景下,其每token成本最高可降低10倍。
反過來看,這也意味著Rubin能在相同機架空間內,大幅提升訓練吞吐量,並生成遠多於以往的token數量。
據介紹,目前用於建構Vera Rubin NVL72所需的六類晶片已全部從晶圓廠交付,輝達預計將在2026年下半年啟動Vera Rubin NVL72的規模化量產。
再來看輝達重磅推出的全新開源模型系列——Alpamayo,面向安全推理的自動駕駛。
全球首款開源、大規模的自動駕駛視覺-語言-行動(VLA)推理模型Alpamayo 1,參數100億。
它能夠讓自動駕駛車輛理解周圍環境,並對自身的決策行為做出解釋。
模型接收車輛自身的運動歷史資料、多攝影機採集的即時視訊畫面、使用者指令三類輸入資訊,然後進行推理,之後生成具體的駕駛決策、因果推理結果、規劃出的行駛軌跡。
配套推出的還有一款開源模擬框架——AlpacaSim。
它支援在各種不同的環境與邊緣場景中,對基於推理的自動駕駛模型進行閉環訓練與評估。
此外,輝達還發佈了一個包含1700小時駕駛資料的開源資料集。這些資料採集於全球最廣泛的地理區域與環境條件下,涵蓋了推進推理架構發展所必需的罕見及複雜真實邊緣場景。
落地方面,據介紹,Alpamayo將率先搭載於2025年第二季度歐洲上市的梅賽德斯-奔馳CLA車型,後續將通過OTA升級逐步推送高速公路脫手駕駛、城市全場景自動駕駛、端到端自動泊車等功能,並計畫登陸美國市場。
輝達基於自身技術建構的全球L4級自動駕駛與Robotaxi生態系統全景也亮相了,通過連接軟體開發商、整車廠/出行平台、硬體供應商,覆蓋全產業鏈。
NVIDIA Nemotron在AI智能體領域的新拓展,核心是在已發佈的Nemotron 3開放模型與資料基礎上,進一步推出針對語音、RAG以及安全三大場景的專項模型。
其中,Nemotron Speech包含新的自動語音識別(ASR)模型,不僅語音識別性能強,而且能支援即時字幕生成這樣的即時低延遲場景,速度比同類模型快10倍。
輝達表示,目前博世已採用該模型實現司機與車輛之間的互動。
Nemotron RAG則搭載新的視覺語言模型,能精準處理多語言、多模態資料,有效提升文件搜尋效率。
Nemotron Safety系列模型專注於增強AI應用的安全性與可信度,具體包括支援更多語言的Llama Nemotron內容安全模型,以及高精度檢測敏感資料的Nemotron PII模型。
活動現場,老黃宣佈輝達為機器人推出的懂推理的“大腦”Cosmos再度升級。
Cosmos主要被用來生成符合現實世界物理規律的合成資料,自發佈以來,已被Figure、Agility Robotics、通用汽車等一眾知名機器人和自動駕駛公司採用。
這次全新發佈了:
輝達還基於Cosmos模型,為各類物理AI應用推出了專用的開源模型與參考藍圖:
據瞭解,Salesforce、Milestone、Hitachi、Uber、VAST Data、Encord等企業正採用Cosmos Reason模型,開發麵向交通與職場生產力提升的AI智能體。Franka Robotics、Humanoid和NEURA Robotics則利用Isaac GR00T模型,在機器人大規模量產前,對其全新行為進行模擬、訓練與驗證。
NVIDIA Clara是專門針對醫療健康與生命科學領域的AI技術工具。
核心目標是降低行業成本、加速治療方案落地,打通數字科研與實際醫療應用之間的壁壘。
該系列中的多款專項模型各有側重:
模型之外,老黃表示輝達還將為研究者提供含45.5萬個合成蛋白質結構的資料集。
總之,老黃的2026開年第一講,真是讓人眼花繚亂了…… (創業邦)