台北時間1月6日,輝達CEO黃仁勳身著標誌性皮衣再次站在CES2026的主舞台上。
2025年CES,輝達展示了量產的Blackwell晶片和完整的物理AI技術堆疊。在會上,黃仁勳強調,一個“物理AI時代”正在開啟。他描繪了一個充滿想像力的未來:自動駕駛汽車具備推理能力,機器人能夠理解並思考,AI Agent(智能體)可以處理百萬級 token 的長上下文任務。
轉眼一年過去,AI行業經歷了巨大的變革演進。黃仁勳在發佈會上回顧這一年的變化時,重點提到了開源模型。
他說,像DeepSeek R1這樣的開源推理模型,讓整個行業意識到:當開放、全球協作真正啟動後,AI的擴散速度會極快。儘管開源模型在整體能力上仍比最前沿模型慢大約半年,但每隔六個月就會追近一次,而且下載量和使用量已經呈爆發式增長。
相比2025年更多展示願景與可能性,這一次輝達開始系統性地希望解決“如何實現”的問題:圍繞推理型AI,補齊長期運行所需的算力、網路與儲存基礎設施,顯著壓低推理成本,並將這些能力直接嵌入自動駕駛和機器人等真實場景。
在本次黃仁勳在CES上的演講,圍繞三條主線展開:
●在系統與基礎設施層面,輝達圍繞長期推理需求重構了算力、網路與儲存架構。以Rubin平台、NVLink 6、Spectrum-X乙太網路和推理上下文記憶體儲存平台為核心,這些更新直指推理成本高、上下文難以持續和規模化受限等瓶頸,解決AI多想一會、算得起、跑得久的問題。
●在模型層面,輝達將推理型 AI(Reasoning / Agentic AI)置於核心位置。通過Alpamayo、Nemotron、Cosmos Reason 等模型與工具,推動 AI 從“生成內容”邁向能夠持續思考、從“一次性響應的模型”轉向“可以長期工作的智能體”。
●在應用與落地層面,這些能力被直接引入自動駕駛和機器人等物理AI場景。無論是 Alpamayo 驅動的自動駕駛體系,還是GR00T 與 Jetson的機器人生態,都在通過雲廠商和企業級平台合作,推動規模化部署。
在本次CES上,輝達首次完整披露了Rubin架構的技術細節。
演講中,黃仁勳從Test-time Scaling(推理時擴展)開始鋪墊,這個概念可以理解為,想要AI變聰明,不再只是讓它“多努力讀書”,而是靠“遇到問題時多想一會兒”。
過去,AI 能力的提升主要靠訓練階段砸更多算力,把模型越做越大;而現在,新的變化是那怕模型不再繼續變大,只要在每次使用時給它多一點時間和算力去思考,結果也能明顯變好。
如何讓“AI多思考一會兒”變得經濟可行?Rubin架構的新一代AI計算平台就是來解決這個問題。
黃仁勳介紹,這是一套完整的下一代AI計算系統,通過Vera CPU、Rubin GPU、NVLink 6、ConnectX-9、BlueField-4、Spectrum-6的協同設計,以此實現推理成本的革命性下降。
輝達Rubin GPU 是Rubin 架構中負責 AI 計算的核心晶片,目標是顯著降低推理與訓練的單位成本。
說白了,Rubin GPU 核心任務是“讓 AI 用起來更省、更聰明”。
Rubin GPU 的核心能力在於:同一塊 GPU 能幹更多活。它一次能處理更多推理任務、記住更長的上下文,和其他 GPU 之間的溝通也更快,這意味著很多原本要靠“多卡硬堆”的場景,現在可以用更少的 GPU 完成。
結果就是,推理不但更快了,而且明顯更便宜。
黃仁勳現場給大家複習了Rubin架構的NVL72硬體參數:包含220兆電晶體,頻寬260 TB/秒,是業界首個支援機架規模機密計算的平台。
整體來看,相比Blackwell,Rubin GPU在關鍵指標上實現跨代躍升:NVFP4 推理性能提升至 50 PFLOPS(5 倍)、訓練性能提升至 35 PFLOPS(3.5 倍),HBM4 記憶體頻寬提升至 22 TB/s(2.8 倍),單 GPU 的 NVLink 互連頻寬翻倍至 3.6 TB/s。
這些提升共同作用,使單個 GPU 能處理更多推理任務與更長上下文,從根本上減少對 GPU 數量的依賴。
Vera CPU是專為資料移動和Agentic處理設計的核心元件,採用88個輝達自研Olympus核心,配備1.5 TB系統記憶體(是上代Grace CPU的3倍),通過1.8 TB/s的NVLink-C2C技術實現CPU與GPU之間的一致性記憶體訪問。
與傳統通用CPU不同,Vera專注於AI推理場景中的資料調度和多步驟推理邏輯處理,本質上是讓“AI多想一會兒”得以高效運行的系統協調者。
NVLink 6通過3.6 TB/s的頻寬和網路內計算能力,讓Rubin架構中的72個GPU能像一個超級GPU一樣協同工作,這是實現降低推理成本的關鍵基礎設施。
這樣一來,AI 在推理時需要的資料和中間結果可以迅速在 GPU 之間流轉,不用反覆等待、複製或重算。
在Rubin架構中,NVLink-6負責GPU內部協同計算,BlueField-4負責上下文與資料調度,而ConnectX-9則承擔系統對外的高速網路連線。它確保Rubin系統能夠與其他機架、資料中心和雲平台高效通訊,是大規模訓練和推理任務順利運行的前提條件。
相比上一代架構,輝達也給出具體直觀的資料:相比 NVIDIA Blackwell 平台,可將推理階段的 token 成本最高降低10倍,並將訓練混合專家模型(MoE)所需的 GPU 數量減少至原來的1/4。
輝達官方表示,目前微軟已承諾在下一代Fairwater AI超級工廠中部署數十萬Vera Rubin晶片,CoreWeave等雲服務商將在2026年下半年提供Rubin實例,這套“讓AI多想一會兒”的基礎設施正在從技術演示走向規模化商用。
讓AI“多想一會兒”還面臨一個關鍵技術挑戰:上下文資料該放在那裡?
當AI處理需要多輪對話、多步推理的複雜任務時,會產生大量上下文資料(KV Cache)。傳統架構要麼把它們塞進昂貴且容量有限的GPU記憶體,要麼放到普通儲存裡(訪問太慢)。這個“儲存瓶頸”如果不解決,再強的GPU也會被拖累。
針對這個問題,輝達在本次CES上首次完整披露了由BlueField-4驅動的推理上下文記憶體儲存平台(Inference Context Memory Storage Platform),核心目標是在GPU記憶體和傳統儲存之間建立一個“第三層”。既足夠快,又有充足容量,還能支撐AI長期運行。
從技術實現上看,這個平台並不是單一元件在發揮作用,而是一套協同設計的結果:
我們可以理解為,這套平台的做法是,將原本只能放在GPU記憶體裡的上下文資料,擴展到一個獨立、高速、可共享的“記憶層”中。一方面釋放 GPU 的壓力,另一方面又能在多個節點、多個 AI 智能體之間快速共享這些上下文資訊。
在實際效果方面,輝達官方給出的資料是:在特定場景下,這種方式可以讓每秒處理的 token數提升最高達5倍,並實現同等水平的能效最佳化。
黃仁勳在發佈中多次強調,AI正在從“一次性對話的聊天機器人”,演進為真正的智能協作體:它們需要理解現實世界、持續推理、呼叫工具完成任務,並同時保留短期與長期記憶。這正是 Agentic AI 的核心特徵。推理上下文記憶體儲存平台,正是為這種長期運行、反覆思考的 AI 形態而設計,通過擴大上下文容量、加快跨節點共享,讓多輪對話和多智能體協作更加穩定,不再“越跑越慢”。
輝達在本次CES上宣佈推出基於Rubin架構的新一代DGX SuperPOD(超節點),將Rubin從單機架擴展到整個資料中心的完整方案。
什麼是DGX SuperPOD?
如果說Rubin NVL72是一個裝有72個GPU的“超級機架”,那麼DGX SuperPOD就是把多個這樣的機架連接起來,形成一個更大規模的AI計算叢集。這次發佈的版本由8個Vera Rubin NVL72機架組成,相當於576個GPU協同工作。
當AI任務規模繼續擴大時,單個機架的576個GPU可能還不夠。比如訓練超大規模模型、同時服務數千個Agentic AI智能體、或者處理需要數百萬token上下文的複雜任務。這時就需要多個機架協同工作,而DGX SuperPOD就是為這種場景設計的標準化方案。
對於企業和雲服務商來說,DGX SuperPOD提供的是一個“開箱即用”的大規模AI基礎設施方案。不需要自己研究如何把數百個GPU連接起來、如何配置網路、如何管理儲存等問題。
新一代DGX SuperPOD五大核心元件:
○8個Vera Rubin NVL72機架 - 提供計算能力的核心,每個機架72個GPU,總共576個GPU;
○NVLink 6擴展網路 - 讓這8個機架內的576個GPU能像一個超大GPU一樣協同工作;
○Spectrum-X乙太網路擴展網路 - 連接不同的SuperPOD,以及連接到儲存和外部網路;
○推理上下文記憶體儲存平台 - 為長時間推理任務提供共享的上下文資料儲存;
○輝達Mission Control軟體 - 管理整個系統的調度、監控和最佳化。
這一次的升級,SuperPOD的基礎以DGX Vera Rubin NVL72機架級系統為核心。每一台 NVL72本身就是一台完整的AI超級電腦,內部通過NVLink 6 將72塊Rubin GPU 連接在一起,能夠在一個機架內完成大規模推理和訓練任務。新的DGX SuperPOD,則由多台NVL72 組成,形成一個可以長期運行的系統級叢集。
當計算規模從“單機架”擴展到“多機架”後,新的瓶頸隨之出現:如何在機架之間穩定、高效地傳輸海量資料。圍繞這一問題,輝達在本次 CES 上同步發佈了基於 Spectrum-6 晶片的新一代乙太網路交換機,並首次引入“共封裝光學”(CPO)技術。
簡單來看,就是將原本可插拔的光模組直接封裝在交換晶片旁邊,把訊號傳輸距離從幾米縮短到幾毫米,從而顯著降低功耗和延遲,也提升了系統整體的穩定性。
本次CES上,黃仁勳宣佈擴展其開源模型生態(Open Model Universe),新增和更新了一系列模型、資料集、程式碼庫和工具。這個生態覆蓋六大領域:生物醫學AI(Clara)、AI物理模擬(Earth-2)、Agentic AI(Nemotron)、物理AI(Cosmos)、機器人(GR00T)和自動駕駛(Alpamayo)。
訓練一個AI模型需要的不只是算力,還需要高品質資料集、預訓練模型、訓練程式碼、評估工具等一整套基礎設施。對大多數企業和研究機構來說,從零開始搭建這些太耗時間。
具體來說,輝達開源了六個層次的內容:算力平台(DGX、HGX等)、各領域的訓練資料集、預訓練的基礎模型、推理和訓練程式碼庫、完整的訓練流程指令碼,以及端到端的解決方案範本。
Nemotron系列是此次更新的重點,覆蓋了四個應用方向。
在推理方向,包括Nemotron 3 Nano、Nemotron 2 Nano VL等小型化推理模型,以及NeMo RL、NeMo Gym等強化學習訓練工具。在RAG(檢索增強生成)方向,提供了Nemotron Embed VL(向量嵌入模型)、Nemotron Rerank VL(重排序模型)、相關資料集和NeMo Retriever Library(檢索庫)。在安全方向,有Nemotron Content Safety內容安全模型及配套資料集、NeMo Guardrails護欄庫。
在語音方向,則包含Nemotron ASR自動語音識別、Granary Dataset語音資料集和NeMo Library語音處理庫。這意味著企業想做一個帶RAG的AI客服系統,不需要自己訓練嵌入模型和重排序模型,可以直接使用輝達已經訓練好並開源的程式碼。
物理AI領域同樣有模型更新——用於理解和生成物理世界視訊的Cosmos,機器人通用基礎模型Isaac GR00T、自動駕駛視覺-語言-行動模型Alpamayo。
黃仁勳在CES上聲稱,物理AI的“ChatGPT時刻”快要來了,但面對挑戰也很多:物理世界太複雜多變,採集真實資料又慢又貴,永遠不夠用。
怎麼辦呢?合成資料是條路。於是輝達推出了Cosmos。
這是一個開放原始碼的物理AI世界基礎模型,目前已經用海量視訊、真實駕駛與機器人資料,以及3D模擬做過預訓練。它能理解世界是怎麼運行的,可以把語言、圖像、3D和動作聯絡起來。
黃仁勳表示,Cosmos能實現不少物理AI技能,比如生成內容、做推理、預測軌跡(那怕只給它一張圖)。它可以依據3D場景生成逼真的視訊,根據駕駛資料生成符合物理規律的運動,還能從模擬器、多攝影機畫面或文字描述生成全景視訊。就連罕見場景,也能還原出來。
黃仁勳還正式發佈了Alpamayo。Alpamayo是一個面向自動駕駛領域的開源工具鏈,也是首個開放原始碼的視覺-語言-行動(VLA)推理模型。與之前僅開放原始碼不同,輝達這次開源了從資料到部署的完整開發資源。
Alpamayo最大的突破在於它是“推理型”自動駕駛模型。傳統自動駕駛系統是“感知-規劃-控制”的流水線架構,看到紅燈就剎車,看到行人就減速,遵循預設規則。而Alpamayo引入了“推理”能力,理解複雜場景中的因果關係,預測其他車輛和行人的意圖,甚至能處理需要多步思考的決策。
比如在十字路口,它不只是識別出“前方有車”,而是能推理”那輛車可能要左轉,所以我應該等它先過”。這種能力讓自動駕駛從“按規則行駛”升級到“像人一樣思考”。
黃仁勳宣佈輝達DRIVE系統正式進入量產階段,首個應用是全新的梅賽德斯-奔馳CLA,計畫2026年在美國上路。這款車將搭載L2++級自動駕駛系統,採用“端到端AI模型+傳統流水線”的混合架構。
機器人領域同樣有實質性進展。
黃仁勳表示包括Boston Dynamics、Franka Robotics、LEM Surgical、LG Electronics、Neura Robotics和XRlabs在內的全球機器人領軍企業,正在基於輝達Isaac平台和GR00T基礎模型開發產品,覆蓋了從工業機器人、手術機器人到人形機器人、消費級機器人的多個領域。
在發佈會現場,黃仁勳背後站滿了不同形態、不同用途的機器人,它們被集中展示在分層舞台上:從人形機器人、雙足與輪式服務機器人,到工業機械臂、工程機械、無人機與手術輔助裝置,展現出一版“機器人生態圖景”。
從物理AI應用到RubinAI計算平台,再到推理上下文記憶體儲存平台和開源AI“全家桶”。
輝達在CES上展示的這些動作,構成了輝達對於推理時代AI基礎設施的敘事。正如黃仁勳反覆強調的那樣,當物理 AI 需要持續思考、長期運行,並真正進入現實世界,問題已經不再只是算力夠不夠,而是誰能把整套系統真正搭起來。
CES 2026 上,輝達已經給出了一份答卷。 (騰訊科技)