#GPU性能
【CES 2026】老黃All in物理AI!最新GPU性能5倍提升,還砸掉了智駕門檻
剛剛,輝達CEO黃仁勳穿著鱷魚皮夾克,在全球最大消費電子展CES 2026上發佈AI新品。這是五年來,輝達首次來到CES卻沒有發遊戲顯示卡,態度很明確:全力搞AI。全力搞出來的結果也讓圍觀群眾直呼:競爭對手如何追上輝達?下一代Rubin架構GPU推理、訓練性能分別是Blackwell GB200的5倍和3.5倍(NVFP4資料格式)。除此之外,老黃還帶來了五大領域的全新發佈,包括:面向Agentic AI的NVIDIA Nemotron模型家族面向物理AI的NVIDIA Cosmos平台面向自動駕駛開發的全新NVIDIA Alpamayo模型家族面向機器人領域的NVIDIA Isaac GR00T面向生物醫學的NVIDIA Clara同時,輝達宣佈持續向社區開源訓練框架以及多模態資料集。其中資料集包括10兆語言訓練token、50萬條機器人軌跡資料、45.5萬個蛋白質結構、100TB車輛感測器資料。這次的核心主題,直指物理AI。用網友的話來說:這是輝達將護城河從晶片層進一步拓展到全端平台層(模型+資料+工具)的體現,通過這種方式可以持續拉動更多GPU與基礎設施投入,並顯著增強使用者與生態的鎖定。值得一提的是,咱國產開源模型又雙叒被cue到了。老黃在演講開篇便提及了DeepSeek,Kimi K2、Qwen也出現在PPT展示頁上。正式推出Vera Rubin NVL72老黃正式推出輝達下一代AI資料中心的機櫃架構Vera Rubin,披露架構細節。六大核心組件共同構成Vera Rubin NVL72機架:Vera CPU、Rubin GPU、NVLink 6 switch、ConnectX-9 SuperNIC、BlueField-4資料處理單元(DPU)、Spectrum-6 Ethernet switch。在NVFP4資料類型下,Rubin GPU推理性能可達50 PFLOPS,是Blackwell GB200的5倍;NVFP4訓練性能為35 PFLOPS,是Blackwell的3.5 倍。為支撐這些計算能力,每顆Rubin GPU封裝了8組HBM4記憶體,提供288GB容量和22 TB/s的頻寬。隨著主流大模型轉向MoE架構,模型得以相對高效地進行規模擴展。然而,這些專家模組之間的通訊,對節點間頻寬提出了極高要求。Vera Rubin引入了用於規模內擴展網路的NVLink 6。它將單GPU的互連頻寬提升至3.6 TB/s(雙向)。每顆NVLink 6交換晶片提供28 TB/s的頻寬,而每個Vera Rubin NVL72機架配備9顆這樣的交換晶片,總規模內頻寬達到260 TB/s。NVIDIA Vera CPU整合了88個定製的Olympus Arm核心,採用輝達稱為“spatial multi-threading”設計,最多可同時運行176個線程。用於將Vera CPU與Rubin GPU進行一致性連接的NVLink C2C互連,其頻寬提升了一倍,達到1.8 TB/s。每顆Vera CPU可定址最多1.5 TB的SOCAMM LPDDR5X記憶體,記憶體頻寬最高可達1.2 TB/s。為將Vera Rubin NVL72機架擴展為每組8個機架的DGX SuperPod,輝達推出了一對採用共封裝光學(CPO)的Spectrum-X乙太網路交換機,均基於Spectrum-6晶片建構。每顆Spectrum-6晶片提供102.4 Tb/s的頻寬,輝達基於該晶片推出了兩款交換機。SN688提供409.6 Tb/s的總頻寬,支援512個800G乙太網路連接埠或2048個200G連接埠。SN6810則提供102.4 Tb/s的頻寬,可配置為128 個800G或512個200G乙太網路連接埠。這兩款交換機均採用液冷設計,輝達表示,與不具備矽光子技術的硬體相比,它們在能效、可靠性和執行階段間方面表現更優。隨著上下文窗口擴展到數百萬token,輝達還指出,儲存AI模型互動歷史的鍵值快取(KV cache)相關操作,已成為推理性能的瓶頸。此前黃仁勳曾表態:沒有HBM,就沒有AI超算。為突破這一限制,輝達推出新硬體BlueField-4 DPU,建構了一個新的記憶體層級,稱為推理上下文記憶體儲存平台(Inference Context Memory Storage Platform)。輝達表示,這一儲存層旨在實現鍵值快取資料在AI基礎設施中的高效共享與復用,從而提升系統響應速度和吞吐能力,並實現Agentic AI架構可預測、能效友好的規模擴展。這是Vera Rubin首次將輝達的可信執行環境擴展至整個機架等級。整體來看,每個Vera Rubin NVL72機架可提供:3.6exaFLOPS的NVFP4推理性能2.5exaFLOPS的NVFP4訓練性能54 TB的LPDDR5X記憶體(連接至Vera CPU)20.7 TB的HBM4記憶體,頻寬達1.6 PB/s為保障機架系統的持續高效運行,輝達在機架層面引入了多項改進,包括無纜化模組托盤設計,使元件更換速度顯著快於此前的NVL72機架;增強的NVLink彈性能力,實現零停機維護;以及第二代RAS引擎,可在不中斷服務的情況下完成健康檢測。另外,輝達表示,與Blackwell相比,Vera Rubin在訓練MoE模型時所需的GPU數量僅為四分之一;在MoE推理場景下,其每token成本最高可降低10倍。反過來看,這也意味著Rubin能在相同機架空間內,大幅提升訓練吞吐量,並生成遠多於以往的token數量。據介紹,目前用於建構Vera Rubin NVL72所需的六類晶片已全部從晶圓廠交付,輝達預計將在2026年下半年啟動Vera Rubin NVL72的規模化量產。自動駕駛全新開源模型系列發佈再來看輝達重磅推出的全新開源模型系列——Alpamayo,面向安全推理的自動駕駛。全球首款開源、大規模的自動駕駛視覺-語言-行動(VLA)推理模型Alpamayo 1,參數100億。它能夠讓自動駕駛車輛理解周圍環境,並對自身的決策行為做出解釋。模型接收車輛自身的運動歷史資料、多攝影機採集的即時視訊畫面、使用者指令三類輸入資訊,然後進行推理,之後生成具體的駕駛決策、因果推理結果、規劃出的行駛軌跡。配套推出的還有一款開源模擬框架——AlpacaSim。它支援在各種不同的環境與邊緣場景中,對基於推理的自動駕駛模型進行閉環訓練與評估。此外,輝達還發佈了一個包含1700小時駕駛資料的開源資料集。這些資料採集於全球最廣泛的地理區域與環境條件下,涵蓋了推進推理架構發展所必需的罕見及複雜真實邊緣場景。落地方面,據介紹,Alpamayo將率先搭載於2025年第二季度歐洲上市的梅賽德斯-奔馳CLA車型,後續將通過OTA升級逐步推送高速公路脫手駕駛、城市全場景自動駕駛、端到端自動泊車等功能,並計畫登陸美國市場。輝達基於自身技術建構的全球L4級自動駕駛與Robotaxi生態系統全景也亮相了,通過連接軟體開發商、整車廠/出行平台、硬體供應商,覆蓋全產業鏈。Nemotron再推專項模型NVIDIA Nemotron在AI智能體領域的新拓展,核心是在已發佈的Nemotron 3開放模型與資料基礎上,進一步推出針對語音、RAG以及安全三大場景的專項模型。其中,Nemotron Speech包含新的自動語音識別(ASR)模型,不僅語音識別性能強,而且能支援即時字幕生成這樣的即時低延遲場景,速度比同類模型快10倍。輝達表示,目前博世已採用該模型實現司機與車輛之間的互動。Nemotron RAG則搭載新的視覺語言模型,能精準處理多語言、多模態資料,有效提升文件搜尋效率。Nemotron Safety系列模型專注於增強AI應用的安全性與可信度,具體包括支援更多語言的Llama Nemotron內容安全模型,以及高精度檢測敏感資料的Nemotron PII模型。機器人推理大腦Cosmos升級活動現場,老黃宣佈輝達為機器人推出的懂推理的“大腦”Cosmos再度升級。Cosmos主要被用來生成符合現實世界物理規律的合成資料,自發佈以來,已被Figure、Agility Robotics、通用汽車等一眾知名機器人和自動駕駛公司採用。這次全新發佈了:Cosmos Reason 2:一款全新的、排名領先的視覺-語言推理模型(VLM)。它能夠幫助機器人與AI智能體更精準地感知、理解並與物理世界進行互動。Cosmos Transfer 2.5與Cosmos Predict 2.5:兩款領先的模型,可在各種不同的環境與條件下,生成大規模的合成視訊。輝達還基於Cosmos模型,為各類物理AI應用推出了專用的開源模型與參考藍圖:Isaac GR00T N1.6:一款專為類人機器人打造的開源視覺-語言-行動(VLA)推理模型。它支援機器人的全身控制,並整合了輝達Cosmos Reason模型,以實現更強大的推理能力與上下文理解能力。NVIDIA AI Blueprint for Video Search and Summarization:作為輝達Metropolis平台的一部分,該藍圖提供了一套參考工作流,可用於建構視覺AI智能體。這些智能體能夠分析大量的錄播及直播視訊,從而提升營運效率並保障公共安全。據瞭解,Salesforce、Milestone、Hitachi、Uber、VAST Data、Encord等企業正採用Cosmos Reason模型,開發麵向交通與職場生產力提升的AI智能體。Franka Robotics、Humanoid和NEURA Robotics則利用Isaac GR00T模型,在機器人大規模量產前,對其全新行為進行模擬、訓練與驗證。針對醫療健康與生命科學的AINVIDIA Clara是專門針對醫療健康與生命科學領域的AI技術工具。核心目標是降低行業成本、加速治療方案落地,打通數字科研與實際醫療應用之間的壁壘。該系列中的多款專項模型各有側重:La-Proteina能設計原子級精度的大型蛋白質;ReaSyn v2在藥物發現階段就開始考慮“如何生產”的問題;KERMT可以預測潛在藥物進入人體後的反應,提前排查安全問題;RNAPro用來預測RNA分子複雜的3D結構,推進個性化醫療方案。模型之外,老黃表示輝達還將為研究者提供含45.5萬個合成蛋白質結構的資料集。總之,老黃的2026開年第一講,真是讓人眼花繚亂了…… (創業邦)
Google的TPU vs輝達的GPU
Google 的TPU (Tensor Processing Unit)與NVIDIA GPU (Graphics Processing Unit)的對決,本質上是“專用定製晶片 (ASIC)”與“通用平行計算晶片 (GPGPU)”之間的路線之爭。這也是目前 AI 硬體領域最核心的兩個流派。嘗試從架構、性能、生態、商業模式等維度的詳細對比分析:一、核心設計理念1. NVIDIA GPU:通用平行計算的王者出身:最初為圖形渲染(遊戲)設計,後來通過 CUDA 架構演進為通用平行計算硬體。設計邏輯:SIMT (Single Instruction, Multiple Threads)。GPU 擁有成千上萬個小的CUDA 核心,非常擅長處理大量平行的任務。特點:極其靈活。它不僅能算AI 矩陣,還能做科學計算、圖形渲染、挖礦等。代價:為了保持通用性,GPU保留了許多複雜的控制邏輯(如快取管理、分支預測),這佔用了晶片面積和功耗。2. Google TPU:極致的 AI 偏科生出身: Google 為瞭解決內部日益增長的 AI 負載(如搜尋、翻譯、AlphaGo)而專門自研的ASIC (專用積體電路)。設計邏輯:脈動陣列(Systolic Array)。這是 TPU 的靈魂。比喻:傳統的CPU/GPU 讀寫資料像“搬運工”一趟趟跑記憶體;TPU 的脈動陣列像“流水線”,資料一旦讀入,就在成千上萬個計算單元之間像心臟脈動一樣流動、復用,直到算完才寫回記憶體。特點:專注於矩陣乘法(Matrix Multiplication)。這是深度學習(Transformer、CNN)中 90% 以上的計算量。TPU 砍掉了所有與 AI 無關的功能(如光線追蹤、圖形輸出)。優勢:在同等工藝下,晶片面積利用率更高,能效比Performance/Watt)極高。二、架構與互聯 (Architecture & Interconnect)1. 視訊記憶體與頻寬 (HBM)NVIDIA:極其激進。H100/H200/B200幾乎壟斷了海力士最頂級的 HBM3e 產能。NVIDIA 的策略是“力大磚飛”,用極高的視訊記憶體頻寬來緩解“記憶體牆”問題。Google TPU:相對保守但夠用。TPU v4/v5p也使用 HBM,但更依賴其“脈動陣列”帶來的資料高復用率,從而降低對外部記憶體頻寬的依賴。2. 互聯技術 (Scaling) —— Google 的殺手鐧在大模型訓練中,單卡性能不再是唯一指標,叢集通訊效率才是瓶頸。NVIDIA (NVLink + InfiniBand): NVIDIA 建構了極其昂貴但高效的 NVLink Switch 和 InfiniBand 網路。這是一個“無阻塞”的胖樹架構,非常強悍,但成本極高,布線複雜。Google TPU (ICI + OCS):ICI (Inter-Chip Interconnect): TPU晶片自帶高速互聯介面,直接晶片連晶片(2D/3D Torus 環面網路),不需要昂貴的外部網路卡。OCS (光路交換): Google 引入了光開關技術,可以在幾秒鐘內動態重新配置幾千張 TPU 的拓撲結構。這讓 TPU 叢集(Pod)的擴展性極強,且成本遠低於 NVIDIA 的方案。三、軟體生態 (Software Ecosystem) —— NVIDIA 的護城河1. NVIDIA: CUDA (堅不可摧)現狀:CUDA 是 AI 界的“英語”。幾乎所有的 AI 框架(PyTorch, TensorFlow)都優先在 NVIDIA GPU 上開發和最佳化。優勢:開發者拿到程式碼,pip install 就能跑。遇到bug,StackOverflow 上有幾百萬條解決方案。靈活性:支援動態圖,容易偵錯,適合研究人員做實驗、改模型結構。2. Google: XLA (追趕者)現狀:TPU 必須通過XLA (Accelerated Linear Algebra)編譯器才能運行。框架:早期繫結TensorFlow,現在大力擁抱JAX和PyTorch/XLA。劣勢:靜態圖限制: TPU 需要先“編譯”整個計算圖才能跑。如果你的模型有大量動態控制流(if/else),TPU 會非常慢,甚至跑不起來。偵錯難:報錯資訊往往是晦澀的編譯器底層錯誤,社區資源遠少於 CUDA。優勢:一旦編譯通過,XLA可以做極深度的算子融合(Operator Fusion),運行效率極高。四、性能對比 (Performance)註:比較必須基於同代產品,如 H100 vs TPU v5p。單卡性能 (Raw Power):NVIDIA 勝。H100 的 FP8/FP16 峰值算力通常高於同期的 TPU。對於小規模、非標準模型,NVIDIA 更快。叢集性能 (Cluster Efficiency):互有勝負,Google     規模優勢大。在訓練 GPT-4      或 Gemini Ultra 這種萬卡等級的任務時,TPU v4/v5 的線性加速比 (Linear Scaling)非常好,甚至優於       GPU 叢集,因為 ICI 互聯更高效。TPU 的MFU (Model FLOPs Utilization,模型算力利用率)往往能做到 50%-60% 以上,而未最佳化的 GPU 叢集可能只有 30%-40%。推理性能 (Inference):NVIDIA 憑藉 TensorRT 最佳化,在低延遲推理上更有優勢。TPU v5e 專門針對推理最佳化,在大吞吐量(Throughput)場景下性價比極高。五、商業模式與可獲得性 (Availability)這是兩者最本質的區別:或許可以這樣理解:NVIDIA 是 AI 時代的“英特爾”,提供最強的通用算力,統治了從個人玩家到資料中心的所有角落;而 Google TPU 是 AI 時代的“蘋果”,軟硬一體,雖然封閉,但在自己的生態和超大規模領域內做到了極致的效率。 (陌上鑷爵爺)