#Rubin
輝達 Rubin :計算密度的躍遷與資料中心架構的重構
Rubin 是多少張 GPU 互聯?比現在最強的資料中心性能強多少?——本報告的分析結論如下:互聯規模的代際跨越:Rubin 架構引入了 Vera Rubin NVL144 平台,在一個機架內實現了 144 個 GPU 計算核心(Die) 的全互聯 1。這不僅在物理數量上是前代 Blackwell NVL72(72 個 GPU)的兩倍,更重要的是,通過第六代 NVLink(NVLink 6)技術,這 144 個核心建構了一個單一的、記憶體一致的邏輯計算域。這意味著模型可以像在一個巨大的 GPU 上運行一樣,在 144 個核心之間無縫共用記憶體和資料,徹底消除了節點間通訊的延遲瓶頸。性能增益的多維躍遷:相比當前最強的資料中心基準——Blackwell GB200 NVL72,Rubin 展現了多維度的性能提升:AI 推理性能(FP4):提升幅度約為 3.3 倍,達到 3.6 Exaflops 1。海量上下文處理(CPX):針對百萬級 token 的長上下文任務,Rubin CPX 平台的性能是 Blackwell 的 7.5 倍2。記憶體頻寬:整機架聚合頻寬從 NVL72 的 576 TB/s 激增至 1.7 PB/s,約為 3 倍 的提升 2。本報告將深入探討驅動這些數字背後的技術邏輯,包括 3nm 工藝製程、HBM4 記憶體革命、銅纜互聯物理學以及 600kW 功率密度帶來的熱力學挑戰。2. 宏觀背景:計算通膨與推理時代的黎明要理解 Rubin 架構的設計初衷,必須首先審視當前 AI 產業面臨的根本性矛盾:計算通膨(Computation Inflation) 與 記憶牆(Memory Wall) 的雙重擠壓 4。隨著大語言模型(LLM)從單純的文字生成轉向具備多步邏輯推理能力的“Agentic AI”(代理智能),計算範式正在發生深刻的轉移。2.1 從訓練原生到推理原生在 Hopper(H100)時代,資料中心的主要任務是模型訓練,這要求極高的浮點運算能力。然而,隨著模型部署的普及,推理(Inference)——尤其是長上下文、高並行的推理——成為了算力消耗的主體。Blackwell 架構通過引入 FP4 精度初步應對了這一挑戰,但 Rubin 則是為**“推理原生”**時代徹底設計的 2。Rubin 的出現不僅僅是為了更快的訓練,更是為瞭解決“百萬 Token 級”上下文的即時處理問題。在這一場景下,瓶頸不再是計算核心的速度,而是資料搬運的速度。因此,Rubin 架構的核心哲學可以概括為:以頻寬換算力,以互聯換延遲。2.2 摩爾定律的終結與系統級擴展隨著電晶體微縮逼近物理極限,單晶片性能的提升日益艱難。輝達 CEO 黃仁勳明確指出,未來的性能提升將不再依賴單一晶片,而是依賴“資料中心即晶片”的系統級設計 4。Rubin 架構正是這一理念的極致體現:它不再試圖製造一個超強的 GPU,而是試圖製造一個超強的機架(Rack),並讓這個機架在軟體層面表現為一個單一的邏輯單元。3. 矽基架構:Vera Rubin 超級晶片的技術解構Rubin 平台的核心建構模組是 Vera Rubin Superchip。這一異構計算模組整合了定製化的 Vera CPU 和下一代 Rubin GPU,通過 NVLink-C2C 實現晶片級的高速互聯。3.1 Rubin GPU 微架構:3nm 與雙芯封裝Rubin GPU 將採用台積電(TSMC)的 3nm 工藝(預計為 N3P 或後續最佳化版本)製造 6。相比 Blackwell 使用的 4NP 工藝,3nm 節點提供了顯著的電晶體密度提升和能效最佳化,這是在有限的功耗預算下實現性能翻倍的物理基礎。3.1.1 封裝策略:Die 與 GPU 的定義重構在分析 Rubin 的規格時,必須澄清輝達術語體系的變化。在 Blackwell B200 中,一個封裝(Package)包含兩個計算裸片(Compute Die)。在 Rubin 這一代,這種設計得到了延續並擴展:標準 Rubin GPU:包含 2 個全光罩尺寸(Reticle-sized)的計算裸片7。Rubin Ultra(2027年):預計將包含 4 個計算裸片1。因此,當我們討論 NVL144 時,我們指的是 72 個物理封裝,每個封裝內含 2 個裸片,總計 144 個計算核心1。這種設計使得輝達能夠在不突破光刻機掩膜版尺寸限制(Reticle Limit)的前提下,持續擴大單晶片的有效面積。3.1.2 記憶體革命:HBM4 的引入Rubin 架構最關鍵的技術躍遷在於首發搭載 HBM4(High Bandwidth Memory 4) 記憶體 6。相比 Blackwell 使用的 HBM3e,HBM4 帶來了質的飛躍:位寬翻倍:HBM4 將記憶體介面位寬從 1024-bit 擴展至 2048-bit8。這使得在同等時脈頻率下,頻寬直接翻倍。堆疊工藝:HBM4 採用了邏輯裸片與記憶體裸片的混合鍵合(Hybrid Bonding)技術,甚至可能直接堆疊在 GPU 邏輯晶片之上(3D 堆疊),從而大幅降低訊號傳輸的功耗(pJ/bit)。容量與頻寬:每個 Rubin GPU 封裝配備了 288GB HBM4 記憶體,頻寬高達 13 TB/s7。作為對比,Blackwell B200 的頻寬僅為 8 TB/s。這額外增加的 5 TB/s 頻寬,是 Rubin 能夠在推理任務中大幅領先 Blackwell 的核心物理原因。3.2 Vera CPU:徹底的架構自主與 Grace CPU 採用 ARM 標準 Neoverse 核心不同,Vera CPU 採用了輝達完全自訂的 ARM 架構核心 9。核心規格:單顆 Vera CPU 擁有 88 個物理核心,支援 176 個線程(SMT)11。戰略意義:Vera 的出現標誌著輝達在計算全端上的進一步收束。通過自訂核心,輝達可以針對 AI 資料預處理、CUDA 核心調度以及網路協議棧進行指令集等級的最佳化,進一步降低 CPU-GPU 之間的通訊延遲。Vera 與 Rubin 之間通過 1.8 TB/s 的 NVLink-C2C 互聯 1,確保了 CPU 記憶體與 GPU 視訊記憶體處於統一的定址空間。3.3 Rubin CPX:為“百萬上下文”而生在標準版 Rubin 之外,輝達還規劃了 Rubin CPX 變體。這是一個專為處理極長上下文(Massive Context)設計的 SKU 2。技術痛點:在處理長文件或生成長視訊時,Transformer 模型的 KV-Cache(鍵值快取)會佔用海量視訊記憶體,且注意力機制(Attention Mechanism)的計算複雜度隨序列長度呈二次方增長。CPX 解決方案:Rubin CPX 並沒有單純堆砌 FP4 算力,而是整合了專用的硬體單元來加速注意力計算,並最佳化了視訊記憶體管理機制。據官方資料,CPX 在百萬 token 級任務上的表現是 Blackwell 系統的 7.5 倍3。這表明 CPX 可能採用了類似於“Ring Attention”的硬體加速技術,利用 NVLink 6 的高頻寬在多個 GPU 間高效流轉 KV 塊。4. 互聯拓撲:NVLink 6 與 144 芯互聯架構(回答“是多少張GPU互聯”)回答使用者“是多少張GPU互聯”的核心在於解析 NVLink 6 互聯技術與 NVL144 機架架構。這是 Rubin 區別於所有競爭對手的護城河。4.1 NVL144:單一機架內的超級電腦Rubin 架構的旗艦形態是 Vera Rubin NVL144。這是一個液冷機架系統,其互聯規模達到了前所未有的高度:互聯數量:144 個 GPU 計算核心(Die)1。物理形態:72 個 Rubin GPU 封裝(每個含 2 個 Die) + 36 個 Vera CPU 1。互聯性質:全互聯、無阻塞(Non-blocking)、記憶體一致性域。在 NVL144 中,任意一個 GPU 都可以通過 NVLink Switch 直接訪問機架內其他 143 個 GPU 的 HBM4 記憶體,且訪問速度高達 3.6 TB/s。這與傳統的乙太網路或 InfiniBand 互聯有著本質區別:在軟體看來,這 144 個 GPU 就是一個擁有 ~41 TB 統一視訊記憶體(288GB x 144)的巨型 GPU。4.2 NVLink 6:銅纜的物理極限支撐這一互聯規模的是第六代 NVLink 技術。頻寬翻倍:NVLink 6 的雙向頻寬提升至 3.6 TB/s,是 Blackwell 所用 NVLink 5(1.8 TB/s)的 2 倍8。機架總頻寬:NVL144 機架背板的交換容量高達 260 TB/s1。物理介質:為了在機架內實現如此高的密度和極低的延遲,輝達繼續採用了**銅纜背板(Copper Backplane)**設計 13。儘管業界對光學互聯(Silicon Photonics)呼聲甚高,但在機架內部(<2米距離),銅纜依然具有功耗低、無需光電轉換延遲的優勢。NVL144 的背板是一個工程奇蹟,它整合了超過 5000 根高速銅纜,構成了一個類似脊椎的通訊骨幹。4.3 與 Blackwell NVL72 的對比通過對比可見,Rubin 並非簡單的數量堆砌,而是通過互聯頻寬的翻倍來支撐節點數量的翻倍,從而保證了**網路直徑(Network Diameter)**不隨節點增加而惡化,維持了極低的通訊延遲。5. 性能基準:超越最強資料中心(回答“強多少”)使用者關注的第二個核心問題是:“比現在最強的資料中心性能強多少?” 目前的基準是 Blackwell GB200 NVL72。Rubin 的性能提升並非單一數值,而是根據工作負載的不同呈現出分層差異。5.1 AI 推理性能(Inference):3.3 倍的躍升在 FP4(4-bit 浮點)精度下,Vera Rubin NVL144 的理論峰值性能達到 3.6 Exaflops(每秒 360 億億次運算)1。對比基準:Blackwell NVL72 的 FP4 性能約為 1.44 Exaflops。提升幅度:約 2.5 倍至 3.3 倍1。技術歸因:這一提升不僅源於 GPU 數量的翻倍(從 72 到 144),更源於 Rubin 架構 Tensor Core 的效率提升以及 HBM4 提供的 13 TB/s 頻寬,使得計算單元能夠滿負荷運轉,避免了“記憶體牆”導致的閒置。5.2 複雜推理與長上下文(CPX):7.5 倍的質變對於生成式 AI 的未來——即涉及數百萬 Token 上下文、視訊生成或複雜程式碼分析的任務——Rubin CPX 展現了驚人的統治力。性能資料:輝達宣稱 Rubin CPX 系統在“海量上下文推理”任務中比 GB200 NVL72 強 7.5 倍2。技術歸因:這 7.5 倍的差異遠超算力本身的提升,主要歸功於 CPX 針對 Attention 算子的硬體最佳化和 NVLink 6 的極低延遲。在長文字推理中,資料在 GPU 間的搬運是最大瓶頸,Rubin 的超高頻寬讓跨 GPU 的 KV-Cache 訪問如同訪問本地視訊記憶體一樣快。5.3 訓練性能(FP8):穩健增長在傳統的模型訓練(FP8 精度)方面,Rubin 的提升相對溫和但依然顯著。性能資料:NVL144 提供 1.2 Exaflops 的 FP8 算力 1。對比基準:Blackwell NVL72 約為 720 Petaflops。提升幅度:約 1.6 倍。解讀:訓練任務對計算密度的依賴高於記憶體頻寬,因此提升幅度更接近於電晶體規模的線性增長。但考慮到 Rubin 支援更大的單節點模型,其實際訓練效率(收斂速度)可能高於理論算力的提升。5.4 性能資料彙總表以下表格總結了 Rubin NVL144 與 Blackwell NVL72 的關鍵性能對比:6. 熱力學與基礎設施:600kW 的工程挑戰Rubin 架構的性能飛躍並非沒有代價。為了在單一機架內壓縮 144 個高性能 GPU 和 36 個 CPU,其對資料中心的基礎設施提出了極其嚴苛的要求。6.1 功率密度的爆炸:邁向 600kW雖然標準的 NVL144 機架功耗預計在 120kW - 140kW 左右(與 NVL72 相似),但 Rubin 架構的終極形態——Rubin Ultra NVL576——預計將單機架功耗推向 600kW 的恐怖量級 10。對比:傳統企業級機架功耗僅為 10kW 左右;即使是當前的高密度 AI 機架通常也在 40-50kW。Rubin Ultra 的 600kW 相當於將一個小區的用電量壓縮到了一個衣櫃大小的空間內。6.2 800V 高壓直流供電(HVDC)為了應對如此巨大的電流,傳統的 48V 配電架構已徹底失效(電流過大會導致銅排熔化)。Rubin 平台推動了 800V 直流配電 標準的落地 17。原理:根據 $P=UI$,在功率 $P$ 極大的情況下,提高電壓 $U$ 是降低電流 $I$ 的唯一途徑。800V 架構允許使用更細的母線(Busbar),減少傳輸損耗,並提高電源轉換效率。6.3 液冷成為唯一選項對於 Rubin NVL144,風冷已在物理上不可行。該系統採用了 100% 全液冷設計14。Kyber 機架:輝達為 Rubin 重新設計了名為“Kyber”的機架架構(接替 Blackwell 的 Oberon 機架)。Kyber 專為高密度液冷最佳化,冷卻液直接流經 GPU、CPU 和 NVSwitch 晶片表面的冷板(Cold Plate),並通過機架內的 CDU(冷卻分配單元)進行熱交換。這意味著部署 Rubin 的資料中心必須具備完善的液體回路基礎設施。7. 軟體生態與經濟學模型硬體的堆砌只是基礎,Rubin 的真正威力在於其軟體棧和經濟效益。7.1 CUDA 與 NIM 的進化為了駕馭 144 晶片的互聯域,輝達的 CUDA 軟體棧將進一步演進。Rubin 將深度整合 NVIDIA NIM (NVIDIA Inference Microservices),這是一套預最佳化的微服務容器,能夠自動識別底層的 NVL144 拓撲,並將模型層(Layer)智能切分到不同的 GPU Die 上,以確保儲存和計算的負載平衡 4。7.2 代幣經濟學(Tokenomics)雖然 Rubin NVL144 機架的單價將極其昂貴(預計數百萬美元),但其 TCO(總體擁有成本) 在大規模推理場景下可能反而更優。推理成本降低:由於 Rubin CPX 在長上下文任務上擁有 7.5 倍的性能優勢,這意味著單位 Token 的生成能耗和時間成本大幅下降。對於像 OpenAI、Anthropic 這樣每天處理數十億 Token 的服務商而言,Rubin 是降低營運成本的必要工具。8. 結論與展望輝達的 Rubin 架構不僅僅是一次產品的迭代,它是對“摩爾定律已死”這一論斷的有力回擊。通過將 144 個 3nm GPU 封裝在一個通過 NVLink 6 互聯的單一機架中,輝達成功地將計算的邊界從微米級的晶片擴展到了米級的機架。回答使用者的核心疑問:互聯規模:Rubin 實現了 144 張 GPU(裸片) 的全互聯,建構了當前世界上密度最大的單一記憶體計算域。性能對比:相比當前最強的 Blackwell NVL72,Rubin 在 AI 推理上強 3.3 倍,在處理長上下文任務時強 7.5 倍,在記憶體頻寬上強 3 倍。Rubin 的出現標誌著 AI 基礎設施正式進入了“巨型機”時代。在這個時代,資料中心的衡量單位不再是伺服器的數量,而是機架(NVL144)的數量。對於追求極致算力的科研機構和科技巨頭而言,Rubin 不僅是下一代工具,更是通往通用人工智慧(AGI)的物理基石。 (成癮大腦神經重塑)
Rubin曝光!2000萬張GPU出貨!輝達鏈液冷將迎來爆發需求
01.輝達:預計18個月出貨2000萬高端GPU,液冷二次側有望迎來2000億需求昨天,輝達GTC大會,黃仁勳再次對AI的市場趨勢做了詳細分析,同時也發佈了輝達的系列產品,包括未來的架構和量子計算,站在全場C位的,還是首次亮相下一代Vera Rubin的。這是輝達第三代NVLink 72機架級超級電腦,徹底實現了無線纜連接。目前,Vera Rubin超級晶片已在實驗室完成測試,預計明年10月可以投產。輝達CEO黃仁勳在GTC大會上預計,未來六個季度業務規模將達5000億美元,將出貨2000萬塊Blackwell和Rubin圖形處理器(GPU)。黃仁勳還表示,Blackwell在亞利桑那州“全面投入生產”。本次GTC大會,輝達也首次曝光了其Rubin伺服器和交換機的液冷架構,雖然沒有很清楚的爆炸圖,但是從現場圖看,其液冷架構設計的更加複雜,更加緊湊,液冷覆蓋佔比100%,光模組,SSD部分也做了銅冷板覆蓋,採用的不鏽鋼波紋管數量也愈加上升。從液冷市場規模來看來看,未來18個月輝達將會出貨2000萬塊Blackwell和Rubin GPU,按照NV72架構來算,預計將會出貨278000個整機櫃,按照機櫃10萬美金的液冷價值佔比(Rubin架構可能佔比更高),預計未來18個月,輝達生態二次液冷需求將達到保守估計278億美金需求,也就是2000億人民幣,體量規模巨大,對液冷市場是強利多!Rubin整機櫃架構,結構也變得更加複雜,特別是電源部分有重大更新,Power rack將成為一個大趨勢。02.市場預期良好,算力基礎設施廠商受益台北時間10月29日晚間,輝達股價高開高走,盤中漲幅一度突破5%,成為首家市值突破5兆美元的上市公司。同時昨天多家A股上市公司已在全球算力產業鏈上充分佈局,或將受益於AI算力競賽加劇以及全球AI基礎設施的持續擴容。10月29日晚,工業富聯披露2025年第三季度報告。雲端運算業務方面,前三季度,公司雲端運算業務營業收入較上年同期增長超過65%,第三季度單季同比增長超過75%,主要受益於超大規模資料中心用AI機櫃產品的規模交付及AI算力需求的持續旺盛。特別是雲服務商業務表現亮眼,前三季度營業收入佔比達雲端運算業務的70%,同比增長超過150%,第三季度單季同比增長逾2.1倍。其中,雲服務商GPU AI伺服器前三季度營業收入同比增長超過300%,第三季度單季環比增長逾90%、同比增長逾5倍。通用伺服器出貨亦保持穩健,整體雲端運算業務營收結構持續最佳化。工業富聯相關負責人此前在投資者調研中表示,公司對下半年AI伺服器業務持樂觀態度,除GB200持續放量外,GB300亦將逐步進入實質出貨階段。GB300在明年有望成為公司AI伺服器業務盈利的重要支撐點。交換機方面,公司預期800G產品會是2025-2026年的出貨主力,有望成為交換機業務的核心增長引擎。同時,公司與多家客戶協同開發的CPO(共封裝光學)新一代ASIC及1.6T交換機也在推進當中,後續將逐步推向市場。光通訊與高速連接方面,中際旭創可為雲資料中心客戶提供400G、800G和1.6T等高速光模組,為電信裝置商客戶提供5G前傳、中傳和回傳光模組以及應用於骨幹網和核心網傳輸光模組等高端整體解決方案。10月26日,公司在互動易平台上表示,其1.6T產品正在持續起量。新易盛亦致力於高性能光模組的研發、生產和銷售,產品服務於人工智慧叢集(AI Cluster)、雲資料中心、資料通訊、5G無線網路、電信傳輸、固網接入等領域的國內外客戶。目前,新易盛已經完成了滿足IEEE標準要求的全系列1.6T產品的開發,支援CMIS5.0及以上版本,可滿足不同客戶的應用需求,並啟動預研下一代3.2T產品。在PCB/載板方面,勝宏科技的主要產品覆蓋剛性電路板(多層板和HDI為核心)、柔性電路板(單雙面板、多層板、剛撓結合板)全系列,廣泛應用於人工智慧、新一代通訊技術、巨量資料中心等領域。公司半年報顯示,勝宏科技已成為國內外眾多頭部科技企業的核心合作夥伴,具備100層以上高多層板製造能力,是全球首批實現6階24層HDI產品大規模生產,及8階28層HDI與16層任意互聯(Any-layer)HDI技術能力的企業,同時加速佈局下一代產品,支援最前沿人工智慧產品及自動駕駛平台。散熱與電源方面,英維克已推出全鏈條液冷解決方案,從冷板、快速接頭、Manifold、CDU、機櫃,到SoluKing長效液冷工質、管路、冷源等“端到端”的產品覆蓋,從伺服器製造工廠,到資料中心運行現場的“廠到場”交付場景覆蓋。近年來,英維克已為字節跳動、騰訊、阿里巴巴、秦淮資料、萬國資料、資料港、中國移動、中國電信等使用者的大型資料中心提供了大量製冷產品及系統。麥格米特則具備高功率高效率網路電源技術及產品研發與供應能力,可支援通訊、交換機、通用伺服器、AI伺服器等多項場景應用。近年來,公司網路電源業務始終與國際頭部客戶保持緊密合作關係,持續獲得了愛立信(Ericsson)、思科(Cisco)、瞻博網路(Juniper)、阿里斯塔(Arista)、智邦科技(Accton)等頭部國際客戶的多項項目需求與訂單。(零氪1+1)
【GTC】輝達曝超級 AI 晶片 Vera Rubin,黃仁勳要創造 AI 的「登月時刻」
超級晶片、超級投資、超級機會。和 OpenAI 宣佈重組的同一天,輝達創始人黃仁勳,將公司的 GTC 大會,搬到了華盛頓舉行。在台北時間凌晨舉辦的輝達 GTC 大會上,黃仁勳用一系列人類歷史創新的剪影開場,並把輝達與 AI 創新直接拔高定調為「下一個阿波羅時刻」。除了展示下一代超級晶片 Vera Rubin,黃仁勳還大談 6G、量子計算,機器人和自動駕駛,同時宣佈要投資新的巨頭,舞台大屏上輝達的「合作」對象名單可以說是密密麻麻。前不久,輝達曾對外宣佈向曾經的競爭對手英特爾投資 50 億美元,一度讓英特爾股價飆漲,同月又表示將向 OpenAI 投資 1000 億美元,AI 圈的循環資本運作一度被人戲稱是「左腳踩右腳上天」的遊戲。儘管已經引起熱議,並被市場提及風險,但這沒有停下輝達撒錢的動作。在 2025 GTC 大會上,黃仁勳又宣佈要投資 10 億美元,這次的對像是諾基亞,當天諾基亞股價於是應聲飆漲超 20%。除了與諾基亞合作,輝達還宣佈將與甲骨文打造 AI 超級電腦,與富士康合作在德克薩斯州建立生產 GPU 的自主機器人工廠,並計畫與 Uber 合作開發自動駕駛機器人計程車等等。輝達的觸角,可以說已經全方位伸向了全球各行各業的龍頭。而隨著美國股市新一輪上漲,輝達公司的估值,向著 5 兆美元又挺進了一步。01. Vera Rubin 超級晶片首先,在 GTC 大會上,黃仁勳首次公開展示了下一代「Vera Rubin 超級晶片(Superchip)」。它搭載了一顆代號「Vera」的 CPU 和兩顆體積龐大的「Rubin」GPU,每顆 GPU 均採用最新的 HBM4 高頻寬記憶體,配合 32 個 LPDDR 記憶體插槽。據悉,輝達實驗室已經收到首批由台積電代工生產的 Rubin GPU 樣品,並計畫在明年同一時間或更早實現量產。黃仁勳 GTC 大會台上展示下一代 Vera Rubin 超級晶片|圖片來源:輝達Rubin GPU 被視為輝達自 Blackwell 架構之後的又一次躍遷。每顆晶片的浮點計算性能可達 50 PFLOPs(FP4),搭配 288 GB 的 HBM4 視訊記憶體,幾乎是現有 GB300 Superchip 性能的數倍。與此同時,Vera CPU 採用定製 Arm 架構,擁有 88 個核心、176 執行緒,並通過 NVLINK-C2C 介面與 GPU 連接,頻寬高達 1.8 TB/s。這樣的架構組合,使得「Superchip」不再是傳統 CPU+GPU 的鬆散拼裝,而成為真正意義上融合式計算引擎。該系統平台被命名為 Vera Rubin NVL144,顧名思義,它包含 144 個互聯單元。其整體推理性能可達到 3.6 Exaflops(FP4),訓練性能則達到 1.2 Exaflops(FP8),相較 GB300 NVL72 實現了 3.3 倍的性能提升。平台支援 13 TB/s 的 HBM4 記憶體頻寬,擁有 75 TB 的高速記憶體池,NVLINK 與 CX9 互聯的總頻寬分別提升到 260 TB/s 與 28.8 TB/s。這還僅僅是開始。黃仁勳提到,Rubin 架構的第二階段——Rubin Ultra NVL576 平台,計畫在 2027 年推出。這一代產品會在現有基礎上再度擴展,系統規模從 144 提升至 576,GPU 從兩顆擴展到四顆,每顆 GPU 同樣為 Reticle 等級的巨型晶片。輝達晶片與平台路線圖,2016 至 2028 年節奏|圖片來源:輝達Rubin 系列的推出,標誌著輝達從 Blackwell 架構的過渡。Blackwell Ultra(GB300)仍在高速出貨中,輝達的策略顯然是讓兩代產品形成梯隊,GB300 繼續支撐當下的雲端運算和訓練負載,而 Rubin 則預備承接 2026 年之後的需求。值得注意的是,Rubin 的技術走向也反映出輝達在硬體設計理念上的轉折。過去十年,輝達不斷強化 GPU 的平行計算能力,而現在,它開始更系統化地整合 CPU 與 GPU,將其統一在一個超高速互聯體系之下。另外,Rubin 的命名方面,Vera Rubin 是 20 世紀最具影響力的天文學家之一,她的研究揭示了暗物質的存在——一個看不見卻主宰宇宙結構的力量。02. 與諾基亞合作 6G AI 平台輝達每次發佈會,總有公司會受影響,股價隨之波動。此次受影響最大的幸運兒,非「諾基亞」莫屬。輝達宣佈將以每股 6.01 美元的認購價向諾基亞投資 10 億美元。兩家合作的核心,是黃仁勳宣佈的「NVIDIA Arc Aerial RAN Computer(ARC)」,一款支援 6G 的電信計算平台,結合了連接、計算和感測功能。諾基亞據稱將在輝達的平台上推出 AI 原生的 6G 網路,推出新一代 AI-RAN 產品線。按照輝達的說法,這次合作將標誌著「AI 原生無線時代的開始」。輝達宣佈與諾基亞合作|圖片來源:輝達簡單來說,以前,基站只是訊號的中轉站,現在,它有可能會成為 AI 的邊緣推理節點。AI 不僅「最佳化通訊」,甚至直接「跑在通訊網路」上。ARC 更大的願景是,讓未來的每個基站,不僅能根據天氣、訊號干擾、使用者密度智能調度發射功率,還能部署「AI 服務」,如工業自動化控制、遠端協作、低延遲雲遊戲等。真如此,通訊基礎設施可能迎來巨變。過去十年,美國在 5G 領域的佈局顯得步履遲緩,從標準制定到產業鏈落地,全球主導權早已旁落。根據雙方披露的計畫,輝達將投資 10 億美元入股諾基亞,用於加速 AI-RAN 的全球部署。與此同時,還有其他巨頭的參與,比如戴爾科技將提供 PowerEdge 伺服器。美國的電信巨頭 T-Mobile 則將成為首個進行現場測試的營運商,計畫在 2026 年啟動 6G 實地驗證。「電信行業擁有人工智慧最寶貴的資源——邊緣計算,也就是資料產生的地方。」戴爾 CEO 稱,「現在,我們正在運用這些專業知識,將智能分佈到數百萬個邊緣節點。如今,那些對基礎設施進行現代化改造的營運商將不僅僅是承載人工智慧流量,他們還將是分佈式人工智慧網格工廠,在源頭進行處理,延遲和資料主權至關重要。」根據市場分析機構 Omdia 的預測,到 2030 年,AI-RAN 市場累計規模將超過 2000 億美元。這是通訊產業最重要的技術躍遷之一,而諾基亞與輝達的聯合,也正是押注在這一趨勢之上。目前全球移動 AI 流量增長迅猛,例如,ChatGPT 每周 8 億活躍使用者中,近一半來自移動端,AI 的需求已經從雲端延伸到終端。輝達官方稱,與諾基亞的合作,可讓消費者在其裝置上使用生成式、agentic 和 physical AI 應用時能夠享受流暢的網路體驗。它還將支援未來的原生人工智慧裝置,例如無人機、增強現實和虛擬現實眼鏡,並為整合感知與通訊等 6G 應用做好準備。「基於輝達 CUDA 和 AI 的 AI-RAN 將徹底改變電信行業——這是一次跨時代的平台變革。」黃仁勳稱。03. 連接量子與 GPU 計算如果說 CUDA 是 GPU 計算的起點,那麼 NVQLink 與 CUDA-Q 的結合,則意味著量子計算正式被納入輝達的軟體生態體系。在 GTC 大會上,黃仁勳宣佈推出 NVQLink,一種量子 GPU 互連技術,用於將 GPU 與量子處理器緊密結合,以建構加速量子超級電腦,主要用於大規模量子計算和量子糾錯。黃仁勳稱:「它不僅僅是為當今少量量子位元進行糾錯,它還為未來進行糾錯——那時我們將把量子電腦從現在的幾百個量子位元擴展到幾萬個,甚至未來的幾十萬個量子位元。」輝達推出 NVQLink|圖片來源:輝達據他透露,已有 17 家量子處理器製造商、5 家量子控制系統廠商和 9 家國家實驗室支援 NVQLink,「業界的支援令人難以置信」。參與者包括 Alice & Bob、IonQ、Rigetti、Pasqal、QuEra 等多家前沿量子公司,以及控制系統廠商 Keysight、Zurich Instruments、Quantum Machines 等。「在不久的將來,輝達的每台 GPU 科學超級電腦都將是混合型的,並與量子處理器緊密結合,以擴展計算的可能性。」黃仁勳稱,「NVQLink 就像連接量子和傳統超級電腦的羅塞塔石碑,將它們整合成一個統一、連貫的系統,標誌著量子 GPU 計算時代的到來。」04. Physical AI 進展在近兩年的 GTC 大會上,黃仁勳幾乎每次都會在演講最後提 Physical AI、Omniverse 數字孿生和機器人,這次也不例外。據輝達稱,西門子是首家開發支援輝達「超級 Omniverse 藍圖」的數字孿生軟體的公司,目前正在測試階段。新技術堆疊將整合至西門子的 Xcelerator 平台,支援將真實 3D 模型與即時運算元據結合,進行大規模工廠數字孿生的設計與營運。發那科和富士康工業富聯是首批支援基於 OpenUSD 建構其機器人數字孿生模型的製造商。黃仁勳在 GTC 大會上展示了富士康在德州休斯頓新建的 24 萬平方英呎工廠,據稱在現實動工之前,整座工廠的產線、機器人與物流在真實物理與即時資料中被反覆推演,先在虛擬世界把良率與節拍調優,再在現實中落成。另外,卡特彼勒、豐田、台積電等也在用 Omniverse 數字孿生做預測性維護、動態排產、智能調度。例如,台積電用 Omniverse 加速亞利桑那州鳳凰城晶圓廠的設計與建設。黃仁勳認為,AI 正在將全球工廠轉變為「智能思考機器」,這是新一輪工業革命的引擎。他稱:「這些工廠本質上就是一個機器人,它指揮其他機器人製造機器人產品。要實現這一點,所需的軟體量非常龐大,除非能在數字孿生環境中完成,否則幾乎不可能成功。」用輝達平台建構數字孿生的公司|圖片來源:輝達黃仁勳還提到了一些機器人公司。如機器人明星公司 Figure AI 與輝達合作,訓練了其 Helix 視覺語言動作模型。Agility Robotics 的通用人形機器人 Digit,也借輝達的 Isaac Lab 框架進行強化學習訓練,最佳化步態控制、抗擾恢復等技能。此外還有亞馬遜的機器人,比如其最近發佈的用於拾取、裝載和整合的 BlueJay 多臂機械手也用了 Omniverse 的庫和框架,據稱從概唸到量產只花了一年多時間。Skild AI 則在建構一個通用機器人基礎模型,讓輪式、四足、人形機器人共用一套智能體系,該公司用 Isaac Lab 進行運動和靈巧操作任務訓練,並使用輝達的 Cosmos 世界基礎模型生成訓練資料集。FieldAI 在建築、油氣領域訓練跨形態機器人大腦,也在用 Isaac Lab 強化學習與 Isaac Sim 進行合成資料生成與軟體閉環驗證。黃仁勳還提到了迪士尼,稱該公司正在使用輝達的 Omniverse 訓練「有史以來最可愛的機器人」。黃仁勳站在一堆機器人中間|圖片來源:輝達05. 「輝達宇宙」在本次 GTC 上,黃仁勳還提出一個概念:AI 不是工具,AI 就是勞動力。在他看來,以往的軟體是「人用工具」,而 AI 是「會用工具的數字勞動力」。它不僅能理解、響應、學習,還能配合 IDE、瀏覽器、搜尋引擎、資料庫,完成實際任務。因此,輝達開始深入 SaaS 與企業軟體體系,宣佈和 Palantir、CrowdStrike、SAP、Synopsys 等公司合作,將其 AI 工具鏈嵌入到一些行業龍頭企業系統中。比如,Palantir 的 Ontology 將整合 NVIDIA GPU 加速進行即時資料處理;CrowdStrike 的安全系統,將部署邊緣 AI 模組,實現「秒速響應」;Synopsys 和 Cadence,將利用 NVIDIA 提供的 AI Agent 輔助晶片設計,實現「AI 設計 AI」的循環最佳化。在醫療領域,跨國製藥公司禮來正在打造藥物研發 AI 工廠,據稱有 1000 個輝達 Blackwell Ultra GPU。在汽車側,輝達還宣佈與 Uber 達成戰略合作,要擴展全球最大的 L4 自動駕駛出行網路。Uber 計畫自 2027 年起正式啟動規模化部署,首批目標是 10 萬輛車輝達為此推出了 DRIVE AGX Hyperion 10,號稱「可讓任何車輛達到 L4-ready 階段」,核心是兩套高性能的 DRIVE AGX Thor 車載平台,基於 輝達 Blackwell 架構。輝達與 Uber 合作|圖片來源:輝達在輝達的佈局中,Uber 只是龐大生態的一環。Stellantis、Lucid、梅賽德斯奔馳等車企將基於 Hyperion 10 平台打造各自的 L4 級車輛。另外,在卡車領域,Aurora、沃爾沃、Waabi 正在用輝達平台開發 L4 級自動駕駛卡車。而在更廣泛的 L4 生態中,據稱 Avride、Momenta、Nuro、Pony.ai、Wayve、WeRide 等公司也都在用輝達的 DRIVE 平台進行演算法開發。這是一個跨越乘用車、商用車、Robotaxi 乃至機器人領域的巨大生態網路,而輝達的野心是成為這個網路的中樞。「全世界大約有 5000 萬輛計程車。未來,大量的無人駕駛計程車將加入到計程車隊伍中。」黃仁勳稱:「我們正與 Uber 合作,為整個行業建立一個框架,基於英偉 AI 基礎設施大規模部署自動駕駛車隊。曾經的科幻小說正在迅速成為現實。」黃仁勳在 2025GTC 大會上|圖片來源:輝達可以說,這屆 GTC,黃仁勳的重心已經不是吹單卡跑分,而是國家戰略、各種 AI 工廠、產業。輝達從算力到場景的全鏈路施工圖,越來越具體,結盟的各種行業龍頭,也比以往任何時候都多。作為全球最大的 AI 算力供應商,輝達甚至比自己的客戶——雲端運算和 AI 大模型公司——更希望 AI 能進一步進入真實世界。而要達成這樣一個「輝達宇宙」,「皮衣主教」需要更多的夥伴,非常非常多的夥伴,就像這屆華盛頓 GTC 大會上這樣。 (極客公園)
【GTC】一文看清輝達GTC黃仁勳演講要點:2000萬塊Blackwell銷售預期,Rubin首秀,推出NVQLink,6G等重磅合作
Vera Rubin晶片已完成實驗室測試,預計明年此時或更早量產;預計出貨2000萬塊Blackwell晶片,Blackwell和Rubin晶片合計銷售額5000億美元;輝達將與諾基亞推出Aerial RAN Computer助力6G網路轉型;輝達NVQLink技術連接量子計算與GPU系統,已獲17家量子處理器製造商支援;輝達聯手甲骨文打造配備10萬塊Blackwell GPU的美能源部最大AI超算;輝達支援AI工廠作業系統的處理器BlueField-4預計明年推出早期版本,作為Vera Rubin的部分;輝達與CrowdStrike、Palantir、禮來分別合作;輝達自動駕駛開發平台DRIVE AGX Hyperion 10助Uber2027年起部署Robotaxi車隊,首批提供這些車的製造商包括Stellantis。美東時間28日周二,輝達CEO黃仁勳在華盛頓舉行的今年第二次GTC大會上發表主體演講,重點涵蓋6G、AI、量子計算和機器人領域的技術突破。黃仁勳在演講中強調,隨著摩爾定律失效,加速計算和GPU技術成為推動技術進步的核心動力。在AI與6G技術結合方面,輝達宣佈與諾基亞達成戰略合作,將投資10億美元認購諾基亞股份,共同推進AI原生6G網路平台。超算方面,輝達推出融合AI超算和量子計算的NVQLink技術,連接量子處理器與GPU超級電腦,已獲得17家量子計算公司支援。輝達還宣佈,與美國能源部合作建造該部門最大的AI超算。AI工廠方面,輝達將推出支援AI工廠操作的處理器Bluefield-4。此外,輝達給自動駕駛計程車服務Robotaxi的熱潮又添一把火,宣佈與共享用車鼻祖Uber以及克萊斯勒母公司Stellantis合作。Uber計畫從2027年起部署10萬輛基於輝達技術的Robotaxi服務汽車。輝達還與AI明星Palantir以及醫藥巨頭禮來分別達成合作,將其GPU計算能力與企業資料平台和製藥研發深度整合,旨在推動AI從概念走向實際應用。這兩項合作分別針對企業營運智能和藥物研發,標誌著AI技術在複雜行業場景中的商業化處理程序加速。黃仁勳表示:“AI是我們這個時代最強大的技術,而科學是其最偉大的前沿。” 周二官宣的合作標誌著,輝達從晶片製造商向全端AI基礎設施供應商的戰略轉型。黃仁勳在現場首次展示了輝達下一代Vera Rubin超級GPU的實物。黃仁勳表示,Rubin GPU已完成實驗室測試,首批樣品已從台積電送回實驗室,預計明年此時或更早量產。Vera Rubin是採用無纜連接設計的第三代NVLink 72機架級超算。單機架算力達100 Petaflops,是初代DGX-1性能的100倍,意味著過去需要25個機架完成的工作,現在一個Vera Rubin即可實現。黃仁勳在演講中明確反駁了AI泡沫說,稱:“我不認為我們處於AI泡沫之中。我們正在使用所有這些不同的AI模型——我們在使用大量服務,並樂於為此付費。” 他的核心論點是,AI模型現在已經足夠強大,客戶願意為其付費,這反過來將證明昂貴的計算基礎設施建設是合理的。01 Rubin計算架構實現無纜全液冷NVL144平台性能較GB300提升3.8倍Vera Rubin計算托盤的推理性能可達440 Petaflops。輝達透露,其底部配備了8個Rubin CPX GPU、BlueField-4資料處理器、兩顆Vera CPU以及4個Rubin封裝,總共8個GPU全部實現了無纜連接和全液冷設計。Rubin GPU採用兩個Reticle尺寸晶片,FP4性能最高可達50 Petaflops,配備288GB下一代HBM4記憶體。Vera CPU則採用定製化Arm架構,擁有88個核心、176個執行緒,NVLINK-C2C互連速度最高可達1.8 TB/s。系統配備的NVLink交換機可讓所有GPU同步傳輸資料,乙太網路交換機Spectrum-X確保處理器同時通訊而不擁堵。結合Quantum交換機,整個系統完全相容InfiniBand、Quantum和Spectrum Ethernet。輝達Vera Rubin NVL144平台的FP4推理性能達到3.6 Exaflops,FP8訓練能力為1.2 Exaflops,較GB300 NVL72提升3.3倍。HBM4記憶體速度達到13 TB/s,快速記憶體容量為75TB,較GB300提升60%。NVLINK和CX9能力分別提升至2倍,速率最高可達260 TB/s和28.8 TB/s。每個Rubin GPU採用8個HBM4記憶體站點和兩個Reticle尺寸的GPU裸片設計。主機板總共配備32個LPDDR系統記憶體站點,與Rubin GPU上的HBM4記憶體協同工作,每個晶片周圍佈置了大量電源電路。第二代平台Rubin Ultra將於2027年下半年發佈,NVL系統規模從144擴展至576。Rubin Ultra GPU採用四個Reticle尺寸晶片,FP4性能最高可達100 Petaflops,HBM4e總容量達到1TB,分佈在16個HBM站點。Rubin Ultra NVL576平台的FP4推理性能將達到15 Exaflops,FP8訓練能力為5 Exaflops,較GB300 NVL72提升14倍。HBM4記憶體速度達到4.6 PB/s,快速記憶體容量為365TB,較GB300提升8倍。NVLINK和CX9能力分別提升12倍和8倍,速率最高可達1.5 PB/s和115.2 TB/s。該平台的CPU架構與Vera Rubin保持一致,繼續採用88核心Vera CPU配置。02晶片出貨量激增產能擴張迅猛黃仁勳透露,輝達目前最快的AI晶片Blackwell GPU已在亞利桑那州實現全面生產。這意味著,之前僅在台灣生產的Blackwell晶片首次可以在美國製造。黃仁勳披露了輝達晶片出貨的驚人資料。他表示,輝達預計將出貨2000萬塊Blackwell晶片。相比之下,上一代產品Hopper架構晶片在整個生命周期內僅出貨了400萬塊。黃仁勳還表示,過去四個季度已出貨600萬塊Blackwell GPU,需求依然強勁。輝達預計,Blackwell和明年推出的Rubin晶片將合計帶來五個季度5000億美元的GPU銷售額。本月早些時候,輝達和台積電宣佈首批Blackwell晶圓已在亞利桑那州鳳凰城的工廠生產。輝達在一段視訊中表示,基於Blackwell的系統現在也將在美國組裝。03輝達聯手諾基亞佈局6G網路黃仁勳介紹,輝達將與諾基亞攜手推出Aerial RAN Computer(ARC),助力6G網路轉型。輝達與諾基亞將為6G通訊技術開拓AI平台。6G 與 AI 如何融合?除了AI學習和提升6G頻譜效率之外,我們還將看到AI加持的無線接入網路(RAN)產品、即“AI on RAN”。這意味著,在目前的網際網路狀態下,很多資料都在亞馬遜雲服務平台AWS上運行,但輝達要在6G連接之上建構一個雲端運算平台。這展現了超高速 AI 的潛力,它可以為自動駕駛汽車等技術提供動力。輝達和諾基亞周二宣佈建立戰略合作夥伴關係,將輝達驅動的商用級AI-RAN產品加入到諾基亞的RAN產品組合中,使通訊服務提供商能夠在輝達平台推出AI 原生的5G-Advanced 和6G網路。輝達將推出面向6G網路的Aerial RAN Computer Pro計算平台,諾基亞將在此基礎上擴展其RAN產品組合,推出新的AI-RAN產品。輝達還將以每股6.01美元的認購價,對諾基亞進行10億美元的股權投資。分析機構Omdia預測,到2030年,AI-RAN市場規模預計將累計超過2000億美元。輝達和諾基亞的合作將提供分佈式邊緣AI推理能力,為電信營運商開闢新的高增長領域。T-Mobile美國公司將同諾基亞和輝達合作,推動AI-RAN技術的測試和開發,將技術整合到其6G開發流程中。試驗預計於2026年開始,重點驗證客戶的性能和效率提升。該技術將支援自動駕駛汽車、無人機、增強現實和虛擬現實眼鏡等AI原生裝置。04NVQLink連接量子計算與GPU系統目前,各種量子計算技術雖然性能強大,但對環境噪聲敏感,應用範圍有限。基於GPU的超級電腦正是因此有用武之地,它可以減輕量子處理器的負擔。黃仁勳周二提到,輝達基於旗下開源量子開發平台CUDA-Q核心建構了開源系統架構NVQLink。黃仁勳表示,他預計,除了新技術之外,量子計算還需要傳統處理器的支援,輝達將幫助實現這一目標。“我們現在意識到,將量子電腦直接連接到 GPU 超級電腦至關重要。這就是計算的未來量子化。”NVQLink是將量子處理器與GPU和CPU連接起來的新型高速互連技術。它並非要取代量子電腦,而是要和後者共同加快量子計算的速度。黃仁勳說,NVQLink技術將有助於糾錯,同時校準那些AI 演算法應該在GPU和量子處理器上使用。他透露,已有17家量子計算公司承諾將支援NVQLink。“業界的支援令人難以置信。量子計算不會取代傳統系統,它們將協同工作。”“它(NVQLink)不僅能對今天的量子位元進行糾錯,還能對未來的量子位元進行糾錯。我們將把這些量子電腦的規模從現在的數百個量子位元擴展到數萬個量子位元,甚至未來的數十萬個量子位元。”輝達稱,NVQLink技術已獲得17家量子處理器製造商和5家控製器製造商的支援,包括Alice & Bob、Atom Computing、IonQ、IQM Quantum Computers、Quantinuum、Rigetti等公司。美國能源部領導的9個國家實驗室將使用NVQLink推動量子計算突破,包括布魯克海文國家實驗室、費米實驗室、洛斯阿拉莫斯國家實驗室(LANL)等。輝達表示,開發人員可以通過CUDA-Q軟體平台訪問NVQLink,建立和測試無縫呼叫CPU、GPU和量子處理器的應用程式。05輝達與甲骨文打造美能源部最大AI超算黃仁勳稱,輝達將與美國能源部合作,打造七台新的超級電腦。它們將分別部署在能源部旗下的阿貢國家實驗室(ANL)和洛斯阿拉莫斯國家實驗室(LANL)。輝達宣佈與甲骨文合作,為美國能源部建造該部門最大的AI超級電腦Solstice系統,該系統將創紀錄地配備10萬塊輝達Blackwell GPU。另一套名為Equinox的系統將包含1萬個Blackwell GPU,預計於2026年上半年投入使用。兩套系統均通過輝達網路互聯,總計提供2200 exaflops的AI性能。這些超級電腦將使科學家和研究人員能夠使用輝達Megatron-Core庫開發和訓練新的前沿模型和AI推理模型,並使用TensorRT推理軟體堆疊進行擴展。能源部長Chris Wright表示:"維護美國在高性能計算領域的領導地位,需要我們搭建通向下一個計算時代的橋樑:加速量子超級計算。我們國家實驗室、初創公司和輝達等行業合作夥伴之間的深度合作對這一使命至關重要。"阿貢國家實驗室主任Paul K. Kearns表示,這些系統將與能源部前沿實驗設施(如先進光子源)無縫連接,使科學家能夠通過科學發現應對國家最緊迫的挑戰。06BlueField-4推動AI工廠基礎設施升級黃仁勳認為,代理式AI不再只是一種工具,而是人們所有工作的助手。AI帶來的“機會不勝列舉。” 輝達的計畫是建造專用於AI的工廠,裡面堆滿晶片。輝達周二當天宣佈,推出支援AI工廠作業系統的處理器Bluefield-4。輝達的BlueField-4資料處理單元支援800Gb/s吞吐量,為千兆級AI基礎設施提供突破性加速。該平台結合輝達Grace CPU和ConnectX-9網路技術,計算能力是前代BlueField-3的6倍,可支援的AI工廠規模較BlueField-3擴大3倍。BlueField-4專為新一類AI儲存平台設計,為AI資料管道的高效資料處理和大規模突破性性能奠定基礎。該平台支援多租戶網路、快速資料訪問、AI執行階段安全和雲彈性,原生支援輝達DOCA微服務。輝達稱,多家行業領頭羊計畫採用BlueField-4技術。其中,伺服器和儲存領域的公司包括思科、DDN、戴爾科技、HPE、IBM、聯想、Supermicro、VAST Data和WEKA。網路安全領域企業包括Armis、Check Point、思科、F5、Forescout、Palo Alto Networks和Trend Micro。此外,雲和AI服務商如Akamai、CoreWeave、Crusoe、Lambda、甲骨文、Together.ai和xAI正基於輝達DOCA微服務建構解決方案,加速多租戶網路、提升資料移動速度並增強AI工廠和超級計算雲的安全性。輝達BlueField-4預計將於2026年作為Vera Rubin平台的一部分推出早期版本。07輝達與Crowd Strike合作AI網路安全開發黃仁勳稱,輝達將與網路安全公司CrowdStrike在AI網路安全模型方面進行合作。輝達宣佈與CrowdStrike建立戰略合作,在CrowdStrike Falcon XDR平台上提供輝達AI計算服務。該合作將Falcon平台資料與輝達GPU最佳化的AI管道和軟體(包括新的輝達NIM微服務)相結合,使客戶能夠建立定製化安全生成式AI模型。根據2024年CrowdStrike全球威脅報告,平均突破時間已降至62分鐘,最快記錄的攻擊僅略超過2分鐘。隨著現代攻擊速度更快、更複雜,組織需要AI驅動的安全技術來獲得必要的速度和自動化能力。黃仁勳表示:"網路安全本質上是一個資料問題——企業能夠處理的資料越多,就能檢測和處理的事件越多。將輝達加速計算和生成式AI與CrowdStrike網路安全結合,可以為企業提供前所未有的威脅可見性。"CrowdStrike將利用輝達加速計算、輝達Morpheus和NIM微服務,將定製LLM驅動的應用程式引入企業。結合Falcon平台的獨特上下文資料,客戶將能夠解決特定領域的新用例,包括處理PB級日誌以改進威脅搜尋、檢測供應鏈攻擊、識別使用者行為異常,以及主動防禦新興漏洞。08輝達新自動駕駛開發平台助Uber部署Robotaxi車隊黃仁勳介紹,輝達的端對端自動駕駛平台DRIVE Hyperion已準備好推出提供Robotaxi服務的汽車。包括Stellantis、Lucid 和梅賽德斯-奔馳在內的全球汽車製造商將利用輝達的新技術平台DRIVE AGX Hyperion 10 架構加速開發自動駕駛技術。輝達宣佈與Uber建立合作關係,使用新一代輝達DRIVE AGX Hyperion 10自動駕駛開發平台和DRIVE AV軟體,擴展全球最大的L4級行動網路。輝達將支援Uber,從2027年開始逐步將其全球自動駕駛車隊規模擴大至10萬輛。DRIVE AGX Hyperion 10是一個參考級生產電腦和感測器架構,使任何車輛都能達到L4級準備狀態。該平台使汽車製造商能夠建構配備經過驗證的硬體和感測器的汽車、卡車和貨車,可以託管任何相容的自動駕駛軟體。黃仁勳表示:"無人駕駛計程車標誌著全球交通轉型的開始——使交通更安全、更清潔、更高效。我們與Uber共同為整個行業建立了一個框架,以大規模部署自動駕駛車隊。"Uber CEO Dara Khosrowshahi表示:"輝達是AI時代的支柱,現在正充分利用這一創新,以巨大規模釋放L4自動駕駛能力。"Stellantis正在開發AV-Ready平台,專門最佳化以支援L4級能力並滿足無人駕駛計程車要求。這些平台將整合輝達全端AI技術,進一步擴展與Uber全球移動生態系統的連接性。Uber稱,Stellantis將成為首批提供Robotaxi汽車的製造商之一,這些製造商將為Uber在美國和國際的業務提供至少5000輛輝達驅動的Robotaxi車。Uber將負責車輛的端到端車隊營運,包括遠端協助、充電、清潔、維護和客戶支援。Stellantis稱,將與富士康在硬體和系統整合方面展開合作,生產計畫定於2028年啟動。首先在美國與Uber合作開展營運。Stellantis 表示,預計未來幾年試點項目和測試將逐步展開。Lucid正在為其下一代乘用車推進L4級自動駕駛能力,在DRIVE Hyperion平台上使用全端輝達AV軟體,向客戶交付首批L4級自動駕駛汽車。梅賽德斯-奔馳正在測試基於其專有作業系統MB.OS和DRIVE AGX Hyperion的未來合作,新款S級車型將提供卓越的L4級豪華駕乘體驗。輝達和Uber將繼續支援和加速在輝達DRIVE L4級平台上開發軟體堆疊的全球合作夥伴,包括Avride、May Mobility、Momenta、Nuro、Pony.ai、Wayve和WeRide。在卡車運輸領域,Aurora、沃爾沃自動駕駛解決方案和Waabi正在開發由輝達DRIVE平台驅動的L4級自動駕駛卡車。09輝達與Palantir打造營運AI技術堆疊Lowe‘s率先應用供應鏈最佳化方案輝達與Palantir的合作核心是將輝達的GPU加速計算、開源模型和資料處理能力整合到Palantir AI平台(AIP)的Ontology系統中。Ontology通過將複雜資料和邏輯組織成互聯的虛擬對象、連結和動作,建立企業的數字副本,為AI驅動的業務流程自動化提供基礎。黃仁勳表示:"Palantir和輝達有著共同的願景:將AI付諸行動,把企業資料轉化為決策智能。通過結合Palantir強大的AI驅動平台與輝達CUDA-X加速計算和Nemotron開源AI模型,我們正在打造下一代引擎,為運行全球最複雜工業和營運管線的AI專業化應用和代理提供動力。"技術層面,客戶可通過Ontology使用輝達CUDA-X資料科學庫進行資料處理,配合輝達加速計算,為複雜的業務關鍵工作流驅動即時AI決策。輝達AI企業平台(包括cuOpt決策最佳化軟體)將支援企業進行動態供應鏈管理。輝達Nemotron推理模型和NeMo Retriever開源模型將幫助企業快速建構由Ontology提供資訊的AI代理。Palantir聯合創始人兼CEO Alex Karp表示:"Palantir專注於部署能為客戶立即帶來非對稱價值的AI。我們很榮幸與輝達合作,將我們的AI驅動決策智能系統與全球最先進的AI基礎設施融合。"零售商Lowe's成為首批採用Palantir和輝達整合技術堆疊的企業之一,正在建立其全球供應鏈網路的數字副本,以實現動態和持續的AI最佳化。該技術旨在提升供應鏈敏捷性,同時增強成本節約和客戶滿意度。Lowe's首席數字和資訊官Seemantini Godbole表示:"現代供應鏈是極其複雜的動態系統,AI對於幫助Lowe's在不斷變化的條件下快速適應和最佳化至關重要。即使是需求的微小變化也會在全球網路中產生連鎖反應。通過將Palantir技術與輝達AI相結合,Lowe's正在重新構想零售物流,使我們能夠每天更好地服務客戶。"輝達和Palantir還計畫將輝達Blackwell架構引入Palantir AIP,以加速從資料處理和分析到模型開發、微調再到生產AI的端到端AI管線。企業將能夠在輝達AI工廠中運行AIP以實現最佳化加速。Palantir AIP還將在輝達新推出的政府AI工廠參考設計中獲得支援。10禮來打造製藥業最強超算超千塊Blackwell Ultra驅動禮來與輝達的合作將建設一台由超過1000塊Blackwell Ultra GPU驅動的超級電腦,這些晶片將通過統一的高速網路連線。該超級電腦將為AI工廠提供動力,這是一個專門的計算基礎設施,將大規模開發、訓練和部署用於藥物發現和開發的AI模型。禮來首席資訊和數字官Diogo Rau表示,從首次對人類進行藥物試驗到產品上市,通常平均需要約10年時間。該公司預計將在12月完成超級電腦和AI工廠的建設,明年1月上線。但這些新工具可能要到2030年末才能為禮來及其他製藥商的業務帶來顯著回報。Rau說:“我們現在討論的用這種算力發現的東西,真正會在2030年看到這些益處。"禮來首席AI官Thomas Fuchs表示:"這確實是一種新型科學儀器。對生物學家來說,它就像一台巨大的顯微鏡。它真正讓我們能夠以如此龐大的規模做到以前無法做到的事情。"科學家將能夠在數百萬次實驗中訓練AI模型來測試潛在藥物,"極大地擴展藥物發現的範圍和複雜性"。雖然發現新藥並非這些新工具的唯一重點,但Rau表示這“是最大的機會所在”,“我們希望能夠發現僅靠人類永遠無法發現的新分子。”多個AI模型將在Lilly TuneLab上提供,這是一個AI和機器學習平台,允許生物技術公司訪問禮來基於其多年專有研究訓練的藥物發現模型。這些資料價值10億美元。禮來於去年9月推出該平台,旨在擴大整個行業對藥物發現工具的訪問。Rau指出,作為訪問AI模型的交換,生物技術公司需要貢獻部分自己的研究和資料,幫助訓練這些模型。TuneLab平台採用所謂的聯邦學習,這意味著,生物技術公司可以利用禮來的AI模型,雙方無需直接共享資料。禮來還計畫使用超級電腦縮短藥物開發時間,幫助更快地將治療方法送到患者手中。禮來表示,新的科學AI代理可以支援研究人員,先進的醫學成像可以讓科學家更清晰地瞭解疾病如何進展,並幫助他們開發用於個性化護理的新生物標誌物。 (硬AI)
輝達拋棄 FLOPS:晶片價值改寫為 Token 經濟
9 月 10 日,輝達宣佈將在 2026 年底前推出全新人工智慧晶片 Rubin CPX。這是 Blackwell 平台的繼任者,被定位為“視訊生成與 AI 程式設計”的專用加速晶片。與傳統 GPU 最大的不同在於,Rubin CPX 高度整合了視訊解碼、編碼與推理功能。過去,生成一小時視訊所需的處理量高達百萬級 token,遠超常規 GPU 的處理邊界。Rubin CPX 的設計目標,就是為這種指數級增長的算力需求提供 專用解決方案。更引人注目的是,輝達首次公開了經濟模型:向 Rubin CPX 系統投入1 億美元,最高可帶來 50 億美元 token 收入;硬體價值不再是一次性出貨,而是與 AI 應用的 token 消耗直接掛鉤。一|技術路徑的三步走1|算力邊界突破Rubin CPX 內建的視訊流水線將推理吞吐提升至 Blackwell 的 3–4 倍,面向1 小時視訊 ≈ 100 萬 token 的處理量做專門最佳化。2|系統級整合通過整合解碼、編碼、推理,CPX 取消了 CPU 與外部加速器之間的資料搬運,平均延遲縮短 40%–50%。3|能源效率提升在同等算力下,CPX 的能耗比常規 GPU 下降 30%–35%,這是視訊場景下能否規模化部署的關鍵。二|三個關鍵訊號🔍1|AI 視訊生成已成算力新高地視訊生成和 AI 程式設計是未來最消耗算力的兩大場景。視訊的處理量比文字/圖像高一個數量級,未來 AI 的增長曲線幾乎註定將在視訊領域展開。🔍2|資本邏輯正在轉向 token 維度過去,晶片的價值以 FLOPS 衡量。如今,Rubin CPX 把“投入產出比”直接對應到 token 消耗 = 現金流。這讓晶片廠商從硬體銷售變成持續的 token 分成,是資本市場更願意買單的模式。🔍 3|AI 晶片敘事全面升級輝達從 GPU 性能 → 雲算力租賃 → token 經濟回報,不斷迭代敘事。未來誰能承接更多的 token 消耗,誰就佔據 AI 基礎設施的制高點。三|市場觀察Rubin CPX 不只是一次硬體迭代,而是一次 商業邏輯的躍遷。它揭示了未來幾年晶片價值的核心:不再僅取決於算力極限;而在於 能否把 AI 應用的 token 消耗轉化為可見的現金流。換句話說,誰能把 token 經濟效應嵌入晶片,誰就有機會主導下一輪 AI 基建的資本溢價。四|資本市場的故事切換對投資者而言,這不僅是技術與商業模式的更新,更可能改變資本市場對輝達的估值框架。Rubin CPX 可能意味著輝達的收入模型,從過去的 一次性硬體銷售,逐步轉向 類訂閱的持續分成模式:硬體出貨只是起點,真正的價值在於 token 消耗帶來的長尾收益;這種模式讓輝達更像一家 “雲服務+軟體平台” 企業,而不是傳統半導體公司;對資本市場而言,這相當於從周期性硬體估值 轉向穩定現金流的 SaaS 估值,敘事天花板被再次抬高。這就是 Rubin CPX 背後更大的金融含義:輝達不只是在賣晶片,而是在賣“算力+現金流”的未來。一塊晶片,不止是算力的極限,而是現金流的起點。 (方到)
「一頁紙」講透產業趨勢之:Rubin CPX
這是一個非常「有錢景」的方向,我會借助 AlphaEngine 的幫助,幫你跨越產業趨勢研究的資訊鴻溝,每天挖掘一個財富密碼。今天的主角是:Rubin CPX,AI產業變革下一個核心驅動力。點選下方▶️按鈕收聽👇👇(1)Rubin CPX:AI產業進入“長上下文時代”的里程碑輝達近日發佈了一款專為長上下文場景設計的GPU——Rubin CPX。這款晶片旨在顯著提升AI推理效率,尤其適用於程式設計、視訊生成等需要處理超長上下文窗口的應用領域。Rubin CPX計畫於2026年底正式上市,市場定位是專為處理百萬級token長上下文AI推理而設計的關鍵基礎設施,旨在將AI算力正式推向Exascale(百億億次)時代。該產品的市場吸引力已得到初步驗證,包括Cursor(AI程式設計)、Runway(視訊生成)及Magic(AI程式設計)在內的多家前沿AI企業已率先採用該技術。Rubin CPX的推出可視為推動AI產業進入“長上下文時代”的里程碑事件,其核心價值在於通過架構創新為AI推理的規模化部署掃清了經濟性與效率障礙,為長上下文AI應用的商業化落地提供了高性價比的基礎設施。基於Rubin CPX的顛覆性設計,我們預見AI產業鏈將迎來深刻變革,一個全新的AI應用紀元正拉開序幕。1)上游供應鏈將迎來結構性增長:能夠滿足Rubin CPX嚴苛技術要求的供應商將獲得顯著優勢。例如,在PCB領域,對40層以上、採用M9級材料的高階伺服器板及HDI技術的需求將激增,為具備相關技術儲備的頭部廠商帶來確定性訂單。2)下游AI應用範式將被重塑:百萬級token的處理能力將徹底改變AI應用形態,AI編碼助手將從簡單的程式碼補全工具進化為能夠理解和重構整個複雜軟體項目的“AI架構師”,而視訊生成、藥物研發和企業知識庫問答等領域也將因上下文長度的突破而開啟新的可能性。(2)Rubin CPX的核心技術創新:解耦推理Rubin CPX的核心創新在於其獨特的解耦推理(Decoupled Inference)技術,該技術首次將大語言模型的推理流程從物理上分解為兩個獨立的階段:上下文處理(Prefill/Context)和生成(Decode/Generation)。傳統架構在單一硬體上執行這兩個特性迥異的任務,導致資源錯配與效率瓶頸。解耦架構則為每個階段匹配專用硬體:1)上下文處理階段:此階段計算密集(Compute-Intensive),需要大規模平行處理能力來消化海量輸入。Rubin CPX專為此設計,採用“胖計算、瘦頻寬”的理念,使用GDDR7來最大化算力利用率。2)生成階段:此階段頻寬密集(Bandwidth-Intensive),每個Token的生成都極度依賴記憶體訪問速度。該任務由標準的、配備高頻寬記憶體(HBM)的Rubin GPU(如R200)承擔,確保低延遲輸出。通過這種專用化分工,解耦推理架構實現了對計算和記憶體資源的精準調配,從根本上解決了傳統同構架構的效率天花板問題。Rubin CPX的解耦推理架構在處理流程、硬體瓶頸和記憶體策略上,與以GB300為代表的傳統同構架構形成了鮮明對比,其專用化設計帶來了革命性優勢。*註:由FinGPT Agent作表,原表請登錄AlphaEngine(3)Rubin CPX的關鍵性能參數Rubin CPX作為NVIDIA首款專為海量上下文AI推理設計的CUDA GPU,其單晶片及其組成的Vera Rubin NVL144 CPX平台在算力、記憶體、功耗及成本效益上均實現了對現有架構的顛覆性突破。以下是其核心技術規格與上一代旗艦GB300 NVL72的量化對比分析:*註:由FinGPT Agent作表,原表請登錄AlphaEngine從經濟效益的角度來看,Rubin CPX相比上一代架構,將帶來以下幾點變化:性能與成本的極致最佳化:Rubin CPX通過採用單片式設計,成功規避了當前先進封裝領域面臨的CoWoS產能瓶頸,這不僅保障了其在2026年的規模化量產能力,更帶來了顯著的成本優勢。其生產成本僅為同期旗艦訓練晶片R200的25%,卻能實現其60%的計算能力。同時,選用成本較HBM低50%以上的GDDR7視訊記憶體,進一步強化了其在推理市場的經濟性。平台級性能的指數級躍升:Vera Rubin NVL144 CPX平台通過異構協同,將AI性能推向了前所未有的8 EFLOPS(NVFP4精度),相較於上一代GB300 NVL72系統實現了7.5倍的性能飛躍。特別是在大模型推理的關鍵瓶頸——注意力機制處理上,其速度提升了3倍,這意味著處理百萬token級長上下文的效率和可行性得到了根本性改善。卓越的投資回報:基於其顛覆性的性能和成本結構,Rubin CPX展現出極高的經濟效益。據測算,在規模化營運下,其投資回報率(ROI)可高達30至50倍。具體而言,每1億美元的資本投入,預計可產生高達50億美元的token服務收益,這為資料中心和雲服務商提供了極具吸引力的TCO(總擁有成本)模型,預示著其將快速滲透至長上下文推理市場。(4)Rubin CPX對AI全產業鏈的深遠影響Rubin CPX的推出對AI產業鏈帶來了全方位的技術革新,催生了大量投資機遇,這裡我從“資料中心與液冷”、“PCB及原材料”、“AI應用”這三個角度展開。1)資料中心與液冷:Rubin CPX正強力推動伺服器架構向高密度、模組化的分解式設計(Disaggregated Design)演進,重塑AI計算基礎設施。其核心體現於Vera Rubin NVL144 CPX平台,該平台在單機架內實現了144個 Rubin CPX、144個Rubin GPU和36個Vera CPU的超高密度整合,樹立了行業算力密度的新標竿。這種分解式架構通過硬體專用化,將推理流程中計算密集的上下文處理(Prefill)與記憶體頻寬密集的生成(Decoding)階段分離,分別由CPX和標準Rubin GPU高效執行,實現了計算資源的精準匹配與利用率最大化。與此同時,Rubin CPX單晶片高達800W的功耗對資料中心的散熱與電源系統構成了嚴峻挑戰,傳統風冷方案已無法滿足散熱需求,這使得先進液冷技術(如直接液體冷卻DLC)的規模化普及成為必然趨勢,以確保系統穩定運行並最佳化能源效率(PUE)。巨大的單機架功耗需求也倒逼電源管理系統向更高效率和更高功率密度演進。這不僅涉及伺服器內部的電源架構,也涵蓋了從機架配電單元(PDU)到整個資料中心供電鏈路的全面升級,以支援未來AI叢集的龐大能源消耗。2)PCB及上游原材料:Rubin CPX技術規格的躍升正驅動上游關鍵材料需求的確定性放量。為滿足PCIe Gen 6等高速訊號傳輸的完整性要求,M9等級的超低損耗覆銅板材料已成為剛性需求。產業鏈向上游追溯,為實現超低損耗目標,石英布、 HVLP(極低輪廓)銅箔等高端材料的應用將從利基市場走向規模化普及。此外,承載Rubin CPX晶片本身的PCB預計將採用HDI(高密度互連)技術,進一步提升了PCB的設計複雜度和製造門檻,並帶來純粹的增量市場。這一趨勢已在頭部廠商的資本支出計畫中得到印證。以臻鼎為代表的PCB龍頭廠商規劃在2025-2026年投入的資本支出中,高達50%將明確用於高 階AI伺服器PCB的產能擴張,為即將到來的材料需求激增提前佈局。3)下游AI應用Rubin CPX將對AI應用帶來深遠的影響。首先,超長上下文將成為“標配”。128 GB GDDR7 + 30 PFLOPS NVFP4 的專用算力,讓單卡即可一次性載入 >1 M token 的程式碼或 1 小時視訊,無需再靠分片、滑動窗口等“折中”方案,直接把“整庫級”程式碼理解、長視訊連貫生成推向實用。其次,推理成本驟降,催生新商業模式。與旗艦 GB300 NVL72 相比,同樣長上下文任務性能最高提升 6.5 倍,而硬體成本更低(GDDR7 替代昂貴 HBM)。根據輝達官方測算,1 億美元新裝置可帶來 50 億美元 token 收益,ROI 達 30–50 倍,為 SaaS 平台按“百萬 token 幾分錢”收費提供了利潤空間。再次,“整庫級”AI 應用將成為主流。比如在Coding領域,Cursor、Magic等已計畫把整倉程式碼塞進模型,實現跨檔案重構、庫級問答,程式設計助手從“補全”升級為“架構師”。在視訊領域,Runway 等可在單卡完成 60 min 1080p 視訊生成,無需分段,保證情節、角色一致性。在科研/法律/金融等領域,百萬級 token 的論文、判例、財報一次性載入,多步推理即可在分鐘級完成,長文深度問答、自動研報進入可商用階段。一輪新的AI技術革命,正在滾滾而來。 (Alpha Engineer)
輝達Rubin CPX 的產業鏈邏輯
今天幾乎是被輝達Rubin CPX的這個新聞刷屏了,但白天太忙,晚上回來才有時間好好看看SemiAnalysis的這篇報告。在文章後半段,我們會簡單分析Rubin CPX利多的兩個方向。AI 推理的兩難困境想明白Rubin CPX 的價值,得先知道AI 大模型推理時的一個關鍵矛盾:預填充(prefill)和解碼(decode)這兩個階段,對硬體的需求完全是反的。在我們之前的一次分析華為的Cloud Matrix 384中光模組用量的直播中,講到過Prefill和Decode的區別:在Prefill階段特別吃計算能力,但對記憶體頻寬的需求很低;而接下來的Decode,模型要基於第一個token 不斷生成後續內容,這時候就不怎麼需要計算了,反而得靠高記憶體頻寬快速調取之前的KV 快取資料。過去的問題是,大家都用同一種GPU(例如輝達的R200)來跑這兩個階段。結果在跑預填充時,R200 上那些昂貴的HBM 記憶體(高頻寬、高成本)根本用不上,頻寬利用率較低,相當於花大價錢買了個頂配跑車,結果只用來買菜;跑解碼時,又覺得計算能力過剩,記憶體頻寬不夠用。這種通用的硬方案,不僅浪費錢,還拖慢了整體效率。輝達顯然看透了這一點,於是Rubin CPX 來了, 一款專門為預填充階段量身定做的加速器,目標只有一個:把該省的錢省下來,該用的性能拉滿。Rubin CPX構型的精打細算先看核心參數,跟R200的差距不小,不僅HBM換成了GDDR7,視訊記憶體的容量、頻寬都顯著降低,還有個明顯的區別就是NVLink換成了PCIe Gen6,所以serdes的速率也從224G降到到了64G。(感謝星球中球友的提醒,上面這個圖中的某些參數是不對的,不知道大家有沒有看出來)雖然性能下降了很多,但性價比卻提到了--成本降低了更多。Rubin CPX 的BOM 成本(物料清單成本)只有R200 的25%,但能提供R200 60% 的運算能力。HBM 記憶體因為頻寬高,一直是高階GPU 的標配,但價格也貴得離譜,佔GPU BOM 成本的比例越來越高(從A100 的35% 漲到GB300 的51%)。而Rubin CPX 用的GDDR7,雖然頻寬不如HBM4,但成本直接砍了80%,還不用像R200 那樣搞複雜的CoWoS 封裝,這兩下一省,成本自然就下來了。更重要的是,它沒浪費性能。前面說過,預填充階段記憶體頻寬利用率極低,而Rubin CPX 因為頻寬剛好夠用,利用率反而提高了很多。同樣跑一個預填充任務,R200 每小時要浪費0.9 美元的TCO(總擁有成本),而Rubin CPX 只浪費0.16 美元—— 長期下來,對資料中心來說就是一筆巨款。Oberon 機架光有好晶片還不夠,輝達這次連機架都一起升級了—— 推出第三代Oberon 架構機架(叫Vera Rubin 系列),包含三種型號:VR200 NVL144、VR200 NVL144 CPX、Vera Rubin CPX 雙機架。這次的機架解決了前兩代(GB200/GB300)的幾大痛點。1. 無電纜設計之前的GB200 機架用的是電纜+ PCB的連接方式,飛線又多又亂,裝配時容易壞,還佔空間,導致每個計算托盤裡塞不下太多晶片。這次Rubin 系列直接搞了無電纜設計:用Amphenol 的板對板連接器,配合中間的PCB 中板,所有訊號都走電路板,沒有一條飛線。好處很明顯:一是故障點少了,可靠性提升;二是空間省出來了。例如VR200 NVL144 CPX 機架,每個計算托盤裡能塞4 個R200 GPU + 8 個Rubin CPX + 2 個Vera CPU,整個機架算下來有396 個計算和網路晶片,密度比前兩代高了一大截。2. 全液冷方案AI 晶片越密集,散熱就越頭痛。前兩代機架是85% 液冷+ 15% 風冷,對付低功率還行,但這次VR200 NVL144 CPX 機架的功率預算直接衝到了370kW(相當於200 多台家用空調的功率),風冷根本扛不住。於是輝達乾脆上了100% 全液冷,還搞了個三明治設計:把Rubin CPX 和CX-9 網路卡的PCB 板疊在一起,中間夾一個共享的液冷冷板,兩邊的熱量都能快速導走。這樣一來,即使每個計算托盤裡的晶片總功率到7040W,也能穩穩壓住,不會因為過熱降頻。3. 靈活擴展如果已經買了之前的VR200 NVL144 機架,不想全換怎麼辦?輝達給了Vera Rubin CPX 雙機架方案—— 你可以單獨加一個VR CPX 機架(裡面全是Rubin CPX),通過InfiniBand 或乙太網路連到原有叢集裡,不用非得挨著放。這樣就能依照自己的業務需求,靈活調整預填和解碼的比例,例如業務裡預填充任務多,就多加點CPX 機架,非常方便。產業震動輝達這波操作,最慌的應該是AMD、Google、AWS 這些競爭對手。 SemiAnalysis的報告中的說法是:輝達和對手的差距,已經從鴻溝變成峽谷了。先看AMD,之前AMD 剛發佈MI400 機架,號稱記憶體頻寬19.8TB/s,能和輝達掰掰手腕,結果輝達反手就把R200 的記憶體頻寬提到20.5TB/s,還出了Rubin CPX。現在AMD 不僅要繼續最佳化MI400 的軟體棧,還得緊急加錢開發自己的預填充專用晶片,可能之前的規劃的Roadmap都要打亂了。再來看Google和AWS。 Google的TPU 雖然有3D Torus 網路的優勢(最大能搞9216 個TPU 的大叢集),但現在也得趕緊開發預填充專用晶片,不然內部用起來成本太高;AWS 的Trainium3 機架,原本想用自己的EFA 網路卡,結果發現VR200 NVL1444X 機架,根本沒有用地方交換機連起來,麻煩又費錢。最慘的是那些做定製ASIC 晶片的公司,本來就比輝達慢一步,現在輝達又在硬體專用化上開了頭,這些公司要麼跟著做預填充、解碼專用晶片,要麼就只能在成本上被輝達壓著打未來報告裡還提到了兩個未來的可能性,蠻有趣:1. 解碼專用晶片既然預填充能做專用晶片,解碼為什麼不行? SA推測,輝達可能會搞一款解碼專用晶片—— 跟Rubin CPX 反過來,少點計算能力,多堆記憶體頻寬。例如把R200 的計算晶片縮小,保留HBM 介面和I/O 晶片,這樣成本能再降一波,而且能效會更高。2. GDDR7 的春天Rubin CPX 用了GDDR7,加上之前RTX Pro 6000 也用,GDDR7 的需求會暴漲。 SA認為,三星因為產能充足,已經拿到了輝達的大訂單,而SK 海力士和美光因為忙著生產HBM,沒太多產能做GDDR7,所以接下來三星在GDDR7 市場可能會賺一波。產業鏈的邏輯VR NVL144 CPX Compute Tray長下面這個樣子:以下是輝達官方圖中標出的重要組成::PCB首先就是多出來一些CPX的板卡,當然PCB的用量也會上去。而且從上面SemiAnalysis的圖中也可以看出,在VR200中,將採用透過midplane實現內部「無電纜設計」。在GB200中,CX7 直接放置在Bianca 板之上,並用線纜連接BlueField 與OSFP cages,而VR200 用midplane取代tray內部線纜,以連接Bianca board、CX9 與BlueField。對VR200 來說,根據目前業內給的資料,僅供參考。預計每個NVL144 需要18 個midplane(每個compute tray一個),很有可能midplane將用44層PTH PCB,採用台光的896K3 M9 CCL,Switch則採用896K2(low-DK 2+HVLP 4)。預計輝達每GPU 的PCB 價值量將從GB200 的約400 美元提升至VR200 的約900 美元,。液冷我們上面也提到液冷的方案,現在還沒法測算具體的價值量。但可以明確的是,每增加一顆CPX晶片,都需要配一塊冷板,同時還會拉動轉接器的需求,而且隨著機櫃功率的提升,CDU和管路的需求也同步增加。 (梓豪談芯)
感謝您的好文章!!!
算力怪獸!NVIDIA Rubin CPX及液冷伺服器發佈!
9月10日輝達又放AI計算大招,推出專為長上下文推理和視頻生成應用設計的新型專用GPU——NVIDIA Rubin CPX。Rubin CPX基於NVIDIA Rubin架構建構,採用經濟高效的單晶片設計,配備128GB GDDR7記憶體,採用NVFP4精度,並經過最佳化,算力可達30PFLOPS,能夠為AI推理任務,尤其是長上下文處理(超過100萬個token)和視訊生成,提供了遠超現有系統的性能和token收益。與輝達GB300 NVL72系統相比,這款專用GPU還提供了3倍更快的注意力機制,從而提升了AI模型處理更長上下文序列的能力,而且速度不會降低。Rubin CPX與全新NVIDIA Vera Rubin NVL144 CPX平台中的輝達Vera CPU和Rubin GPU協同工作,進行生成階段處理,形成一個完整的高性能分解式服務解決方案。Vera Rubin NVL144 CPX平台可在單機架整合144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速記憶體,記憶體頻寬達到1.7PB/s。其AI性能是輝達Vera Rubin NVL144平台的2倍多,是基於Blackwell Ultra的GB300 NVL72機架式系統的7.5倍。從液冷視角來看,NVL144CPX平台整合的Rubin晶片數量更多,單伺服器整合8塊Rubin晶片,對冷板和UQD的需求將會成倍增長,同時對於高功率的CDU需求也會上升。輝達首席財務官科萊特·克雷斯 (Collette Cress) 表示,公司代號為 Rubin 的下一代資料中心級 GPU 和代號為 Vera 的 CPU 已完成流片並進入“晶圓廠”生產階段,這意味著它們的晶片目前由台積電 (TSMC) 生產。該公告表明,輝達面向 AI 的下一代資料中心平台有望於 2026 年推出。科萊特·克雷斯 (Collette Kress) 在公司與財務分析師和投資者的財報電話會議上表示:“Rubin 平台的晶片已投入生產。Vera CPU、Rubin GPU、CX9 Super NIC、NVLink 144 縱向擴展交換機、Spectrum X 橫向擴展和橫向擴展交換機,以及(用於共封裝光學器件的)矽光子處理器。Rubin 平台仍按計畫於明年實現量產。”該晶圓廠擁有 Rubin NVL144 機架規模平台的所有晶片,表明它們已經通過了重要的流片階段,Nvidia 目前正在實驗室中等待它們,以驗證它們是否符合其性能、功耗、成本和其他目標。 (零氪1+1)