#Rubin
Rubin曝光!2000萬張GPU出貨!輝達鏈液冷將迎來爆發需求
01.輝達:預計18個月出貨2000萬高端GPU,液冷二次側有望迎來2000億需求昨天,輝達GTC大會,黃仁勳再次對AI的市場趨勢做了詳細分析,同時也發佈了輝達的系列產品,包括未來的架構和量子計算,站在全場C位的,還是首次亮相下一代Vera Rubin的。這是輝達第三代NVLink 72機架級超級電腦,徹底實現了無線纜連接。目前,Vera Rubin超級晶片已在實驗室完成測試,預計明年10月可以投產。輝達CEO黃仁勳在GTC大會上預計,未來六個季度業務規模將達5000億美元,將出貨2000萬塊Blackwell和Rubin圖形處理器(GPU)。黃仁勳還表示,Blackwell在亞利桑那州“全面投入生產”。本次GTC大會,輝達也首次曝光了其Rubin伺服器和交換機的液冷架構,雖然沒有很清楚的爆炸圖,但是從現場圖看,其液冷架構設計的更加複雜,更加緊湊,液冷覆蓋佔比100%,光模組,SSD部分也做了銅冷板覆蓋,採用的不鏽鋼波紋管數量也愈加上升。從液冷市場規模來看來看,未來18個月輝達將會出貨2000萬塊Blackwell和Rubin GPU,按照NV72架構來算,預計將會出貨278000個整機櫃,按照機櫃10萬美金的液冷價值佔比(Rubin架構可能佔比更高),預計未來18個月,輝達生態二次液冷需求將達到保守估計278億美金需求,也就是2000億人民幣,體量規模巨大,對液冷市場是強利多!Rubin整機櫃架構,結構也變得更加複雜,特別是電源部分有重大更新,Power rack將成為一個大趨勢。02.市場預期良好,算力基礎設施廠商受益台北時間10月29日晚間,輝達股價高開高走,盤中漲幅一度突破5%,成為首家市值突破5兆美元的上市公司。同時昨天多家A股上市公司已在全球算力產業鏈上充分佈局,或將受益於AI算力競賽加劇以及全球AI基礎設施的持續擴容。10月29日晚,工業富聯披露2025年第三季度報告。雲端運算業務方面,前三季度,公司雲端運算業務營業收入較上年同期增長超過65%,第三季度單季同比增長超過75%,主要受益於超大規模資料中心用AI機櫃產品的規模交付及AI算力需求的持續旺盛。特別是雲服務商業務表現亮眼,前三季度營業收入佔比達雲端運算業務的70%,同比增長超過150%,第三季度單季同比增長逾2.1倍。其中,雲服務商GPU AI伺服器前三季度營業收入同比增長超過300%,第三季度單季環比增長逾90%、同比增長逾5倍。通用伺服器出貨亦保持穩健,整體雲端運算業務營收結構持續最佳化。工業富聯相關負責人此前在投資者調研中表示,公司對下半年AI伺服器業務持樂觀態度,除GB200持續放量外,GB300亦將逐步進入實質出貨階段。GB300在明年有望成為公司AI伺服器業務盈利的重要支撐點。交換機方面,公司預期800G產品會是2025-2026年的出貨主力,有望成為交換機業務的核心增長引擎。同時,公司與多家客戶協同開發的CPO(共封裝光學)新一代ASIC及1.6T交換機也在推進當中,後續將逐步推向市場。光通訊與高速連接方面,中際旭創可為雲資料中心客戶提供400G、800G和1.6T等高速光模組,為電信裝置商客戶提供5G前傳、中傳和回傳光模組以及應用於骨幹網和核心網傳輸光模組等高端整體解決方案。10月26日,公司在互動易平台上表示,其1.6T產品正在持續起量。新易盛亦致力於高性能光模組的研發、生產和銷售,產品服務於人工智慧叢集(AI Cluster)、雲資料中心、資料通訊、5G無線網路、電信傳輸、固網接入等領域的國內外客戶。目前,新易盛已經完成了滿足IEEE標準要求的全系列1.6T產品的開發,支援CMIS5.0及以上版本,可滿足不同客戶的應用需求,並啟動預研下一代3.2T產品。在PCB/載板方面,勝宏科技的主要產品覆蓋剛性電路板(多層板和HDI為核心)、柔性電路板(單雙面板、多層板、剛撓結合板)全系列,廣泛應用於人工智慧、新一代通訊技術、巨量資料中心等領域。公司半年報顯示,勝宏科技已成為國內外眾多頭部科技企業的核心合作夥伴,具備100層以上高多層板製造能力,是全球首批實現6階24層HDI產品大規模生產,及8階28層HDI與16層任意互聯(Any-layer)HDI技術能力的企業,同時加速佈局下一代產品,支援最前沿人工智慧產品及自動駕駛平台。散熱與電源方面,英維克已推出全鏈條液冷解決方案,從冷板、快速接頭、Manifold、CDU、機櫃,到SoluKing長效液冷工質、管路、冷源等“端到端”的產品覆蓋,從伺服器製造工廠,到資料中心運行現場的“廠到場”交付場景覆蓋。近年來,英維克已為字節跳動、騰訊、阿里巴巴、秦淮資料、萬國資料、資料港、中國移動、中國電信等使用者的大型資料中心提供了大量製冷產品及系統。麥格米特則具備高功率高效率網路電源技術及產品研發與供應能力,可支援通訊、交換機、通用伺服器、AI伺服器等多項場景應用。近年來,公司網路電源業務始終與國際頭部客戶保持緊密合作關係,持續獲得了愛立信(Ericsson)、思科(Cisco)、瞻博網路(Juniper)、阿里斯塔(Arista)、智邦科技(Accton)等頭部國際客戶的多項項目需求與訂單。(零氪1+1)
【GTC】輝達曝超級 AI 晶片 Vera Rubin,黃仁勳要創造 AI 的「登月時刻」
超級晶片、超級投資、超級機會。和 OpenAI 宣佈重組的同一天,輝達創始人黃仁勳,將公司的 GTC 大會,搬到了華盛頓舉行。在台北時間凌晨舉辦的輝達 GTC 大會上,黃仁勳用一系列人類歷史創新的剪影開場,並把輝達與 AI 創新直接拔高定調為「下一個阿波羅時刻」。除了展示下一代超級晶片 Vera Rubin,黃仁勳還大談 6G、量子計算,機器人和自動駕駛,同時宣佈要投資新的巨頭,舞台大屏上輝達的「合作」對象名單可以說是密密麻麻。前不久,輝達曾對外宣佈向曾經的競爭對手英特爾投資 50 億美元,一度讓英特爾股價飆漲,同月又表示將向 OpenAI 投資 1000 億美元,AI 圈的循環資本運作一度被人戲稱是「左腳踩右腳上天」的遊戲。儘管已經引起熱議,並被市場提及風險,但這沒有停下輝達撒錢的動作。在 2025 GTC 大會上,黃仁勳又宣佈要投資 10 億美元,這次的對像是諾基亞,當天諾基亞股價於是應聲飆漲超 20%。除了與諾基亞合作,輝達還宣佈將與甲骨文打造 AI 超級電腦,與富士康合作在德克薩斯州建立生產 GPU 的自主機器人工廠,並計畫與 Uber 合作開發自動駕駛機器人計程車等等。輝達的觸角,可以說已經全方位伸向了全球各行各業的龍頭。而隨著美國股市新一輪上漲,輝達公司的估值,向著 5 兆美元又挺進了一步。01. Vera Rubin 超級晶片首先,在 GTC 大會上,黃仁勳首次公開展示了下一代「Vera Rubin 超級晶片(Superchip)」。它搭載了一顆代號「Vera」的 CPU 和兩顆體積龐大的「Rubin」GPU,每顆 GPU 均採用最新的 HBM4 高頻寬記憶體,配合 32 個 LPDDR 記憶體插槽。據悉,輝達實驗室已經收到首批由台積電代工生產的 Rubin GPU 樣品,並計畫在明年同一時間或更早實現量產。黃仁勳 GTC 大會台上展示下一代 Vera Rubin 超級晶片|圖片來源:輝達Rubin GPU 被視為輝達自 Blackwell 架構之後的又一次躍遷。每顆晶片的浮點計算性能可達 50 PFLOPs(FP4),搭配 288 GB 的 HBM4 視訊記憶體,幾乎是現有 GB300 Superchip 性能的數倍。與此同時,Vera CPU 採用定製 Arm 架構,擁有 88 個核心、176 執行緒,並通過 NVLINK-C2C 介面與 GPU 連接,頻寬高達 1.8 TB/s。這樣的架構組合,使得「Superchip」不再是傳統 CPU+GPU 的鬆散拼裝,而成為真正意義上融合式計算引擎。該系統平台被命名為 Vera Rubin NVL144,顧名思義,它包含 144 個互聯單元。其整體推理性能可達到 3.6 Exaflops(FP4),訓練性能則達到 1.2 Exaflops(FP8),相較 GB300 NVL72 實現了 3.3 倍的性能提升。平台支援 13 TB/s 的 HBM4 記憶體頻寬,擁有 75 TB 的高速記憶體池,NVLINK 與 CX9 互聯的總頻寬分別提升到 260 TB/s 與 28.8 TB/s。這還僅僅是開始。黃仁勳提到,Rubin 架構的第二階段——Rubin Ultra NVL576 平台,計畫在 2027 年推出。這一代產品會在現有基礎上再度擴展,系統規模從 144 提升至 576,GPU 從兩顆擴展到四顆,每顆 GPU 同樣為 Reticle 等級的巨型晶片。輝達晶片與平台路線圖,2016 至 2028 年節奏|圖片來源:輝達Rubin 系列的推出,標誌著輝達從 Blackwell 架構的過渡。Blackwell Ultra(GB300)仍在高速出貨中,輝達的策略顯然是讓兩代產品形成梯隊,GB300 繼續支撐當下的雲端運算和訓練負載,而 Rubin 則預備承接 2026 年之後的需求。值得注意的是,Rubin 的技術走向也反映出輝達在硬體設計理念上的轉折。過去十年,輝達不斷強化 GPU 的平行計算能力,而現在,它開始更系統化地整合 CPU 與 GPU,將其統一在一個超高速互聯體系之下。另外,Rubin 的命名方面,Vera Rubin 是 20 世紀最具影響力的天文學家之一,她的研究揭示了暗物質的存在——一個看不見卻主宰宇宙結構的力量。02. 與諾基亞合作 6G AI 平台輝達每次發佈會,總有公司會受影響,股價隨之波動。此次受影響最大的幸運兒,非「諾基亞」莫屬。輝達宣佈將以每股 6.01 美元的認購價向諾基亞投資 10 億美元。兩家合作的核心,是黃仁勳宣佈的「NVIDIA Arc Aerial RAN Computer(ARC)」,一款支援 6G 的電信計算平台,結合了連接、計算和感測功能。諾基亞據稱將在輝達的平台上推出 AI 原生的 6G 網路,推出新一代 AI-RAN 產品線。按照輝達的說法,這次合作將標誌著「AI 原生無線時代的開始」。輝達宣佈與諾基亞合作|圖片來源:輝達簡單來說,以前,基站只是訊號的中轉站,現在,它有可能會成為 AI 的邊緣推理節點。AI 不僅「最佳化通訊」,甚至直接「跑在通訊網路」上。ARC 更大的願景是,讓未來的每個基站,不僅能根據天氣、訊號干擾、使用者密度智能調度發射功率,還能部署「AI 服務」,如工業自動化控制、遠端協作、低延遲雲遊戲等。真如此,通訊基礎設施可能迎來巨變。過去十年,美國在 5G 領域的佈局顯得步履遲緩,從標準制定到產業鏈落地,全球主導權早已旁落。根據雙方披露的計畫,輝達將投資 10 億美元入股諾基亞,用於加速 AI-RAN 的全球部署。與此同時,還有其他巨頭的參與,比如戴爾科技將提供 PowerEdge 伺服器。美國的電信巨頭 T-Mobile 則將成為首個進行現場測試的營運商,計畫在 2026 年啟動 6G 實地驗證。「電信行業擁有人工智慧最寶貴的資源——邊緣計算,也就是資料產生的地方。」戴爾 CEO 稱,「現在,我們正在運用這些專業知識,將智能分佈到數百萬個邊緣節點。如今,那些對基礎設施進行現代化改造的營運商將不僅僅是承載人工智慧流量,他們還將是分佈式人工智慧網格工廠,在源頭進行處理,延遲和資料主權至關重要。」根據市場分析機構 Omdia 的預測,到 2030 年,AI-RAN 市場累計規模將超過 2000 億美元。這是通訊產業最重要的技術躍遷之一,而諾基亞與輝達的聯合,也正是押注在這一趨勢之上。目前全球移動 AI 流量增長迅猛,例如,ChatGPT 每周 8 億活躍使用者中,近一半來自移動端,AI 的需求已經從雲端延伸到終端。輝達官方稱,與諾基亞的合作,可讓消費者在其裝置上使用生成式、agentic 和 physical AI 應用時能夠享受流暢的網路體驗。它還將支援未來的原生人工智慧裝置,例如無人機、增強現實和虛擬現實眼鏡,並為整合感知與通訊等 6G 應用做好準備。「基於輝達 CUDA 和 AI 的 AI-RAN 將徹底改變電信行業——這是一次跨時代的平台變革。」黃仁勳稱。03. 連接量子與 GPU 計算如果說 CUDA 是 GPU 計算的起點,那麼 NVQLink 與 CUDA-Q 的結合,則意味著量子計算正式被納入輝達的軟體生態體系。在 GTC 大會上,黃仁勳宣佈推出 NVQLink,一種量子 GPU 互連技術,用於將 GPU 與量子處理器緊密結合,以建構加速量子超級電腦,主要用於大規模量子計算和量子糾錯。黃仁勳稱:「它不僅僅是為當今少量量子位元進行糾錯,它還為未來進行糾錯——那時我們將把量子電腦從現在的幾百個量子位元擴展到幾萬個,甚至未來的幾十萬個量子位元。」輝達推出 NVQLink|圖片來源:輝達據他透露,已有 17 家量子處理器製造商、5 家量子控制系統廠商和 9 家國家實驗室支援 NVQLink,「業界的支援令人難以置信」。參與者包括 Alice & Bob、IonQ、Rigetti、Pasqal、QuEra 等多家前沿量子公司,以及控制系統廠商 Keysight、Zurich Instruments、Quantum Machines 等。「在不久的將來,輝達的每台 GPU 科學超級電腦都將是混合型的,並與量子處理器緊密結合,以擴展計算的可能性。」黃仁勳稱,「NVQLink 就像連接量子和傳統超級電腦的羅塞塔石碑,將它們整合成一個統一、連貫的系統,標誌著量子 GPU 計算時代的到來。」04. Physical AI 進展在近兩年的 GTC 大會上,黃仁勳幾乎每次都會在演講最後提 Physical AI、Omniverse 數字孿生和機器人,這次也不例外。據輝達稱,西門子是首家開發支援輝達「超級 Omniverse 藍圖」的數字孿生軟體的公司,目前正在測試階段。新技術堆疊將整合至西門子的 Xcelerator 平台,支援將真實 3D 模型與即時運算元據結合,進行大規模工廠數字孿生的設計與營運。發那科和富士康工業富聯是首批支援基於 OpenUSD 建構其機器人數字孿生模型的製造商。黃仁勳在 GTC 大會上展示了富士康在德州休斯頓新建的 24 萬平方英呎工廠,據稱在現實動工之前,整座工廠的產線、機器人與物流在真實物理與即時資料中被反覆推演,先在虛擬世界把良率與節拍調優,再在現實中落成。另外,卡特彼勒、豐田、台積電等也在用 Omniverse 數字孿生做預測性維護、動態排產、智能調度。例如,台積電用 Omniverse 加速亞利桑那州鳳凰城晶圓廠的設計與建設。黃仁勳認為,AI 正在將全球工廠轉變為「智能思考機器」,這是新一輪工業革命的引擎。他稱:「這些工廠本質上就是一個機器人,它指揮其他機器人製造機器人產品。要實現這一點,所需的軟體量非常龐大,除非能在數字孿生環境中完成,否則幾乎不可能成功。」用輝達平台建構數字孿生的公司|圖片來源:輝達黃仁勳還提到了一些機器人公司。如機器人明星公司 Figure AI 與輝達合作,訓練了其 Helix 視覺語言動作模型。Agility Robotics 的通用人形機器人 Digit,也借輝達的 Isaac Lab 框架進行強化學習訓練,最佳化步態控制、抗擾恢復等技能。此外還有亞馬遜的機器人,比如其最近發佈的用於拾取、裝載和整合的 BlueJay 多臂機械手也用了 Omniverse 的庫和框架,據稱從概唸到量產只花了一年多時間。Skild AI 則在建構一個通用機器人基礎模型,讓輪式、四足、人形機器人共用一套智能體系,該公司用 Isaac Lab 進行運動和靈巧操作任務訓練,並使用輝達的 Cosmos 世界基礎模型生成訓練資料集。FieldAI 在建築、油氣領域訓練跨形態機器人大腦,也在用 Isaac Lab 強化學習與 Isaac Sim 進行合成資料生成與軟體閉環驗證。黃仁勳還提到了迪士尼,稱該公司正在使用輝達的 Omniverse 訓練「有史以來最可愛的機器人」。黃仁勳站在一堆機器人中間|圖片來源:輝達05. 「輝達宇宙」在本次 GTC 上,黃仁勳還提出一個概念:AI 不是工具,AI 就是勞動力。在他看來,以往的軟體是「人用工具」,而 AI 是「會用工具的數字勞動力」。它不僅能理解、響應、學習,還能配合 IDE、瀏覽器、搜尋引擎、資料庫,完成實際任務。因此,輝達開始深入 SaaS 與企業軟體體系,宣佈和 Palantir、CrowdStrike、SAP、Synopsys 等公司合作,將其 AI 工具鏈嵌入到一些行業龍頭企業系統中。比如,Palantir 的 Ontology 將整合 NVIDIA GPU 加速進行即時資料處理;CrowdStrike 的安全系統,將部署邊緣 AI 模組,實現「秒速響應」;Synopsys 和 Cadence,將利用 NVIDIA 提供的 AI Agent 輔助晶片設計,實現「AI 設計 AI」的循環最佳化。在醫療領域,跨國製藥公司禮來正在打造藥物研發 AI 工廠,據稱有 1000 個輝達 Blackwell Ultra GPU。在汽車側,輝達還宣佈與 Uber 達成戰略合作,要擴展全球最大的 L4 自動駕駛出行網路。Uber 計畫自 2027 年起正式啟動規模化部署,首批目標是 10 萬輛車輝達為此推出了 DRIVE AGX Hyperion 10,號稱「可讓任何車輛達到 L4-ready 階段」,核心是兩套高性能的 DRIVE AGX Thor 車載平台,基於 輝達 Blackwell 架構。輝達與 Uber 合作|圖片來源:輝達在輝達的佈局中,Uber 只是龐大生態的一環。Stellantis、Lucid、梅賽德斯奔馳等車企將基於 Hyperion 10 平台打造各自的 L4 級車輛。另外,在卡車領域,Aurora、沃爾沃、Waabi 正在用輝達平台開發 L4 級自動駕駛卡車。而在更廣泛的 L4 生態中,據稱 Avride、Momenta、Nuro、Pony.ai、Wayve、WeRide 等公司也都在用輝達的 DRIVE 平台進行演算法開發。這是一個跨越乘用車、商用車、Robotaxi 乃至機器人領域的巨大生態網路,而輝達的野心是成為這個網路的中樞。「全世界大約有 5000 萬輛計程車。未來,大量的無人駕駛計程車將加入到計程車隊伍中。」黃仁勳稱:「我們正與 Uber 合作,為整個行業建立一個框架,基於英偉 AI 基礎設施大規模部署自動駕駛車隊。曾經的科幻小說正在迅速成為現實。」黃仁勳在 2025GTC 大會上|圖片來源:輝達可以說,這屆 GTC,黃仁勳的重心已經不是吹單卡跑分,而是國家戰略、各種 AI 工廠、產業。輝達從算力到場景的全鏈路施工圖,越來越具體,結盟的各種行業龍頭,也比以往任何時候都多。作為全球最大的 AI 算力供應商,輝達甚至比自己的客戶——雲端運算和 AI 大模型公司——更希望 AI 能進一步進入真實世界。而要達成這樣一個「輝達宇宙」,「皮衣主教」需要更多的夥伴,非常非常多的夥伴,就像這屆華盛頓 GTC 大會上這樣。 (極客公園)
【GTC】一文看清輝達GTC黃仁勳演講要點:2000萬塊Blackwell銷售預期,Rubin首秀,推出NVQLink,6G等重磅合作
Vera Rubin晶片已完成實驗室測試,預計明年此時或更早量產;預計出貨2000萬塊Blackwell晶片,Blackwell和Rubin晶片合計銷售額5000億美元;輝達將與諾基亞推出Aerial RAN Computer助力6G網路轉型;輝達NVQLink技術連接量子計算與GPU系統,已獲17家量子處理器製造商支援;輝達聯手甲骨文打造配備10萬塊Blackwell GPU的美能源部最大AI超算;輝達支援AI工廠作業系統的處理器BlueField-4預計明年推出早期版本,作為Vera Rubin的部分;輝達與CrowdStrike、Palantir、禮來分別合作;輝達自動駕駛開發平台DRIVE AGX Hyperion 10助Uber2027年起部署Robotaxi車隊,首批提供這些車的製造商包括Stellantis。美東時間28日周二,輝達CEO黃仁勳在華盛頓舉行的今年第二次GTC大會上發表主體演講,重點涵蓋6G、AI、量子計算和機器人領域的技術突破。黃仁勳在演講中強調,隨著摩爾定律失效,加速計算和GPU技術成為推動技術進步的核心動力。在AI與6G技術結合方面,輝達宣佈與諾基亞達成戰略合作,將投資10億美元認購諾基亞股份,共同推進AI原生6G網路平台。超算方面,輝達推出融合AI超算和量子計算的NVQLink技術,連接量子處理器與GPU超級電腦,已獲得17家量子計算公司支援。輝達還宣佈,與美國能源部合作建造該部門最大的AI超算。AI工廠方面,輝達將推出支援AI工廠操作的處理器Bluefield-4。此外,輝達給自動駕駛計程車服務Robotaxi的熱潮又添一把火,宣佈與共享用車鼻祖Uber以及克萊斯勒母公司Stellantis合作。Uber計畫從2027年起部署10萬輛基於輝達技術的Robotaxi服務汽車。輝達還與AI明星Palantir以及醫藥巨頭禮來分別達成合作,將其GPU計算能力與企業資料平台和製藥研發深度整合,旨在推動AI從概念走向實際應用。這兩項合作分別針對企業營運智能和藥物研發,標誌著AI技術在複雜行業場景中的商業化處理程序加速。黃仁勳表示:“AI是我們這個時代最強大的技術,而科學是其最偉大的前沿。” 周二官宣的合作標誌著,輝達從晶片製造商向全端AI基礎設施供應商的戰略轉型。黃仁勳在現場首次展示了輝達下一代Vera Rubin超級GPU的實物。黃仁勳表示,Rubin GPU已完成實驗室測試,首批樣品已從台積電送回實驗室,預計明年此時或更早量產。Vera Rubin是採用無纜連接設計的第三代NVLink 72機架級超算。單機架算力達100 Petaflops,是初代DGX-1性能的100倍,意味著過去需要25個機架完成的工作,現在一個Vera Rubin即可實現。黃仁勳在演講中明確反駁了AI泡沫說,稱:“我不認為我們處於AI泡沫之中。我們正在使用所有這些不同的AI模型——我們在使用大量服務,並樂於為此付費。” 他的核心論點是,AI模型現在已經足夠強大,客戶願意為其付費,這反過來將證明昂貴的計算基礎設施建設是合理的。01 Rubin計算架構實現無纜全液冷NVL144平台性能較GB300提升3.8倍Vera Rubin計算托盤的推理性能可達440 Petaflops。輝達透露,其底部配備了8個Rubin CPX GPU、BlueField-4資料處理器、兩顆Vera CPU以及4個Rubin封裝,總共8個GPU全部實現了無纜連接和全液冷設計。Rubin GPU採用兩個Reticle尺寸晶片,FP4性能最高可達50 Petaflops,配備288GB下一代HBM4記憶體。Vera CPU則採用定製化Arm架構,擁有88個核心、176個執行緒,NVLINK-C2C互連速度最高可達1.8 TB/s。系統配備的NVLink交換機可讓所有GPU同步傳輸資料,乙太網路交換機Spectrum-X確保處理器同時通訊而不擁堵。結合Quantum交換機,整個系統完全相容InfiniBand、Quantum和Spectrum Ethernet。輝達Vera Rubin NVL144平台的FP4推理性能達到3.6 Exaflops,FP8訓練能力為1.2 Exaflops,較GB300 NVL72提升3.3倍。HBM4記憶體速度達到13 TB/s,快速記憶體容量為75TB,較GB300提升60%。NVLINK和CX9能力分別提升至2倍,速率最高可達260 TB/s和28.8 TB/s。每個Rubin GPU採用8個HBM4記憶體站點和兩個Reticle尺寸的GPU裸片設計。主機板總共配備32個LPDDR系統記憶體站點,與Rubin GPU上的HBM4記憶體協同工作,每個晶片周圍佈置了大量電源電路。第二代平台Rubin Ultra將於2027年下半年發佈,NVL系統規模從144擴展至576。Rubin Ultra GPU採用四個Reticle尺寸晶片,FP4性能最高可達100 Petaflops,HBM4e總容量達到1TB,分佈在16個HBM站點。Rubin Ultra NVL576平台的FP4推理性能將達到15 Exaflops,FP8訓練能力為5 Exaflops,較GB300 NVL72提升14倍。HBM4記憶體速度達到4.6 PB/s,快速記憶體容量為365TB,較GB300提升8倍。NVLINK和CX9能力分別提升12倍和8倍,速率最高可達1.5 PB/s和115.2 TB/s。該平台的CPU架構與Vera Rubin保持一致,繼續採用88核心Vera CPU配置。02晶片出貨量激增產能擴張迅猛黃仁勳透露,輝達目前最快的AI晶片Blackwell GPU已在亞利桑那州實現全面生產。這意味著,之前僅在台灣生產的Blackwell晶片首次可以在美國製造。黃仁勳披露了輝達晶片出貨的驚人資料。他表示,輝達預計將出貨2000萬塊Blackwell晶片。相比之下,上一代產品Hopper架構晶片在整個生命周期內僅出貨了400萬塊。黃仁勳還表示,過去四個季度已出貨600萬塊Blackwell GPU,需求依然強勁。輝達預計,Blackwell和明年推出的Rubin晶片將合計帶來五個季度5000億美元的GPU銷售額。本月早些時候,輝達和台積電宣佈首批Blackwell晶圓已在亞利桑那州鳳凰城的工廠生產。輝達在一段視訊中表示,基於Blackwell的系統現在也將在美國組裝。03輝達聯手諾基亞佈局6G網路黃仁勳介紹,輝達將與諾基亞攜手推出Aerial RAN Computer(ARC),助力6G網路轉型。輝達與諾基亞將為6G通訊技術開拓AI平台。6G 與 AI 如何融合?除了AI學習和提升6G頻譜效率之外,我們還將看到AI加持的無線接入網路(RAN)產品、即“AI on RAN”。這意味著,在目前的網際網路狀態下,很多資料都在亞馬遜雲服務平台AWS上運行,但輝達要在6G連接之上建構一個雲端運算平台。這展現了超高速 AI 的潛力,它可以為自動駕駛汽車等技術提供動力。輝達和諾基亞周二宣佈建立戰略合作夥伴關係,將輝達驅動的商用級AI-RAN產品加入到諾基亞的RAN產品組合中,使通訊服務提供商能夠在輝達平台推出AI 原生的5G-Advanced 和6G網路。輝達將推出面向6G網路的Aerial RAN Computer Pro計算平台,諾基亞將在此基礎上擴展其RAN產品組合,推出新的AI-RAN產品。輝達還將以每股6.01美元的認購價,對諾基亞進行10億美元的股權投資。分析機構Omdia預測,到2030年,AI-RAN市場規模預計將累計超過2000億美元。輝達和諾基亞的合作將提供分佈式邊緣AI推理能力,為電信營運商開闢新的高增長領域。T-Mobile美國公司將同諾基亞和輝達合作,推動AI-RAN技術的測試和開發,將技術整合到其6G開發流程中。試驗預計於2026年開始,重點驗證客戶的性能和效率提升。該技術將支援自動駕駛汽車、無人機、增強現實和虛擬現實眼鏡等AI原生裝置。04NVQLink連接量子計算與GPU系統目前,各種量子計算技術雖然性能強大,但對環境噪聲敏感,應用範圍有限。基於GPU的超級電腦正是因此有用武之地,它可以減輕量子處理器的負擔。黃仁勳周二提到,輝達基於旗下開源量子開發平台CUDA-Q核心建構了開源系統架構NVQLink。黃仁勳表示,他預計,除了新技術之外,量子計算還需要傳統處理器的支援,輝達將幫助實現這一目標。“我們現在意識到,將量子電腦直接連接到 GPU 超級電腦至關重要。這就是計算的未來量子化。”NVQLink是將量子處理器與GPU和CPU連接起來的新型高速互連技術。它並非要取代量子電腦,而是要和後者共同加快量子計算的速度。黃仁勳說,NVQLink技術將有助於糾錯,同時校準那些AI 演算法應該在GPU和量子處理器上使用。他透露,已有17家量子計算公司承諾將支援NVQLink。“業界的支援令人難以置信。量子計算不會取代傳統系統,它們將協同工作。”“它(NVQLink)不僅能對今天的量子位元進行糾錯,還能對未來的量子位元進行糾錯。我們將把這些量子電腦的規模從現在的數百個量子位元擴展到數萬個量子位元,甚至未來的數十萬個量子位元。”輝達稱,NVQLink技術已獲得17家量子處理器製造商和5家控製器製造商的支援,包括Alice & Bob、Atom Computing、IonQ、IQM Quantum Computers、Quantinuum、Rigetti等公司。美國能源部領導的9個國家實驗室將使用NVQLink推動量子計算突破,包括布魯克海文國家實驗室、費米實驗室、洛斯阿拉莫斯國家實驗室(LANL)等。輝達表示,開發人員可以通過CUDA-Q軟體平台訪問NVQLink,建立和測試無縫呼叫CPU、GPU和量子處理器的應用程式。05輝達與甲骨文打造美能源部最大AI超算黃仁勳稱,輝達將與美國能源部合作,打造七台新的超級電腦。它們將分別部署在能源部旗下的阿貢國家實驗室(ANL)和洛斯阿拉莫斯國家實驗室(LANL)。輝達宣佈與甲骨文合作,為美國能源部建造該部門最大的AI超級電腦Solstice系統,該系統將創紀錄地配備10萬塊輝達Blackwell GPU。另一套名為Equinox的系統將包含1萬個Blackwell GPU,預計於2026年上半年投入使用。兩套系統均通過輝達網路互聯,總計提供2200 exaflops的AI性能。這些超級電腦將使科學家和研究人員能夠使用輝達Megatron-Core庫開發和訓練新的前沿模型和AI推理模型,並使用TensorRT推理軟體堆疊進行擴展。能源部長Chris Wright表示:"維護美國在高性能計算領域的領導地位,需要我們搭建通向下一個計算時代的橋樑:加速量子超級計算。我們國家實驗室、初創公司和輝達等行業合作夥伴之間的深度合作對這一使命至關重要。"阿貢國家實驗室主任Paul K. Kearns表示,這些系統將與能源部前沿實驗設施(如先進光子源)無縫連接,使科學家能夠通過科學發現應對國家最緊迫的挑戰。06BlueField-4推動AI工廠基礎設施升級黃仁勳認為,代理式AI不再只是一種工具,而是人們所有工作的助手。AI帶來的“機會不勝列舉。” 輝達的計畫是建造專用於AI的工廠,裡面堆滿晶片。輝達周二當天宣佈,推出支援AI工廠作業系統的處理器Bluefield-4。輝達的BlueField-4資料處理單元支援800Gb/s吞吐量,為千兆級AI基礎設施提供突破性加速。該平台結合輝達Grace CPU和ConnectX-9網路技術,計算能力是前代BlueField-3的6倍,可支援的AI工廠規模較BlueField-3擴大3倍。BlueField-4專為新一類AI儲存平台設計,為AI資料管道的高效資料處理和大規模突破性性能奠定基礎。該平台支援多租戶網路、快速資料訪問、AI執行階段安全和雲彈性,原生支援輝達DOCA微服務。輝達稱,多家行業領頭羊計畫採用BlueField-4技術。其中,伺服器和儲存領域的公司包括思科、DDN、戴爾科技、HPE、IBM、聯想、Supermicro、VAST Data和WEKA。網路安全領域企業包括Armis、Check Point、思科、F5、Forescout、Palo Alto Networks和Trend Micro。此外,雲和AI服務商如Akamai、CoreWeave、Crusoe、Lambda、甲骨文、Together.ai和xAI正基於輝達DOCA微服務建構解決方案,加速多租戶網路、提升資料移動速度並增強AI工廠和超級計算雲的安全性。輝達BlueField-4預計將於2026年作為Vera Rubin平台的一部分推出早期版本。07輝達與Crowd Strike合作AI網路安全開發黃仁勳稱,輝達將與網路安全公司CrowdStrike在AI網路安全模型方面進行合作。輝達宣佈與CrowdStrike建立戰略合作,在CrowdStrike Falcon XDR平台上提供輝達AI計算服務。該合作將Falcon平台資料與輝達GPU最佳化的AI管道和軟體(包括新的輝達NIM微服務)相結合,使客戶能夠建立定製化安全生成式AI模型。根據2024年CrowdStrike全球威脅報告,平均突破時間已降至62分鐘,最快記錄的攻擊僅略超過2分鐘。隨著現代攻擊速度更快、更複雜,組織需要AI驅動的安全技術來獲得必要的速度和自動化能力。黃仁勳表示:"網路安全本質上是一個資料問題——企業能夠處理的資料越多,就能檢測和處理的事件越多。將輝達加速計算和生成式AI與CrowdStrike網路安全結合,可以為企業提供前所未有的威脅可見性。"CrowdStrike將利用輝達加速計算、輝達Morpheus和NIM微服務,將定製LLM驅動的應用程式引入企業。結合Falcon平台的獨特上下文資料,客戶將能夠解決特定領域的新用例,包括處理PB級日誌以改進威脅搜尋、檢測供應鏈攻擊、識別使用者行為異常,以及主動防禦新興漏洞。08輝達新自動駕駛開發平台助Uber部署Robotaxi車隊黃仁勳介紹,輝達的端對端自動駕駛平台DRIVE Hyperion已準備好推出提供Robotaxi服務的汽車。包括Stellantis、Lucid 和梅賽德斯-奔馳在內的全球汽車製造商將利用輝達的新技術平台DRIVE AGX Hyperion 10 架構加速開發自動駕駛技術。輝達宣佈與Uber建立合作關係,使用新一代輝達DRIVE AGX Hyperion 10自動駕駛開發平台和DRIVE AV軟體,擴展全球最大的L4級行動網路。輝達將支援Uber,從2027年開始逐步將其全球自動駕駛車隊規模擴大至10萬輛。DRIVE AGX Hyperion 10是一個參考級生產電腦和感測器架構,使任何車輛都能達到L4級準備狀態。該平台使汽車製造商能夠建構配備經過驗證的硬體和感測器的汽車、卡車和貨車,可以託管任何相容的自動駕駛軟體。黃仁勳表示:"無人駕駛計程車標誌著全球交通轉型的開始——使交通更安全、更清潔、更高效。我們與Uber共同為整個行業建立了一個框架,以大規模部署自動駕駛車隊。"Uber CEO Dara Khosrowshahi表示:"輝達是AI時代的支柱,現在正充分利用這一創新,以巨大規模釋放L4自動駕駛能力。"Stellantis正在開發AV-Ready平台,專門最佳化以支援L4級能力並滿足無人駕駛計程車要求。這些平台將整合輝達全端AI技術,進一步擴展與Uber全球移動生態系統的連接性。Uber稱,Stellantis將成為首批提供Robotaxi汽車的製造商之一,這些製造商將為Uber在美國和國際的業務提供至少5000輛輝達驅動的Robotaxi車。Uber將負責車輛的端到端車隊營運,包括遠端協助、充電、清潔、維護和客戶支援。Stellantis稱,將與富士康在硬體和系統整合方面展開合作,生產計畫定於2028年啟動。首先在美國與Uber合作開展營運。Stellantis 表示,預計未來幾年試點項目和測試將逐步展開。Lucid正在為其下一代乘用車推進L4級自動駕駛能力,在DRIVE Hyperion平台上使用全端輝達AV軟體,向客戶交付首批L4級自動駕駛汽車。梅賽德斯-奔馳正在測試基於其專有作業系統MB.OS和DRIVE AGX Hyperion的未來合作,新款S級車型將提供卓越的L4級豪華駕乘體驗。輝達和Uber將繼續支援和加速在輝達DRIVE L4級平台上開發軟體堆疊的全球合作夥伴,包括Avride、May Mobility、Momenta、Nuro、Pony.ai、Wayve和WeRide。在卡車運輸領域,Aurora、沃爾沃自動駕駛解決方案和Waabi正在開發由輝達DRIVE平台驅動的L4級自動駕駛卡車。09輝達與Palantir打造營運AI技術堆疊Lowe‘s率先應用供應鏈最佳化方案輝達與Palantir的合作核心是將輝達的GPU加速計算、開源模型和資料處理能力整合到Palantir AI平台(AIP)的Ontology系統中。Ontology通過將複雜資料和邏輯組織成互聯的虛擬對象、連結和動作,建立企業的數字副本,為AI驅動的業務流程自動化提供基礎。黃仁勳表示:"Palantir和輝達有著共同的願景:將AI付諸行動,把企業資料轉化為決策智能。通過結合Palantir強大的AI驅動平台與輝達CUDA-X加速計算和Nemotron開源AI模型,我們正在打造下一代引擎,為運行全球最複雜工業和營運管線的AI專業化應用和代理提供動力。"技術層面,客戶可通過Ontology使用輝達CUDA-X資料科學庫進行資料處理,配合輝達加速計算,為複雜的業務關鍵工作流驅動即時AI決策。輝達AI企業平台(包括cuOpt決策最佳化軟體)將支援企業進行動態供應鏈管理。輝達Nemotron推理模型和NeMo Retriever開源模型將幫助企業快速建構由Ontology提供資訊的AI代理。Palantir聯合創始人兼CEO Alex Karp表示:"Palantir專注於部署能為客戶立即帶來非對稱價值的AI。我們很榮幸與輝達合作,將我們的AI驅動決策智能系統與全球最先進的AI基礎設施融合。"零售商Lowe's成為首批採用Palantir和輝達整合技術堆疊的企業之一,正在建立其全球供應鏈網路的數字副本,以實現動態和持續的AI最佳化。該技術旨在提升供應鏈敏捷性,同時增強成本節約和客戶滿意度。Lowe's首席數字和資訊官Seemantini Godbole表示:"現代供應鏈是極其複雜的動態系統,AI對於幫助Lowe's在不斷變化的條件下快速適應和最佳化至關重要。即使是需求的微小變化也會在全球網路中產生連鎖反應。通過將Palantir技術與輝達AI相結合,Lowe's正在重新構想零售物流,使我們能夠每天更好地服務客戶。"輝達和Palantir還計畫將輝達Blackwell架構引入Palantir AIP,以加速從資料處理和分析到模型開發、微調再到生產AI的端到端AI管線。企業將能夠在輝達AI工廠中運行AIP以實現最佳化加速。Palantir AIP還將在輝達新推出的政府AI工廠參考設計中獲得支援。10禮來打造製藥業最強超算超千塊Blackwell Ultra驅動禮來與輝達的合作將建設一台由超過1000塊Blackwell Ultra GPU驅動的超級電腦,這些晶片將通過統一的高速網路連線。該超級電腦將為AI工廠提供動力,這是一個專門的計算基礎設施,將大規模開發、訓練和部署用於藥物發現和開發的AI模型。禮來首席資訊和數字官Diogo Rau表示,從首次對人類進行藥物試驗到產品上市,通常平均需要約10年時間。該公司預計將在12月完成超級電腦和AI工廠的建設,明年1月上線。但這些新工具可能要到2030年末才能為禮來及其他製藥商的業務帶來顯著回報。Rau說:“我們現在討論的用這種算力發現的東西,真正會在2030年看到這些益處。"禮來首席AI官Thomas Fuchs表示:"這確實是一種新型科學儀器。對生物學家來說,它就像一台巨大的顯微鏡。它真正讓我們能夠以如此龐大的規模做到以前無法做到的事情。"科學家將能夠在數百萬次實驗中訓練AI模型來測試潛在藥物,"極大地擴展藥物發現的範圍和複雜性"。雖然發現新藥並非這些新工具的唯一重點,但Rau表示這“是最大的機會所在”,“我們希望能夠發現僅靠人類永遠無法發現的新分子。”多個AI模型將在Lilly TuneLab上提供,這是一個AI和機器學習平台,允許生物技術公司訪問禮來基於其多年專有研究訓練的藥物發現模型。這些資料價值10億美元。禮來於去年9月推出該平台,旨在擴大整個行業對藥物發現工具的訪問。Rau指出,作為訪問AI模型的交換,生物技術公司需要貢獻部分自己的研究和資料,幫助訓練這些模型。TuneLab平台採用所謂的聯邦學習,這意味著,生物技術公司可以利用禮來的AI模型,雙方無需直接共享資料。禮來還計畫使用超級電腦縮短藥物開發時間,幫助更快地將治療方法送到患者手中。禮來表示,新的科學AI代理可以支援研究人員,先進的醫學成像可以讓科學家更清晰地瞭解疾病如何進展,並幫助他們開發用於個性化護理的新生物標誌物。 (硬AI)
輝達拋棄 FLOPS:晶片價值改寫為 Token 經濟
9 月 10 日,輝達宣佈將在 2026 年底前推出全新人工智慧晶片 Rubin CPX。這是 Blackwell 平台的繼任者,被定位為“視訊生成與 AI 程式設計”的專用加速晶片。與傳統 GPU 最大的不同在於,Rubin CPX 高度整合了視訊解碼、編碼與推理功能。過去,生成一小時視訊所需的處理量高達百萬級 token,遠超常規 GPU 的處理邊界。Rubin CPX 的設計目標,就是為這種指數級增長的算力需求提供 專用解決方案。更引人注目的是,輝達首次公開了經濟模型:向 Rubin CPX 系統投入1 億美元,最高可帶來 50 億美元 token 收入;硬體價值不再是一次性出貨,而是與 AI 應用的 token 消耗直接掛鉤。一|技術路徑的三步走1|算力邊界突破Rubin CPX 內建的視訊流水線將推理吞吐提升至 Blackwell 的 3–4 倍,面向1 小時視訊 ≈ 100 萬 token 的處理量做專門最佳化。2|系統級整合通過整合解碼、編碼、推理,CPX 取消了 CPU 與外部加速器之間的資料搬運,平均延遲縮短 40%–50%。3|能源效率提升在同等算力下,CPX 的能耗比常規 GPU 下降 30%–35%,這是視訊場景下能否規模化部署的關鍵。二|三個關鍵訊號🔍1|AI 視訊生成已成算力新高地視訊生成和 AI 程式設計是未來最消耗算力的兩大場景。視訊的處理量比文字/圖像高一個數量級,未來 AI 的增長曲線幾乎註定將在視訊領域展開。🔍2|資本邏輯正在轉向 token 維度過去,晶片的價值以 FLOPS 衡量。如今,Rubin CPX 把“投入產出比”直接對應到 token 消耗 = 現金流。這讓晶片廠商從硬體銷售變成持續的 token 分成,是資本市場更願意買單的模式。🔍 3|AI 晶片敘事全面升級輝達從 GPU 性能 → 雲算力租賃 → token 經濟回報,不斷迭代敘事。未來誰能承接更多的 token 消耗,誰就佔據 AI 基礎設施的制高點。三|市場觀察Rubin CPX 不只是一次硬體迭代,而是一次 商業邏輯的躍遷。它揭示了未來幾年晶片價值的核心:不再僅取決於算力極限;而在於 能否把 AI 應用的 token 消耗轉化為可見的現金流。換句話說,誰能把 token 經濟效應嵌入晶片,誰就有機會主導下一輪 AI 基建的資本溢價。四|資本市場的故事切換對投資者而言,這不僅是技術與商業模式的更新,更可能改變資本市場對輝達的估值框架。Rubin CPX 可能意味著輝達的收入模型,從過去的 一次性硬體銷售,逐步轉向 類訂閱的持續分成模式:硬體出貨只是起點,真正的價值在於 token 消耗帶來的長尾收益;這種模式讓輝達更像一家 “雲服務+軟體平台” 企業,而不是傳統半導體公司;對資本市場而言,這相當於從周期性硬體估值 轉向穩定現金流的 SaaS 估值,敘事天花板被再次抬高。這就是 Rubin CPX 背後更大的金融含義:輝達不只是在賣晶片,而是在賣“算力+現金流”的未來。一塊晶片,不止是算力的極限,而是現金流的起點。 (方到)
「一頁紙」講透產業趨勢之:Rubin CPX
這是一個非常「有錢景」的方向,我會借助 AlphaEngine 的幫助,幫你跨越產業趨勢研究的資訊鴻溝,每天挖掘一個財富密碼。今天的主角是:Rubin CPX,AI產業變革下一個核心驅動力。點選下方▶️按鈕收聽👇👇(1)Rubin CPX:AI產業進入“長上下文時代”的里程碑輝達近日發佈了一款專為長上下文場景設計的GPU——Rubin CPX。這款晶片旨在顯著提升AI推理效率,尤其適用於程式設計、視訊生成等需要處理超長上下文窗口的應用領域。Rubin CPX計畫於2026年底正式上市,市場定位是專為處理百萬級token長上下文AI推理而設計的關鍵基礎設施,旨在將AI算力正式推向Exascale(百億億次)時代。該產品的市場吸引力已得到初步驗證,包括Cursor(AI程式設計)、Runway(視訊生成)及Magic(AI程式設計)在內的多家前沿AI企業已率先採用該技術。Rubin CPX的推出可視為推動AI產業進入“長上下文時代”的里程碑事件,其核心價值在於通過架構創新為AI推理的規模化部署掃清了經濟性與效率障礙,為長上下文AI應用的商業化落地提供了高性價比的基礎設施。基於Rubin CPX的顛覆性設計,我們預見AI產業鏈將迎來深刻變革,一個全新的AI應用紀元正拉開序幕。1)上游供應鏈將迎來結構性增長:能夠滿足Rubin CPX嚴苛技術要求的供應商將獲得顯著優勢。例如,在PCB領域,對40層以上、採用M9級材料的高階伺服器板及HDI技術的需求將激增,為具備相關技術儲備的頭部廠商帶來確定性訂單。2)下游AI應用範式將被重塑:百萬級token的處理能力將徹底改變AI應用形態,AI編碼助手將從簡單的程式碼補全工具進化為能夠理解和重構整個複雜軟體項目的“AI架構師”,而視訊生成、藥物研發和企業知識庫問答等領域也將因上下文長度的突破而開啟新的可能性。(2)Rubin CPX的核心技術創新:解耦推理Rubin CPX的核心創新在於其獨特的解耦推理(Decoupled Inference)技術,該技術首次將大語言模型的推理流程從物理上分解為兩個獨立的階段:上下文處理(Prefill/Context)和生成(Decode/Generation)。傳統架構在單一硬體上執行這兩個特性迥異的任務,導致資源錯配與效率瓶頸。解耦架構則為每個階段匹配專用硬體:1)上下文處理階段:此階段計算密集(Compute-Intensive),需要大規模平行處理能力來消化海量輸入。Rubin CPX專為此設計,採用“胖計算、瘦頻寬”的理念,使用GDDR7來最大化算力利用率。2)生成階段:此階段頻寬密集(Bandwidth-Intensive),每個Token的生成都極度依賴記憶體訪問速度。該任務由標準的、配備高頻寬記憶體(HBM)的Rubin GPU(如R200)承擔,確保低延遲輸出。通過這種專用化分工,解耦推理架構實現了對計算和記憶體資源的精準調配,從根本上解決了傳統同構架構的效率天花板問題。Rubin CPX的解耦推理架構在處理流程、硬體瓶頸和記憶體策略上,與以GB300為代表的傳統同構架構形成了鮮明對比,其專用化設計帶來了革命性優勢。*註:由FinGPT Agent作表,原表請登錄AlphaEngine(3)Rubin CPX的關鍵性能參數Rubin CPX作為NVIDIA首款專為海量上下文AI推理設計的CUDA GPU,其單晶片及其組成的Vera Rubin NVL144 CPX平台在算力、記憶體、功耗及成本效益上均實現了對現有架構的顛覆性突破。以下是其核心技術規格與上一代旗艦GB300 NVL72的量化對比分析:*註:由FinGPT Agent作表,原表請登錄AlphaEngine從經濟效益的角度來看,Rubin CPX相比上一代架構,將帶來以下幾點變化:性能與成本的極致最佳化:Rubin CPX通過採用單片式設計,成功規避了當前先進封裝領域面臨的CoWoS產能瓶頸,這不僅保障了其在2026年的規模化量產能力,更帶來了顯著的成本優勢。其生產成本僅為同期旗艦訓練晶片R200的25%,卻能實現其60%的計算能力。同時,選用成本較HBM低50%以上的GDDR7視訊記憶體,進一步強化了其在推理市場的經濟性。平台級性能的指數級躍升:Vera Rubin NVL144 CPX平台通過異構協同,將AI性能推向了前所未有的8 EFLOPS(NVFP4精度),相較於上一代GB300 NVL72系統實現了7.5倍的性能飛躍。特別是在大模型推理的關鍵瓶頸——注意力機制處理上,其速度提升了3倍,這意味著處理百萬token級長上下文的效率和可行性得到了根本性改善。卓越的投資回報:基於其顛覆性的性能和成本結構,Rubin CPX展現出極高的經濟效益。據測算,在規模化營運下,其投資回報率(ROI)可高達30至50倍。具體而言,每1億美元的資本投入,預計可產生高達50億美元的token服務收益,這為資料中心和雲服務商提供了極具吸引力的TCO(總擁有成本)模型,預示著其將快速滲透至長上下文推理市場。(4)Rubin CPX對AI全產業鏈的深遠影響Rubin CPX的推出對AI產業鏈帶來了全方位的技術革新,催生了大量投資機遇,這裡我從“資料中心與液冷”、“PCB及原材料”、“AI應用”這三個角度展開。1)資料中心與液冷:Rubin CPX正強力推動伺服器架構向高密度、模組化的分解式設計(Disaggregated Design)演進,重塑AI計算基礎設施。其核心體現於Vera Rubin NVL144 CPX平台,該平台在單機架內實現了144個 Rubin CPX、144個Rubin GPU和36個Vera CPU的超高密度整合,樹立了行業算力密度的新標竿。這種分解式架構通過硬體專用化,將推理流程中計算密集的上下文處理(Prefill)與記憶體頻寬密集的生成(Decoding)階段分離,分別由CPX和標準Rubin GPU高效執行,實現了計算資源的精準匹配與利用率最大化。與此同時,Rubin CPX單晶片高達800W的功耗對資料中心的散熱與電源系統構成了嚴峻挑戰,傳統風冷方案已無法滿足散熱需求,這使得先進液冷技術(如直接液體冷卻DLC)的規模化普及成為必然趨勢,以確保系統穩定運行並最佳化能源效率(PUE)。巨大的單機架功耗需求也倒逼電源管理系統向更高效率和更高功率密度演進。這不僅涉及伺服器內部的電源架構,也涵蓋了從機架配電單元(PDU)到整個資料中心供電鏈路的全面升級,以支援未來AI叢集的龐大能源消耗。2)PCB及上游原材料:Rubin CPX技術規格的躍升正驅動上游關鍵材料需求的確定性放量。為滿足PCIe Gen 6等高速訊號傳輸的完整性要求,M9等級的超低損耗覆銅板材料已成為剛性需求。產業鏈向上游追溯,為實現超低損耗目標,石英布、 HVLP(極低輪廓)銅箔等高端材料的應用將從利基市場走向規模化普及。此外,承載Rubin CPX晶片本身的PCB預計將採用HDI(高密度互連)技術,進一步提升了PCB的設計複雜度和製造門檻,並帶來純粹的增量市場。這一趨勢已在頭部廠商的資本支出計畫中得到印證。以臻鼎為代表的PCB龍頭廠商規劃在2025-2026年投入的資本支出中,高達50%將明確用於高 階AI伺服器PCB的產能擴張,為即將到來的材料需求激增提前佈局。3)下游AI應用Rubin CPX將對AI應用帶來深遠的影響。首先,超長上下文將成為“標配”。128 GB GDDR7 + 30 PFLOPS NVFP4 的專用算力,讓單卡即可一次性載入 >1 M token 的程式碼或 1 小時視訊,無需再靠分片、滑動窗口等“折中”方案,直接把“整庫級”程式碼理解、長視訊連貫生成推向實用。其次,推理成本驟降,催生新商業模式。與旗艦 GB300 NVL72 相比,同樣長上下文任務性能最高提升 6.5 倍,而硬體成本更低(GDDR7 替代昂貴 HBM)。根據輝達官方測算,1 億美元新裝置可帶來 50 億美元 token 收益,ROI 達 30–50 倍,為 SaaS 平台按“百萬 token 幾分錢”收費提供了利潤空間。再次,“整庫級”AI 應用將成為主流。比如在Coding領域,Cursor、Magic等已計畫把整倉程式碼塞進模型,實現跨檔案重構、庫級問答,程式設計助手從“補全”升級為“架構師”。在視訊領域,Runway 等可在單卡完成 60 min 1080p 視訊生成,無需分段,保證情節、角色一致性。在科研/法律/金融等領域,百萬級 token 的論文、判例、財報一次性載入,多步推理即可在分鐘級完成,長文深度問答、自動研報進入可商用階段。一輪新的AI技術革命,正在滾滾而來。 (Alpha Engineer)
輝達Rubin CPX 的產業鏈邏輯
今天幾乎是被輝達Rubin CPX的這個新聞刷屏了,但白天太忙,晚上回來才有時間好好看看SemiAnalysis的這篇報告。在文章後半段,我們會簡單分析Rubin CPX利多的兩個方向。AI 推理的兩難困境想明白Rubin CPX 的價值,得先知道AI 大模型推理時的一個關鍵矛盾:預填充(prefill)和解碼(decode)這兩個階段,對硬體的需求完全是反的。在我們之前的一次分析華為的Cloud Matrix 384中光模組用量的直播中,講到過Prefill和Decode的區別:在Prefill階段特別吃計算能力,但對記憶體頻寬的需求很低;而接下來的Decode,模型要基於第一個token 不斷生成後續內容,這時候就不怎麼需要計算了,反而得靠高記憶體頻寬快速調取之前的KV 快取資料。過去的問題是,大家都用同一種GPU(例如輝達的R200)來跑這兩個階段。結果在跑預填充時,R200 上那些昂貴的HBM 記憶體(高頻寬、高成本)根本用不上,頻寬利用率較低,相當於花大價錢買了個頂配跑車,結果只用來買菜;跑解碼時,又覺得計算能力過剩,記憶體頻寬不夠用。這種通用的硬方案,不僅浪費錢,還拖慢了整體效率。輝達顯然看透了這一點,於是Rubin CPX 來了, 一款專門為預填充階段量身定做的加速器,目標只有一個:把該省的錢省下來,該用的性能拉滿。Rubin CPX構型的精打細算先看核心參數,跟R200的差距不小,不僅HBM換成了GDDR7,視訊記憶體的容量、頻寬都顯著降低,還有個明顯的區別就是NVLink換成了PCIe Gen6,所以serdes的速率也從224G降到到了64G。(感謝星球中球友的提醒,上面這個圖中的某些參數是不對的,不知道大家有沒有看出來)雖然性能下降了很多,但性價比卻提到了--成本降低了更多。Rubin CPX 的BOM 成本(物料清單成本)只有R200 的25%,但能提供R200 60% 的運算能力。HBM 記憶體因為頻寬高,一直是高階GPU 的標配,但價格也貴得離譜,佔GPU BOM 成本的比例越來越高(從A100 的35% 漲到GB300 的51%)。而Rubin CPX 用的GDDR7,雖然頻寬不如HBM4,但成本直接砍了80%,還不用像R200 那樣搞複雜的CoWoS 封裝,這兩下一省,成本自然就下來了。更重要的是,它沒浪費性能。前面說過,預填充階段記憶體頻寬利用率極低,而Rubin CPX 因為頻寬剛好夠用,利用率反而提高了很多。同樣跑一個預填充任務,R200 每小時要浪費0.9 美元的TCO(總擁有成本),而Rubin CPX 只浪費0.16 美元—— 長期下來,對資料中心來說就是一筆巨款。Oberon 機架光有好晶片還不夠,輝達這次連機架都一起升級了—— 推出第三代Oberon 架構機架(叫Vera Rubin 系列),包含三種型號:VR200 NVL144、VR200 NVL144 CPX、Vera Rubin CPX 雙機架。這次的機架解決了前兩代(GB200/GB300)的幾大痛點。1. 無電纜設計之前的GB200 機架用的是電纜+ PCB的連接方式,飛線又多又亂,裝配時容易壞,還佔空間,導致每個計算托盤裡塞不下太多晶片。這次Rubin 系列直接搞了無電纜設計:用Amphenol 的板對板連接器,配合中間的PCB 中板,所有訊號都走電路板,沒有一條飛線。好處很明顯:一是故障點少了,可靠性提升;二是空間省出來了。例如VR200 NVL144 CPX 機架,每個計算托盤裡能塞4 個R200 GPU + 8 個Rubin CPX + 2 個Vera CPU,整個機架算下來有396 個計算和網路晶片,密度比前兩代高了一大截。2. 全液冷方案AI 晶片越密集,散熱就越頭痛。前兩代機架是85% 液冷+ 15% 風冷,對付低功率還行,但這次VR200 NVL144 CPX 機架的功率預算直接衝到了370kW(相當於200 多台家用空調的功率),風冷根本扛不住。於是輝達乾脆上了100% 全液冷,還搞了個三明治設計:把Rubin CPX 和CX-9 網路卡的PCB 板疊在一起,中間夾一個共享的液冷冷板,兩邊的熱量都能快速導走。這樣一來,即使每個計算托盤裡的晶片總功率到7040W,也能穩穩壓住,不會因為過熱降頻。3. 靈活擴展如果已經買了之前的VR200 NVL144 機架,不想全換怎麼辦?輝達給了Vera Rubin CPX 雙機架方案—— 你可以單獨加一個VR CPX 機架(裡面全是Rubin CPX),通過InfiniBand 或乙太網路連到原有叢集裡,不用非得挨著放。這樣就能依照自己的業務需求,靈活調整預填和解碼的比例,例如業務裡預填充任務多,就多加點CPX 機架,非常方便。產業震動輝達這波操作,最慌的應該是AMD、Google、AWS 這些競爭對手。 SemiAnalysis的報告中的說法是:輝達和對手的差距,已經從鴻溝變成峽谷了。先看AMD,之前AMD 剛發佈MI400 機架,號稱記憶體頻寬19.8TB/s,能和輝達掰掰手腕,結果輝達反手就把R200 的記憶體頻寬提到20.5TB/s,還出了Rubin CPX。現在AMD 不僅要繼續最佳化MI400 的軟體棧,還得緊急加錢開發自己的預填充專用晶片,可能之前的規劃的Roadmap都要打亂了。再來看Google和AWS。 Google的TPU 雖然有3D Torus 網路的優勢(最大能搞9216 個TPU 的大叢集),但現在也得趕緊開發預填充專用晶片,不然內部用起來成本太高;AWS 的Trainium3 機架,原本想用自己的EFA 網路卡,結果發現VR200 NVL1444X 機架,根本沒有用地方交換機連起來,麻煩又費錢。最慘的是那些做定製ASIC 晶片的公司,本來就比輝達慢一步,現在輝達又在硬體專用化上開了頭,這些公司要麼跟著做預填充、解碼專用晶片,要麼就只能在成本上被輝達壓著打未來報告裡還提到了兩個未來的可能性,蠻有趣:1. 解碼專用晶片既然預填充能做專用晶片,解碼為什麼不行? SA推測,輝達可能會搞一款解碼專用晶片—— 跟Rubin CPX 反過來,少點計算能力,多堆記憶體頻寬。例如把R200 的計算晶片縮小,保留HBM 介面和I/O 晶片,這樣成本能再降一波,而且能效會更高。2. GDDR7 的春天Rubin CPX 用了GDDR7,加上之前RTX Pro 6000 也用,GDDR7 的需求會暴漲。 SA認為,三星因為產能充足,已經拿到了輝達的大訂單,而SK 海力士和美光因為忙著生產HBM,沒太多產能做GDDR7,所以接下來三星在GDDR7 市場可能會賺一波。產業鏈的邏輯VR NVL144 CPX Compute Tray長下面這個樣子:以下是輝達官方圖中標出的重要組成::PCB首先就是多出來一些CPX的板卡,當然PCB的用量也會上去。而且從上面SemiAnalysis的圖中也可以看出,在VR200中,將採用透過midplane實現內部「無電纜設計」。在GB200中,CX7 直接放置在Bianca 板之上,並用線纜連接BlueField 與OSFP cages,而VR200 用midplane取代tray內部線纜,以連接Bianca board、CX9 與BlueField。對VR200 來說,根據目前業內給的資料,僅供參考。預計每個NVL144 需要18 個midplane(每個compute tray一個),很有可能midplane將用44層PTH PCB,採用台光的896K3 M9 CCL,Switch則採用896K2(low-DK 2+HVLP 4)。預計輝達每GPU 的PCB 價值量將從GB200 的約400 美元提升至VR200 的約900 美元,。液冷我們上面也提到液冷的方案,現在還沒法測算具體的價值量。但可以明確的是,每增加一顆CPX晶片,都需要配一塊冷板,同時還會拉動轉接器的需求,而且隨著機櫃功率的提升,CDU和管路的需求也同步增加。 (梓豪談芯)
感謝您的好文章!!!
算力怪獸!NVIDIA Rubin CPX及液冷伺服器發佈!
9月10日輝達又放AI計算大招,推出專為長上下文推理和視頻生成應用設計的新型專用GPU——NVIDIA Rubin CPX。Rubin CPX基於NVIDIA Rubin架構建構,採用經濟高效的單晶片設計,配備128GB GDDR7記憶體,採用NVFP4精度,並經過最佳化,算力可達30PFLOPS,能夠為AI推理任務,尤其是長上下文處理(超過100萬個token)和視訊生成,提供了遠超現有系統的性能和token收益。與輝達GB300 NVL72系統相比,這款專用GPU還提供了3倍更快的注意力機制,從而提升了AI模型處理更長上下文序列的能力,而且速度不會降低。Rubin CPX與全新NVIDIA Vera Rubin NVL144 CPX平台中的輝達Vera CPU和Rubin GPU協同工作,進行生成階段處理,形成一個完整的高性能分解式服務解決方案。Vera Rubin NVL144 CPX平台可在單機架整合144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速記憶體,記憶體頻寬達到1.7PB/s。其AI性能是輝達Vera Rubin NVL144平台的2倍多,是基於Blackwell Ultra的GB300 NVL72機架式系統的7.5倍。從液冷視角來看,NVL144CPX平台整合的Rubin晶片數量更多,單伺服器整合8塊Rubin晶片,對冷板和UQD的需求將會成倍增長,同時對於高功率的CDU需求也會上升。輝達首席財務官科萊特·克雷斯 (Collette Cress) 表示,公司代號為 Rubin 的下一代資料中心級 GPU 和代號為 Vera 的 CPU 已完成流片並進入“晶圓廠”生產階段,這意味著它們的晶片目前由台積電 (TSMC) 生產。該公告表明,輝達面向 AI 的下一代資料中心平台有望於 2026 年推出。科萊特·克雷斯 (Collette Kress) 在公司與財務分析師和投資者的財報電話會議上表示:“Rubin 平台的晶片已投入生產。Vera CPU、Rubin GPU、CX9 Super NIC、NVLink 144 縱向擴展交換機、Spectrum X 橫向擴展和橫向擴展交換機,以及(用於共封裝光學器件的)矽光子處理器。Rubin 平台仍按計畫於明年實現量產。”該晶圓廠擁有 Rubin NVL144 機架規模平台的所有晶片,表明它們已經通過了重要的流片階段,Nvidia 目前正在實驗室中等待它們,以驗證它們是否符合其性能、功耗、成本和其他目標。 (零氪1+1)
輝達深夜突放大招,全新GPU為長上下文推理而生
效率最高可達現有旗艦機架的7.5倍。輝達於9月9日正式發佈了一款專為處理海量上下文而打造的新型GPU——NVIDIA Rubin CPX,旨在“以前所未有的速度和效率,賦能百萬級Token的軟體編碼、生成式視訊等複雜AI任務。”這款專用處理器將與NVIDIA Vera CPU及下一代Rubin GPU協同工作,共同構成全新的NVIDIA Vera Rubin NVL144 CPX整合平台。該平台在單個機櫃內即可提供高達8 exaflops的AI算力,性能是當前NVIDIA GB300 NVL72系統的7.5倍,並配備100TB高速記憶體和每秒1.7 PB的記憶體頻寬,為AI推理設定了全新基準。NVIDIA創始人兼首席執行官黃仁勳在發佈會上表示:“Vera Rubin平台將標誌著AI計算前沿的又一次飛躍。正如RTX徹底改變了圖形和物理AI,Rubin CPX是首款專為海量上下文AI打造的CUDA GPU,在這種場景下,模型可以一次性對數百萬token的知識進行推理。”為解決推理瓶頸而生:分解式推理架構與專用加速輝達表示,推理已成為人工智慧複雜性的新前沿。現代模型正演變為能夠進行多步推理、擁有持久記憶體和長上下文的智能體系統,使其能夠處理軟體開發、視訊生成和深度研究等領域的複雜任務。這些工作負載對基礎設施提出了前所未有的要求,在計算、記憶體和網路方面引入了新的挑戰,需要我們從根本上重新思考如何擴展和最佳化推理。在這些挑戰中,為特定類別的工作負載處理海量上下文變得日益關鍵。例如,在軟體開發中,AI系統必須對整個程式碼庫進行推理,維護跨檔案的依賴關係,並理解程式碼倉庫等級的結構——這正將編碼助手從自動補全工具轉變為智能協作者。同樣,長視訊和研究應用要求在數百萬token中保持持續的連貫性和記憶。這些需求正在挑戰當前基礎設施所能支援的極限。輝達認為,AI推理主要分為兩個階段:上下文階段(Context Phase)和生成階段(Generation Phase)。前者是計算密集型,需要高吞吐量處理海量輸入資料;後者是記憶體頻寬密集型,依賴高速資料傳輸逐個生成token。為最佳化效率,NVIDIA採用了“分解式推理”架構,將兩個階段交由最適合的硬體獨立處理。而NVIDIA Rubin CPX正是為加速計算密集的“上下文階段”而設計的專用解決方案。它採用高成本效益的單片式晶片設計,提供高達30 petaflops的NVFP4精度算力,配備128GB GDDR7記憶體,並將注意力(attention)功能速度提升至GB300 NVL72的三倍。此外,它還在單晶片上整合了視訊編解碼器和長上下文推理處理功能,極大地提升了視訊搜尋、高畫質視訊生成等應用的性能。NVIDIA指出,通過這種專用硬體,企業能夠以前所未有的規模創造價值,預計每投入1億美元資本,即可帶來高達50億美元的token收入。行業領導者積極擁抱,軟體生態全面支援新平台已獲得行業創新者的廣泛關注。AI程式碼編輯器開發商Cursor表示,Rubin CPX將帶來“閃電般的程式碼生成速度”,改變軟體開發模式。生成式AI公司Runway認為,新平台是“性能上的一次重大飛躍”,將幫助創作者在視訊工作中獲得前所未有的速度與真實感。致力於軟體工程自動化的AI研究公司Magic也指出,Rubin CPX能極大地加速其處理億級token上下文模型的計算工作負載。Rubin CPX將得到NVIDIA AI技術堆疊的全面支援,包括可高效擴展AI推理的NVIDIA Dynamo平台、NVIDIA Nemotron多模態模型系列以及包含NIM微服務的NVIDIA AI Enterprise企業級軟體平台。NVIDIA Rubin CPX平台預計將於2026年底正式上市。GB300 NVL72系統基準最新測試結果公佈在發佈未來架構的同時,NVIDIA於9月9日公佈的最新MLPerf Inference v5.1行業基準測試結果中,再次彰顯了其在當前AI推理領域的領導地位。本輪測試中,NVIDIA首次提交了基於全新Blackwell Ultra架構(通過GB300 NVL72系統)的成績,並立即刷新了所有新增基準測試的性能記錄,包括Llama 3.1 405B和Whisper等。尤其是在處理高達6710億參數的混合專家模型DeepSeek-R1時,Blackwell Ultra的單GPU性能達到了上一代Hopper架構的約5倍,實現了巨大的性能飛躍。這一成就得益於NVIDIA的全端最佳化能力,包括:廣泛應用NVFP4四位浮點格式進行加速、通過TensorRT-LLM等軟體庫實現先進的模型和KV快取量化,以及為複雜模型開發的全新平行技術。 (半導體產業縱橫)