曾經炙手可熱的HBM內存,似乎在一夜之間黯然失色。
最新發表的輝達Rubin CPX GPU——一款專門針對預填充階段優化的晶片,出乎意料地選擇了成本更為親民的GDDR7內存,而非業界習以為常的高端HBM方案。瞬間在業界引發一場熱議。
回顧過往數年,輝達的AI晶片幾乎無一例外地搭載最新一代HBM內存,以滿足AI訓練和推理對超高內存頻寬的苛刻要求。如今Rubin CPX GPU卻反其道而行之,轉向頻寬相對較低的GDDR7,這不禁讓人產生疑問:
曾經的「記憶體之王」HBM,真的會迎來新的威脅嗎?
先來看看Rubin CPX GPU 的誕生。
今年9 月10 日,輝達正式推出Rubin CPX GPU,這是一款專為長上下文AI 工作負載而設計的GPU。需要特別強調的是,Rubin CPX 並非普通的Rubin GPU 簡化版,而是針對推理效能深度最佳化的AI 加速器/GPU,定位於即將登場的Vera Rubin NVL144 CPX 機架。
隨著AI 應用的不斷演進,底層運算架構也必須隨之改變。輝達在這次產品中提出了全新的推理加速理念-「解耦推理」(disaggregated inference)。這項策略的核心,是將不同類型的GPU 各司其職:
這種任務分工的設計,正是因應新一代AI 模式的複雜需求。輝達指出,涉及多步驟推理與持久化記憶的前沿AI 應用——例如視訊生成、智慧代理——需要持續處理和調用海量上下文資訊。如今,大模型推理已取代訓練,成為硬體架構最佳化的前線戰場。
在這個體系中,Rubin CPX GPU 就是情境階段的「主力擔當」。它在輝達新引入的NVFP4 資料格式下,能夠提供高達30 PFLOPs 的原始算力,並搭載128 GB GDDR7 顯存。相較之下,標準版Rubin GPU 的效能更偏向生成階段:可實現50 PFLOPs FP4 算力,並配備288 GB HBM4 高頻寬顯存,專門解決頻寬瓶頸。
從架構角度來看,Rubin CPX GPU 與標準版Rubin GPU 的差異也十分明顯:
有分析指出,既然Rubin GPU 單晶片算力約為25 PFLOPs FP4,那麼Rubin CPX 很可能是Rubin GPU 單晶片的“高優化版”,專門針對解耦推理中的計算任務做了調優。
至於落地時間表,輝達計劃在2026 年隨Vera Rubin NVL144 CPX 機架一起推出Rubin CPX GPU。機架的配置堪稱「巨獸」:144 塊Rubin GPU + 144 塊Rubin CPX GPU,36 顆Vera CPU,100 TB 高速內存,1.7 PB/s 內存頻寬。
在這種組合下,整體效能將達到8 ExaFLOPs NVFP4,是現有一代GB300 NVL72 的7.5 倍,也超過未配備CPX 的Vera Rubin NVL144(3.6 ExaFLOPs)。
這意味著Rubin CPX 不只是一個補充產品,而是輝達在AI 推理解耦架構策略下的關鍵拼圖。
但同時,不少人也關注到了HBM4到GDDR7這一“降配”,他們不禁發出疑問:為什麼輝達會轉向頻寬更低的GDDR7呢?
事實上,長期以來記憶體瓶頸一直是人工智慧發展的最大限制因素。在大模型不斷膨脹的背景下,如何將更龐大的參數量加載到加速器中,成為產業最關心的問題之一。模型規模越大,對記憶體容量的要求就越高,而在實際推理和訓練中,記憶體頻寬才是限制token 吞吐量的關鍵因素。
因此,近幾代GPU 的高頻寬記憶體(HBM)容量和頻寬得以快速提升:從H100 的80GB、3.4TB/s,到GB300 的288GB、8.0TB/s,不到三年時間,容量增長超過兩倍,頻寬提升約2.5 倍。這一躍升,也使得HBM 在加速器BOM 中的比重不斷增加——從Hopper 到Blackwell,HBM 已經成為封裝成本中佔比最大、最昂貴的單一組件。
HBM 對訓練和推理都極為重要。但如果把推理拆解為預填(pre-fill)和解碼(decode)兩個階段,就會發現其中的差異:
也就是說,HBM 並非在整個推理連結中都「物盡其用」。鑑於其價格遠高於其他DRAM,如果頻寬閒置,就意味著成本的浪費。
這正是Rubin CPX 選擇GDDR7 而不是HBM4 的原因。在解耦推理的架構下,Rubin CPX 主要負責上下文的建置任務,此時GDDR7 的頻寬和延遲已完全足夠。而在生成階段,工作會交由Rubin GPU 執行,HBM 的高頻寬特性在這裡才發揮決定性作用。透過這種任務分工,既確保了效能,又避免了對昂貴HBM 的過度依賴。
而選擇GDDR7 的好處也十分明顯:
它大幅降低了顯存在系統總成本中的比重;
在推理性能近乎相當的前提下,成本優勢顯著;
為更多企業降低了進入門檻,推動AI 基礎設施更廣泛的普及。
當然,採用GDDR7 並不代表HBM 需求會衰減。相反,Rubin CPX 的意義在於降低預填充與token 的單位成本。當token 成本下降,使用者對推理的需求會隨之增加,而更高的需求又會進一步推高解碼階段的頻寬需求。就像許多降低成本的技術創新一樣,需求成長往往遠遠抵銷成本下降的影響,最終使整個市場的規模持續擴大。
而隨著對GDDR7 的需求激增,記憶體供應鏈正迎來新的格局變化。
在RTX Pro 6000 以及最新的Rubin CPX 等產品帶動下,輝達對GDDR7 的需求急速上升。最初,輝達曾為RTX Pro SKU 下達大量訂單,計劃將其銷售到中國市場,以替代當時因出口許可證受限而無法供應的H20 晶片。這些突發訂單主要由三星承接,憑藉靈活的產能調配,三星成功滿足了需求;而SK 海力士和美光的晶圓產能則更多被鎖定在HBM 訂單上,難以承擔額外壓力。
近期,輝達更是要求三星將GDDR7 產量增加一倍。作為回應,三星不僅擴大了生產設施,還增加了必要的材料與組件,目前所有量產準備工作已基本完成,預計最快本月就能啟動擴產後的供應鏈。據業內人士透露,相關產能擴張已滿足輝達的需求,量產即將到來。
而近日還有消息傳出,輝達正準備推出代號「B40」的新產品,將搭載三星GDDR7 並針對中國大陸市場銷售。該產品透過降低數據處理能力來規避美國出口限制,預計將成為中國大陸市場的主要替代方案。
市場分析機構預測,B40 出貨量今年可能達到100 萬片,光是GDDR7 基板需求就高達約2,000 億韓元。整體訂單規模或在數千億至數兆韓元之間。摩根士丹利指出,若地緣政治不確定性持續,B40 的市場潛力將進一步釋放。由此,三星電子有望憑藉大規模訂單鞏固其在圖形DRAM 市場的地位。
值得注意的是,輝達仍在從SK 海力士和美光採購部分圖形DRAM,但在整體採購量上,三星已成為最大受益者。未來,三星與輝達在GDDR7 合作能否進一步延伸到HBM 領域仍有待觀察。
目前,三星正積極爭取HBM4 的供應資格,並計劃利用其最新1c 儲存單元技術贏得市場轉機。業界普遍認為,若這項技術表現如預期,將成為三星在高階儲存競爭中實現反超的重要機會。
雖然輝達的決定為HBM帶來新的威脅。但這並不影響巨頭們在這個賽道繼續金塊。
日前,SK海力士公司宣佈,已完成全球首款超高性能人工智慧下一代儲存產品HBM4的開發,並已完成量產準備。
SK海力士表示,該公司已成功完成開發,並基於這項技術成就,為HBM4大規模量產做好準備,以引領人工智慧時代。透過這一勢頭,該公司再次證明了其在全球人工智慧記憶體領域的領先地位。
「HBM4開發的完成將是該行業的一個新里程碑,」領導此次開發的SK海力士HBM開發負責人Joohwan Cho說。 “透過及時供應在性能、功耗效率和可靠性方面滿足客戶需求的產品,公司將實現產品上市時間要求並保持競爭優勢。”
透過這個事可以看到,尋找更好性價比,是產業的永恆旋律。 (半導體產業觀察)