Vera Rubin 裡真正變貴的東西

從 HBM4、先進封裝到液冷電源:一台 AI 工廠整櫃的硬體帳本

這個小專題一共五講。第一講從Vera Rubin NVL72出發,講清楚輝達新一代整櫃裡裝了什麼;第二講把時間線拉回A100H100H200Blackwell,再走到Vera Rubin,看輝達架構怎樣從單卡走向整櫃

第三講進入硬體帳本。輝達把CPUGPUHBMNVLink、網路卡、DPU、交換機、液冷電源放進同一套平台以後,很多環節的數量、規格和認證門檻都會被抬高。

下一講我們打算把這些環節放回 A 股產業鏈,按離訂單的距離、驗證周期和財報彈性分層。第五講再回到長期主線,講 AI 工廠後面的視訊記憶體、互連、電力散熱和資料搬運瓶頸。歡迎關注公眾號,後面幾講會繼續連載。

一、先看一台整櫃裡裝了什麼

研究Vera Rubin,不能只盯著單顆GPU參數。真正有用的拆法,是把它當成一台整櫃系統來看。

按照 NVIDIA 官方頁面,Vera Rubin NVL72的配置包括 72 顆 Rubin GPU、36 顆 Vera CPUConnectX-9SuperNICBlueField-4DPU,通過NVLink 6做櫃內連接,並通過Quantum-X800InfiniBandSpectrum-XEthernet向外擴展。

官方規格還給出了一組很直觀的資料:整櫃擁有 20.7TB HBM4HBM4頻寬 1,580TB/s;CPU側擁有 54TB LPDDR5X整櫃NVLink頻寬 260TB/s,NVLink-C2C頻寬 65TB/s。單顆 Rubin GPU對應 288GB HBM4和 22TB/s 頻寬

這組數字說明,Vera Rubin的價值已經分佈在多個地方。GPU負責計算,HBM負責高速喂資料,Vera CPU負責調度和資料移動,NVLink負責櫃內協同,網路卡和交換機負責櫃外擴展,BlueField-4負責網路、儲存、安全和基礎設施解除安裝,液冷電源負責把整櫃穩定跑起來。

所以第三講的核心問題很簡單:當一台 AI 整櫃變複雜以後,那些東西會跟著變貴?

二、HBM4,GPU 旁邊最貴的記憶體塔

Vera Rubin最清楚的增量之一,是HBM4。NVIDIA 官方資料顯示,單顆 Rubin GPU配套 288GB HBM4和 22TB/s 頻寬;一台Vera Rubin NVL72整櫃對應 20.7TB HBM4

大模型訓練和推理都在消耗頻寬。訓練要不斷讀取參數、啟動值和梯度,推理要反覆訪問模型權重和KV cache。上下文長度越長,並行請求越多,GPU等待資料的時間越不能被忽視。

HBM的價值來自三個方面。第一是容量,模型參數和上下文需要更大的高速空間。第二是頻寬GPU要持續吃到資料。第三是封裝,HBM堆疊要通過 TSV、微凸點、底填、測試和 2.5D封裝與GPU連接。

這條鏈上,海外儲存原廠最直接受益。國內公司更多從封測、材料、裝置、測試、載板和散熱等環節尋找切入口。真正需要跟蹤的變數包括HBM代際、堆疊層數、良率客戶認證、測試能力和封裝配套。

一句話概括:Vera RubinHBM4推到整櫃成本和性能的核心位置,HBM周邊的封裝、測試和材料也會一起被拉上來。

三、先進封裝和載板,決定晶片能不能組合成系統

GPUHBM貼得越近,對先進封裝的要求越高。晶片之間要高速通訊,還要解決供電、散熱、機械應力、翹曲和測試良率

BlackwellVera Rubin,輝達延續整櫃路線。整櫃裡的每個計算節點,都離不開高密度互連和高可靠封裝。CoWoS2.5D3D 封裝IC 載板ABF底填膠臨時鍵合混合鍵合、減薄、清洗、檢測和測試裝置,都會圍繞高端 AI 晶片繼續升級。

IC 載板可以理解成高端晶片腳下的地基。封裝尺寸變大,訊號速率變高,功耗和熱應力上升,載板的層數、線寬線距、翹曲控制、材料穩定性和可靠性都會變得更重要。

玻璃基板也可以放在這條線裡觀察。它的長期價值在於大尺寸、低翹曲和高速訊號潛力;當前要看通孔、金屬化、成本、良率、裝置和客戶驗證。短期寫作口徑要克制,把它放進長期路線會更穩。

先進封裝鏈條的財報驗證,重點看三個指標:客戶匯入有沒有實質進展,產能利用率有沒有提升,良率現金流有沒有跟上。

四、第三條:NVLink 和高速互連,整櫃內部的高速公路

一台Vera Rubin NVL72有 72 顆 Rubin GPU。72 顆 GPU要一起工作,櫃內互連的質量直接影響訓練和推理效率。

NVIDIA 官方資料顯示,NVLink 6 Switch 提供每顆 GPU 3.6TB/s 的 all-to-all scale-up 頻寬整櫃NVLink頻寬達到 260TB/s。這個設計的目的,是讓一台整櫃儘量像一個統一的高速計算域運行。

互連頻寬提升以後,機會會向周邊硬體擴散。高速PCB、高頻高速材料、連接器銅纜、背板、Retimer、SerDes測試、訊號完整性測試、散熱材料和電源完整性設計,都會進入更高規格。

NVLink晶片本身由輝達主導,國內產業鏈直接參與空間有限。A 股可跟蹤的重點,主要在高速連接、PCB、銅連接、測試、散熱、電源和被動元件這些外溢環節。

這條線適合和連接器銅纜PCBMLCC電感一起寫。它們看起來細小,實際承擔著整櫃高速通訊和穩定供電的基礎任務。

五、網路、DPU 和 CPO,櫃外擴展開始吃掉更多預算

櫃內靠NVLink,櫃外還要靠網路。Vera Rubin NVL72通過Quantum-X800InfiniBandSpectrum-XEthernet向外擴展,同時配套ConnectX-9SuperNICBlueField-4DPU

NVIDIA 官方資料顯示,ConnectX-9SuperNIC提供每顆GPU 1.6Tb/s 的頻寬,並支援可程式設計RDMABlueField-4DPU用於加速儲存、網路、安全和彈性擴展等資料處理任務。

這裡的邏輯很直接。AI 工廠規模越大,資料中心內部需要傳輸的資料越多。訓練叢集要同步參數,推理叢集要處理長上下文、多輪對話、檢索增強和工具呼叫,儲存、網路和安全隔離都會消耗系統資源。

CPO矽光也被放進這條線。NVIDIA 官方頁面提到,Spectrum-XEthernet Co-Packaged Optics 採用整合矽光,目標是提升網路功耗效率、彈性和可用時間。

可跟蹤方向包括光模組矽光CPO、交換機、網路卡、AEC / DAC、銅連接、連接器企業級 SSD儲存網路和DPU相關鏈條。這個方向想像空間大,驗證周期也長,寫作時可以把短期訂單和長期路線分開。

六、液冷和電源,整櫃能不能穩定跑起來

整櫃算力密度提高以後,液冷電源會從幕後走到台前。GB200 NVL72已經採用液冷整櫃設計,Vera Rubin延續 rack-scale AI supercomputer 路線,功耗密度和散熱壓力都會繼續受到關注。

液冷鏈條可以拆成冷板、CDU、快接頭、泵閥、管路、分集水器、冷卻液、洩漏檢測和維運服務。電源鏈條可以拆成伺服器電源PDU、UPS、母線銅排連接器、功率器件、MLCC電感和電容。

這一組環節離整機放量比較近。AI 伺服器功率越高,單櫃熱流密度越高,傳統風冷空間越緊張,液冷滲透率就越值得跟蹤。供電側也一樣,電源轉換效率、瞬態響應、可靠性和安全冗餘都會影響整櫃運行。

這裡還可以接到MLCCGPUCPUHBM電源模組、主機板、網路卡、交換機和光模組周邊,都需要電容做去耦、濾波、穩壓和抗干擾。伺服器MLCC關注容量、耐壓、溫度、可靠性和客戶認證

液冷電源的研究要看訂單,也要看交付。裝置裝進去只是開始,長期穩定運行、售後維護、故障率和客戶復購同樣重要。

七、小零件的價值,來自數量、規格和認證

AI 整櫃越複雜,很多小零件的存在感越強。連接器銅纜PCBMLCC電感、熱介面材料、結構件、風扇備件、感測器和線束,單顆價值可能不高,但數量多、規格高、認證嚴格。

這一組環節適合用三個問題判斷。

• 第一,單櫃用量有沒有增加。整櫃GPUCPU、網路卡、交換模組和電源模組越多,周邊元器件數量越高。

• 第二,產品規格有沒有提升。高速、高壓、高熱、高可靠,會把普通產品和伺服器級產品拉開距離。

• 第三,客戶認證有沒有突破。進入頭部伺服器、雲廠商和整櫃平台以後,供應關係會更穩定。

這類生意的研究難點在於,它們通常不會出現在最顯眼的發佈會上,卻會出現在真實的 BOM、訂單、產能利用率和現金流裡。

八、那些機會離訂單近,那些周期長

從產業鏈節奏看,可以分成三組。

第一組,整機硬體配套。液冷電源連接器銅纜PCBMLCC電感和結構件,跟 AI 伺服器整櫃出貨節奏聯絡更直接。重點看客戶、訂單、交付、產能和現金流

第二組,封裝和製造能力。HBM封裝、先進封裝IC 載板ABF、封裝材料、測試裝置和檢測裝置,技術含量高,驗證周期也長。重點看匯入、良率、稼動率和高端產品收入佔比。

第三組,長期技術路線。CPO矽光玻璃基板混合鍵合、新型電源架構和更高密度液冷,空間很大,節奏要看客戶驗證、標準、成本和量產良率

這三組都能寫,但寫法要分開。離訂單近的環節,看財報和交付;驗證周期長的環節,看技術節點和客戶認證;長期路線,看趨勢和邊界。

九、財報上看什麼

第一,看 AI 相關收入佔比。公司有沒有真正進入資料中心、AI 伺服器整櫃、光通訊或高端封裝客戶。

第二,看高端產品佔比。普通消費電子產品和伺服器級產品的毛利率、認證周期、可靠性要求差異很大。

第三,看產能利用率。擴產以後能不能裝滿,是利潤彈性的關鍵。

第四,看存貨和經營現金流。硬體鏈條容易出現備貨、帳期和價格波動,利潤要能轉化成現金。

第五,看客戶認證先進封裝、材料、連接器MLCC液冷電源,都要用客戶匯入和量產交付說話。

下一講我們打算把這些指標放回 A 股產業鏈,看看那些環節已經離整櫃訂單更近,那些還處在驗證和產能爬坡階段。

結語

Vera Rubin的看點,不只在Rubin GPU的算力數字。它把HBM4Vera CPUNVLink 6ConnectX-9BlueField-4Spectrum-X液冷電源一起放進整櫃系統,讓硬體鏈條的價值分佈變得更清晰。

GPU仍然是中心,但高頻寬記憶體、先進封裝IC 載板、高速互連、網路、DPU液冷電源連接器MLCC儲存,都在影響AI 工廠的真實產出。

所以研究第三講,重點不在追逐某一個概念,而在拆清楚整櫃 BOM。誰的用量增加,誰的規格提升,誰通過客戶認證,誰才有機會把技術變化變成訂單和財報。 (大作手滋本家)