模型推理主要分為2個階段:Prefill和Decode,其中:
- Prefill為計算密集型,算術強度高,GPU可逼近FP4/FP8理論峰值性能,GPU算力利用率可達90%-95%,視訊記憶體頻寬佔用低於30%;
- Decede為視訊記憶體頻寬密集型,算術強度低,需反覆從HBM視訊記憶體讀取Key、Value至SRAM,GPU算力利用率降至20%-40%,視訊記憶體頻寬佔用提升至85%-95%。
這會導致系統瓶頸由算力轉向視訊記憶體頻寬,基於上述的不對稱性,NV在Rubin中推出Disaggregated Inference(解耦式推理),將Prefill和Decode拆分到不同硬體,Decode硬體增加視訊記憶體頻寬,Prefill硬體增加算力,通過硬體異構化實現資源再配置。
但這一架構變革也給PCB提出了更高的要求:推動PCB向高頻高速、高密度互聯、高層數、高精度、高散熱方向升級,讓其在材料、製程、精度上趨近半導體級標準。
換言之,整個AI硬體的核心競爭力已經從“單卡算力”轉向“全系統互聯頻寬”,PCB在其中承擔了重要角色。從“晶片->封裝->板卡->機架”的角度看:
- 晶片層:HBM4的引入要求中介層和封裝基板支援千位級I/O介面,訊號完整性要求向半導體封裝基板標準靠攏;
- 封裝層:CoWoS向CoWoP演進,讓PCB開始承擔基板功能,層間對位精度與線寬線距向先進封裝標準靠攏;
- 板卡層:PCB層數隨著速率提升開始非線性提升,從10層->20+層->60+層,技術難度指數級提升;
- 機架層:Rubin Ultra開始用78層M9級正交背板代替銅纜,承擔機櫃內GPU全互聯通訊,PCB從“晶片承載元件”躍升為“機架級核心互聯介質”。
這些均會推動PCB市場呈現“量價齊升”的增長:
- 量上:Rubin Ultra NVL576整合的GPU是NVL72的2倍;
- 價上:Switch Tray等使用M8和24層HDI設計,Mid plane等則使用M9和104層設計。
預計單台伺服器的PCB價值量在代際升級後將提升超2x。詳細分析請參考國金的報告《正在半導體化的PCB》。
這和大摩最新測算的新一代NV產品元件成本增幅相近:
Rubin整體成本翻倍,其中PCB增幅達233%,增長因素包括:
- 新增了Midplane PCB、ConnectX模組和BlueField模組
- 計算板的層數從22L提升至26L
- 材料等級從M7升級至M8
- 開關板的層數從24L提升至32L
- Compute Blade PCB採用M9+Q布材料
- 整櫃級正交背板替代傳統銅纜cartridge (401K-景交所)
