今天幾乎是被輝達Rubin CPX的這個新聞刷屏了,但白天太忙,晚上回來才有時間好好看看SemiAnalysis的這篇報告。在文章後半段,我們會簡單分析Rubin CPX利多的兩個方向。
想明白Rubin CPX 的價值,得先知道AI 大模型推理時的一個關鍵矛盾:預填充(prefill)和解碼(decode)這兩個階段,對硬體的需求完全是反的。
在我們之前的一次分析華為的Cloud Matrix 384中光模組用量的直播中,講到過Prefill和Decode的區別:
在Prefill階段特別吃計算能力,但對記憶體頻寬的需求很低;而接下來的Decode,模型要基於第一個token 不斷生成後續內容,這時候就不怎麼需要計算了,反而得靠高記憶體頻寬快速調取之前的KV 快取資料。
過去的問題是,大家都用同一種GPU(例如輝達的R200)來跑這兩個階段。結果在跑預填充時,R200 上那些昂貴的HBM 記憶體(高頻寬、高成本)根本用不上,頻寬利用率較低,相當於花大價錢買了個頂配跑車,結果只用來買菜;跑解碼時,又覺得計算能力過剩,記憶體頻寬不夠用。這種通用的硬方案,不僅浪費錢,還拖慢了整體效率。
輝達顯然看透了這一點,於是Rubin CPX 來了, 一款專門為預填充階段量身定做的加速器,目標只有一個:把該省的錢省下來,該用的性能拉滿。
先看核心參數,跟R200的差距不小,不僅HBM換成了GDDR7,視訊記憶體的容量、頻寬都顯著降低,還有個明顯的區別就是NVLink換成了PCIe Gen6,所以serdes的速率也從224G降到到了64G。
雖然性能下降了很多,但性價比卻提到了--成本降低了更多。
Rubin CPX 的BOM 成本(物料清單成本)只有R200 的25%,但能提供R200 60% 的運算能力。
HBM 記憶體因為頻寬高,一直是高階GPU 的標配,但價格也貴得離譜,佔GPU BOM 成本的比例越來越高(從A100 的35% 漲到GB300 的51%)。而Rubin CPX 用的GDDR7,雖然頻寬不如HBM4,但成本直接砍了80%,還不用像R200 那樣搞複雜的CoWoS 封裝,這兩下一省,成本自然就下來了。
更重要的是,它沒浪費性能。前面說過,預填充階段記憶體頻寬利用率極低,而Rubin CPX 因為頻寬剛好夠用,利用率反而提高了很多。同樣跑一個預填充任務,R200 每小時要浪費0.9 美元的TCO(總擁有成本),而Rubin CPX 只浪費0.16 美元—— 長期下來,對資料中心來說就是一筆巨款。
光有好晶片還不夠,輝達這次連機架都一起升級了—— 推出第三代Oberon 架構機架(叫Vera Rubin 系列),包含三種型號:VR200 NVL144、VR200 NVL144 CPX、Vera Rubin CPX 雙機架。這次的機架解決了前兩代(GB200/GB300)的幾大痛點。
1. 無電纜設計
之前的GB200 機架用的是電纜+ PCB的連接方式,飛線又多又亂,裝配時容易壞,還佔空間,導致每個計算托盤裡塞不下太多晶片。這次Rubin 系列直接搞了無電纜設計:用Amphenol 的板對板連接器,配合中間的PCB 中板,所有訊號都走電路板,沒有一條飛線。
好處很明顯:一是故障點少了,可靠性提升;二是空間省出來了。例如VR200 NVL144 CPX 機架,每個計算托盤裡能塞4 個R200 GPU + 8 個Rubin CPX + 2 個Vera CPU,整個機架算下來有396 個計算和網路晶片,密度比前兩代高了一大截。
2. 全液冷方案
AI 晶片越密集,散熱就越頭痛。前兩代機架是85% 液冷+ 15% 風冷,對付低功率還行,但這次VR200 NVL144 CPX 機架的功率預算直接衝到了370kW(相當於200 多台家用空調的功率),風冷根本扛不住。
於是輝達乾脆上了100% 全液冷,還搞了個三明治設計:把Rubin CPX 和CX-9 網路卡的PCB 板疊在一起,中間夾一個共享的液冷冷板,兩邊的熱量都能快速導走。這樣一來,即使每個計算托盤裡的晶片總功率到7040W,也能穩穩壓住,不會因為過熱降頻。
3. 靈活擴展
如果已經買了之前的VR200 NVL144 機架,不想全換怎麼辦?輝達給了Vera Rubin CPX 雙機架方案—— 你可以單獨加一個VR CPX 機架(裡面全是Rubin CPX),通過InfiniBand 或乙太網路連到原有叢集裡,不用非得挨著放。這樣就能依照自己的業務需求,靈活調整預填和解碼的比例,例如業務裡預填充任務多,就多加點CPX 機架,非常方便。
輝達這波操作,最慌的應該是AMD、Google、AWS 這些競爭對手。 SemiAnalysis的報告中的說法是:輝達和對手的差距,已經從鴻溝變成峽谷了。
先看AMD,之前AMD 剛發佈MI400 機架,號稱記憶體頻寬19.8TB/s,能和輝達掰掰手腕,結果輝達反手就把R200 的記憶體頻寬提到20.5TB/s,還出了Rubin CPX。現在AMD 不僅要繼續最佳化MI400 的軟體棧,還得緊急加錢開發自己的預填充專用晶片,可能之前的規劃的Roadmap都要打亂了。
再來看Google和AWS。 Google的TPU 雖然有3D Torus 網路的優勢(最大能搞9216 個TPU 的大叢集),但現在也得趕緊開發預填充專用晶片,不然內部用起來成本太高;AWS 的Trainium3 機架,原本想用自己的EFA 網路卡,結果發現VR200 NVL1444X 機架,根本沒有用地方交換機連起來,麻煩又費錢。
最慘的是那些做定製ASIC 晶片的公司,本來就比輝達慢一步,現在輝達又在硬體專用化上開了頭,這些公司要麼跟著做預填充、解碼專用晶片,要麼就只能在成本上被輝達壓著打
報告裡還提到了兩個未來的可能性,蠻有趣:
1. 解碼專用晶片
既然預填充能做專用晶片,解碼為什麼不行? SA推測,輝達可能會搞一款解碼專用晶片—— 跟Rubin CPX 反過來,少點計算能力,多堆記憶體頻寬。例如把R200 的計算晶片縮小,保留HBM 介面和I/O 晶片,這樣成本能再降一波,而且能效會更高。
2. GDDR7 的春天
Rubin CPX 用了GDDR7,加上之前RTX Pro 6000 也用,GDDR7 的需求會暴漲。 SA認為,三星因為產能充足,已經拿到了輝達的大訂單,而SK 海力士和美光因為忙著生產HBM,沒太多產能做GDDR7,所以接下來三星在GDDR7 市場可能會賺一波。
VR NVL144 CPX Compute Tray長下面這個樣子:
以下是輝達官方圖中標出的重要組成::
首先就是多出來一些CPX的板卡,當然PCB的用量也會上去。
而且從上面SemiAnalysis的圖中也可以看出,在VR200中,將採用透過midplane實現內部「無電纜設計」。在GB200中,CX7 直接放置在Bianca 板之上,並用線纜連接BlueField 與OSFP cages,而VR200 用midplane取代tray內部線纜,以連接Bianca board、CX9 與BlueField。
對VR200 來說,根據目前業內給的資料,僅供參考。預計每個NVL144 需要18 個midplane(每個compute tray一個),很有可能midplane將用44層PTH PCB,採用台光的896K3 M9 CCL,Switch則採用896K2(low-DK 2+HVLP 4)。
預計輝達每GPU 的PCB 價值量將從GB200 的約400 美元提升至VR200 的約900 美元,。
我們上面也提到液冷的方案,現在還沒法測算具體的價值量。但可以明確的是,每增加一顆CPX晶片,都需要配一塊冷板,同時還會拉動轉接器的需求,而且隨著機櫃功率的提升,CDU和管路的需求也同步增加。 (梓豪談芯)