輝達下一個“大殺器”
今天這個料有點猛,GB200、GB300、VR200之後,輝達還在規劃什麼?如下圖(from 肉總)
其實相當於,將4個NVL72繼續壓縮成一個288卡單機櫃。這裡有太多有趣的點值得咀嚼:
1. 我第一反應是,這玩意靠譜嗎?問了特別敬佩的一位美國大哥,他之前就參與過IBM大型機研發,當時GB200出來他提出了很多尖銳的問題。他看完這個288卡“怪物”竟然覺得,make sense...因為模型工作負載的重心變了...
2. 什麼樣的負載?顯然是推理。訓練時代,後向傳播需要超大規模的模型平行,從而強調大叢集、機櫃間互聯(inter-rack);而推理,尤其是小模型、多步推理,強調的不是大叢集,而是局部強互聯,或者“超節點”(intra-rack)。之前文章曾經說過,HBM解決了訪存頻寬最高性價比,而成本、能耗更低的銅纜實現的超節點,解決了單機櫃內卡間互聯最高性價比,從而大幅降低推理成本(從pre-fill和decode兩個推理的處理程序來看,推理成本的本質是頻寬成本)。從最近模型進展來看(尤其是o1),NV這種超節點大機櫃的確定義的非常精準。
3. 其次,銅纜的生命周期可能比想像中長。這不是光和銅誰替代誰的問題,而是AI下游工作負載遷移的問題...任何產業都會從研發走向“生產部署”,而推理佔據90%以上負載可能只是時間問題。而推理更強調局部互聯,說到底,銅纜是目前低成本、低功耗、高穩定性地實現局部互聯的最佳方式。因此不用討論Rubin還用不用銅纜,銅纜可能會持續很多代。黃仁勳2天前和ARM CEO有個播客建議大家去聽,其中提到一句:“儘可能長時間的使用銅/電傳輸,從而降低成本和複雜性”
4. 之前8機櫃576卡互聯的問題得到瞭解答。之前按照GB200機櫃之間的距離,用無源銅纜連接是不可能的。而按照這個示意圖,相當於把NVL72機櫃進一步壓縮,機櫃之間的距離,拉到了甚至 1 米以內,也就是無源銅纜可以覆蓋的距離,從而實現了L1層網路全銅連接。而銅纜可以實現的NVLink domain,從72擴展到了288,關鍵問題來了,這需要一個超強的交換機,沒錯,是個288 High radix switch...
5. 散熱如何解決...這可能是我最大的疑問。畢竟現在NVL72的散熱就搞了好久..而圖中這個設計,的確是100%水冷,但288卡塞到一個rack(暫時不知道這是多少U或者多高的機櫃),還是難以想像。其次,這個單機櫃功耗是1MW...什麼概念,目前GB200是120kw,已經需要新建IDC,那麼1MW…這裡畫一個大大的問號。
6. 系統穩定性如何?如果這次GB200遇到的問題最終解決(散熱、銅纜、cowos-L),有可能給Vera Rubin以及這個288卡“怪物”鋪平了路。從Blackwell這次的delay可以看到,晶片每年一迭代的難度是極大的,但在軟體和系統層面每年做最佳化卻簡單很多,通過board level的整合實現性能飛躍,可能的確是更穩妥的一條路。
7. 最重要的問題,這玩意,可以再把推理成本降低多少?不知道定價、精度等因子,如果只看單機櫃的性能perf,可以非常粗略的計算,288卡、單卡假設4顆die、NVlink假設至少翻倍、HBM也至少翻倍,整個機櫃的性能應該是GB200的至少30倍...而從perf/W的角度,大概提升了4倍的能耗效率。因此,回到我們那句老話,輝達是“因”而不是“果”,是NV在推動行業的進步,將o1這種reasoning model的成本再降低一個數量級,maybe可以讓應用的誕生更快一點...
8. 最後,總結下未來3年的輝達產品線:2025H1行業大規模部署GB200,2025H2部署GB300/GB300A,2026部署Rubin系列的VR200,2026年底或者2027部署這個288卡的“Rubin-Next”。未來3年推理成本下降曲線清晰可見。
最後要聲明,圖中所示,"is early concept to illustrate direction, not final design”,即NV的早期設計概念。不過目前看下來,相對靠譜,符合下一步推理負載的演進趨勢,也依然延續著NV“系統性能數量級提升”的老路。GB200高強度拉練了一遍供應鏈,快速掃清了茫茫多工程障礙,之後“系統壓縮”這條路可能也相對順暢一些。 (資訊平權)