輝達下一個“大殺器”

2024/10/17

•

今天這個料有點猛，GB200、GB300、VR200之後，輝達還在規劃什麼？如下圖（from 肉總）

其實相當於，將4個NVL72繼續壓縮成一個288卡單機櫃。這裡有太多有趣的點值得咀嚼：

1. 我第一反應是，這玩意靠譜嗎？問了特別敬佩的一位美國大哥，他之前就參與過IBM大型機研發，當時GB200出來他提出了很多尖銳的問題。他看完這個288卡“怪物”竟然覺得，make sense...因為模型工作負載的重心變了...

2. 什麼樣的負載？顯然是推理。訓練時代，後向傳播需要超大規模的模型平行，從而強調大叢集、機櫃間互聯（inter-rack）；而推理，尤其是小模型、多步推理，強調的不是大叢集，而是局部強互聯，或者“超節點”（intra-rack）。之前文章曾經說過，HBM解決了訪存頻寬最高性價比，而成本、能耗更低的銅纜實現的超節點，解決了單機櫃內卡間互聯最高性價比，從而大幅降低推理成本（從pre-fill和decode兩個推理的處理程序來看，推理成本的本質是頻寬成本）。從最近模型進展來看（尤其是o1），NV這種超節點大機櫃的確定義的非常精準。

3. 其次，銅纜的生命周期可能比想像中長。這不是光和銅誰替代誰的問題，而是AI下游工作負載遷移的問題...任何產業都會從研發走向“生產部署”，而推理佔據90%以上負載可能只是時間問題。而推理更強調局部互聯，說到底，銅纜是目前低成本、低功耗、高穩定性地實現局部互聯的最佳方式。因此不用討論Rubin還用不用銅纜，銅纜可能會持續很多代。黃仁勳2天前和ARM CEO有個播客建議大家去聽，其中提到一句：“儘可能長時間的使用銅/電傳輸，從而降低成本和複雜性”

4. 之前8機櫃576卡互聯的問題得到瞭解答。之前按照GB200機櫃之間的距離，用無源銅纜連接是不可能的。而按照這個示意圖，相當於把NVL72機櫃進一步壓縮，機櫃之間的距離，拉到了甚至 1 米以內，也就是無源銅纜可以覆蓋的距離，從而實現了L1層網路全銅連接。而銅纜可以實現的NVLink domain，從72擴展到了288，關鍵問題來了，這需要一個超強的交換機，沒錯，是個288 High radix switch...

5. 散熱如何解決...這可能是我最大的疑問。畢竟現在NVL72的散熱就搞了好久..而圖中這個設計，的確是100%水冷，但288卡塞到一個rack（暫時不知道這是多少U或者多高的機櫃），還是難以想像。其次，這個單機櫃功耗是1MW...什麼概念，目前GB200是120kw，已經需要新建IDC，那麼1MW…這裡畫一個大大的問號。

6. 系統穩定性如何？如果這次GB200遇到的問題最終解決（散熱、銅纜、cowos-L），有可能給Vera Rubin以及這個288卡“怪物”鋪平了路。從Blackwell這次的delay可以看到，晶片每年一迭代的難度是極大的，但在軟體和系統層面每年做最佳化卻簡單很多，通過board level的整合實現性能飛躍，可能的確是更穩妥的一條路。

7. 最重要的問題，這玩意，可以再把推理成本降低多少？不知道定價、精度等因子，如果只看單機櫃的性能perf，可以非常粗略的計算，288卡、單卡假設4顆die、NVlink假設至少翻倍、HBM也至少翻倍，整個機櫃的性能應該是GB200的至少30倍...而從perf/W的角度，大概提升了4倍的能耗效率。因此，回到我們那句老話，輝達是“因”而不是“果”，是NV在推動行業的進步，將o1這種reasoning model的成本再降低一個數量級，maybe可以讓應用的誕生更快一點...

8. 最後，總結下未來3年的輝達產品線：2025H1行業大規模部署GB200，2025H2部署GB300/GB300A，2026部署Rubin系列的VR200，2026年底或者2027部署這個288卡的“Rubin-Next”。未來3年推理成本下降曲線清晰可見。

最後要聲明，圖中所示，"is early concept to illustrate direction, not final design”，即NV的早期設計概念。不過目前看下來，相對靠譜，符合下一步推理負載的演進趨勢，也依然延續著NV“系統性能數量級提升”的老路。GB200高強度拉練了一遍供應鏈，快速掃清了茫茫多工程障礙，之後“系統壓縮”這條路可能也相對順暢一些。 (資訊平權)