H100→GH200→GB200，輝達如何搭建 AI超級電腦SuperPod？

2024/10/06

•

進入AI大模型時代，單個GPU訓練AI模型早已成為歷史。如何讓成百上千個GPU互連，組成宛若一個GPU的超級計算系統，成為業界熱點！

NVIDIA DGX SuperPOD是下一代資料中心人工智慧（AI）架構。旨在提供AI模型訓練、推理、高性能計算（HPC）和混合應用中的高級計算挑戰所需的計算性能水平，以提高預測性能和解決方案的時間。

下面一起學習輝達H100→GH200→GB200三代產品的GPU互連架構方案。

需要加入中國AI伺服器之互聯技術&硬體交流群的朋友，可長按二維碼新增群主微信，並備註：公司+主營+姓名（未備註，恕不通過）

1、基於H100搭建256 GPU的SuperPod

在DGX A100情況下，每個節點上8張GPU通過NVLink和NVSwitch互聯，機間（不同伺服器）直接用200Gbps IB HDR網路互聯（註：機間網路可以用IB網路，也可以用RoCE網路）。

而在DGX H100的情況下，輝達把機內的NVLink擴展到機間，增加了NVLink-network Switch，由NVSwitch負責機內的交換，NVLink-network Switch則是負責機間交換的交換機，基於NVSwitch和NVLink-network Switch可以搭建256個H100 GPU組成的SuperPod（即一個超級計算系統），256個GPU卡Reduce頻寬仍然可以打到450 GB/s，和單機內部8個GPU卡的Reduce頻寬完全一致。

但是DGX H100的SuperPod也存在一定的問題，跨DGX H100節點的連接只有72個NVLink連接，SuperPod系統裡並不是無收斂的網路。

如下圖，在DGX H100系統裡，四個NVSwitch留出了72個NVLink連接用於通過NVLink-network Switch連接到其他DGX H100系統，72個NVLink連接的總雙向頻寬是3.6TB/s，而8個H100的總雙向頻寬是7.2TB/s，因此，在SuperPod系統裡在NVSwitch處存在收斂。

2、基於GH200和GH200 NVL32搭建256 GPU的SuperPod

2023年，輝達宣佈生成式AI引擎DGX GH200投入量產，GH200是H200 GPU（H200與H100主要是記憶體大小和頻寬性能方面的區別）與Grace CPU的結合體，一個Grace CPU對應一個H200 GPU，GH200除了GPU之間採用NVLink4.0連接以外，GPU和CPU之間也採用NVLink4.0連接。

GH200通過NVLink 4.0的900GB/s超大網路頻寬能力來提升算力，伺服器內部可能採用銅線方案，但伺服器之間可能採用光纖連接。對於單個256 GH200晶片的叢集，計算側1個GH200對應9個800Gbps（每個800Gbps對應100GB/s，2條NVLink 4.0鏈路）光模組。

GH200 SuperPod與DGX H100 SuperPod的區別在於在單節點內部和節點之間互聯時都是用NVLink-network Switch互聯。

DGX GH200採用二級Fat-tree結構，由8個GH200和3個一級NVLink-network Switch（每個NVSwitch Tray包含2個NVSwitch晶片，有128個Port）組成單機，32個單機經由36個二級NVLink-network Switch全互聯，形成了256個GH200的SuperPod（注意是36個二級NVLink-network Switch，這樣才能保證無收斂）。

圖：基於GH200搭建256 GPU的SuperPod

GH200 NVL32為機架級叢集，單個GH200 NVL32擁有32個GH200 GPU和9個NVSwitch Tray（18個NVSwitch3.0晶片），如果組成256個GPU的GH200 NVL32超級節點，則需要再組態一級機間的36個NVLink-network Switch即可。

3、基於GB200 NVL72搭建576 GPU的SuperPod

和GH200不同，一個GB200由1個Grace CPU和2個Blackwell GPU組成（註：單個GPU算力不完全等價B200）。GB200 Compute Tray是基於輝達MGX設計的，一個Compute Tray包含2個GB200，也就是2個Grace CPU、4個GPU。

一個GB200 NVL72節點包含18個GB200 Compute Tray，即36個Grace CPU，72個GPU，此外還包含9個NVLink-network Switch Tray（每個Blackwell GPU有18個NVLink，而每個第4代NVLink-network Switch Tray包含144個NVLink Port，所以需要72*18/144=9個NVLink-network Switch Tray實現全互聯）。

圖：GB200 NVL72內部拓撲架構

在輝達的官方宣傳中，8個GB200 NVL72組成一個SuperPod，從而組成一個由576個GPU組成的超級節點。

但是，我們通過分析可以看出GB200 NVL72機櫃中的9個NVLink-network Switch Tray已經全部用於連接72個GB200了，已經沒有額外的NVLink介面用於擴展構成更大規模的兩層交換叢集了，576個GPU的SuperPod從輝達官方的圖片來看，更多的是通過Scale-Out RDMA網路互聯的，而並不是通過Scale-Up的NVLink網路互聯的。如果需要通過NVLink互聯來支援576個GPU的SuperPod，則需要每72個GB200組態18個NVSwitch，這樣單機櫃就放不下了。

另外，輝達官方說NVL72有單機櫃版本，也有雙機櫃的版本，並且雙機櫃每個Compute Tray只有一個GB200子系統，這樣有可能是通過雙機櫃的版本來實現通過NVLink互聯來支援576個GPU的SuperPod，這樣這個雙機櫃版本的每個雙機櫃有72個GB200和18個NVLink-network Switch Tray，從而可以滿足兩層叢集的部署需要。如下圖所示：

圖：基於GB200搭建576GPU的SuperPod

和上一代256個H200全互聯類似結構類似，只是第一級及第二級所有的裝置台數有所不同，需要兩級NVLink-network Switch互聯：

第一級的一半Port連接576個Blackwell GPU，所以需要576*18/(144/2) =144個NVLink-network Switch，每個NVL72有18個NVLink-network Switch Tray。第二級Port全部與第一級的NVLink-network Switch Port連接，所以需要144*72/144=72 個NVSwitch。 (可鑑智庫)