H100→GH200→GB200,輝達如何搭建 AI超級電腦SuperPod?

進入AI大模型時代,單個GPU訓練AI模型早已成為歷史。如何讓成百上千個GPU互連,組成宛若一個GPU的超級計算系統,成為業界熱點!

NVIDIA DGX SuperPOD是下一代資料中心人工智慧(AI)架構。旨在提供AI模型訓練、推理、高性能計算(HPC)和混合應用中的高級計算挑戰所需的計算性能水平,以提高預測性能和解決方案的時間。

下面一起學習輝達H100→GH200→GB200三代產品的GPU互連架構方案。

需要加入中國AI伺服器之互聯技術&硬體交流群的朋友,可長按二維碼新增群主微信,並備註:公司+主營+姓名(未備註,恕不通過)

1、基於H100搭建256 GPU的SuperPod

在DGX A100情況下,每個節點上8張GPU通過NVLink和NVSwitch互聯,機間(不同伺服器)直接用200Gbps IB HDR網路互聯(註:機間網路可以用IB網路,也可以用RoCE網路)。

而在DGX H100的情況下,輝達把機內的NVLink擴展到機間,增加了NVLink-network Switch,由NVSwitch負責機內的交換,NVLink-network Switch則是負責機間交換的交換機,基於NVSwitch和NVLink-network Switch可以搭建256個H100 GPU組成的SuperPod(即一個超級計算系統 ),256個GPU卡Reduce頻寬仍然可以打到450 GB/s,和單機內部8個GPU卡的Reduce頻寬完全一致。



但是DGX H100的SuperPod也存在一定的問題,跨DGX H100節點的連接只有72個NVLink連接,SuperPod系統裡並不是無收斂的網路。

如下圖,在DGX H100系統裡,四個NVSwitch留出了72個NVLink連接用於通過NVLink-network Switch連接到其他DGX H100系統,72個NVLink連接的總雙向頻寬是3.6TB/s,而8個H100的總雙向頻寬是7.2TB/s,因此,在SuperPod系統裡在NVSwitch處存在收斂。


圖:基於H100搭建256 GPU的SuperPod



2、基於GH200和GH200 NVL32搭建256 GPU的SuperPod

2023年,輝達宣佈生成式AI引擎DGX GH200投入量產,GH200是H200 GPU(H200與H100主要是記憶體大小和頻寬性能方面的區別)與Grace CPU的結合體,一個Grace CPU對應一個H200 GPU,GH200除了GPU之間採用NVLink4.0連接以外,GPU和CPU之間也採用NVLink4.0連接。


GH200通過NVLink 4.0的900GB/s超大網路頻寬能力來提升算力,伺服器內部可能採用銅線方案,但伺服器之間可能採用光纖連接。對於單個256 GH200晶片的叢集,計算側1個GH200對應9個800Gbps(每個800Gbps對應100GB/s,2條NVLink 4.0鏈路)光模組。

GH200 SuperPod與DGX H100 SuperPod的區別在於在單節點內部和節點之間互聯時都是用NVLink-network Switch互聯。

DGX GH200採用二級Fat-tree結構,由8個GH200和3個一級NVLink-network Switch(每個NVSwitch Tray包含2個NVSwitch晶片,有128個Port)組成單機,32個單機經由36個二級NVLink-network Switch全互聯,形成了256個GH200的SuperPod(注意是36個二級NVLink-network Switch,這樣才能保證無收斂)。

圖:基於GH200搭建256 GPU的SuperPod


GH200 NVL32為機架級叢集,單個GH200 NVL32擁有32個GH200 GPU和9個NVSwitch Tray(18個NVSwitch3.0晶片),如果組成256個GPU的GH200 NVL32超級節點,則需要再組態一級機間的36個NVLink-network Switch即可。



3、基於GB200 NVL72搭建576 GPU的SuperPod

和GH200不同,一個GB200由1個Grace CPU和2個Blackwell GPU組成(註:單個GPU算力不完全等價B200)。GB200 Compute Tray是基於輝達MGX設計的,一個Compute Tray包含2個GB200,也就是2個Grace CPU、4個GPU。

一個GB200 NVL72節點包含18個GB200 Compute Tray,即36個Grace CPU,72個GPU,此外還包含9個NVLink-network Switch Tray(每個Blackwell GPU有18個NVLink,而每個第4代NVLink-network Switch Tray包含144個NVLink Port,所以需要72*18/144=9個NVLink-network Switch Tray實現全互聯)。

圖:GB200 NVL72內部拓撲架構



在輝達的官方宣傳中,8個GB200 NVL72組成一個SuperPod,從而組成一個由576個GPU組成的超級節點。

但是,我們通過分析可以看出GB200 NVL72機櫃中的9個NVLink-network Switch Tray已經全部用於連接72個GB200了,已經沒有額外的NVLink介面用於擴展構成更大規模的兩層交換叢集了,576個GPU的SuperPod從輝達官方的圖片來看,更多的是通過Scale-Out RDMA網路互聯的,而並不是通過Scale-Up的NVLink網路互聯的。如果需要通過NVLink互聯來支援576個GPU的SuperPod,則需要每72個GB200組態18個NVSwitch,這樣單機櫃就放不下了。

另外,輝達官方說NVL72有單機櫃版本,也有雙機櫃的版本,並且雙機櫃每個Compute Tray只有一個GB200子系統,這樣有可能是通過雙機櫃的版本來實現通過NVLink互聯來支援576個GPU的SuperPod,這樣這個雙機櫃版本的每個雙機櫃有72個GB200和18個NVLink-network Switch Tray,從而可以滿足兩層叢集的部署需要。如下圖所示:

圖:基於GB200搭建576GPU的SuperPod


和上一代256個H200全互聯類似結構類似,只是第一級及第二級所有的裝置台數有所不同,需要兩級NVLink-network Switch互聯:

第一級的一半Port連接576個Blackwell GPU,所以需要576*18/(144/2) =144個NVLink-network Switch,每個NVL72有18個NVLink-network Switch Tray。第二級Port全部與第一級的NVLink-network Switch Port連接,所以需要144*72/144=72 個NVSwitch。 (可鑑智庫)