輝達發佈的《DGX SuperPOD GB300參考架構》,這次架構白皮書其實可以看作是它面向“AI工廠”時代的重磅技術藍圖。簡單來說,就是輝達正式公佈了它自家AI超算系統的完整結構,讓外部企業和機構能直接照著搭建一座屬於自己的AI工廠。
官方說這是它內部系統的“物理孿生體”——也就是說,你買的、部署的DGX SuperPOD,跟輝達自己在訓練大模型的系統是一模一樣的。這一點非常關鍵,因為這意味著所有的軟體、驅動、網路、儲存方案都已經被輝達內部驗證過,穩定性、相容性和性能都能保證,部署周期也會比以往縮短很多。
這代SuperPOD的核心是DGX GB300系統,搭載Grace CPU和Blackwell Ultra GPU(B300),是專門為AI訓練和推理打造的高密度計算平台。輝達用一種叫Scalable Unit(SU)的模組化設計來組建整套系統。
一個SU包含8個DGX GB300機架,每個機架裡面有72顆GPU,總共576顆GPU。這樣一來,部署方式就變得非常靈活——你可以先上一個SU,後續再往上疊。整個架構最大可以擴展到128個機架,也就是9216顆GPU,單個SU的功率就已經高達1.2兆瓦,功耗和熱負載都非常驚人。輝達在文件裡也明確要求,資料中心至少要達到Tier 3等級標準,具備平行維護、無單點故障的能力。冷卻方式上,GB300採用了混合冷卻結構:GPU和CPU部分是直液冷,其他元件還是風冷,這樣既能控制能耗,又能降低維護難度。
DGX GB300,每個托盤有兩顆GB300 ,每顆Superchip由兩顆B300 GPU和一顆Grace CPU組成,中間通過NVLink-C2C互聯,CPU和GPU共用記憶體、直接通訊。這樣的組合讓大模型的訓練速度能提升幾個量級。每個托盤配有高速網路卡:4個ConnectX-8用於InfiniBand互聯,還有一張BlueField-3 DPU用於儲存與管理網路。儲存方面,每個托盤都有NVMe SSD作為本地快取和系統盤,用於高速資料訪問。
在互聯部分,輝達用了自家的NVLink 5技術。每個機架配備9個NVLink交換模組,用於連接機架內的72顆GPU。每顆B300 GPU有18條NVL5鏈路,頻寬能達到1.8TB/s。這意味著所有GPU之間幾乎是全互聯的,延遲極低,非常適合大模型訓練時需要頻繁參數同步的場景。供電部分也升級了,每個電源架能輸出33kW,一個機架裡有8組,具備冗餘設計,還能通過儲能模組緩衝峰值電流,減少資料中心配電壓力。
網路是這份架構檔案中篇幅最長、設計最複雜的部分。輝達把整個系統的網路分成了四層:GPU之間的NVLink互聯、計算網路(InfiniBand)、儲存網路(乙太網路)以及獨立的管理網路。計算網路用的是Quantum-X800 InfiniBand交換機,單向頻寬800Gbps,支援RDMA和各種集合通訊加速功能。儲存網路用Spectrum-4以太交換機,通過RoCEv2協議訪問高性能儲存,獨立於計算網路運行,保證訓練和資料訪問互不干擾。管理網路則是完全獨立的Out-of-Band結構,用來連接BMC、NVSwitch控製器、機架電源和監控裝置,確保硬體層面的管理不受業務網路干擾。這種多層結構讓系統既快又穩,還能在安全和可維護性上做到隔離。
儲存部分輝達分成了兩層:高性能儲存(HPS)和使用者儲存(User Storage)。HPS負責訓練和推理的主資料流,要求非常高——要支援NVMe、RoCEv2、POSIX語義、多執行緒並行讀寫,還要能在節點失效時保持高可用。使用者儲存則更偏向系統管理用途,比如日誌、配置檔案、共享目錄等,通常用NFS接入。檔案裡給了性能指標:單個SU在標準配置下讀寫吞吐分別是90GB/s和45GB/s,增強配置可以到280GB/s和140GB/s;如果擴展到4個SU,讀寫性能分別能達到1.12TB/s和560GB/s。這說明SuperPOD的儲存性能是線性可擴展的,越大規模越能發揮出優勢。
軟體層面,輝達提出了一個非常完整的管理體系:Mission Control + Run:AI + Base Command Manager。Mission Control是整個系統的中樞,負責維運、監控、調度和自癒。它能自動檢測硬體或節點異常,觸發任務遷移,甚至自動恢復訓練任務到上一個checkpoint,避免重訓。Run:AI負責資源編排和多租戶調度,比如自動分配GPU、動態擴容訓練作業。Base Command Manager則提供底層管理和配置介面。Mission Control還能與資料中心的樓宇管理系統(BMS)打通,實現溫度、能耗、冷卻流量等指標的即時監控。整個軟體棧支援SLURM和Kubernetes兩種主流調度框架,對AI訓練、推理、微服務部署都能相容。
值得注意的是,輝達在這份檔案中也透露了它對液冷的態度:在GB300時代,液冷已經不再是可選項,而是標配。每個SU功率高達1.2MW,傳統風冷根本無法支撐這種熱密度。輝達不僅提供了硬體冷卻方案,還在Mission Control層整合了液冷管理和報警機制,能即時監控冷卻環路溫度、水流速、壓力等參數。換句話說,從GB300開始,液冷已經成為AI伺服器的基礎設施。
從全域上看這份檔案不僅僅是一份技術規範,更像是輝達為整個AI基礎設施生態畫的一張藍圖。DGX SuperPOD GB300代表了AI工廠的標準形態:高密度算力、高速互聯、分層儲存、全端自動化管理,再加上液冷和能源最佳化,形成一個閉環。輝達的思路很清晰——AI計算將走向工業化生產,而DGX SuperPOD就是AI的“生產線”。它把計算、儲存、網路、冷卻、維運全部標準化、模組化,讓AI工廠可以像搭積木一樣複製。未來無論是雲廠商、科研機構還是大型企業,基本都可以在這個架構上建構自己的AI算力中心。 (零氪1+1)