在今年的S23大會上,NVIDIA 英偉達(輝達)突然宣布推出了NVIDIA HGX H200,為全球領先的AI 運算平台帶來強大動力。據介紹,該平台基於NVIDIA Hopper 架構,配備NVIDIA H200 Tensor Core GPU 和高階內存,可處理產生AI 和高效能運算工作負載的大量資料。
英偉達指出,NVIDIA H200 是首款提供HBM3e 的GPU,作為一種更快、更大的內存,HBM3e可加速生成式AI 和大型語言模型,同時能推進HPC 工作負載的科學計算。透過HBM3e,NVIDIA H200 能以每秒4.8 TB 的速度提供141GB 內存,與前一代的NVIDIA A100 相比,容量幾乎翻倍,頻寬增加2.4 倍。
HGX H200 由NVIDIA NVLink 和NVSwitch 高速互連提供支持,可為各種應用工作負載提供最高性能,包括針對超過1750 億個參數的最大模型的LLM 訓練和推理。英偉達表示,在不斷發展的人工智慧領域,企業依靠LLM來滿足各種推理需求。當為大量用戶群大規模部署時,人工智慧推理加速器必須以最低的TCO 提供最高的吞吐量。
在處理Llama2 (一個700 億參數的LLM)等LLM 時,H200 的推理速度比H100 GPU 提高了2 倍。
英偉達進一步指出,記憶體頻寬對於HPC 應用程式至關重要,因為它可以實現更快的資料傳輸,減少複雜的處理瓶頸。對於模擬、科學研究和人工智慧等記憶體密集型HPC 應用,H200 更高的記憶體頻寬可確保高效地存取和操作數據,與CPU 相比,獲得結果的時間最多可加快110 倍。
隨著H200 的推出,能源效率和TCO 達到了新的水平。這項尖端技術提供了無與倫比的性能,且功率配置與H100 相同。人工智慧工廠和超級運算系統不僅速度更快,而且更環保,提供了推動人工智慧和科學界向前發展的經濟優勢。
NVIDIA H200 將應用於具有四路和八路配置的NVIDIA HGX H200 伺服器主機板,這些主機板與HGX H100 系統的硬體和軟體相容。它也可用於8 月發布的採用HBM3e 的NVIDIA GH200 Grace Hopper superichip。
據介紹,八路HGX H200 提供超過32 petaflops 的FP8 深度學習計算和1.1TB 聚合高頻寬內存,可在生成式AI 和HPC 應用中實現最高性能。
英偉達表示,H200 可以部署在各種類型的資料中心中,包括本地、雲端、混合雲和邊緣。NVIDIA 的全球生態系統合作夥伴伺服器製造商(包括華擎Rack、華碩、戴爾科技、Eviden、技嘉、惠普企業、英格拉科技、聯想、QCT、Supermicro、緯創資通和緯穎科技)可以使用H200 更新其現有系統。
而除了CoreWeave、Lambda和Vultr 之外,亞馬遜網路服務、Google雲端、微軟Azure 和甲骨文雲端基礎設施將從明年開始成為首批部署基於H200 實例的雲端服務供應商。
HBM3e,H200的升級重點
隨著速度更快、容量更大的HBM3E 記憶體將於2024 年初上線,NVIDIA 一直在準備其當前一代伺服器GPU 產品以使用新記憶體。早在8 月份,我們就看到NVIDIA 計劃發布配備HBM3E 的Grace Hopper GH200 超級晶片版本。這次NVIDIA 宣布的H200,其實就是配備HBM3E 記憶體的獨立H100 加速器的更新版本。
根據SK海力士介紹,HBM3E不僅滿足了用於AI的記憶體必備的速度規格,也在發熱控制和客戶使用便利性等所有方面都達到了全球最高水準。在速度方面,其最高每秒可處理1.15TB(太字節)的資料。其相當於在1秒內可處理230部全高清(Full-HD,FHD)級電影(5千兆位元組,5GB)。值得一提的是,美光在七月也宣布推出超過1.2TBps HBM3 gen 2 產品,這顯示SK 海力士還有很多追隨的工作要做。
與Grace Hopper 的同類產品一樣,H200 的目的是透過推出具有更快和更高容量記憶體晶片版本,作為Hx00 產品線的中期升級。利用美光和其他公司即將推出的HBM3E 內存,NVIDIA 將能夠提供在內存頻寬受限的工作負載中具有更好的實際性能的加速器,而且還能夠提供能夠處理更大工作負載的部件。這對於生成式AI 領域尤其有幫助——迄今為止,該領域幾乎推動了對H100 加速器的所有需求——因為最大的大型語言模型可以最大程度地支援80GB H100。
同時,由於HBM3E 記憶體要到明年才能出貨,NVIDIA 一直在利用這個間隙發布HBM3E 更新零件。繼今年夏天發表GH200 後,NVIDIA 宣布採用HBM3E 的Hx00 加速器獨立版本只是時間問題,現在H200終於到來。
從今天披露的規格來看,H200 基本上看起來就像是GH200 的Hopper 一半,作為自己的加速器。當然,這裡最大的區別是將HBM3 替換為HBM3E,這使得NVIDIA 能夠提高記憶體頻寬和容量,並且NVIDIA 啟用了第6 個HBM記憶體堆疊,該堆疊在原始H100 中已停用。這將使H200 的記憶體頻寬從80GB 提升至141GB,記憶體頻寬從3.35TB/秒提升至NVIDIA 初步預期的4.8TB/秒。
根據總頻寬和記憶體匯流排寬度向後推算,這表示H200 的記憶體將以大約6.5Gbps/引腳運行,與原始H100 的5.3Gbps/引腳HBM3 記憶體相比,頻率增加了大約25%。這實際上遠低於HBM3E 額定的記憶體頻率(美光希望達到9.2Gbps/pin),但由於它正在針對現有GPU 設計進行改造,因此看到NVIDIA 當前的記憶體控制器沒有相同的記憶體頻率範圍也就不足為奇了。
H200也將保留GH200不同尋常的141GB記憶體容量。HBM3E 記憶體本身的物理容量為144GB(以六個24GB 堆疊的形式出現),但NVIDIA 出於產量原因保留了部分容量。因此,客戶無法存取板載的所有144GB,但與H100 相比,他們可以存取所有六個堆疊,並具有容量和記憶體頻寬優勢。
正如我們之前所說,運送具有全部6 個工作堆疊的零件基本上需要完美的晶片,因為H100 的規格非常慷慨地允許NVIDIA 運送具有非功能堆疊的零件。因此,與同類H100 加速器(已經供不應求)相比,這可能是體積較小、良率較低的零件。
除此之外,到目前為止,NVIDIA 尚未透露任何資訊表明H200 將比其前身俱有更好的原始計算吞吐量。雖然記憶體變化應該會提高實際效能,但NVIDIA 為HGX H200 叢集引用的32 PFLOPS FP8 效能與當今市場上的HGX H100 叢集相同。
不過根據anadtech分析,H200 迄今僅適用於SXM5 插槽,並且在向量和矩陣數學方面具有與Hopper H100 加速器完全相同的峰值性能統計數據。差異在於,H100 具有80 GB 和96 GB 的HBM3 內存,在初始設備中分別提供3.35 TB/秒和3.9 TB/秒的頻寬,而H200 具有141 GB 更快的HBM3e 內存,頻寬為4.8總頻寬為TB/TB秒。
與Hopper 基準相比,記憶體容量增加了1.76 倍,記憶體頻寬比Hopper 基準增加了1.43 倍——所有這些都在相同的700 瓦功率範圍內。作為對比,AMD 的Antares MI300X 將提供5.2 TB/秒的頻寬和192 GB 的HBM3 容量,並且很可能提供更高的峰值浮點功率,但也可能只是更有效的浮點功率。
最後,與配備HBM3E 的GH200 系統一樣,NVIDIA 預計H200 加速器將於2024 年第二季推出。
HGX H200和Quad GH200 ,同時發布
除了H200 加速器之外,NVIDIA 還發布了HGX H200 平台,這是使用較新加速器的8 路HGX H100 的更新版本。HGX 載板是NVIDIA H100/H200 系列的真正支柱,包含8 個SXM 外形加速器,這些加速器以預先安排的全連接拓撲連接。HGX 板的獨立性質使其能夠插入合適的主機系統,從而允許OEM 定制其高階伺服器的非GPU 部分。
鑑於HGX 與NVIDIA 的伺服器加速器齊頭並進,HGX 200 的發布很大程度上只是一種形式。儘管如此,NVIDIA 仍確保在SC23 上宣布這一消息,並確保HGX 200 主機板與H100 主機板交叉相容。因此,伺服器製造商可以在目前的設計中使用HGX H200,從而實現相對無縫的過渡。
隨著NVIDIA 現在批量發售Grace 和Hopper(以及Grace Hopper)晶片,該公司也宣布推出一些使用這些晶片的其他產品。其中最新的是4 路Grace Hopper GH200 板,NVIDIA 簡稱為Quad GH200。
名副其實,Quad GH200 將四個GH200 加速器放置在一塊板上,然後可以安裝在更大的系統中。各個GH200 以8 晶片、4 路NVLink 拓撲相互連接,其想法是使用這些板作為更大系統的構建塊。
實際上,Quad GH200 是與HGX 平台相對應的Grace Hopper。與僅GPU 的HGX 板不同,Grace CPU 的加入在技術上使每個板獨立且自支撐,但將它們連接到主機基礎設施的需求保持不變。
Quad GH200 節點將提供288 個Arm CPU 核心和總計2.3TB 的高速記憶體。值得注意的是,NVIDIA 在這裡沒有提到使用GH200 的HBM3E 版本(至少最初沒有),因此這些數字似乎是原始的HBM3 版本。這意味著我們希望每個Grace CPU 配備480GB LPDDR5X,每個Hopper GPU 配備96GB HBM3。或總共1920GB LPDDR5X和384GB HBM3記憶體。
一台超級電腦:23762個GH200,18.2 兆瓦
在發布H200的同時,NVIIDA 也宣布與Jupiter 合作贏得了新的超級電腦設計。根據EuroHPC 聯合組織的訂購,Jupiter 將成為由23,762 個GH200 節點建構的新型超級電腦。一旦上線,Jupiter 將成為迄今為止宣布的最大的基於Hopper 的超級計算機,並且是第一台明確(且公開)針對標準HPC 工作負載以及已經出現的低精度張量驅動的AI 工作負載的超級計算機。定義迄今為止宣布的基於Hopper 的超級電腦。
Jupiter 與Eviden 和ParTec 簽約,徹底展示了NVIDIA 技術。基於NVIDIA 今天發布的Quad GH200 節點,Grace CPU 和Hopper GPU 成為超級電腦的核心。各個節點均由Quantum-2 InfiniBand 網路支持,毫無疑問基於NVIDIA 的ConnectX 適配器。
該公司沒有透露具體的核心數量或記憶體容量數據,但由於我們知道單一Quad GH200 主機板提供的功能,因此數學計算很簡單。在高階(假設沒有出於良率原因進行回收/合併),這將是23,762 個Grace CPU、23,762 個Hopper H100 級GPU、大約10.9 PB 的LPDDR5X 和另外2.2PB 的HBM3 記憶體。
該系統預計為人工智慧用途提供93 EFLOPS 的低精度性能,或為傳統HPC 工作負載提供超過1 EFLOPS 的高精度(FP64) 性能。後一個數字尤其值得注意,因為這將使Jupiter 成為第一個用於HPC 工作負載的基於NVIDIA 的百億億次系統。
也就是說,應謹慎對待NVIDIA 的HPC 效能聲明,因為NVIDIA 仍在計算張量效能- 1 EFLOPS 是23,762 個H100 只能透過FP64 張量運算提供的東西。理論HPC 超級電腦吞吐量的傳統指標是向量效能而不是矩陣效能,因此該數字與其他系統不完全可比。不過,由於HPC 工作負載也部分地大量使用了矩陣數學,因此這也不是完全無關的說法。否則,對於任何尋求強制性Frontier 比較的人來說,Jupiter 的直接向量效能將約為800 TFLOPS,而Frontier 的直接向量效能是Frontier 的兩倍以上。另一方面,這兩個系統在現實條件下的接近程度將取決於它們各自的工作負載中使用了多少矩陣數學(LINPACK 結果應該很有趣)。
該系統的價格標籤尚未公佈,但功耗為:18.2 兆瓦電力(比Frontier 少約3 兆瓦)。因此,無論系統的真實價格是多少,就像系統本身一樣,它絕不是嬌小的。
根據NVIDIA 的新聞稿,該系統將安裝在德國於利希研究中心(Forschungszentrum Jülich) 設施中,用於「創建氣候和天氣研究、材料科學、藥物發現、工業工程和量子計算領域的基礎人工智慧模型」。” 該系統計劃於2024 年安裝,但尚未公佈預計上線日期。(半導體產業觀察)
參考連結
https://nvidianews.nvidia.com/news/nvidia-supercharges-hopper-the-worlds-leading-ai-computing-platform
https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024