本周,亞特蘭大 SC24 會議上熱議的 11 月份 Top500 超級電腦排名較 5 月份在德國漢堡 ISC24 會議上發佈的 6 月份名單有了很大變化,而且正在安裝的新機器也有一些有趣的進展。
當然,最大的新聞是,期待已久的“El Capitan”系統由惠普企業公司打造,採用 AMD 的混合 CPU-GPU 計算引擎,現已投入運行,並且不出所料,成為排行榜上新的flopper。而且,它遠遠領先於美國的競爭對手,以及中國傳聞的百億億次級機器的規格。
El Capitan 的很大一部分(截至撰寫本文時我們還不知道它到底有多大),包括 43,808 台 AMD“Antares-A”Instinct MI300A 裝置(根據我們的計算),已經由勞倫斯利弗莫爾國家實驗室根據各種基準進行了測試,包括自 1993 年以來用於對超級電腦進行排名的高性能 Linpack 測試。使用 HPL 測試的 El Capitan 部分的峰值理論性能為 2,746.4 petaflops,明顯高於我們預期的 2.3 exaflops 到 2.5 exaflops。(當然,這是針對 64 位精度的浮點運算而言的。)HPL 測試的峰值持續性能為 1,742 petaflops,計算效率為 63.4%。這是我們對新加速系統進入市場時所期望的效率水平(我們的標準是 65%),我們預計在 2025 年的後續排名中,El Capitan 將在基準測試中發揮更多的理論容量,因為該系統正在逐步獲得勞倫斯利弗莫爾的認可。
提醒一下,MI300A 於 2023 年 12 月與其兄弟 MI300X(具有八個 GPU 晶片組,沒有 CPU 核心)一起發佈。MI300A 有三個晶片組,總共有二十四個“Genoa”Epyc 核心和六個 Antares GPU 流式多處理器晶片組,運行頻率為 1.8 GHz。在 Cray EX 系統中,所有 MI300A 計算引擎都通過 HPE 的“Rosetta”Slingshot 11 乙太網路互連相互連接。總而言之,在測試的 El Capitan 部分中,GPU 晶片組上有 105 萬個 Genoa 核心和略低於 1000 萬個流式多處理器。這顯然需要管理大量的並行。但這並不瘋狂。位於中國無錫國家超級計算中心的神威“太湖之光”超級電腦自 2016 年以來一直位列 Top500 排行榜,至今仍是全球第十五強大的機器(至少在使用 HPL 測試的機器中),總共擁有 1065 萬個核心。
在勞倫斯·利弗莫爾 (Lawrence Livermore) 於 SC24 進行簡報之後,我們將單獨深入研究 El Capitan 機器的架構,並且我們將在這裡連結到該故事。
每一份 Top500 榜單都是新舊機器的混合體,隨著新機器使用 HPL 進行測試,其所有者提交結果,之前榜單上性能較差的機器將被淘汰,不再是 Top500 的一部分——即使它們仍在使用。此外,美國、歐洲和中國的許多機器並不將 HPC 模擬和建模作為日常工作,但這些機器也被列入榜單,因為公司及其 OEM 合作夥伴想要操縱榜單。通用叢集上的 HPL 資訊很有趣,但它會扭曲所謂超級電腦的排名。說實話,我們長期以來只將 Top50 機器視為真正的超級電腦,並一直在努力想出一些方法讓這個排名更有用。
早在 6 月份,我們就決定只關注榜單上的新進入者,試圖以此作為衡量 HPC 領域發展情況的指標。我們將再次對 2024 年 11 月的排名進行細分,看看人們最近購買和測試了什麼。有一些有趣的趨勢,我們打算從現在開始以這種方式關注這些變化。
根據 2024 年 6 月的排名,Top500 榜單上有 49 台新機器,這些新機器在 64 位浮點精度下的總峰值性能為 1,226.7 petaflops,其中七台新超級電腦(它們確實是執行 HPC 工作的超級電腦)基於 Nvidia 的“Grace”Arm 伺服器 CPU 和“Hopper”H100 GPU 加速器,總峰值為 663.7 petaflops,佔 2024 年 6 月榜單新增容量的 54.1%。使用 AMD Epyc 處理器與 Nvidia GPU 相結合的系統佔新計算能力的另外 8.1%,使用 Intel Xeon 處理器與 Nvidia GPU 相結合的系統佔 2023 年 11 月下旬至 2024 年 6 月初安裝並使用 HPL 測試的容量的另外 17.5%。另外還有 23 台全 CPU 機器,這些機器在許多 HPC 環境中出於軟體相容性的原因仍然是必需的,但這些機器的總計算量仍然只佔所有新 64 位浮點運算的 12.1%。
這次,在 2024 年 11 月的 Top500 排名中,AMD 在增加 HPC 基礎容量方面是最大贏家。列表中有 61 台新機器,這裡按計算引擎架構排序:
這次,只有 4 台新的 Grace-Hopper 系統,規模相當適中,僅佔名單上新機器總峰值性能 5,211.6 petaflops 的 3.8%。
不過,有 25 台新機器在主機上安裝了 Intel Xeon CPU,並以 Nvidia GPU 作為解除安裝引擎,這些機器合計擁有 969.6 petaflops 的計算能力,佔榜單上新計算總量的 18.6%。有趣的是,戴爾為自己製造了一台 5.3 petaflops 的機器,綽號“鋼鐵人”,將 AMD Instinct MI300A 加速器與 Intel Xeon CPU 配對。(為什麼?) 還有 11 台機器擁有支援 Nvidia GPU 加速器的 AMD Epyc CPU 主機,峰值性能總計為 247.7 petaflops。合併後的 Nvidia GPU 機器佔 2024 年 11 月 Top500 榜單新增總計算量的 39%。
這次,El Capitan 及其四款基於 MI300A 混合計算引擎的小型同類產品完全擊敗了 Nvidia,FP64 性能達到 3,134.6 千兆次浮點運算,佔總計算量的 60.1%,是當前 Top500 榜單中首次亮相的機型。這在很大程度上要歸功於義大利 Eni SpA 安裝的 HPC6 機器(我們在 1 月份寫過這台機器),它基本上是安裝在美國橡樹嶺國家實驗室的“Frontier”超級電腦的小型克隆版,11 月榜單中又增加了 619.3 千兆次浮點運算,這是兩台基於 AMD CPU 和 AMD MI250X GPU 的機器的功力。
總而言之,AMD GPU 為 2024 年 11 月的排名貢獻了 72.1% 的新增性能。
現在,讓我們將目光放寬到 11 月份的完整 Top500 榜單,並查看榜單中所有 209 個加速系統。看看這個漂亮的樹形圖中是如何細分的:
上圖中的框大小代表 HPL 的總體持續表現。
左上角的綠色區域以 El Capitan 和 Frontier 為基準,包括所有使用 AMD CPU 和 GPU 組合的機器。Nvidia Grace-Hopper 機器位於右上方,使用各種 Nvidia GPU 的機器位於藍色、灰色和紅色框中;Intel GPU 機器(少數)位於右下方的青色中,焦橙色機器是僅使用 CPU 的系統。
只是為了好玩,我們根據加速器類型和總系統數量、峰值每秒兆次浮點運算次數以及按架構劃分的總核心數對列表中的 209 台加速機器進行了排序。請看下面:
目前,使用英特爾“Ponte Vecchio”Max GPU 加速器的機器僅佔 4 個系統(500 台中的 1.9%),但佔峰值性能的 14%,其中絕大部分來自安裝在阿貢國家實驗室的“Aurora”系統。
有 183 台機器在任何主機上使用 Nvidia GPU,它們佔 2024 年 11 月列表中已安裝加速機器的 87.6%,但僅佔 FP64 精度總峰值容量的 40.3%。有 19 台機器使用 AMD GPU 進行大部分計算,這僅佔加速機器的 9.1%。但這佔 FP64 總峰值容量的 44.9%。得益於 El Capitan、Frontier、HPC6 和其他 16 台機器,AMD 現在在 Top500 榜單上在這方面擊敗了 Nvidia。
如果你查看列表中的所有 500 台機器,加速系統佔 2024 年 11 月列表中機器總數的 41.8%,總計 17,705 千兆次浮點運算的 83.4%,以及總核心數 1.286 億個加上流式多處理器的 55.4%。
突破百億億次級障礙比很多人想像的要困難得多,這主要是由於預算和功耗的限制,而不是任何潛在的技術問題。中國的百億億次級機器——“天河三號”和“海洋之光”——尚未向 Top500 組織者提交正式的 HPL 性能結果,因此沒有排名,但它們表明,如果您不關心使用了多少電力或機器的成本,那麼幾年前在現場使用百億億次級機器不僅是可能的,而且已經做到了。(一年前我們最好的猜測是天河三號的峰值 FP64 性能為 2.05 百億億次浮點運算,而海洋之光的峰值為 1.5 百億億次浮點運算。)
Top500 榜單的末尾確實很難跟上我們過去對 HPC 系統所預期的對數圖,而且我們也沒有理由相信,未來 10 百億億次浮點運算和更大的機器(如果它們實現的話)會拉高同類平均水平。如果我們想回到對數曲線上,機器必須變得更便宜,而即使每單位性能的成本不斷下降,它們的價格也在不斷上漲。
這一次,要進入 Top500,需要一台在 HPL 基準測試中至少有 2.31 千兆次浮點運算的機器。進入 Top100 的機器是 12.8 千兆次浮點運算。有趣的是,名單上的總體 HPL 性能為 11.72 百億億次浮點運算,高於 2024 年 6 月的 8.21 百億億次浮點運算、2023 年 11 月的 7.01 百億億次浮點運算和 2023 年 6 月的 5.24 百億億次浮點運算。這些大型機器正在提高總體性能,但較小的 HPC 中心增加容量的速度不夠快,無法在名單上的五百台機器上每兩年翻一番。這可能與雲端 HPC 的興起相吻合,也可能不相吻合。如果沒有來自雲建構者的一些資料,很難說。
每隔幾年,勞倫斯利弗莫爾國家實驗室就會安裝世界上速度最快的超級電腦。值得慶幸的是,該 HPC 中心通常選擇的機器不僅能夠完成管理美國軍方核武器庫存的使命,而且還能選擇能夠推動超級計算技術發展的各種技術。
歷史告訴我們,勞倫斯·利弗莫爾會做到這些,而今天在 SC24 超級電腦大會上發佈的“El Capitan”系統,歷史確實在重演。但這一次略有不同,因為 El Capitan 是在地球歷史上最大規模的超級計算能力建設中啟動的。
據我們和勞倫斯利弗莫爾的專家所知,從許多指標來看,El Capitan 可以與超大規模企業和雲建構者為 AI 訓練運行而啟動的大型機器相媲美。El Capitan 是一台專門為運行有史以來最複雜、最密集的模擬和建模工作負載而定製的機器,它恰好在 GenAI 革命的核心——新型大型語言模型方面表現相當出色。
而且得益於 Cray 設計的“Rosetta” Slingshot 11 互連和惠普企業銷售的 EX 系列系統的核心元件,El Capitan 已經採用了 HPC 增強型可擴展乙太網路,這與超級乙太網路聯盟 (Ultra Ethernet Consortium) 試圖推進的技術路線類似,因為超大規模企業和雲建構者厭倦了為他們的 AI 叢集支付 InfiniBand 網路的高昂費用。
但也許更重要的是——人們對此考慮得不夠——勞倫斯利弗莫爾將獲得一台極其強大的 HPC/AI 超級電腦,而其價格比如今的超大規模計算公司、雲建構商和大型 AI 初創公司支付的價格要低得多。很難精準地說出兩者之間的差異,但我們初步粗略計算得出,El Capitan 每單位 FP16 性能的成本是 Microsoft Azure、Meta Platforms、xAI 和其他公司正在建構的大型“Hopper”H100 叢集的一半。
作為國家安全不可或缺的一部分,像 El Capitan 那樣突破系統設計的架構極限,以及擁有渴望證明其在設計混合 CPU-GPU 計算引擎方面的勇氣,並且將超快的 HBM 記憶體輸入到這些融合裝置之間的共用記憶體空間,都有好處。
最後,El Capitan 與超大規模企業、雲建構者和 AI 初創公司正在建構的野獸機器之間還有一個巨大差異。El Capitan 將管理核武器,而核武器反過來可能導致我們星球上發生滅絕級事件(或者根據你的觀點,通過相互保證摧毀原則避免滅絕),而 AI 叢集本身就是可能導致地球發生滅絕級事件的機器。(讓我們希望 El Capitan 的 AI 處於強大的沙箱中。)
美國庫存中的核武器需要進行模擬,以確保其正常運行——《禁止核試驗條約》禁止我們通過引爆來確認其功能。還需要重新設計庫存中的核武器並重新使用其炸藥,但禁止核試驗意味著這必須通過模擬才能完成。因此,美國能源部為超級計算投入了巨額預算。
2019 年 8 月,惠普企業 (Hewlett Packard Enterprise) 獲得了價值數百萬美元的 El Capitan 合同,當時我們只知道這台機器將使用 Slingshot 互連,成本約為 5 億美元,並提供至少 1.5 百億億次浮點運算的持續性能。就在幾個月前,HPE 表示將以 13 億美元收購 Cray,我們認為,與美國能源部正在建造的三個百億億次級系統的龐大物料清單相比,Cray 的規模相對較小,這可能是 HPE 一開始就被“鼓勵”收購 Cray 的原因之一。
無論如何,當時,El Capitan 的持續性能預計至少是 IBM 為實驗室建構的“Sierra”混合 CPU-GPU 系統的 10 倍,並且功率範圍為 30 兆瓦。2020 年 3 月,勞倫斯利弗莫爾表示,它正在與 AMD 合作開發 El Capitan 的計算引擎,並進一步表示,該系統的峰值理論 FP64 性能將超過 2 百億億次浮點運算——實際系統可以以 64 位解析度進行計算——功耗約為 40 兆瓦,成本不超過 6 億美元。(“升級!”)
El Capitan 混合 CPU-GPU 系統已在勞倫斯利弗莫爾安裝並幾乎滿負荷運行,人們一致認為這是世界上傳統模擬和建模工作負載性能最高的系統。其中包括傳聞中的中國“天河三號”(2.05 百億億次浮點運算)和“海洋之光”(1.5 百億億次浮點運算)超級電腦的峰值性能。
2022 年 6 月,勞倫斯利弗莫爾和 AMD 宣佈他們將採用融合的 CPU-GPU 裝置(AMD 幾十年來一直將其稱為加速處理單元或 APU)作為 El Capitan 系統的主要計算引擎。從那時起,每個人都在試圖猜測“Antares”Instinct MI300A 裝置的時鐘速度是多少,裝置中有多少個 GPU 計算單元,以及它們將以什麼時鐘速度運行。事實證明,我們認為 MI300A 的時鐘會更高,因此需要更少的時鐘才能達到性能。我們還認為,勞倫斯利弗莫爾獲得的機器比預期的還要快,因此性價比甚至比預期的還要好。
勞倫斯利弗莫爾國家實驗室利弗莫爾計算部門首席技術官 Bronis de Supinski 告訴The Next Platform,El Capitan 系統中共有 87 個電腦架,還有數十個額外的機架用於容納其“Rabbit”NVM-Express 快速儲存陣列,我們早在 2021 年 3 月就詳細介紹過它。
El Capitan 在液冷 Cray EX 機架中總共擁有 11,136 個節點,每個節點有四個 MI300A 計算引擎,整個系統共有 44,544 個裝置。每個裝置都有 128 GB 的 HBM3 主記憶體,由 CPU 和 GPU 晶片共享,運行頻率為 5.2 GHz,可為 CPU 和 GPU 晶片提供總計 5.3 TB/秒的總頻寬。
根據 11 月份 Top500 排行榜的資料,MI300A CPU 晶片組的運行頻率為 1.8 GHz,而 AMD 規格表顯示 GPU 晶片組的峰值運行頻率為 2.1 GHz。有三個“Genoa”X86 計算複合體,每個複合體有八個核心,總共 24 個核心,採用台灣半導體製造公司的 5 納米工藝蝕刻而成。MI300A 裝置上的六個 Antares GPU 晶片組上有 228 個 GPU 計算單元,總共有 912 個矩陣核心和 14,592 個流處理器。在向量單元上,MI300A 的峰值 FP64 性能為 61.3 兆次浮點運算,在矩陣單元上,FP64 是其兩倍,為 122.6 兆次浮點運算。
每個 El Capitan 節點的峰值 FP64 性能為 250.8 teraflops,將所有這些節點連接在一起時,您將獲得 2,792.9 petaflops 的 FP64 總性能,前端有 5.475 PB 的 HBM3 記憶體。CPU 和 GPU 計算晶片下方有四個 I/O 晶片,用於將這些元素粘合在一起並連接到 HBM3 記憶體;這些晶片採用台積電的 6 納米工藝蝕刻而成。
有趣的是,MI300A 封裝上仍有六個計算晶片(AMD 術語中為 XCD),它們與六個 GPU 晶片完美平衡。橡樹嶺的“Frontier”超級電腦是 El Capitan 的姊妹機型,其定製“Trento”CPU XCD(單個晶片中每個節點八個)與四個獨立的雙晶片“Aldebaran”MI250X GPU 的比例也是一比一。這種一比一封裝在多代 Cray 超級電腦的 CPU 和加速器之間一直保持著,這可能並非偶然。從某種意義上說,MI300A 是一個六路 X86 CPU 伺服器,與六路 GPU 系統板交叉耦合。
下面是一個彙總表,顯示了 El Capitan 系統及其位於勞倫斯利弗莫爾的 El Capitan 區塊的“Toulumne”和“rzAdams”晶片以及位於桑迪亞國家實驗室的“El Dorado”系統的進給和速度:
El Capitan 伺服器節點的示意圖如下:
如您所見,有四個 Infinity Fabric x16 連接埠,具有 128 GB/秒的總頻寬,以記憶體一致的方式將四個 MI300A 裝置相互連接。
另外還有四個連接埠,每個 APU 一個,來自 MI300A,可以組態為 PCI-Express 5.0 x16 插槽或 Infinity Fabric x16 插槽,在這種情況下,它們設定為前者,以允許插入 Slingshot 11 網路介面卡,這些介面卡實際上通過 Slingshot 11 結構將整個系統中的 APU 相互連接起來。
最後,關於 El Capitan 系統的一個有趣的想法是,從技術上講,該系統在用於運行用於對超級電腦進行排名的高性能 Linpack 基準測試的那部分機器上的性能為 2,746.38 千兆次浮點運算。(如果物理機器上總共有 44,544 個 APU,則該部分機器啟動了 43,808 個 APU,佔機器容量的 98.3%。)額定性能末尾的 46 千兆次浮點運算(性能的第三和第四位有效數字)比 2024 年 11 月 Top500 榜單上除 34 台機器之外的所有機器都要大。當您說“2.7 百億億次浮點運算”時丟棄的那些四捨五入數字幾乎與巴塞隆納超級計算中心的“MareNostrum 5”超級電腦的大小相同。
如果 Lawrence Livermore 讓 HPL 在系統中的所有 APU 上運行,El Capitan 的性能將再提高 1.65%,我們認為,計算、記憶體和互連相互作用的改進可以使其性能再提高 5% 左右。如果 Lawrence Livermore 能夠將軟體和網路調優性能提高 7.5%,那麼該機器的峰值 HPL 容量將突破 3 百億億次浮點運算,我們希望實驗室能夠實現這一目標,因為這很有趣。這將是五年前項目啟動時 El Capitan 最初預期性能的兩倍——而且按時按預算進行。
專注於 AMD 人工智慧硬體的高端雲服務提供商 (CSP) TensorWave 宣佈正在開發基於 Team Red 魔法的全球最大 GPU 叢集,該叢集由 Instinct MI300X、MI325X和MI350X加速器提供支援。
TensorWave 計畫讓 AMD 的產品更具競爭力,旨在打破 NVIDIA 的壟斷,計畫使用 MI300X、MI325X、MI350X AI 加速器製造千兆瓦級 GPU 叢集。
TensorWave 在網際網路上廣為流傳,主要是因為它對AMD 的 AI 加速器持樂觀態度,並且該公司的“AI 計算”產品組合都圍繞著 Team Red 的產品。TensorWave 的主要目標是“使 AI 民主化”,它與 AMD 站在一起,並向潛在客戶推廣其“Instinct”系列 AI 加速器。
現在,根據 TensorWave 首席執行官 Darrick Horton發佈的公告,該公司正在利用 Instinct MI300X、MI325X 和下一代 MI350X 加速器建構世界上“最大的”AMD GPU 叢集。
TensorWave 計畫利用即將推出的 AI 叢集實現約 1 千兆瓦的“驚人”功耗,這表明我們應該期待 TensorWave 未來的項目具有強大的計算能力,儘管該公司目前尚未透露更多細節。另一個值得一提的有趣事實是,TensorWave 計畫利用新推出的“超級乙太網路”互連標準,據說這是 AI 叢集領域的卓越實現。
當你看到 NVIDIA 在 AI 市場中佔據如此大的份額時,它確實為 AMD 等公司創造了“看漲”立場,這些公司正在努力填補紅隊留下的空白。雖然說我們看到的是一種“壟斷市場”的形式並不為過,但 AMD 在保持競爭力方面仍然全力以赴,並不斷完善其 AI 產品組合以吸引市場興趣。
TensorWave 等 CSP 正在尋求讓 AMD 在市場上佔據主導地位,這就是為什麼 Team Red 的 AI 領域仍然具有巨大的增長空間,前提是該公司堅持其一致性和計畫。 (半導體行業觀察)