近日,美國能源部最新推出的超級電腦、Top500 排名第一的El Capitan在加州的 LLNL 舉行了落成典禮。落成典禮結束後,他們讓我(作者)帶著手機進入 El Capitan。通常,這是一個不允許使用電子裝置的區域,手機也不能進入。今天,我進去了。
在提交資訊以獲得現場訪問驗證後,我們獲得了一個徽章並被護送到禮堂。在那裡,LLNL、NNSA、DoE 和其他人員就 El Capitan 發表了演講。
顯然,HPE 的首席執行官 Antonio Neri 曾在利弗莫爾住過一段時間。我問 Antonio,El Capitan(和其他 HPC 叢集)上的這項工作如何轉化為 AI 銷售。他說,所有底層技術(包括 GPU 計算、網路、液體冷卻、電力輸送等)的大規模部署都直接轉化為 AI 叢集。
AMD 首席執行官 Lisa Su 帶來了一台拆開蓋子的 AMD Instinct MI300A,並將其帶到了講台上。Lisa 還對這如何轉化為人工智慧的問題給出了深刻的回答。她的回答是,這是 El Capitan 中超過 40,000 個加速器的大規模部署和運行的又一個證明點。這意味著 AMD 和 HPE 團隊需要設計可靠性,以便在可能需要數月的模擬中運行系統。
對於參與該項目的人們來說,這已經過去很久了。我記得在疫情爆發前,我被邀請到 HPE 總部的一個小房間,在那裡宣佈了HPE-Cray 和 AMD 獲勝。疫情前的任何事情現在都感覺像是古老的歷史。
在今天的演講中,我們還快速瀏覽了一些模擬,例如這個模擬,顯示了 El Capitan 中僅 2048 個節點上的 1390 億個區域中的受衝擊的錫表面。對於那些不知道的人來說,El Capitan 的任務是機密的,但一般來說是為了支援美國的武器計畫。這使得看到系統內部的情況變得不同尋常。
當然,這是 STH,所以我熱切地等待著有機會看到這個系統。令我驚訝的是,在電子產品投放區,他們允許我帶手機拍照。起初我以為我只會看到令人印象深刻的節點。CoolIT 提供液體冷卻塊。幾年前,在 CoolIT 液體實驗室之旅中,我在卡爾加里展示並握住一個(非常重的)Frontier 節點,瞭解液體冷卻的原型設計和測試。
註釋如下:
1. 節點
2. SIVOC(電力調節器)
3. Slingshot NIC 夾層卡
4. 冷板
5. AMD Instinct MI300A APU。
還有一個托盤,上面有四個已安裝的 APU 插槽和四個未安裝的插槽節點。與當今大多數系統不同,每個插槽和封裝都是一組整合的晶片,涵蓋 CPU 核心、GPU 核心和高頻寬記憶體 (HBM),因此我們有一組統一的插槽,並且每個插槽的側面沒有 DIMM 插槽。
LLNL 1 的 El Capitan HPE 節點無需冷卻和 Slingshot
幸運的是,El Capitan 的開放時間恰逢其時,它即將開始執行機密任務。接下來,讓我們來看看運行系統。
在大樓裡,El Capitan 安裝在樓上,而不是一樓。通常有一個通往資料大廳的觀察窗,但我被允許進入裡面。
值得注意的是,目前 Top500 榜單上排名第 10 的 Tuolumne 系統就安裝在 El Capitan 旁邊。該系統將支援非機密科學。
通常情況下,俯瞰 El Capitan 的座位排,看起來應該是這樣的。我問了一些地方缺少瓷磚的原因。顯然,地板需要加固,以適應 9000 磅(左右)的架子。
然而,在這一天,一些門被關閉了,人們可以看到這個系統的輝煌。
或者只是在液體冷卻架前自拍。
每個機架有 128 個計算刀片,完全採用液體冷卻。該系統非常安靜,噪音主要來自儲存和地板上的其他系統。
在機架的另一側,我們安裝了 HPE Slingshot 互連電纜,該電纜連接了 DAC 和光學器件。Slingshot 互連側還有藍色和紅色的液體冷卻管。
Slingshot 互連器沒有完全填充,這很好看。我們將在下一頁展示 Rabbit 佔用這些機架後部的空間。
主系統後面有很多儲存空間。這就是儲存架的樣子。
我聽說這些主要是基於磁碟的機架。這與我們在許多專注於基於快閃記憶體的共享儲存的 AI 資料中心中看到的有所不同。
El Capitan 有一個我直到今天才知道的功能。也許我當時沒注意到。這是 Slingshot 互連側的特寫。您可以看到這也是液體冷卻的,並且 Slingshot 開關托盤僅佔據此處顯示的空間的下半部分。LLNL 的人們說,他們的程式碼不需要填充整個 HPE Slingshot 區域。相反,他們有足夠多的頻寬,一半填充,留下額外的空間。
在頂部部分,並不是空白的,而是有“Rabbit”。Rabbit 總共裝有 18 個 NVMe SSD,並且像系統的其他部分一樣採用液體冷卻。
我們看到了系統內部,看到了 APU 以外的東西。相反,有一個看起來像AMD EPYC 7003 Milan部件的 CPU,考慮到 AMD MI300A 的代數,感覺還不錯。與 APU 不同,Rabbit 的 CPU 有 DIMM,還有看起來像是液冷的 DDR4 記憶體。與標準刀片一樣,所有東西都是液冷的,因此系統中沒有任何風扇。
還有許多 PCIe 電纜。顯然,Rabbit 既可以作為獨立伺服器運行,擁有大量儲存空間,可用於執行資料準備任務等。或者,它也可以用作叢集內的共享儲存。
很難不感覺到 Rabbit 可能是周圍設計最過度的單插槽儲存伺服器。
這是一次非常酷的經歷,讓我有機會在大型叢集的幕後一探究竟。雖然它的規模還不到我們 9 月份拍攝的xAI Colossus 叢集的一半,當時該叢集擁有 100,000 個 GPU,但值得注意的是,這樣的系統仍然非常龐大,而且其預算僅為 100,000 多個 GPU 系統的一小部分。
我還有一些照片和視訊需要瀏覽,也許在本周末飛往台北的飛機上。如果我在瀏覽這些照片和視訊時發現一些有趣的東西,您可能會在 Substack 上看到一篇周末文章,其中包含更高解析度的照片和更多細節。該視訊可能會出現在STH Labs 短片頻道上。
看到大型系統總是一件很棒的事情,因為它們通常隱藏在攝影機之外。 (半導體行業觀察)