馬斯克在其X上宣佈當地時間7月22日凌晨4時20分開始xAI在孟菲斯超級叢集上(Memphis Supercluster)進行訓練。
馬斯克在其X社交平台上宣佈,xAI團隊、X團隊、輝達及支援公司於當地時間7月22日凌晨4時20分開始在孟菲斯超級叢集上(Memphis Supercluster)進行訓練。
據馬斯克介紹稱,該叢集在單個RDMA fabric上使用10萬張液冷H100,“世界上最強大的AI訓練叢集”。其目標是在今年12月前訓練出“按每項指標衡量都是世界上最強大的人工智慧。”
馬斯克此前曾表示,xAI計畫於8月發佈Grok 2,但目前並未宣稱利用新的超級計算叢集訓練Grok 2。不過,確定的是計畫於2024年底發佈的Gork 3將在孟菲斯超級訓練叢集進行訓練。本月早些時候,馬斯克在 X 的一篇文章中指出,xAI的Grok 3將在100,000個 H100 GPU上進行訓練,因此“它應該非常特別”。
從規模上看,新的xAI孟菲斯超級叢集確實在GPU算力方面超越了最新Top500榜單上的任何一台超級電腦。如Frontier(37,888 個 AMD GPU)、Aurora(60,000個Intel GPU)和Microsoft Eagle(14,400個Nvidia H100 GPU),似乎都遠遠落後於xAI機器。
儘管規模龐大,但“世界上最強大的AI訓練叢集”的名頭難以長期保持。
目前,微軟、Google和Meta等其他科技巨頭也都在擴建資料中心來訓練和運行他們的人工智慧模型。路透社曾報導稱,微軟和OpenAI正在計畫建設一個資料中心項目,該項目將包含一個擁有數百萬專用伺服器晶片的超級電腦,而目前項目耗資可能1150億美元,包括一個名為Stargate(「星際之門」)的人工智慧超級電腦,預計將於 2028 年啟動。
Meta首席執行官扎克伯格也在今年一月份表示,到2024年底,公司的計算基礎設施將包括3萬張H100顯示卡。他還補充道,“如果包括其他GPU,則大約有60萬台H100等效計算。”
此外,除了算力競爭激烈的外患以外,xAI建設算力中心的內憂也一直存在。
據孟菲斯當地媒體報導,xAI 將在佔地 785,000 平方英呎的前伊萊克斯孟菲斯工廠建造一個超級電腦叢集,“將是該市歷史上一家新進入市場的公司最大的資本投資。”
負責這筆交易的經濟增長非營利組織大孟菲斯商會會長泰德·湯森稱,經過3月份幾天的激烈談判,馬斯克和他的團隊(其中包括來自他幾家公司的代表)選擇了田納西州的孟菲斯市,因為這裡電力充足,而且建設速度快。
然而,xAI還沒有與當地公用事業公司田納西河谷管理局(Tennessee Valley Authority)簽訂合同,“TVA尚未與 xAI 簽訂合同。我們正在與 xAI 和 MLGW 的合作夥伴就提案和電力需求的細節進行合作。”TVA還指出,任何超過100兆瓦的項目接入電力系統都需要 TVA批准。
儘管大孟菲斯商會團體讚揚xAI在該地區開設設施的決定,但一些當地人對該設施的能源和水消耗表示擔憂。孟菲斯社區反污染組織和其他兩個環保組織警告說,電腦設施會造成嚴重的“能源負擔”。他們表示,“xAI 預計每天至少需要一百萬加侖的水用於其冷卻塔。”
孟菲斯市議會的幾名成員正敦促政府停止馬斯克算力工廠在孟菲斯建設,因為社區對這筆交易的秘密性質以及資料中心對電力和水的要求越來越擔憂。 (財聯社AI daily)