馬斯克19天建成世界最強AI叢集！10萬塊H100「液冷怪獸」即將覺醒

2024/07/24

•

【導讀】10萬塊液冷H100正式開工，馬斯克19天建成世界最強AI訓練叢集。

凌晨4:20，大洋彼岸的最大超算訓練叢集開始轟鳴。

「420」也是馬斯克最喜歡玩的梗，象徵著自由、不受約束和反傳統。

馬斯克頻繁把「420」用在他的產品定價，公司開會時間和星艦一發射時間上等等。

網友也在評論區打趣馬斯克超絕儀式感，不到4:20不開工。

在最新採訪中，馬斯克透露了更多關於新建超算和xAI模型進展：

- Grok 2上個月完成了訓練，大約用了15K H100

- Grok 2將於下個月發佈，與GPT-4相當- Grok 3正在新建10萬塊液冷H100超算上，開始訓練- 預計Grok 3將在12月發佈，「屆時將成為世界上最強大的人工智慧」

值得注意的是，這個全球最大的超算叢集，大就大在擁有10萬塊H100，還是液冷的那種。

10萬塊H100是什麼概念呢?

價格上來看，H100 GPU作為AI的關鍵元件、矽谷的熱門商品，據估計每塊成本在3萬到4萬美元之間，10萬塊H100就是一筆40億的大單。

而在全美TOP 5的高校機器學習博士曾發帖說，實驗室H100數量為0，要用GPU得靠搶。

李飛飛也在採訪裡表示，斯坦福的自然語言處理小組只有64塊A100 GPU。

而馬斯克一出手就是10萬塊，這個數字令評論區垂涎欲滴。

算力上來看，算力大約是OpenAI用於訓練GPT4的25000塊A100的20倍左右。

耗電上來看，僅僅是讓這個超級計算中心維持運轉，所需要的電力總功率就達到70MW，相當於這是一座普通電廠的裝機容量，可滿足20萬人的能源需求。

今年5月，馬斯克就曾表示，希望在2025年秋季前建成「超算工廠」。

現在看來，為了加速超級叢集的建設，他選擇了購買當前一代的H100 GPU，而不是等待新一代的H200或其他即將推出的基於Blackwell的B100和B200 GPU。

儘管市場預期Nvidia的新Blackwell資料中心GPU將在2024年底前上市，馬斯克顯然沒有耐心等待。

當前AI軍備競賽越發火熱，唯快不破，誰能最快地推出產品就能迅速佔領市場。

xAI作為一家初創公司，更是要是與其他巨頭之戰中先聲奪人。

在之前，馬斯克與甲骨文的百億大單就談崩了，馬斯克嫌棄甲骨文速度太慢，認為對方沒有以可行的速度建構計算叢集。

而甲骨文則覺得xAI建超算選址承擔不了電力的需求，隨著百億訂單的談判破裂， xAI和甲骨文停止了討論擴大現有合作的可能性。

xAI只得田納西州孟菲斯市建設自己的人工智慧資料中心，與甲骨文的合作破裂意味著xAI要自己動手單干，通過10萬塊H100建構獨立的資料中心，以擺脫甲骨文等雲提供商能力的限制。

馬斯克自己也表示，xAI擁有世界最強的AI訓練叢集，可謂遙遙領先。

在馬斯克最新一則採訪中，披露了建立超算的一些細節。

據大孟菲斯商會（Greater Memphis Chamber）主席Ted Townsend透露，馬斯克只花了大約一週的時間就決定將xAI的新超級電腦建造在孟菲斯。

Townsend說，經過3月份的幾天旋風式談判之後，馬斯克和他的團隊選擇了田納西州的這座城市，因為這裡有充足的電力和快速建設的能力。

並且，僅僅花費了19天超算中心就建造完成，馬斯克也在推文中讚揚了團隊優秀的工作。

Supermicro公司也為xAI提供了大部分硬體支援，其CEO Charles Liang也在馬斯克的推文下發表了評論，讚揚了團隊的執行能力。

如此之大的訓練叢集，目的就是為了訓練Grok 3。

本月初，馬斯克就宣佈8月底推出Grok 2，在Grok-2尚未發佈的情況下，馬斯克也透露了Grok-3的部分細節，為最強模型Grok 3造勢。

馬斯克在今年4月接受挪威主權基金負責人Nicolai Tangen採訪時說，Grok 2需要大約2萬張H100來進行訓練。

Grok 3將於年底發佈，可以預見，基於10萬個GPU訓練的Grok 3性能方面將比Grok 2更上一層樓。

如此巨大的超算中心，自然需要大量人才和技術的支援，馬斯克也繼續在推特上招兵買馬，讓資料優勢、人才優勢和算力優勢全部擴張到極致。

(AIGC新智界)