【導讀】10萬塊液冷H100正式開工,馬斯克19天建成世界最強AI訓練叢集。
凌晨4:20,大洋彼岸的最大超算訓練叢集開始轟鳴。
「420」也是馬斯克最喜歡玩的梗,象徵著自由、不受約束和反傳統。
馬斯克頻繁把「420」用在他的產品定價,公司開會時間和星艦一發射時間上等等。
網友也在評論區打趣馬斯克超絕儀式感,不到4:20不開工。
在最新採訪中,馬斯克透露了更多關於新建超算和xAI模型進展:
- Grok 2上個月完成了訓練,大約用了15K H100
- Grok 2將於下個月發佈,與GPT-4相當- Grok 3正在新建10萬塊液冷H100超算上,開始訓練- 預計Grok 3將在12月發佈,「屆時將成為世界上最強大的人工智慧」
值得注意的是,這個全球最大的超算叢集,大就大在擁有10萬塊H100,還是液冷的那種。
10萬塊H100是什麼概念呢?
價格上來看,H100 GPU作為AI的關鍵元件、矽谷的熱門商品,據估計每塊成本在3萬到4萬美元之間,10萬塊H100就是一筆40億的大單。
而在全美TOP 5的高校機器學習博士曾發帖說,實驗室H100數量為0,要用GPU得靠搶。
李飛飛也在採訪裡表示,斯坦福的自然語言處理小組只有64塊A100 GPU。
而馬斯克一出手就是10萬塊,這個數字令評論區垂涎欲滴。
算力上來看,算力大約是OpenAI用於訓練GPT4的25000塊A100的20倍左右。
耗電上來看,僅僅是讓這個超級計算中心維持運轉,所需要的電力總功率就達到70MW,相當於這是一座普通電廠的裝機容量,可滿足20萬人的能源需求。
今年5月,馬斯克就曾表示,希望在2025年秋季前建成「超算工廠」。
現在看來,為了加速超級叢集的建設,他選擇了購買當前一代的H100 GPU,而不是等待新一代的H200或其他即將推出的基於Blackwell的B100和B200 GPU。
儘管市場預期Nvidia的新Blackwell資料中心GPU將在2024年底前上市,馬斯克顯然沒有耐心等待。
當前AI軍備競賽越發火熱,唯快不破,誰能最快地推出產品就能迅速佔領市場。
xAI作為一家初創公司,更是要是與其他巨頭之戰中先聲奪人。
在之前,馬斯克與甲骨文的百億大單就談崩了,馬斯克嫌棄甲骨文速度太慢,認為對方沒有以可行的速度建構計算叢集。
而甲骨文則覺得xAI建超算選址承擔不了電力的需求,隨著百億訂單的談判破裂, xAI和甲骨文停止了討論擴大現有合作的可能性。
xAI只得田納西州孟菲斯市建設自己的人工智慧資料中心,與甲骨文的合作破裂意味著xAI要自己動手單干,通過10萬塊H100建構獨立的資料中心,以擺脫甲骨文等雲提供商能力的限制。
馬斯克自己也表示,xAI擁有世界最強的AI訓練叢集,可謂遙遙領先。
在馬斯克最新一則採訪中,披露了建立超算的一些細節。
據大孟菲斯商會(Greater Memphis Chamber)主席Ted Townsend透露,馬斯克只花了大約一週的時間就決定將xAI的新超級電腦建造在孟菲斯。
Townsend說,經過3月份的幾天旋風式談判之後,馬斯克和他的團隊選擇了田納西州的這座城市,因為這裡有充足的電力和快速建設的能力。
並且,僅僅花費了19天超算中心就建造完成,馬斯克也在推文中讚揚了團隊優秀的工作。
Supermicro公司也為xAI提供了大部分硬體支援,其CEO Charles Liang也在馬斯克的推文下發表了評論,讚揚了團隊的執行能力。
如此之大的訓練叢集,目的就是為了訓練Grok 3。
本月初,馬斯克就宣佈8月底推出Grok 2,在Grok-2尚未發佈的情況下,馬斯克也透露了Grok-3的部分細節,為最強模型Grok 3造勢。
馬斯克在今年4月接受挪威主權基金負責人Nicolai Tangen採訪時說,Grok 2需要大約2萬張H100來進行訓練。
Grok 3將於年底發佈,可以預見,基於10萬個GPU訓練的Grok 3性能方面將比Grok 2更上一層樓。
如此巨大的超算中心,自然需要大量人才和技術的支援,馬斯克也繼續在推特上招兵買馬,讓資料優勢、人才優勢和算力優勢全部擴張到極致。
(AIGC新智界)