最近,許久沒有新動向的馬斯克放出了大消息——他旗下的人工智慧新創公司xAI將投入巨資建造一個超算中心,以保證Grok 2及之後版本的訓練。這個「超級運算工廠」預計於2025年秋季建成,規模將達到目前最大GPU叢集的四倍。
前段時間,OpenAI、Google、微軟相繼開大會,AI圈的競爭如火如荼。
這麼熱鬧的時候,怎麼能少得了馬斯克。
前段時間忙著特斯拉和星鍊的他,最近好像開始騰出手,而且不鳴則已、一鳴驚人,直接放出一個大消息——自己要造世界上最大的超算中心。
今年3月,他旗下的xAI發布了最新版的Grok 1.5,此後一直有關於Grok 2即將面世的傳說,但卻遲遲沒有官方消息。
難道是因為算力不夠?
沒錯,億萬富翁可能也買不到足夠的晶片。今年四月他曾親自下場表示,沒有足夠多的先進晶片,推遲了Grok 2模型的訓練和發布。
他表示,訓練Grok 2需要大約2萬個基於Hopper架構的輝達H100 GPU,並補充說Grok 3模型及更高版本將需要10萬個H100 晶片。
特斯拉第一季的財報也顯示,公司先前一直受到算力的限制,當時馬斯克的計畫還是年底前部署8.5萬個H100 GPU,將xAI從紅杉資本和其他投資者籌集的60億美元中的大部分都花在晶片上。
目前每台H100的售價約3萬美元,不算建造費用和其他伺服器設備,光是晶片就需要花掉28億美元。
根據馬斯克的估算,這個晶片儲量訓練Grok 2綽綽有餘。
但可能老馬思考了一個月之後,覺得這一步還不夠大,不夠突破性。畢竟xAI的定位是要跟OpenAI、Google這種強勁對手正面掰頭的,以後想訓練模型可不能再因為算力掉鍊子。
於是,他最近公開表示,xAI需要部署10萬個H100來訓練和運行Grok的下一個版本。
而且,xAI還計劃將所有晶片串聯成一個巨大的電腦——馬斯克稱之為「超級運算工廠」(Gigafactory of Compute)。
老馬這個月已經向投資者表示,他希望在2025年秋季之前讓這台超級電腦運行起來,而且他將「個人負責按時交付超級電腦」,因為這對於開發LLM至關重要。
這台超算可能由xAI與Oracle合作共建。這幾年來,xAI已經從Oracle租用了帶有約1.6萬個H100晶片的伺服器,是這些晶片最大的訂單來源。
如果不發展自己的算力,未來幾年xAI在雲端伺服器上很可能就要花費100億美元,算下來居然還是「超級運算工廠」比較省錢。
這個「超級運算工廠」一旦完工,規模將至少是目前最大GPU叢集的4倍。
例如Meta官網在3月發布的資料顯示,他們當時推出了2個包含2.4萬個H100 GPU的叢集用於Llama 3的訓練。
雖然輝達已經宣布今年下半年開始生產並交付全新架構Blackwell的B100 GPU,但馬斯克目前的計畫仍是採購H100。
為什麼不用最新型號的晶片,反而要大量購入快要淘汰的型號?這其中的原因,老黃本人向我們解釋過--「在今天的AI競爭裡,時間很重要」。
輝達會每一年更新一代產品,而如果你想等我的下一個產品,那麼你就失去了訓練的時間和先發優勢。
下一個達到里程碑的公司會宣布一個突破性的AI,而接下來的第二名只在它上面提升0.3%。你要選擇做哪一種?
這就是為什麼一直做技術領先的公司很重要,你的客戶會在你上面建造並且相信你會一直領先。這裡面時間很重要。
這就是為什麼我的客戶現在依然瘋狂的正在建立Hopper系統。時間就是一切。下一個里程碑馬上就來。
然而,即使一切順利,「超級運算工廠」在馬斯克的「個人負責」下按時交付,這個叢集到了明年秋天是否仍然有規模優勢,也是一個未知數。
祖克柏今年1月曾經在Instagram上發帖,稱Meta到今年底將再部署35萬個H100,加上之前的算力總共相當於60萬個H100,但他並未提及單個集群的芯片數量。
但這個數字幾乎沒過半年就幾乎翻了一番,5月初Llama 3發布前,有消息稱Meta已從輝達額外購買了50萬塊GPU,總數達到100 萬塊,零售價值達300億美元。
同時,微軟的目標是到年底擁有180萬個GPU,OpenAI甚至更加激進,希望為最新的AI模型使用1000萬個GPU。這兩家公司也正在討論開發一個價值1000億美元的超級計算機,包含數百萬個輝達GPU。
這場算力之戰,最後誰會勝出呢?
應該是輝達吧。
而且不只是H100,輝達CFO Colette Kress曾經提到過一份Blackwell旗艦晶片的優先客戶名單,包括OpenAI、亞馬遜、Google、xAI等等。
即將投產的B100,以及輝達之後將要一年一更的晶片,將會源源不斷地進入科技巨頭們的超算中心,幫助他們完成算力的升級迭代。
晶片短缺,電不夠
馬斯克在談到特斯拉的算力問題時也補充說,雖然迄今為止晶片短缺是AI發展的一大限制因素,但電力供應在未來一兩年將至關重要,甚至取代晶片成為最大的限制因素。
包括新建的這家「超級運算工廠」的選址,最需要考慮的因素也是電力供應。一個擁有10萬GPU的資料中心可能需要100兆瓦的專用電力。
要提供這種量級的電力,xAI總部辦公室所在的舊金山灣區顯然不是理想的選擇。為了降低成本,資料中心往往建在電力較便宜且供應較充足的偏遠地區。
例如,微軟和OpenAI除了計劃那個耗資千億美元的超算,也在威斯康辛州建造大型資料中心,建造成本約為100億美元;亞馬遜雲端服務的資料中心則選址在亞利桑那州。
「超級運算工廠」一個非常可能的選址,是特斯拉總部,德州奧斯汀市。
去年特斯拉宣佈建造的Dojo就部署在這裡了。這台超算基於客製化晶片,幫助訓練AI自動駕駛軟體,也可以用於向外界提供雲端服務。
第一艘Dojo運行在1萬個GPU上,建造成本約3億美元。馬斯克4月表示,特斯拉目前共有3.5萬個GPU用於訓練自動駕駛系統。
在資料中心進行模型訓練是一個極為耗電的過程。據估計,訓練GPT-3的耗電量為1287兆瓦時,約相當於130個美國家庭每年消耗的電力。
注意到AI電力問題的CEO不只馬斯克一人,Sam Altman本人曾向新創公司Helion Energy投資3.75 億美元,這家公司旨在利用核融合提供一種更環保、更低成本的AI 資料中心運作方式。
馬斯克則沒有押注在核融合技術上,他認為,AI公司很快就會開始爭奪降壓變壓器(step down transformer),可以將高壓電流轉換為電網可用的電力,「從公用電網獲得的電力(例如300 千伏)降至1 伏特以下是一個巨大的下降」。
晶片之後,AI產業需要「transformers for Transformers」。(新智元)
參考資料:
https://www.theinformation.com/articles/musk-plans-xai-supercomputer-dubbed-gigafactory-of-compute?rc=epv9gi
https://www.inc.com/ben-sherry/elon-musk-touts-nvidia-dominance-predicts-a-giant-leap-in-ai-power.html
https://finance.yahoo.com/news/jensen-huang-elon-musk-openai-182851783.html?guccounter=1