1000億美元宇宙級豪賭!微軟OpenAI打造星際之門AI超算,電力耗能驚人



【導讀】爆炸訊息!據外媒透露,微軟和OpenAI正豪擲超千億美元,欲打造一台「星際之門」超算。最快在2028年,「星際之門」就要啟動了。而它對電力的需求,將達到前所未有的程度。

就在剛剛,又有大消息曝出。

根據外媒The Information報道,微軟和OpenAI正計劃建造一個名為「星際之門」(Stargate)的特殊資料中心,為後者提供強大的運算支援。

具體來說:

  • 微軟高層計畫最快在2028年啟動該項目
  • 這台超算對電力的需求將前所未有地高
  • OpenAI將在明年初發布下一次重大升級


這個「星際之門」超算,會配備數百萬專用的伺服器晶片!項目的成本,預計高達1150億美元。

而如此龐大的資金支出,將由微軟買單。

據悉,「星際之門」推出的時間預計在2028年,並且2030年之前會進一步擴建。

最終,它所需的電力,很可能高達5千兆瓦。

就在本週三,我們剛報道OpenAI把微軟電網搞崩的消息。當時微軟工程師曝出,為GPT-6部署10萬個H100訓練集群時,整個電網發生了崩潰。

如今看來,這個十萬卡集群,很可能就是「星際之門」的早期雛形。


GPT-5不斷延期,微軟能回本嗎?

與當今一些最大規模的資料中心相比,「星際之門」的成本直接高出100倍!

在微軟和OpenAI未來六年計畫建造的一系列超算設施中,它是最大的一個。

而敢砸這麼多錢,也反應出微軟和OpenAI對AI前景的巨大信心。

在十年內,這將是雙方最關鍵、最重大的合作。

不過話說回來,畢竟是1000億美元的巨額投資,微軟確​​定能「回本」嗎?

在此之前,微軟已經向OpenAI投資超過130億美元,讓OpenAI能用微軟的資料中心跑ChatGPT。

而作為回報,微軟得到的是對OpenAI技術核心的存取權限,並且可以將該技術獨家提供給摩根士丹利之類的雲端運算客戶。另外,Office、Teams、Bing的AI Copilot中,也可以整合OpenAI的技術。


接下來,「星際大門」能否如期推進,就看GPT-5的性能究竟能有多大的提升了。

傳說中的GPT-4.5、GPT-5,多次被傳要來,最後卻還是一場空。

這也讓OpenAI對微軟「如期交付新模型」的承諾,打了水漂。

部分人士表示灰心:看來AI的發展前景難以預測。

然而Sam Altman堅決否認:絕非如此!在他看來,限制GPT-5發展的主要障礙,就是缺乏足夠的伺服器。


電力+晶片,耗資驚人

如果「星際之門」成真,那它提供的算力,將遠超現在的微軟鳳凰城資料中心。


微軟鳳凰城資料中心

而電力和晶片上的投入,也都將是一筆巨資。

經初步計算,「星際之門」要運轉,需要的是至少數千兆瓦的電力,相當於目前幾個大型資料中心所需的電力。

另外,晶片的採購也是一個大成本。

開弓沒有回頭箭,如此耗費龐大的投入,能得到什麼樣的結果?

當然是AGI。

Digital Realty的技術長Chris Sharp指出,如果是為了實現AGI,這種投資規模的專案絕對是必要的。

雖然專案的規模令人咋舌,聞所未聞,但一旦這種超算建成,人們就會接受它的巨額成本。


AI超算第五階段:「星際之門」

Altman與微軟的員工們把AI超算的發展分成五個階段,而最終階段就是星際之門。

這個名字靈感來自於一部科幻電影,科學家發明了一台能夠實現星系間旅行的裝置。

當然了,這個代號雖然是由OpenAI提出的,但它並不會被微軟正式採用。


在「星際之門」之前,所需的資金相對較少,但仍遠遠超過目前資料中心的建造成本。

目前來說,微軟和OpenAI還處於第三階段。

但第四階段的超算已經破土動工,預計將在2026年左右推出。

根據報道,微軟光擴建資料中心就要耗資10億美元,而最終造價可能將高達100億美元。

其中,計畫採用的英偉達AI晶片,將會是開銷的大頭。

對此業內人士分析稱,目前正在建造的以AI為重點的資料中心,其晶片成本通常要占到總投資的一半。


整體而言,想要最終完成「星際之門」計劃,可能會需要消耗超過1150億美元——這一數字是微軟去年在伺服器等設備上支出的3倍還多。

而基於2023年下半年公佈的資本支出速度,微軟2024年的支出預計將達到約500億美元。


Altman:晶片不夠用,Google算力都比我們多

之所以如此下本,是因為Altman對於自己手上的算力,非常不滿。

他不僅公開表示現有的AI伺服器晶片數量嚴重不足,而且還在私下表示,作為主要競爭對手之一的谷歌,將會在短期內擁有比OpenAI更多的算力。


隨著對英偉達GPU的需求急劇上升,像微軟和OpenAI這樣的客戶,都必須面臨成本上漲的問題。

而這也是Altman為什麼想要創辦公司,並開發出能媲美英偉達GPU的晶片的原因之一。

除了控製成本外,微軟支援Altman開發替代晶片還有其他潛在的考量。

GPU市場的繁榮讓英偉達成為了一個關鍵的決策者,它不僅可以決定哪些客戶能夠獲得更多的晶片,並且還會支援一些與微軟競爭的小型雲端服務供應商。甚至,連英偉達自己也開始向客戶賣雲端服務了。


而「星際之門」的提出,便是讓微軟和OpenAI有了除英偉達之外的選擇,例如AMD的GPU,或是微軟最近推出的自研AI晶片。


技術難題:晶片過熱、網路電纜,還有能源

「星際之門」的設想雖然宏大,但要真的實現,還得攻克多項技術難題。

例如,其中一個設計方案,就是在單一機架中安裝比微軟以往更多的GPU,來提升晶片的工作效率與效能。

然而,這無疑會增加GPU的密集度,因此微軟就需要設計出有效的冷卻方案,來避免晶片過熱。

另外,如何連接數以百萬計的GPU也是個難題。

這涉及選擇合適的網路電纜,它對迅速傳輸大量資料至關重要。

目前,微軟在超算中使用的是英偉達專有的InfiniBand。但我們都知道,OpenAI一直在努力擺脫對英偉達依賴。


因此,OpenAI希望「星際之門」能採用更通用的乙太網路電纜。


另外,在能源這塊,根據專案內部人士透露,公司們考慮採用替代能源,例如核能,來滿足其能源需求。

值得一提的是,亞馬遜近期購入了一個位於賓州、能夠連接核能能源的資料中心地塊。據了解,微軟也對這一地塊表現出了興趣,並曾參與相關競標。

Altman個人認為,要實現超級智慧的開發,很可能需要在能源領域取得重大突破。

顯然,在追求高階人工智慧的道路上,能源創新將扮演關鍵角色,而核能,很可能會成為實現這一目標的重要一環。


總之,跟傳統運算相比,AI計算的成本和複雜度都不是一個量級的。

這就是為什麼,各大公司對AI資料中心的細節摳得無比嚴格。 GPU如何連接和冷卻,一個細節的差異可能導致巨大的成本損耗。

老黃也早就預測說,為了因應未來對AI運算的需求,在未來四到五年內,全球需要投資1兆美元來建造新的資料中心!

而晶片過熱、網路電纜和能源的問題,在短時間內都沒有解決的可能性。


此外,「星際之門」會建在一個資料中心內,還是由多個資料中心緊密相連呢?

它會具體建在什麼位置?

目前這些問題也都沒有答案。

不過有從業人員表示,當GPU叢集位於同一個資料中心時,效率會更高。


其實,OpenAI早已逼著微軟突破了自己的極限。

自2019年投資OpenAI以來,微軟的資料中心一直不停地驚人進化。

為了滿足OpenAI日益增長的算力需求,微軟咬牙造了第一台GPU超算,其中包含數千個英偉達GPU。

才幾年時間,這台超算就讓微軟燒掉了12億美元。

而在今年和明年,微軟即將為OpenAI提供的新伺服器,將包含數十萬個GPU!


下一個里程碑:GPT-5

微軟和OpenAI的雄心壯志,幾乎完全取決於OpenAI是否能在「超級智慧」上取得重大進展。

如果OpenAI能解決癌症、核融合、全球暖化或火星殖民這種程度的問題,金主當然願意源源不絕地投錢。

然而,這樣的成就,目前還遙不可及。

儘管ChatGPT和Sora在全球擁有了無數用戶,但如何用它們帶來顯著收入,OpenAI目前還沒有解決。變現所需的時間,可能比預期的更長。


也正因如此,亞馬遜和谷歌已經降低了對AI產品的銷售預期。

部分原因是,成本實在太高了!而且,在大型企業中部署百萬級用戶的應用,需要耗費大量的工作。

Altman在上個月曾表示,當研究人員投入更多的算力時,AI模型會變得「可預見地更好」。對此,OpenAI稱之為對話式AI的「縮放定律」(scaling law)。

據知情人士透露,OpenAI計劃在明年初之前發布其下一代LLM。

而在那之前,可能會推出一些小幅改進版本。

而擁有更多的伺服器,無疑會增加OpenAI的底氣,堅信AI模型會取得下一層的突破。

例如傳聞中的Q*,據說能解決先前未經訓練的數學問題。而且,它是用合成資料訓練的。在人類數據即將耗盡之際,這一點至關重要。

此外,傳聞這些模型還能辨識出現有模型,如GPT-4的缺陷,並提出技術改進,換句話說,就是自我完善的AI。

聽起來,OpenAI離AGI越來越近了。新智元

參考資料:

https://www.theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer?rc=epv9gi