全球首個GB300巨獸救場!一年燒光70億,OpenAI內鬥GPU慘烈

為了爭奪有限的GPU,OpenAI內部一度打得不可開交。 2024年總算力投入70億美元,但算力需求依舊是無底洞。恰恰,微軟發布了全球首台GB300超算,專供OpenAI讓兆LLM數天訓完。

過去一年,OpenAI在算力上斥資70億美元。

其中,大模型研發佔了最大頭——50億美元,而推理計算只花了20億美元。

可見,LLM訓練正吞噬無盡的算力,這也是OpenAI最近一直在大舉擴展超算建設與合作的重要原因。

採訪中,OpenAI總裁Greg Brockman坦言,「內部如何分配GPU,簡直就是一場痛苦與煎熬」。

OpenAI各團隊爭搶GPU,那叫一個激烈。最頭疼的是,如何去合理分配。

如今,甲骨文、輝達、AMD等晶片巨頭/雲端服務巨頭,紛紛與OpenAI聯結,能夠解其燃眉之急。

這不,就連曾經最大的「金主爸爸」微軟也上陣了。

納德拉官宣,全球首個配備4600+ GB300的超算率先上線,專攻OpenAI。預計,未來將擴展到十萬塊GPU。

輝達稱,這一算力巨獸,可以讓OpenAI不用數周,僅在數天內訓練兆參數模型。

全球首個GB300超算數天訓出兆LLM

就在昨天,微軟Azure宣佈成功交付了,全球首個生產級超大規模AI叢集。

它搭載了超4600個GB300 NVL72,配備通過下一代InfiniBand網路互聯的Blackwell Ultra GPU。

今年稍早,微軟曾推出GB200 v6虛擬機器(VM),透過大規模GB200 NVL2叢集,已在OpenAI內部訓練部署應用。

這一次,GB300 v6虛擬機器再次樹立了行業標竿。

系統基於機架級設計,每個機架包含18個虛擬機器,共72個GPU:

  • 72個Blackwell Ultra GPU,搭配36個Grace CPU
  • 通過下一代Quantum-X800 InfiniBand,實現每GPU 800 Gb/s的跨機架橫向擴展頻寬(2x GB200 NVL72)
  • 機架內130 TB/s的NVLink頻寬
  • 37TB高速記憶體
  • 高達1,440 PFLOPS的FP4 Tensor Core性能

全新設計,為大規模AI超算而生

為打造出最強超算,微軟對計算、記憶體、網路、資料中心、散熱和供電等技術堆疊的每一層,都進行了重新設計。

  • 機架層:低延遲高吞吐

透過NVLink和NVSwitch,GB300 v6在機架層面實現了高達130TB/s的機架內資料傳輸速率,連接了總計37TB的高速記憶體,由此消除了記憶體和頻寬瓶頸。

在大模型和長上下文場景下,推理吞吐量大幅提升,為AI智能體和多模態AI帶來前所未有的響應速度和擴展性。

同時,Azure部署了採用當今最快網路fabric——Quantum-X800 Gbp/s InfiniBand——的全連接胖樹(fat-tree)無阻塞架構,能夠跨機架擴展數萬個GPU。

此外,Azure散熱系統採用獨立的「散熱器單元」與「設施級冷卻方案」。

在為GB300 NVL72這類高密度、高效能叢集保持熱穩定性的同時,最大限度地減少了水資源消耗。

  • 軟體層:全面最佳化

不僅如此,微軟為儲存、編排和調度重構的軟體棧也經過全面最佳化,能夠在超算規模上充分利用計算、網路、儲存和資料中心基礎設施,提供前所未有的高效能和高效率。

OpenAI GPU爭奪戰一場「痛苦與煎熬」

在OpenAI內部,正上演一場GPU激烈爭奪戰。

上周四,Greg在一期「Matthew Berman」播客節目中,自曝管理算力資源分配的過程,令人揪心且筋疲力盡。

這太難了,你總能看到各種絕妙的點子,然後又有人帶著另一個絕妙的點子來找你,你心想,這個也太棒了。

在OpenAI內部,將算力資源主要分配給「研究」和「應用產品」兩個方向。

為了應對算力分配的挑戰,OpenAI建立了一套相對清晰的資源分配機制:

高層決策:由奧特曼和Fidji Simo組成的領導團隊,決定研究團隊與應用團隊之間的總體算力劃分;

研究團隊內部協調:首席科學家和研究負責人,決定研究團隊資源分配;

營運層:由Kevin Park領導的小型內部團隊負責GPU的具體分配與調動。

OpenAI複雜算力關係網圖

Greg提到,當一個項目接近尾聲時,Kevin會重新分配硬體資源,以支援新啟動的項目。

算力驅動整個團隊的生產力,此事幹係重大。

大家對此都非常在意。人們對「我能否分到算力」這件事所投入的精力與情感強度遠超想像。

一直以來,OpenAI多次公開表達其對算力永不滿足的需求。

OpenAI首席產品長Kevin Weil曾表示,「我們每次拿到新的GPU,它們都會立刻投入使用」。

OpenAI對算力的需求邏輯很簡單—

GPU的數量直接決定了AI應用的能力上限。獲得的GPU越多,所有人就能使用越多的AI。

不只OpenAI,整個產業科技巨頭也在加碼算力投入。小札透露,Meta正將「人均算力」打造為核心競爭優勢。

上個月,奧特曼稱,OpenAI正在推出「算力密集型服務」。

當我們以當前模型的成本,將海量算力投入有趣的新想法時,能創造出怎樣的可能性?

這場算力爭奪戰中,誰手握最多的算力,將決定誰在AI競賽中脫穎而出。

參考資料:

https://x.com/satyanadella/status/1976322455288545343

https://x.com/Azure/status/1976319720472138045 https://azure.microsoft.com/en-us/blog/microsoft-azure-delivers-the-first-large-scale-cluster-with-nvidia-gb300-nvl72-openge-nvl-fors/open-n00-n00-n00/

https://www.businessinsider.com/openai-president-allocate-gpu-compute-internally-greg-brockman-2025-10 (新智元)