全球首個GB300巨獸救場！一年燒光70億，OpenAI內鬥GPU慘烈

2025/10/11

•

為了爭奪有限的GPU，OpenAI內部一度打得不可開交。 2024年總算力投入70億美元，但算力需求依舊是無底洞。恰恰，微軟發布了全球首台GB300超算，專供OpenAI讓兆LLM數天訓完。

過去一年，OpenAI在算力上斥資70億美元。

其中，大模型研發佔了最大頭——50億美元，而推理計算只花了20億美元。

可見，LLM訓練正吞噬無盡的算力，這也是OpenAI最近一直在大舉擴展超算建設與合作的重要原因。

採訪中，OpenAI總裁Greg Brockman坦言，「內部如何分配GPU，簡直就是一場痛苦與煎熬」。

OpenAI各團隊爭搶GPU，那叫一個激烈。最頭疼的是，如何去合理分配。

如今，甲骨文、輝達、AMD等晶片巨頭/雲端服務巨頭，紛紛與OpenAI聯結，能夠解其燃眉之急。

這不，就連曾經最大的「金主爸爸」微軟也上陣了。

納德拉官宣，全球首個配備4600+ GB300的超算率先上線，專攻OpenAI。預計，未來將擴展到十萬塊GPU。

輝達稱，這一算力巨獸，可以讓OpenAI不用數周，僅在數天內訓練兆參數模型。

全球首個GB300超算數天訓出兆LLM

就在昨天，微軟Azure宣佈成功交付了，全球首個生產級超大規模AI叢集。

它搭載了超4600個GB300 NVL72，配備通過下一代InfiniBand網路互聯的Blackwell Ultra GPU。

今年稍早，微軟曾推出GB200 v6虛擬機器（VM），透過大規模GB200 NVL2叢集，已在OpenAI內部訓練部署應用。

這一次，GB300 v6虛擬機器再次樹立了行業標竿。

系統基於機架級設計，每個機架包含18個虛擬機器，共72個GPU：

72個Blackwell Ultra GPU，搭配36個Grace CPU
通過下一代Quantum-X800 InfiniBand，實現每GPU 800 Gb/s的跨機架橫向擴展頻寬（2x GB200 NVL72）
機架內130 TB/s的NVLink頻寬
37TB高速記憶體
高達1,440 PFLOPS的FP4 Tensor Core性能

全新設計，為大規模AI超算而生

為打造出最強超算，微軟對計算、記憶體、網路、資料中心、散熱和供電等技術堆疊的每一層，都進行了重新設計。

機架層：低延遲高吞吐

透過NVLink和NVSwitch，GB300 v6在機架層面實現了高達130TB/s的機架內資料傳輸速率，連接了總計37TB的高速記憶體，由此消除了記憶體和頻寬瓶頸。

在大模型和長上下文場景下，推理吞吐量大幅提升，為AI智能體和多模態AI帶來前所未有的響應速度和擴展性。

同時，Azure部署了採用當今最快網路fabric——Quantum-X800 Gbp/s InfiniBand——的全連接胖樹（fat-tree）無阻塞架構，能夠跨機架擴展數萬個GPU。

此外，Azure散熱系統採用獨立的「散熱器單元」與「設施級冷卻方案」。

在為GB300 NVL72這類高密度、高效能叢集保持熱穩定性的同時，最大限度地減少了水資源消耗。

軟體層：全面最佳化

不僅如此，微軟為儲存、編排和調度重構的軟體棧也經過全面最佳化，能夠在超算規模上充分利用計算、網路、儲存和資料中心基礎設施，提供前所未有的高效能和高效率。

OpenAI GPU爭奪戰一場「痛苦與煎熬」

在OpenAI內部，正上演一場GPU激烈爭奪戰。

上周四，Greg在一期「Matthew Berman」播客節目中，自曝管理算力資源分配的過程，令人揪心且筋疲力盡。

這太難了，你總能看到各種絕妙的點子，然後又有人帶著另一個絕妙的點子來找你，你心想，這個也太棒了。

在OpenAI內部，將算力資源主要分配給「研究」和「應用產品」兩個方向。

為了應對算力分配的挑戰，OpenAI建立了一套相對清晰的資源分配機制：

高層決策：由奧特曼和Fidji Simo組成的領導團隊，決定研究團隊與應用團隊之間的總體算力劃分；

研究團隊內部協調：首席科學家和研究負責人，決定研究團隊資源分配；

營運層：由Kevin Park領導的小型內部團隊負責GPU的具體分配與調動。

Greg提到，當一個項目接近尾聲時，Kevin會重新分配硬體資源，以支援新啟動的項目。

算力驅動整個團隊的生產力，此事幹係重大。

大家對此都非常在意。人們對「我能否分到算力」這件事所投入的精力與情感強度遠超想像。

一直以來，OpenAI多次公開表達其對算力永不滿足的需求。

OpenAI首席產品長Kevin Weil曾表示，「我們每次拿到新的GPU，它們都會立刻投入使用」。

OpenAI對算力的需求邏輯很簡單—

GPU的數量直接決定了AI應用的能力上限。獲得的GPU越多，所有人就能使用越多的AI。

不只OpenAI，整個產業科技巨頭也在加碼算力投入。小札透露，Meta正將「人均算力」打造為核心競爭優勢。

上個月，奧特曼稱，OpenAI正在推出「算力密集型服務」。

當我們以當前模型的成本，將海量算力投入有趣的新想法時，能創造出怎樣的可能性？

這場算力爭奪戰中，誰手握最多的算力，將決定誰在AI競賽中脫穎而出。

參考資料：

https://x.com/satyanadella/status/1976322455288545343

https://x.com/Azure/status/1976319720472138045 https://azure.microsoft.com/en-us/blog/microsoft-azure-delivers-the-first-large-scale-cluster-with-nvidia-gb300-nvl72-openge-nvl-fors/open-n00-n00-n00/

https://www.businessinsider.com/openai-president-allocate-gpu-compute-internally-greg-brockman-2025-10 （新智元）