計算的未來:輝達王冠正搖搖欲墜

需求整合、定製晶片和分佈式訓練將影響輝達領先地位。


大模型浪潮來襲後,2023 年輝達資料中心的 GPU 出貨量總計約 376 萬台,較之上一年的 264 萬台增長 100 多萬台,並成為歷史上規模增長最快的硬體公司。據估計,2025 年輝達銷量將達到 650 萬至 700 萬塊 GPU。

目前情況來看,輝達在 GPU 上的壟斷局面仍在持續,然而,其長期持久性(>6 年)的問題仍在被持續熱議。

當前,以Google、微軟、亞馬遜和 Meta 為代表的海外巨頭正在積極整合 AI 需求,力爭成為 NPU 的主要消費者,與此同時,他們也正在自研具有競爭力且高度可靠的晶片。

此外,計算需求的規模之大也觸及了資本支出、電力供應和基礎設施建設的極限,這正在推動行業轉向分佈式、垂直整合和協同最佳化的系統(晶片、機架、網路、冷卻、基礎設施軟體、電源),而輝達對此準備不足。

基於此,輝達可能會失去有利地位,影響將波及 AI 堆疊的各個層面——從晶圓廠和半導體,到基礎設施、雲端、模型開發者和應用層。


1 巨頭加速晶片競爭

據輝達方面介紹,2025 財年第四季度,其共交付了 110 億美元 Blackwell 晶片,Blackwell 主要賣給雲巨頭,這部分收入佔輝達資料中心業務收入的半成左右。

不過,業內判斷,雲巨頭的份額將縮小,此外,由於過度購入並被迫虧損出售的小/短期GPU租賃廠商的利用率和投資回報率也均較低。

同時,由於規模化的前沿模型成本更低、性能和泛化能力更佳,尤其是在有效的 RAG 和廣泛可用的微調機制之下,大多數使用特定資料訓練專有模型的公司價值點尚不明確,這些長尾買家的需求並不穩固。

此外,部分小型獨立雲廠商如 Coreweave、Lambda、Crusoe、Runpod 等的未來不夠明晰,輝達過往偉減少雲巨頭帶來的衝擊給予他們資金和 GPU 支援,但其仍舊缺乏產品多樣性、基礎設施和人才能力。

相比之下,雲巨頭的需求則增長迅速,外部開發者面臨著長期資源短缺,交付周期長達數月,而內部需求也加劇了這一趨勢,50-70% 的總計算量用於前沿訓練和重大成果(例如 Copilot、Gemini 和 Meta AI)的推理。

儘管各大雲服務提供商每年的資本支出都超過 200 億美元,但所有主要雲平台都已滿負荷運轉。憑藉規模和基礎設施經驗,雲巨頭最有能力攤銷折舊和停機成本,同時提供他們也提供了很強的靈活性、安全性和可靠性,由此帶來高 AI 服務利潤率和客戶信任度。

當 GPU 支出數億時,輝達在主導驅動平行 AI/ML 工作負載方面的平衡是可控的,如今,這種情況已不復存在。在一些超大規模資料中心,資本支出已超過毛利潤的 25%,GPU 佔基礎設施支出的一半,並佔資料中心 TCO 約 80%。此外,與軟體不同,推理是邊際成本結構的核心。


來源:John Huber


隨著未來訓練(50 億美元以上)支出受限,定製化和資本效率對於最大限度地擴展計算能力、訓練最佳模型和保持競爭力至關重要。

雖然替代輝達並不容易,但巨頭們均在尋找機會點:

Meta 用 ASIC 取代了輝達處理其一些最大的 DLRM 工作負載,Google也用同樣的方法處理了 YouTube 的關鍵視訊編碼工作負載。亞馬遜早在 2012 年就用 Nitro 取代了虛擬機器管理程序,並用 Graviton 取代了大量英特爾 CPU。

雲巨頭以及 Marvell、Broadcom、Astera、Arista 和 AIchip 等主要設計合作夥伴已經投入了大量資金和工程人才,以削弱輝達的壟斷。


定製計算市場和Marvell收入坡道的增長預測


以Google為例,自 2013 年以來,他們一直在內部開發 TPU,雖然開發周期長達數年,但在預算、人才和架構都有限的情況下,TPU v1 從啟動到部署僅用了 15 個月。

並且歷屆 TPU 論文中與對應的 GPU 相比都有性能和能耗上的優勢。比如,TPU 第 4 代和輝達的 A100 是同等製程的,在這一情況下,單看半導體利用率,TPU 的技術和架構及設計方案會比 GPU 有 3-5 倍的性能提升。

現階段,也有許多頭部廠商在採用 TPU,如 Anthropic 使用 TPU v5e 進行推理,蘋果則曾選擇在 TPU V4 和 V5p 的混合體上訓練其 SOTA 3B 參數本地模型。

發展至第六代,TPU Trillium 已經將能效和 HBM 容量提高一倍,峰值性能提高三倍以上。而Google也在迭代其軟體堆疊,由 TensorFlow 過渡到 JAX 用於處理編譯和低級部署最佳化,TPU 和 JAX 的組合幾乎完全取代了Google內部用於 AI 工作負載的輝達 GPU。

本月初,Google又發佈了第七代 TPU“Ironwood”,作為Google首款面向 AI 推理時代的 TPU,單晶片峰值算力可達4614 TFLOPs。據介紹,Ironwood 可擴展至 9216 片晶片叢集,性能是第六代 TPU Trillium 的 2 倍,並且能效較之於第一款 Cloud TPU 高出近 30 倍。

此外,HBM 頻寬也有所提升,單顆 Ironwood 晶片的記憶體頻寬達 7.2Tbps,是 Trillium 的4.5倍,Ironwood 晶片間互聯(ICI)頻寬則為 1.2Tbps,是 Trillium 的1.5倍。

除Google外,亞馬遜也正在加速晶片開發,自 2015 年收購 Annapurna Labs 後,他們推出了第二代 Inferentia 和新的 Trainium 晶片,預計到 2026 年,支出將達到 25 億美金。第一代運行 Alexa 的後端,而第二代則專注於 LLM 價格和性能的最佳化。Anthropic 也已選擇了亞馬遜作為主要算力供應商,並與其一同研發下一代晶片。

微軟則推出了自研 AI 晶片 Maia 100 晶片和相關的 Cobalt 100 CPU。在軟體方面,微軟推出了相容 Pytorch 的編譯器 Maia SDK,依靠 Open AI 的 Triton 框架來取代 CUDA。另外,還推出了一種新的資料格式(MX v1.0)以使跨提供商的量化標準化,這將使自研和第三方晶片無縫互操作,為開發者提供完整的可移植性。

Meta 也在佈局 ASIC,早期,Meta 晶片主要為 Instagram 和 Reels 提供 DLRM,隨著第二代 MTIA 晶片發佈和支援定製軟體堆疊,其已開始在 Facebook 和 Instagram 的新聞推送推薦系統中使用推理晶片。

Meta 還在合成資料生成方面擴大晶片使用,此前,Llama 3.1 就使用了這些晶片進行監督微調和資料提煉,以預訓練較小的模型。上月,據外媒報導,Meta 已經在小規模部署測試其首款用於 AI 訓練的自研晶片。

當前,AI 的工作負載偏向於訓練,即使在微軟,訓練也約佔算力需求的六成,理論上來講,由於訓練受限於記憶體且對空間限制較為敏感,會限制 ASIC 的可行性,但隨著重心由訓練轉向推理,輝達的壓力也正在增大。

業內分析認為,在許多情況下(尤其是對於中型模型),上一代 A100 的性價比都高於 H100,而 AMD 也正在成為更具競爭力的替代品,甚至從長遠來看,尤其是對於小模型而言,基於 CPU 的推理或為最佳選擇。


2 分佈式帶來的挑戰

當然,也有人會反駁稱,就單晶片性能而言,輝達 B100 的性能相當於 3 個 Trillium TPU,但有觀點認為,單晶片性能並不重要:雲巨頭能夠垂直整合併利用其規模和專業打造總體上更經濟、性能更高的分佈式系統,對於輝達而言,這將會是難以競爭或適應的結構性趨勢。

隨著登納德縮放定律(Dennard scaling)的失效和 SRAM 邏輯尺寸的縮小,電晶體小型化的回報下降,新節點成本卻一路飆升,硬體增益(密度、性能和成本)將越來越多地來自系統技術的協同最佳化,以及互聯、晶片、冷卻、電源、機架和資料中心的智能設計。

這在很大程度上得益於先進的封裝技術(例如晶片、增加的封裝內 HBM)和更大的基板。而更大的增益則來自於資料中心營運商、供應商和系統整合商有意識地根據超大規模需求定製設計的努力。

來源:微軟研究


以微軟的資料中心設計為例,他們規劃了自己的電信光纖網路,並推出新的 ColorZ 可插拔光收發器 + DSP,以支援長距離(<80 公里)資料傳輸,通過連線據中心有效提高峰值叢集性能。

為了支援海量資料流,微軟計畫開發用於交換機和收發器的封裝內、並最終實現晶片光學器件。目前搭載 Maia 晶片的機架擁有更高的垂直整合度,通過使用定製配電、高頻寬乙太網路協議和專用的機架內“sidekicks”來實現閉環液體冷卻,且在提高晶片密度的同時,降低了互連要求和成本。

重要的是,這些伺服器整合到現有的微軟資料中心基礎設施後,可以在現有空間內實現動態功耗最佳化、更輕鬆的管理以及更大的計算能力,這是擴展訓練運行的必要條件。

Google所見略同,他們放棄了大型晶片,轉而採用體積更小、成本更低、且具有深度互連的 ASIC 叢集。在機架層面,所有 TPU 都具有相同的組態,無需支援不同的環境。此外,它們在機架中整合的伺服器主機板也更少,這提高了機架密度,並進一步降低了硬體部署的複雜性。

並且Google使用 ICI 而非 NVLink,這讓他們能通過無源銅纜,以非常低的成本連接 64 個 TPU 的切片。


與輝達的不同之處還在於,Google在資料中心及其他方面均進行了大量的定製化:TPU 設計為在 4096 個晶片的艙內運行,使用定製光學開關(Apollo)代替普通的電子分組交換機,與輝達相比,大大降低了功耗和停機時間。

在整個資料中心中,TPU 採用環形網路拓撲結構而非 CLOS 架構,改善了延遲和局部性,並結合專有的雲網路硬體和軟體 (Jupiter)實現跨資料中心組織大規模 TPU 叢集,繼而實現比競爭對手低近 30% 的性能/TCO(主要得益於晶片成本、停機時間和基礎設施支出的降低)。

更重要的是,結合更小的批次大小、資料驗證技巧和高級分區,這意味著Google可以在多個連接的資料中心訓練像 Gemini Pro 1.5 這樣的前沿模型。這最大限度地降低了未來訓練基礎設施的功耗和尺寸要求,並且在提高了硬體模組化的同時,延長了舊晶片/裝置的使用壽命。


Google資料中心衛星照片


基礎設施正在變得愈發分佈式,以 Meta 為例,Llama 3 的訓練就並非集中於單一資料中心。值得一提的是,由於需要去在包括 AWS、Oracle 等雲上做訓練,所以 Meta 也正在通過與 HammerSpace 合作將多雲多資料中心的資料完全統一起來。

微軟也正在為 OpenAI 連接遍佈全國的叢集。當前,海外巨頭都在積極探索實現真正的非同步分佈式訓練。


分佈式基礎設施是繼續擴展和計算新 OOM 的唯一途徑。目前,算力仍舊是前沿模型發展的最大制約因素,而多資料中心訓練允許使用規模較小、互聯互通的資料中心,這不僅降本而且提高了吞吐量。

同時,也加速了基礎設施的建設:小型資料中心更容易進行設計、獲得土地使用權/許可證、環境影響評估 (EIA) 審批、供應商/總承包商 (GC) 以及建設輸電和電壓變壓器;互聯叢集則可以幫助克服電網滿負荷運行的電力限制,單個資料中心很快就會達到規模極限(例如,10GW 叢集約佔美國電力的 1%)。


來源:Edward Conard


互聯園區和跨區域聯網叢集能夠擺脫單一端點,當前,海外還僅限於使用乙太網路(<40公里)區域內的資料中心,但也正在計畫利用電信光纖,連接遠至約 500 公里外的資料中心。

如微軟已開始深入研究,並已與 Lumen 等光纖網路提供商斥資超過 100 億美元。雖然還需要幾年時間才能部署,但將提供 1-5Pbit 的頻寬和 <1 秒的權重交換,足以實現多區域訓練。

這些區域分佈式訓練系統將持續擴展並成為常態,從而實現更經濟、更快速的基礎設施建設,同時推動單次運行(x-xxGW)的峰值功率/計算能力。

不過,雖然分佈式系統為非傳統但資金雄厚的參與者創造了一些機會,但基礎設施專業知識至關重要,巨頭必須不斷擴展以訓練出更優秀的模型。長期來看,關鍵區別在於訓練將在 x00MW-xGW 資料中心的“小型”聯網園區中進行,而不是在 xxGW 級的單體資料中心中進行。

基於前述趨勢,業內分析認為,輝達將很難在性能或成本上競爭,其既無法與雲深度整合,也無法定製硬體,除非他們發展出規模較小的客戶,輝達本身並不適合服務於跨叢集或百億億次級的情況。


DGX 100伺服器(8 A100s)的網路佈局


舉例來看,輝達的 Infiniband 網路基礎設施並非旨在支援 10 萬以上的 GPU 叢集,根據設計,每個 GPU 僅連接到單個 NIC(Network Interface Card,網路介面卡),並且每個封包都必須以相同的順序傳輸。

由於模型規模龐大且權重分佈不均,單個 NIC、GPU 或光模組故障就可能導致整台伺服器癱瘓,迫使資料重新傳輸,而隨著新機架的出現,節點規模也隨之增大,這種情況會更加嚴重,即使頻繁設定檢查點,也會將 MFU 拖累數個百分點。

此外,儘管輝達正在推動向 800 Gbps 網路的過渡,但他們面對資料通訊領域由超大規模引領的大規模轉型表現出措手不及,未來會越來越多地使用可插拔 ZR 光模組來支援連線據中心所需的超高頻寬光纖連接,還將獲得新的 DSP 和支援電信硬體(放大器、多路復用器、轉發器等)。

這會破壞輝達的網路堆疊,並且使 Coherent、Lumentum、Inphi、Cisco 和 Nokia 等供應商受益。

值得一提的是,輝達還面臨著一個最緊迫的問題——容錯,在訓練過程中處理多個故障點時,容錯能力是確保可靠性和高利用率的關鍵。規模較小的客戶依賴於開源框架,但對於規模非常大的叢集,輝達的網路設計和硬體選擇並未提供內建保護。

如今,許多巨頭依賴於內部解決方案:Google的 Pathways 比其他解決方案在邊緣情況和故障類型方面表現更優,同時能夠靈活處理同步和非同步資料流。Pathways 還擅長檢測和修復幾乎無法察覺的、繞過 ECC 的 GPU 記憶體問題,而輝達的診斷工具 (DCGM) 可靠性要低得多。

輝達也難以提供具有競爭力的分區和叢集管理軟體,其 BaseCommand 系統(基於 Kubernetes 建構)旨在實現跨平台,並相容異構系統。

然而,其他廠商擁有更完善的專有整合解決方案,如Google的 Borg和微軟的 Singularity 能夠更好地處理規模化的虛擬機器/容器管理、透明遷移以及 GPU 工作負載的調度/管理。Google甚至還通過 MegaScaler 在單個園區內外的 TPU Pod 之間同步劃分工作負載。

較之輝達,雲巨頭在半導體、基礎設施和模型層面的垂直整合,能夠提升其系統級理解、可觀察性、協同最佳化和故障分析能力。

當前輝達也已在通過 Blackwell 和 GB200 解決結構性問題。在硬體層面,安裝了機架寬的銅纜連接背板,並採用液冷技術來提高密度、能效和總體擁有成本 (TCO),並推出了基於乙太網路的資料中心級網路解決方案 Spectrum-X。

在軟體方面,輝達正在積極更新 DCGM 軟體,並推出專用的可靠性、可用性和可維護性 (RAS) 引擎,旨在通過感測器級晶片資料預先向營運商發出故障警報,從而幫助緩解持續存在的 NIC/Infiniband 故障。

然而,綜合來看,這還不夠。

如前文所述,幾乎所有關鍵基礎設施軟體的內部都存在更好的版本,超大規模資料中心也早已實現了規模化和垂直整合。

以冷卻為例,早在輝達強制使用液冷前,Google於 2018 年就通過 TPU v3 部署強制使用液冷,Google的 TPU v3 部署每千瓦時用水量比微軟的輝達資料中心少 2 倍,PUE(電源使用效率)為 1.1,而微軟的 PUE 則>1.4。這意味著輝達在每個超大規模資料中心損失了 30% 的有效電力和 50% 的佔地面積。

輝達意識到了這一點,並通過佈局 DGX Cloud、NGC 等努力提升價值鏈,也前瞻性收購了 Mellanox,但未來正朝著大型園區和雲的方向發展,而輝達卻主要在資料中心層面進行最佳化,其正面臨著前所未有的長期挑戰。 (AI科技評論)