全球AI算力報告出爐，LLM最愛A100！ Google坐擁超100萬H100等效算力

2025/02/15

•

全球有多少AI算力？算力成長速度有多快？在這場AI「淘金熱」中，都有那些新「鏟子」？ AI新創企業Epoch AI發佈了最新全球硬體估算報告。

AI的物質基礎是機器學習硬體，例如圖形處理單元（GPU）和張量處理單元（TPU）。

據不完全統計，目前全球超過140款AI加速器，用於開發和部署深度學習時代的機器學習模型。

Epoch AI帶來了全球算力的估計報告，利用公開資訊估計了全球機器學習硬體的現狀和趨勢。

除了傳統硬體廠商輝達、AMD等紛紛推出加速卡，一些新興勢力開始「造芯」，算力持續提升。

2008至2024年全球機器學習硬體的運算能力示意圖

除了GPU，硬體類型也豐富了起來。例如，出現了專門處理張量運算的TPU（張量處理單元，Tensor Processing Unit）。

報告的主要結論，總結如下：

總量每年增長43%，價格下降30%。
低精度計算成為主流。
頂級硬體能效每1.9年翻倍。
八年間，訓練大型模型所需的處理器數量增加了20倍以上。
全球NVIDIA支援的運算能力平均每10個月翻一番。

關鍵發現：ML硬體的「摩爾定律」

ML硬體每年成長43%

以16位元浮點運算衡量，機器學習硬體的效能以每年43%的速度成長，每1.9年翻倍。 32位元性能也存在類似的趨勢。

最佳化機器學習數位格式和張量核心提供了額外的改進。

驅動因素還包括電晶體數量的增加和其他半導體製造技術的進步，以及針對AI工作負載的專門設計。這種改進降低了每FLOP的成本，提高了能源效率，並實現了大規模人工智慧訓練。

性價比每年提升30%

每美元性能提升迅速，任何給定精度和固定性能水平的硬體每年都會便宜30%。同時，製造商不斷推出更強大、更昂貴的硬體。

低精度格式是趨勢

在使用針對人工智慧運算最佳化的張量核心和資料格式時，GPU通常速度更快。

與使用非張量FP32相比，TF32、張量FP16和張量INT8在整體效能趨勢中平均提供約6倍、10倍和12倍的效能提升。

一些晶片甚至實現了更大的加速。例如，H100在INT8時的速度比在FP32時快59倍。

自推出以來，這些改進約佔整體效能趨勢改進的一半。隨著開發人員利用這種效能提升，使用較低精度格式（尤其是張量FP16）訓練的模型已經變得非常常見。

能源效率每1.9年翻一番

根據歷史資料，頂級GPU和TPU的能源效率每1.9年翻倍。

就tensor-FP16格式而言，效率最高的加速器是Meta的MTIA（每瓦高達2.1x10^12FLOP/s）和NVIDIA H100（每瓦高達1.4x10^12FLOP/s）。即將推出的Blackwell系列處理器可能會更有效率，具體取決於其功耗。

模型也各有所愛

在Epoch的資料集中，NVIDIA A100是用於高引用或最先進人工智慧模型的最常用的硬體，自發佈以來已用於65個著名ML模型。

其次是NVIDIA V100，用於訓練55個著名模型，其次是Google的TPU v3，用於47個。

然而，估計NVIDIA H100到2023年底的銷量已超過A100，因此它可能在不久的將來成為訓練模型最受歡迎的GPU。

訓練叢集規模激增

用於訓練大型語言模型（LLMs）的處理器數量的顯著增長。

G oogle NASv3 RL網路(2016):使用了800個GPU進行訓練。
Meta Llama 3.1 405B(2024):使用了16,384個H100 GPU進行訓練。

這意味著在短短八年間，訓練大型模型所需的處理器數量增加了20多倍。

四大「算力帝國」？

Google、微軟、Meta和亞馬遜擁有相當於數十萬個NVIDIA H100的AI算力。

這些運算資源既用於他們內部的AI開發，也用於雲端客戶，包括許多頂級AI實驗室，如OpenAI和Anthropic。

Google可能擁有相當於超過一百萬個H100的運算能力，主要來自他們的TPU。

微軟可能擁有最大的NVIDIA加速器庫存，約50萬個H100當量。

大量的AI運算能力由這四家公司以外的集團共同擁有，包括其他雲端公司如Oracle和CoreWeave，運算使用者如特斯拉和xAI，以及各國政府。

之所以重點介紹Google、微軟、Meta和亞馬遜，因為他們可能擁有最多的運算能力，而其他公司的資料公開較少。

初步工作發現，截至2024年中，GoogleTPU的總算力大約是輝達晶片的30%。

輝達每年不止翻一番

自2019年以來，NVIDIA晶片的總可用運算能力大約每年增長2.3倍，從而能夠訓練越來越大的模型。

也就是說，全球NVIDIA組成的運算能力平均每10個月就會增加一倍。

Hopper這一代NVIDIA AI晶片目前佔其所有AI硬體總運算能力的77%。以這種成長速度，舊的晶片型號在其推出後大約4年左右，對累積運算量的貢獻往往會低於一半。

請注意，此分析不包括TPU或其他專用AI加速器，因為這方面的資料較少。 TPU可能提供與NVIDIA晶片相當的總運算能力。

以晶片型號分解，發現目前約77%的NVIDIA FLOP/s來自Hopper世代的GPU，如H100。

目前估計NVIDIA GPU可提供4e21 FLOP/s的運算能力，約相當於400萬個H100。

注意：這些估計值是基於NVIDIA的收入申報文件，並假設不同時代晶片的分佈隨時間變化的模式與AI群集資料集中的模式相同。

此外，報告發現自2019年以來，計算能力的累積總和（考慮折舊）每年增長2.3 倍。

但僅考慮資料中心銷售額，而忽略NVIDIA收入報告中「遊戲」（Gaming）銷售額帶來的運算能力。

公開資料集

Epoch同時公佈了機器學習硬體資料集和資料分析原始碼。

https://epoch.ai/data/machine-learning-hardware-documentation#overview

詳細資料分析流程，請參閱下列NoteBook。

https://colab.research.google.com/drive/1gbbrKDKFjghUPmH-aSI9ACtb1Iuwg-cR?usp=sharing

參考資料：

https://epoch.ai/data/machine-learning-hardware （新智元）