誰擁有最多的AI晶片?

人工智慧的進步依賴於指數級增長的人工智慧超級電腦。自2010年以來,用於訓練最著名人工智慧模型的計算量每年增長4.1倍,從而實現了先進聊天機器人、圖像生成和蛋白質結構預測等突破。這種訓練計算量的增長主要依賴於更大規模的人工智慧超級電腦,這些電腦現在包含超過10萬個AI晶片,硬體成本達數十億美元,並且消耗相當於一個中等城市用電量的電力。

我們通過系統地收集2019年至2025年的公開資料,彙編了一個包含全球500多台人工智慧超級電腦的資料集。我們將人工智慧超級電腦定義為使用AI晶片的系統,該系統在其首次投入營運時達到了領先人工智慧超級電腦至少1%的計算性能。通過將總性能與公開的AI晶片生產和銷售估算進行比較,我們估計我們的資料集涵蓋了現有AI超級電腦總容量的10-20%。

領先人工智慧超級電腦的計算性能每9個月翻一番,這得益於更多和更好的AI晶片的部署(圖1)。兩個關鍵因素推動了這一增長:晶片數量每年增加1.6倍,以及每個晶片的性能每年提高1.6倍。雖然在2019年擁有超過1萬個晶片的系統很少見,但到2024年,各公司部署的人工智慧超級電腦的規模是當時的十倍以上,例如xAI擁有20萬個AI晶片的Colossus。


圖1:領先人工智慧超級電腦的性能(以16位精度的FLOP/s計)每9個月翻一番(年增長率為2.5倍)


領先人工智慧超級電腦的電力需求和硬體成本每年翻一番。人工智慧超級電腦的硬體成本每年增長1.9倍,而電力需求每年增長2.0倍。因此,截至2025年3月,性能最強的人工智慧超級電腦,即xAI的Colossus,其估計硬體成本為70億美元(圖2),電力需求約為300兆瓦——相當於25萬戶家庭的用電量。在電力需求大幅增長的同時,人工智慧超級電腦的能源效率也更高了:每瓦計算性能每年提高1.34倍,這幾乎完全歸功於更節能晶片的採用。

如果觀察到的趨勢持續下去,到2030年6月,領先的人工智慧超級電腦將需要200萬個AI晶片,硬體成本將達到2000億美元,電力需求將達到9GW。歷史AI晶片生產的增長以及像5000億美元的“星際之門計畫”(Project Stargate)這樣的重大資本投入表明,前兩個要求很可能能夠滿足。然而,9GW的電力相當於9個核反應堆的發電量,這超出了任何現有工業設施的規模。為了克服電力限制,各公司可能會越來越多地採用分佈式訓練方法,這將使他們能夠將訓練任務分佈在多個地點的人工智慧超級電腦上進行。


圖2:領先人工智慧超級電腦的成本(以2025年美元計)大約每年翻一番


公司現在主導著人工智慧超級電腦。隨著人工智慧發展吸引了數十億美元的投資,各公司迅速擴大其人工智慧超級電腦的規模,以進行更大規模的訓練。這導致領先的行業系統性能每年增長2.7倍,遠高於公共部門系統每年1.9倍的增長率。除了更快的性能增長外,各公司還迅速增加了他們部署的人工智慧超級電腦的總數,以服務於快速增長的使用者群。因此,工業界在人工智慧總計算力中的份額從2019年的40%飆升至2025年的80%,而公共部門的份額則降至20%以下(圖3)。


圖3:公共部門與私營部門人工智慧超級電腦總性能份額隨時間的變化


美國擁有75%的人工智慧超級電腦,其次是中國。美國約占人工智能超級電腦總性能的四分之三,中國以15%位居第二(圖4)。與此同時,英國、德國和日本等傳統的超級計算強國在人工智慧超級電腦領域的作用已變得微不足道。這種轉變反映了總部位於美國的的大型公司在人工智慧開發和計算領域的主導地位。然而,鑑於我們資料庫中的許多系統都可以遠端使用,例如通過雲服務,人工智慧超級電腦的地理位置並不一定決定誰在使用計算資源。


圖4:按國家劃分的AI超級電腦計算性能份額隨時間的變化。我們展示了在任何時間點份額超過3%的所有國家


我們將在本次發佈後不久發佈我們的資料集以及相關文件。我們的資料將成為Epoch AI的AI資料中心的一部分,並將定期更新維護。


引言

自2010年深度學習時代開始以來,用於訓練著名AI模型的計算資源(算力)以每年4-5倍的速度增長(Sevilla & Roldan, 2024)。這種指數級的增長一直是許多領域(如大型語言模型或圖像生成(Erdil & Besiroglu, 2022; Ho et al., 2024))人工智慧能力提升的主要驅動力。這種算力增長的大部分是由更大、更高性能的AI超級電腦推動的(Hobbhahn et al., 2023; Frymire, 2024)。

鑑於人工智慧超級電腦對人工智慧發展的重要性,系統地收集相關資料能夠幫助我們更好地理解其硬體成本、電力需求和全球分佈等趨勢。這種分析對政策制定者具有重要意義,因為算力既是人工智慧進步的推動力,也是潛在的治理工具(Sastry et al., 2024; Khan & Mann, 2020)。例如,關於人工智慧超級電腦在各國分佈的資訊能夠幫助政府評估其在人工智慧領域的國家競爭力,而電力需求增長的資料則有助於電網規劃。

然而,儘管人工智慧算力非常重要,但目前尚不存在關於特定於人工智慧的超級電腦的全面資料集。諸如Top500榜單或MLPerf基準測試等資源依賴於自願提交,因此缺乏足夠的資料來可靠地分析趨勢(Top500,)。與此同時,用於商業智能的資料庫(如SemiAnalysis的資料中心模型)不公開用於分析,並且側重於當前的系統而非歷史趨勢(SemiAnalysis, 2024)。

我們試圖通過收集各種公共來源的資料,建立一個包含2019年至2025年間500台人工智慧超級電腦的資料集來彌補這一差距。我們利用這個資料集來研究幾個關鍵趨勢:人工智慧超級電腦性能的增長、硬體成本、功耗以及人工智慧超級計算能力在國家和部門之間的分佈。


方法

人工智慧超級電腦的定義

我們將人工智慧超級電腦定義為可以支援訓練大規模人工智慧模型,並部署在同一園區內的電腦系統。我們使用兩個標準來評估給定的系統是否可以支援訓練大規模人工智慧模型:

1. 該系統包含可以加速人工智慧工作負載的晶片,例如輝達的V100、A100、H100和GB200,Google的TPU,以及其他常用於訓練前沿人工智慧模型的晶片。為了評估給定的晶片是否適用於大規模人工智慧訓練,我們使用了Hobbhahn等人(2023)建立的機器學習硬體資料集。如果某個晶片不在該資料集中,如果它具有以下特徵,我們將其視為人工智慧晶片:

  • 支援人工智慧訓練中常用的精度,例如FP16或INT8。
  • 具有專用於矩陣乘法的計算單元,例如輝達GPU中的張量核心。
  • 具有高頻寬記憶體(HBM)或其他能夠實現高記憶體頻寬的記憶體類型。
  • 曾用於訓練Epoch AI(2025)的著名人工智慧模型資料集中的模型。

2. 該系統在人工智慧相關精度上具有較高的理論計算性能。由於硬體改進速度很快,我們使用移動定義,並且只包括在當時至少具有現有性能最強人工智慧超級電腦1%性能的系統。

為了平衡資料收集工作和代表性,我們將資料收集的範圍限制在大約6年,從2019年初到2025年2月。我們將在https://epoch.ai/data/ai-supercomputers上維護資料集,並將其與Epoch AI的Data on AI hub整合。

資料收集

我們使用Google搜尋API、現有(AI)超級電腦的彙編以及手動搜尋來收集2019年至2025年間501台領先人工智慧超級電腦的資料集。我們還涵蓋了2019年之前的225個額外系統,總計726台人工智慧超級電腦。我們最重要的來源是公司公告、包含大量GPU的Top500條目以及Epoch AI(2025)的著名AI模型資料集。對於每個潛在的人工智慧超級電腦,我們手動搜尋詳細資訊,例如系統使用的晶片數量和類型、首次投入營運的時間、報告的性能、所有者和位置。

我們估計我們的資料集涵蓋了到2025年生產的所有AI晶片總性能的約10%,以及截至2025年初最大公司的AI晶片庫存的約15%。截至2025年3月,我們的資料集涵蓋了Epoch AI著名模型資料集中25個最大規模訓練任務所用系統的大約一半(Epoch AI, 2025)。

分析

我們將收集到的資料與Epoch AI的機器學習硬體資料相結合,以估算我們資料庫中系統的總性能、硬體成本和電力需求(Epoch AI, 2024; Hobbhahn et al., 2023)。我們篩選了資料集,得到2019年1月1日至2025年3月1日期間389個高確定性、已確認運行的系統。然後,我們對研究期間首次執行階段在全球16位FLOP/s性能排名前十的57台人工智慧超級電腦的關鍵指標進行了回歸分析。我們分析的指標包括計算性能、晶片數量、電力需求、能源效率和硬體成本。我們進一步評估了資料集中所有人工智慧超級電腦(包括2019年之前的系統,總計470個系統)的總性能在不同部門和國家之間的分佈情況。


結果

我們首先評估了資料集中領先人工智慧超級電腦在性能、電力和硬體成本方面的增長情況。然後,我們考察了資料集中人工智慧超級電腦在私營部門與公共部門以及不同國家之間的分佈情況。

領先人工智慧超級電腦的計算性能每九個月翻一番

2019年至2025年間,領先人工智慧超級電腦的計算性能每年增長2.5倍(圖5)。僅考慮公司擁有的人工智慧超級電腦時,性能增長速度甚至更快(3.1.3節)。性能的快速增長使得2025年3月領先的系統,即xAI的Colossus,其性能達到了2019年領先的人工智慧超級電腦——橡樹嶺國家實驗室的Summit的50多倍。

我們在2017年和2018年發現了幾台大型人工智慧超級電腦,其性能顯著高於我們2018年之後的結果所顯示的趨勢。目前尚不清楚這在多大程度上反映了我們資料集的覆蓋不足,或者這些是否確實是直到2021年部署的最大系統。我們在4.1節中討論了這些早期系統主要用於科學研究,而不是用於進行大規模訓練,因此可能無法與後來的系統直接比較。


圖5:排名前十的領先人工智慧超級電腦的性能(以16位精度FLOP/s計)每年增長2.5倍(90%置信區間(CI):2.4–2.7倍)。我們從2019年開始回歸分析,但考慮了2019年之前的人工智慧超級電腦,以確定那些系統在2019年初排名前十。我們2019年之前的資料有限,無法納入回歸分析。我們突出顯示了一些值得注意的系統。


性能提升依賴於使用更多和更好AI晶片的人工智慧超級電腦

(1) 每年2.5倍的性能增長主要源於兩個大致相等的因素:AI晶片數量的增加和每個晶片性能的提高。

首先,性能最高的人工智慧超級電腦中的晶片數量每年增加1.6倍(圖12)。2019年1月,橡樹嶺國家實驗室的Summit擁有最高的晶片數量,為27,648個NVIDIA V100晶片。到2025年3月,xAI的Colossus擁有所有已知系統中最高的晶片數量,為20萬個NVIDIA H100和H200晶片。將2019年之前的系統納入回歸分析可能會導致較低的增長率。然而,由於我們的資料收集只追溯到2019年,我們無法可靠地進行此項分析。

其次,性能最高的人工智慧超級電腦中每個晶片的計算性能每年提高1.6倍。在我們的研究期間,有三個值得注意的晶片代系。2019年至2021年間,NVIDIA的V100是最主要的晶片,佔已安裝性能的90%以上。2021年,NVIDIA的A100開始變得突出,並在2023年成為最主要的晶片,而AMD的MI250X和Google的TPU v4僅佔少數份額。2023年,NVIDIA的H100變得更加普及,到2024年7月,在我們資料集中超過了總性能的50%。

領先人工智慧超級電腦每個晶片計算性能的1.6倍(90%置信區間:1.5–1.7)的提升略快於FP32精度下AI晶片性能每年提升1.28倍(90%置信區間:1.24–1.32)和FP16精度下每年提升1.38倍(90%置信區間:1.28–1.48)的總體趨勢(Rahman, 2025; Hobbhahn et al., 2023)。這種差異可能源於人工智慧超級電腦主要採用領先的AI晶片,而不是平均性能的晶片。


圖6:領先人工智慧超級電腦中的AI晶片數量每年增長1.6倍(90%置信區間:1.5–1.8倍)。我們從2019年開始回歸分析,但也收集了更早的資料,以確定那些2019年的人工智慧超級電腦位列前十。我們2019年之前的資料有限,無法納入回歸分析。完整方法見第2節。


(2) 人工智慧超級電腦的性能增長速度超過了傳統超級電腦

Benhari等人(2024)發現,1994年至2023年間,最大的Top500超級電腦的64位性能每年增長1.45倍。這一增長率使得排名前十的人工智慧超級電腦的性能增長速度顯著快於Top 500頂級機器的歷史趨勢。兩個因素可能導致了這種差異:特定於AI的晶片和更快的投資增長。

首先,AI晶片的性能已經超過了CPU的性能(Hobbhahn et al., 2023)。這是因為AI計算工作負載的特性與傳統計算不同,這使得AI晶片設計者能夠最佳化平行矩陣運算的性能,從而導致AI晶片的性能提升速度顯著快於CPU的性能(Hobbhahn et al., 2023)。

其次,對人工智慧超級電腦的投資增長速度快於對傳統超級電腦的投資增長速度。Top 500榜單歷史上主要由政府資助的項目構成,這些項目的預算增長緩慢。然而,我們的人工智慧超級電腦資料集主要包含大型公司擁有的系統,這些公司在2020年代迅速增加了對人工智慧超級電腦的投資(Cottier et al., 2024)。

(3) 私營行業的人工智慧超級電腦已經超越了政府或學術界

2019年至2025年3月期間,公司擁有的領先人工智慧超級電腦的性能每年增長2.7倍。與此同時,政府和學術機構擁有和資助的領先人工智慧超級電腦的性能增長速度明顯較慢,每年僅增長1.9倍(p = 0.022)。目前已知最大的公共人工智慧超級電腦——勞倫斯利弗莫爾國家實驗室的El Capitan,其計算性能僅為目前已知最大的工業界人工智慧超級電腦——xAI的Colossus的22%。我們將在4.4節討論這種從公共部門到私營部門的轉變。


圖7:私營部門(公司)與公共部門(政府和學術界)擁有的領先人工智慧超級電腦的性能。領先的公共部門系統最初規模較大,但未能跟上工業界系統的發展速度,工業界系統每年增長2.7倍(90%置信區間:2.5–2.9倍),而公共部門系統每年僅增長1.9倍(90%置信區間:1.6–2.2倍)。請注意,我們排除了由公共和私營機構共同資助和擁有的人工智慧超級電腦。


(4) 人工智慧超級電腦的增長速度與最大規模訓練任務每年4-5倍的增長速度保持一致

Sevilla & Roldan(2024)發現,2018年至2024年間,最大人工智慧模型的訓練算力每年增長4.2倍(90%置信區間:3.6–4.9倍)。這與我們觀察到的人工智慧超級電腦性能增長相符,在我們考慮了訓練時長增加的情況下。

在圖8中,我們展示了最大人工智慧訓練任務所需的計算性能,以及我們資料集中領先人工智慧超級電腦的性能。我們只考慮了運行絕大多數人工智慧訓練任務的工業界系統(Besiroglu et al., 2024)。為了計算訓練任務所需的性能,我們將訓練所需的FLOP數除以訓練時長(以秒為單位),並根據40%的平均性能利用率進行調整(Sevilla et al., 2022)。

2019年至2025年間,最大的工業界人工智慧超級電腦始終達到最大人工智慧訓練任務所需計算性能的10倍(不包括最終訓練運行之前實驗所需的計算量)。雖然最大訓練任務所需的系統增長速度略快於領先的人工智慧超級電腦(3.4倍 vs 3.0倍),但我們發現這兩個趨勢之間沒有統計學上的顯著差異(p=0.18)。因此,如圖9所示,人工智慧超級電腦的增長與訓練算力的增長保持一致。



圖8:最大工業界人工智慧超級電腦的計算性能以及最大已報告人工智慧訓練任務所需的性能(Epoch AI, 2025)。為了估算這些訓練任務所需的人工智慧超級電腦規模,我們假設GPU利用率為40%,並使用可用的聲明訓練時長,或者根據最大人工智慧模型的訓練時長回歸估算值。我們從著名模型的發佈日期減去訓練時長,以更好地估計其訓練開始時間。鑑於著名模型資料集未報告訓練所用的數值精度,我們還報告了人工智慧超級電腦的精度無關OP/s,考慮了32位、16位和8位數字格式下的最高可用性能。


圖9:訓練算力增長驅動因素概述。“OOM”代表數量級。人工智慧超級電腦指標基於私營部門系統以及跨精度的最高計算性能。



領先人工智慧超級電腦的電力需求每13個月翻一番

我們根據報告的電力需求或(如果不可用)通過估算基於AI晶片數量和類型(包括額外的IT基礎設施,如CPU、網路交換機,以及資料中心支援基礎設施,如冷卻和電源轉換)的電力需求來評估領先人工智慧超級電腦的年度電力需求增長率。

我們發現,2019年至2025年間,領先人工智慧超級電腦的電力需求每年增長2.0倍。2019年1月,橡樹嶺國家實驗室的Summit擁有最高的電力需求,為13兆瓦。2024年,首批系統的電力需求開始超過100兆瓦,到2025年3月,xAI的Colossus擁有最高的電力需求,估計為300兆瓦。相比之下,這相當於25萬美國家庭的用電量(美國能源資訊署,2024)。

訓練前沿模型所需電力快速增長的情況已有充分記錄(Fist & Datta, 2024; Sevilla et al., 2024; Pilz et al., 2025)。我們將在4.2.3節討論這種趨勢是否能夠持續。


圖10:領先的10台人工智慧超級電腦的峰值資料中心電力需求每年翻一番(90%置信區間:每年1.6–2.2倍)。我們在有報告的情況下顯示報告的電力需求。否則,我們根據所用晶片的數量和類型估算容量。


(1) 領先人工智慧超級電腦的能源效率每年提高1.34倍

我們計算人工智慧超級電腦的能源效率,單位為每瓦FLOP/s(16位精度),包括硬體和資料中心的電力需求。為了計算效率,我們將FLOP/s的計算性能除以報告或估計的瓦特資料中心電力需求。資料中心等級的能源效率包括伺服器、額外的叢集元件(如網路交換機)以及支援基礎設施(如冷卻和電源轉換)。

我們發現,2019年至2025年間,人工智慧超級電腦的能源效率每年提高1.34倍(圖11)。在計算性能保持不變的情況下,人工智慧超級電腦每年所需的能源減少約25%。這與Benhari等人(2024)在研究期間Top500中最節能超級電腦的能源效率每年提高1.31倍的情況大致一致。


圖11:2019年至2025年間,排名前十的領先人工智慧超級電腦的能源效率(每瓦16位FLOP/s)每年提高1.34倍(90%置信區間:1.25–1.43倍)。新晶片的採用是能源效率提高的主要驅動因素,而資料中心基礎設施效率僅發揮了次要作用。我們在有報告的情況下使用報告的電力需求,否則使用估計的電力需求。


人工智慧超級電腦的能源效率提升可能來自兩個方面:硬體效率的提升和資料中心基礎設施(如冷卻)效率的提升。硬體效率的提升主要源於AI晶片的改進,但也包括CPU、網路交換機和儲存等其他硬體的改進。我們通過假設人工智慧超級電腦所在資料中心的能源效率遵循Shehabi等人(2024)報告的行業範圍內的電源使用效率(PUE)趨勢來建模其改進。PUE是提供給硬體的電力除以提供給資料中心的電力的商。理想的PUE為1.0表示所有輸送到資料中心的電力都直接用於硬體,而沒有電力在電壓轉換中損失或用於冷卻和其他操作(Pilz & Heim, 2023)。


圖11顯示,每次有新的AI晶片可用時,能源效率都會顯著提高。與此同時,PUE的改進速度較慢,並且在我們的估計中已經接近1.0的理想值,導致每年的效率提升不到5%(Shehabi et al., 2024)。因此,能源效率的提高主要歸功於人工智慧超級電腦採用了更節能的硬體。


領先人工智慧超級電腦的硬體成本每年翻一番

我們基於公開報告的成本資料或(如果不可用)通過根據所用晶片的數量和公開可用的價格資料估算總硬體成本來分析領先人工智慧超級電腦硬體成本的年度增長情況。我們進一步包括了諸如CPU和網路交換機等額外硬體的估計成本,但不包括發電或資料中心建設成本。我們對所有數值進行通貨膨脹調整,以顯示2025年1月的美元成本。我們的成本估算與所有者報告的數值存在顯著差異,但這可能是因為報告的數值主要來自公共項目,這些項目通常在硬體採購方面獲得更高的折扣。

我們發現,2019年至2025年間,領先人工智慧超級電腦的硬體成本每年增長1.9倍。我們有限的2019年之前的資料表明,在我們的研究期間之前,超過1億美元的硬體成本並不少見,例如橡樹嶺國家實驗室的Summit在2025年美元的成本約為2億美元。截至2025年3月,最昂貴的人工智慧超級電腦是xAI的Colossus,其估計硬體成本為70億美元。


圖12:領先人工智慧超級電腦(按16位性能排序)首次投入營運時的硬體成本從2019年到2025年以每年1.9倍的速度增長(90%置信區間:每年1.8–2.1倍)。我們使用報告的成本,如果不可用,則使用改編自Cottier等人(2024)的硬體購置成本公式來建模成本。我們將所有數值調整為2025年美元以反映通貨膨脹。


領先人工智慧超級電腦硬體成本每年1.9倍的增長速度低於Cottier等人(2024)報告的總訓練成本每年2.4倍(90%置信區間:2.0–2.9倍)的增長速度。這種差異歸因於兩個因素:首先,前沿模型的訓練時長每年延長1.4倍(Frymire, 2024),這意味著訓練任務使用同一台人工智慧超級電腦的時間更長,即使人工智慧超級電腦的成本保持不變,也會增加攤銷成本。其次,研究人員成本是人工智慧開發中佔比很大且不斷增長的部分,但不會影響人工智慧超級電腦的硬體成本(Cottier et al., 2024)。

我們的資料覆蓋範圍的侷限性

在分析人工智慧超級電腦在部門和國家之間的分佈之前,我們強調我們資料集的兩個重要侷限性:

a) 我們僅捕獲了符合我們定義的所有人工智慧超級電腦的10%到20%。具體來說,我們估計我們的資料集涵蓋了2023年和2024年生產的所有相關AI晶片的約10%,以及截至2025年初最大公司的晶片庫存的約15%。截至2025年3月,我們的資料集涵蓋了Epoch AI(2025)中25個最大規模訓練任務所用系統的大約一半。較低的覆蓋率意味著我們的資料精度有限,單個系統的加入可能會顯著改變整體分佈。

b) 不同部門、晶片類型和公司的覆蓋水平可能存在顯著差異。例如,我們捕獲了Meta公司約一半的人工智慧超級電腦總性能,而沒有捕獲任何蘋果公司的人工智慧超級電腦。由於政府往往對其項目更加透明,我們可能比行業系統更好地覆蓋了政府人工智慧超級電腦。

鑑於這些侷限性,我們側重於人工智慧超級電腦在部門和國家之間的分佈,因為儘管我們的覆蓋率較低,這兩者都提供了可靠的見解:所有權從公共部門向私營部門的轉變是我們整個資料集中的一個顯著且穩健的影響。我們的國家層面資料可能比較可靠,因為我們能夠與其他資料進行交叉核對(見附錄C.3)。與此同時,我們不分析特定AI晶片類型或個別公司的分佈情況,因為這些更容易受到我們資料集中覆蓋偏差的影響。

公司現在擁有大多數人工智慧超級電腦

對於我們資料集中的每台人工智慧超級電腦,我們將所有者分為三類之一:

  • 私營:所有者是公司
  • 公共:所有者是政府實體或大學
  • 公私合營:人工智慧超級電腦有多個屬於這兩個部門的所有者,或者如果一個私人項目獲得了超過25%的總資金來自政府

我們發現,私營部門的計算份額從2019年不到40%迅速增加到2025年的約80%(圖13),而公共人工智慧超級電腦的份額從2019年的約60%迅速下降到2025年的約15%。鑑於公司不太可能像公共所有者那樣公開其系統的資料,我們的資料甚至可能低估了這種轉變。然而,請注意,鑑於許多人工智慧超級電腦通過雲服務提供,公共部門實體可能仍然能夠訪問私營部門的人工智慧超級電腦。在4.1節中,我們討論了人工智慧開發和部署的經濟重要性日益增加如何可能導致私營部門份額的快速增長。


圖13:基於人工智慧超級電腦所有者的公共和私營部門的相對性能份額。一台人工智慧超級電腦可能擁有多個所有者(例如,如果它是一個合作項目,或者如果政府資助了一個行業項目)。


美國佔全球人工智慧超級電腦性能的大部分,其次是中國

在分析跨國家的分佈時,我們發現在2019年初,美國約佔我們資料集中計算性能的70%,而中國約佔20%(圖14)。2019年至2022年間,中國的份額顯著增長,在2022年初達到約40%,儘管我們不確定這是否反映了真實的趨勢,還是我們較低資料覆蓋率造成的假象。此後,中國的份額有所下降;截至2025年3月,按性能計算,美國擁有約75%的人工智慧超級電腦,而中國約佔15%。


圖14:我們資料集中人工智慧超級電腦按國家劃分的聚合16位計算能力份額隨時間的變化。我們展示了在任何時間點份額超過3%的所有國家。


截至2025年3月,我們資料集中所有在美國運行的人工智慧超級電腦的總性能相當於85萬個H100(9.1×10²⁰ FLOP/s),其次是中國,相當於11萬個H100(1.9×10²⁰ FLOP/s),歐盟相當於5萬個H100(5.6×10¹⁹ FLOP/s)(圖15)。因此,美國的總計算性能幾乎是中國大陸的9倍,是歐盟總性能的17倍。


圖15:按國家劃分的人工智慧超級電腦總性能(以H100當量計)。要將系統的性能轉換為H100當量,我們首先取其AI晶片支援的最低精度的性能(考慮32位、16位和8位),然後除以H100的8位性能。


討論

在本節中,我們首先討論是什麼導致了人工智慧超級電腦性能和資源需求的快速增長。然後,我們將這些趨勢外推到2030年,並簡要討論晶片數量、電力和硬體成本的增長是否能夠持續。我們進一步討論了人工智慧超級電腦在各國分佈的地緣政治影響,以及人工智慧超級電腦工業界份額的增加可能如何影響人工智慧研究。

人工智慧算力的快速增長既依賴於人工智慧產業日益增長的經濟重要性,也促進了這種重要性的提升

我們觀察到的人工智慧超級電腦性能的快速增長主要由人工智慧投資的激增驅動。雖然晶片設計和製造方面的傳統改進也促進了這一增長(Roser et al., 2023; Hobbhahn et al., 2023),但人工智慧超級電腦的增長速度遠快於傳統人工智慧超級電腦(第3.1.2節)。這種加速反映了人工智慧超級電腦的主要用例發生了根本性的轉變,從用於科學發現的學術工具轉變為運行具有經濟價值的工作負載的工業機器。

2019年,最大的人工智慧超級電腦主要由政府超級電腦主導,例如美國能源部的Summit和Sierra。這些系統旨在處理不同科學領域的各種工作負載並推進基礎研究(橡樹嶺國家實驗室,未註明日期)。然而,在2020年代初,各公司越來越多地使用人工智慧超級電腦來訓練具有商業應用的人工智慧模型,例如OpenAI的GPT-3和GitHub的Copilot整合(Brown et al., 2020; Dohmke & GitHub, 2021)。這些人工智慧能力的展示導致了對人工智慧投資的顯著增加,創造了對人工智慧晶片的創紀錄需求(Our World in Data, 2024; Samborska, 2024; Richter, 2025)。

隨著對人工智慧投資的增加,各公司能夠建構性能更高、擁有更多和更好AI晶片的人工智慧超級電腦。這形成了一個良性循環:增加的投資實現了更好的人工智慧基礎設施,從而產生了更強大的人工智慧系統,吸引了更多的使用者和進一步的投資。因此,人工智慧超級電腦的增長既是資金增加的結果,也是人工智慧超級電腦展示其經濟價值後持續投資的原因。

觀察到的趨勢能否持續?

在第上文中,我們得出結論,人工智慧超級電腦的增長速度與最大規模人工智慧訓練任務中算力每年4-5倍的增長速度保持一致。本節將討論晶片、硬體成本和電力需求方面的趨勢持續到2030年意味著什麼。


表1:基於當前最大的人工智慧超級電腦和第3節描述的歷史增長率對趨勢進行的歷史資料和外推。僅使用工業界擁有的人工智慧超級電腦的增長率將導致更高的外推值。外推值已四捨五入,以避免暗示精確性。


(1) 到2030年,最大的人工智慧超級電腦可能需要兩百萬個晶片

如果AI晶片的數量繼續以每年1.6倍的速度增長,那麼到2030年,最大的人工智慧超級電腦將需要大約200萬個AI晶片(表1)。Sevilla等人(2024)估計,到2030年,AI晶片的產量每年可能增長1.3倍到2倍。從目前的晶片產量外推來看,這意味著2030年的年產量將達到740萬到1.44億個AI晶片。如果到2030年,最大的人工智慧超級電腦使用了200萬個AI晶片,那麼它將需要全球年AI晶片產量的1%到27%,這表明如果AI晶片

(2) 到2030年,最大的人工智慧超級電腦的硬體成本可能約為2000億美元

如果領先人工智慧超級電腦的硬體成本繼續以每年1.9倍的速度增長,那麼到2030年,領先系統的硬體成本將約為2000億美元(以2025年美元計)。這還不包括資料中心設施的成本,後者可能約為每GW100億美元,從而使購置成本再增加900億美元(Pilz & Heim, 2023)。

當前的AI基礎設施已經接近這個規模:2025年,微軟宣佈計畫在全球範圍內投資800億美元用於AI基礎設施,而亞馬遜雲科技(AWS)宣佈計畫投資超過1000億美元(Smith, 2025; Gonsalves, 2025)。與此同時,OpenAI宣佈計畫在四年內為“星際之門”項目投入高達5000億美元(OpenAI, 2025)。這些公告與到2030年單個項目2000億美元的硬體成本是相符的,尤其是在預計AI投資將持續增長的情況下(Zoting, Shivani, 2025; IDC, 2025; Grand View Research, 2024)。

(3) 到2030年,最大的人工智慧超級電腦可能需要9GW的電力

如果人工智慧超級電腦的電力需求繼續以每年2.0倍的速度增長,那麼到2030年,領先的人工智慧超級電腦將需要大約9GW的電力(表1)。這略高於Sevilla等人(2024)外推的6GW,並且與Pilz等人(2025)對2030年運行最大規模訓練任務的人工智慧超級電腦的估計相符。

目前最大的資料中心園區的容量為數百兆瓦,截至2025年初,尚未公開報導有超過1GW的現有園區。雖然到2028年建成一個2GW的人工智慧超級電腦可能是可行的,但到2030年建成一個容量為9GW的系統將需要相當於9個核反應堆的發電量,並且可能面臨嚴重的許可和裝置供應鏈挑戰,以及當地社區反對等其他潛在挑戰(Pilz et al., 2025)。由於難以獲得足夠的電力,各公司可能會越來越多地使用分佈式訓練技術,使其能夠將訓練任務分佈在多個地點的人工智慧超級電腦上進行。據報導,一些著名的訓練任務,包括GoogleDeepMind的Gemini 1.0和OpenAI的GPT-4.5,已經跨多個AI超級電腦進行訓練。

(4) 結論:電力限制可能成為持續增長的主要制約因素

電力限制很可能成為人工智慧超級電腦增長的主要瓶頸,推動訓練向跨多個站點的分佈式訓練轉變。這種演變可能會改變我們衡量人工智慧訓練能力的方式——從關注單個AI超級電腦轉向評估公司的總計算能力。雖然晶片生產和硬體成本趨勢在2030年之前似乎是可持續的,但所有這些趨勢的持續最終取決於AI應用是否能帶來足夠的經濟價值,以證明基礎設施擴張所需的大規模投資是合理的。

美國在全球人工智慧超級電腦分佈中佔據主導地位

本節討論美國的主導地位很可能源於其在相關產業的領先地位,並且鑑於美國既定的政策以及對關鍵AI晶片生產瓶頸的控制,這種主導地位很可能會持續下去。

(1) 美國的主導地位源於在雲端運算和人工智慧開發領域的領先地位

根據我們的資料,目前約75%的AI超級電腦性能位於美國(圖14)。在曾經在公共超級計算領域發揮重要作用的國家(如英國、德國或日本)的重要性下降的同時,美國是如何在AI超級電腦領域佔據如此主導地位的?

美國的主導地位很可能直接源於AI超級電腦日益商業化並由公司(而非政府或學術界)主導,而這些公司主要位於美國,這是由於其在先前技術中的主導地位所致。這種優勢在雲端運算基礎設施中顯而易見,2019年,僅亞馬遜雲科技(AWS)、微軟和Google這三大領先的美國雲端運算公司就佔據了全球市場份額的68%(Gartner, 2020)。

美國公司在關鍵AI進步方面也發揮了主導作用,包括推薦系統、AlphaFold等科學應用以及ChatGPT等LLM聊天機器人。總體而言,在Epoch AI(2025)記錄的476個著名AI模型中,美國公司參與開發了338個,並訓練了其中25個最大AI模型中的18個(按訓練算力計算)。雖然關於AI應用全球市場份額的可靠資料有限,但創紀錄的使用者增長可能表明美國公司在使用者總數方面也處於領先地位。

(2) 美國很可能將繼續在人工智慧超級電腦領域保持領先地位

美國不僅在人工智慧開發和雲服務提供方面佔據主導地位,而且在AI晶片的設計以及半導體製造的若干關鍵投入方面也處於領先地位。美國政府此前已利用其在AI晶片領域的主導地位對向中國出口AI晶片和關鍵裝置實施出口管制,並引入了一項AI擴散框架,該框架對向非美國親密盟友國家出口AI晶片設定了條件。

與此同時,一些挑戰可能會限制美國在AI超級電腦領域的主導地位:

  • 電力需求:無論是在AI超級電腦所需的電力方面,還是在主要用於推理而部署的AI晶片總數方面,AI的電力需求都在大規模增長。美國在增加足夠的發電能力以維持當前AI資料中心增長速度方面正面臨重大挑戰。

外國政府對主權基礎設施的投資:一些政府已開始投資於本地AI基礎設施,例如法國、英國、沙烏地阿拉伯和阿聯。然而,與領先的美國AI超級電腦相比,這些項目大多規模較小。此外,鑑於美國對AI晶片生產的控制,如果這些項目威脅到美國在計算領域的主導地位,美國可能會阻止這些項目獲得晶片。

  • 來自中國的競爭:中國政府和中國公司正在大力投資AI基礎設施,但由於無法進口領先的美國AI晶片,該國依賴性能較差的美國或國產AI晶片。有限的AI晶片獲取管道使得建立大型AI超級電腦的成本更高,並限制了中國的項目總數。到目前為止,中國自主生產AI晶片的努力因無法生產或進口DUV和EUV光刻機等關鍵裝置而受到嚴重阻礙,而這些裝置的生產極具挑戰性。

總而言之,美國在AI模型開發和雲端運算領域處於領先地位,並控制著半導體供應鏈中的關鍵瓶頸。再加上美國政府推進美國AI領導地位的既定政策,這使我們得出結論,至少在未來六年內,美國很可能將繼續在AI超級電腦領域保持領先地位。

私營部門主導地位增強的後果

我們發現公司擁有越來越大份額的AI超級電腦,這與先前報導的一個趨勢相符:AI研究越來越由大型公司而非學術或政府機構主導。Besiroglu等人發現,學術機構在大型機器學習模型中的份額急劇下降,從2012年的約65%降至2023年的僅10%。

AI超級電腦所有權從公共部門向私營部門的轉變很可能是由於其經濟重要性日益增加(第4.1節),這迅速增加了私人AI投資。更多的投資使得公司能夠建造像xAI的Colossus這樣昂貴的系統,其估計硬體成本為70億美元。與此同時,最昂貴的政府項目,Frontier和El Capitan,每個僅耗資6億美元。此外,政府通常只建造少量系統用於研究目的。然而,主要的科技公司通常建造數十台AI超級電腦,因為它們不僅要訓練更大的模型,還要為全球數百萬使用者提供服務。

AI超級電腦所有權從公共部門向私營部門的這種轉變對AI研究產生了兩個重要後果:學術研究人員的訪問受限以及AI開發和部署的可見性降低。

學術研究人員的訪問受限: AI超級電腦集中在工業界減少了學術研究人員對前沿計算資源的訪問,而學術研究人員歷史上為AI的進步做出了貢獻,並提供了獨立的評估和審查。系統的所有權本身並不決定計算資源的存取權,因為研究人員可以通過雲端運算公司租用AI超級電腦。然而,即使是短時間租用大量AI晶片(超過幾千個)對於學術研究人員來說仍然可能過於昂貴,迫使他們依賴較小、功能較弱的模型。

缺乏可見性:隨著公司現在營運著領先的AI超級電腦,它們已成為前沿AI進步的主要驅動力,將政府和學術實驗室降為輔助角色。由於公司通常對其研究不太公開,政府可能越來越難以跟蹤AI模型的能力提升。此外,鑑於計算資源對於AI開發和部署的重要性,一個國家頂級AI超級電腦的規模和數量越來越與其在AI領域的競爭力相關。由於公司控制著大多數系統,政府越來越缺乏關於其國家AI基礎設施規模的資料,這阻礙了政策制定者制定連貫的技術競爭戰略的能力。

政府增加對AI開發和部署的可見性並更好地瞭解國家競爭力的一種選擇可能是要求公司報告其基礎設施的關鍵資料,例如其最大AI超級電腦的性能及其基礎設施的總規模。政府還可以收集其他國家AI計算能力的情報,使其能夠更好地瞭解自身的競爭地位,並可能更容易核實未來潛在的國際AI協議。


結論

我們彙編了一個包含2019年至2025年間500台AI超級電腦的資料集,發現性能、晶片數量、電力需求和硬體成本都呈指數級增長。AI超級電腦性能的快速增長,加上訓練時長的增加,使得前沿AI模型的訓練算力每年增長4-5倍,這推動了AI能力的顯著進步,並進一步刺激了對基礎設施的投資。如果趨勢持續下去,到2030年,領先的AI超級電腦的硬體成本可能超過2000億美元,并包含超過200萬個AI晶片。然而,預計9吉瓦的電力需求在單個地點難以滿足,很可能迫使公司採用跨多個站點的分佈式訓練方法。

我們的資料還揭示了AI超級電腦所有權的關鍵趨勢,公司在AI超級電腦總性能中的份額從2019年的40%增加到2025年的80%以上。這一發現強調了先前觀察到的工業界和學術界之間日益擴大的計算鴻溝。美國擁有全球約75%的AI超級電腦性能,並且很可能通過其對AI晶片供應鏈的控制保持這種主導地位。

總而言之,AI超級電腦一直是AI進步的關鍵驅動力,並且是AI供應鏈的核心組成部分。我們的分析提供了關於AI超級電腦的增長模式、分佈和資源需求的寶貴資訊。這些資訊對於政策制定者以及更廣泛地理解AI的發展軌跡將變得越來越重要。 (半導體行業觀察)