過去十年,AI 算力幾乎等於“輝達 + CUDA”。從深度學習興起到大模型時代,H100/H200 乃至 Blackwell B200/B300 已經成為行業默認標準,訓練與推理基準幾乎都圍繞輝達的 GPU 來定義。
資本市場也早就給了輝達“帝國級”的定價:市值長期錨定全球 AI 投資預期,下圖是 NVIDIA 的股價走勢,可以直觀看到這家公司的戰略地位——
反觀Google,在很長的一段時間裡,Google的 TPU 就像房間裡的大象,雖然體量巨大,但因為僅供內部使用,並未直接在公開市場與輝達拼刺刀。然而,2024 年至 2025 年的種種跡象表明,Google的戰略發生了根本性轉變:TPU 不再僅僅是Google的成本控制工具,而是正在變成一種攻擊性的商業武器。
Google基於 TPU 的“AI Hypercomputer”體系,從內部支撐 Gemini、Search、Maps 等上億使用者級產品,逐步走向對外商用,甚至推出第七代 Ironwood TPU,單 pod 算力已公開對標並宣稱超過輝達 GB300 平台。
近年來TPU發展的幾個關鍵節點是:
TPU 已經從“能用的專用加速器”演進為“面向大模型時代的完整算力平台”,並且開始出現與輝達在同一維度,比如ExaFLOPS、FP8、HBM 容量等指標直接對標的宣傳。
輝達的商業模式雖然暴利,但目前來看本質上仍是硬體銷售商。它依賴台積電代工,通過高昂的毛利率(75%+)賺取利潤,再通過 CUDA 鎖定客戶。
而Google的 TPU 業務並不是為了賣晶片賺錢,它是為了降低整個Google生態的單位計算成本(Unit Compute Cost)。
1. 利潤中心的轉移
2. 系統級效率的碾壓
輝達必須設計通用的 GPU 來適應戴爾、惠普、聯想等成千上萬種伺服器環境。而Google的 TPU 從設計之初就是為了插在Google自訂的資料中心機架上,配合Google自研的光路交換機(OCS)和液冷系統。
洞察: 這種“量身定製”帶來了極致的系統級 TCO——總擁有成本。據分析,在同等算力規模下,TPU 叢集的建設成本和電力消耗往往比輝達方案低 30%-50%。這不僅僅是省錢,更是Google雲(GCP)在 AI 基礎設施定價戰中的核武器。
在大模型時代,真正的戰場已經從“誰的單卡更快”轉向“誰能在同樣電費和機房成本下提供更多 token/s 與更低延時”。在這一點上,TPU 對輝達的威脅是真實存在的。
輝達最堅固的堡壘不是 GPU,而是 CUDA。Google深知直接再造一個 CUDA 是不可能的,因此它選擇了“升維攻擊”。
Google大力推廣 JAX 框架和 XLA (Accelerated Linear Algebra) 編譯器。它們的戰略意圖非常明確:將底層硬體商品化。
2. 建立反輝達聯盟
Google正在將其 TPU 算力變為一種戰略資源,與其投資的 AI 獨角獸進行繫結。
這意味著 TPU 不再只是Google內部“吃自家狗糧”的項目,而是被越來越多雲端客戶視作對標輝達的現實選項。
不過也受限於其只能在 Google Cloud 上“租”,不能隨處“買”,以及GPU 的通用性仍然難以撼動,TPU 可以在“頭部大模型算力”這塊蛋糕上搶份額,但在整個 AI+HPC 大盤裡,輝達通用 GPU 的剛性需求仍然存在。
過去五年是“大模型訓練”的時代,通用性極強的 GPU 是絕對王者。但未來五年將是“大模型推理”的時代,這正是專用晶片(ASIC)的主場。
隨著 ChatGPT、Gemini 等應用的大規模普及,推理算力的需求將遠超訓練。Google TPU 憑藉專為 Transformer 架構最佳化的脈動陣列設計,在處理大規模並行推理時,擁有比 GPU 更高的“每瓦特性能(Performance per Watt)”。這意味著,全球 AI 算力需求越是爆發,Google相對於輝達的成本優勢就越明顯。
TPU 對輝達的衝擊,遠不止市場份額的蠶食。
我們不會看到 TPU 徹底消滅 GPU,正如 iOS 沒有消滅 Android。TPU 更深層的影響,是加速整個行業走向“多極算力秩序”,未來大機率會形成一種“二元算力的結構”:
結論: Google TPU 對輝達的最大衝擊,在於它打破了“AI 發展必須向輝達交稅”的鐵律。通過將晶片、系統、軟體和業務深度捆綁,Google證明了在兆級算力時代統級的垂直整合才能產生極致的效益。如果說輝達過去幾年收的是“帝國稅”,那麼 TPU 和一眾專用加速器的崛起,本質上是一場關於電費、能效與議價權的革命。在這場革命裡,TPU 未必是最後的贏家,卻幾乎註定會是最重要的“攪局者”之一。 (AI Xploring)