引言:從“房中大象”到“門口野蠻人”過去十年,AI 算力幾乎等於“輝達 + CUDA”。從深度學習興起到大模型時代,H100/H200 乃至 Blackwell B200/B300 已經成為行業默認標準,訓練與推理基準幾乎都圍繞輝達的 GPU 來定義。資本市場也早就給了輝達“帝國級”的定價:市值長期錨定全球 AI 投資預期,下圖是 NVIDIA 的股價走勢,可以直觀看到這家公司的戰略地位——反觀Google,在很長的一段時間裡,Google的 TPU 就像房間裡的大象,雖然體量巨大,但因為僅供內部使用,並未直接在公開市場與輝達拼刺刀。然而,2024 年至 2025 年的種種跡象表明,Google的戰略發生了根本性轉變:TPU 不再僅僅是Google的成本控制工具,而是正在變成一種攻擊性的商業武器。Google基於 TPU 的“AI Hypercomputer”體系,從內部支撐 Gemini、Search、Maps 等上億使用者級產品,逐步走向對外商用,甚至推出第七代 Ironwood TPU,單 pod 算力已公開對標並宣稱超過輝達 GB300 平台。近年來TPU發展的幾個關鍵節點是:TPUv5e:面向中等規模訓練與大規模推理的“性價比版本”,Google 在 2023 年 Cloud Next 上宣佈 GA,被產業研究普遍認為在 <200B 參數模型區間具有顯著的性價比優勢。TPUv5p + AI Hypercomputer:v5p 作為高性能版本,構成 Google “AI Hypercomputer” 的核心,強調網路、儲存、調度的端到端最佳化,而不是只賣單塊晶片。Ironwood(第 7 代 TPU):最新一代 Ironwood TPU 單晶片提供約 4,614 FP8 TFLOPS,192GB HBM3E,並可在一個 pod 中擴展到 9,216 顆 TPU,總計 42.5 FP8 ExaFLOPS,Google 甚至公開聲稱其訓練與推理 pod 性能超越輝達 GB300 NVL72 平台。TPU 已經從“能用的專用加速器”演進為“面向大模型時代的完整算力平台”,並且開始出現與輝達在同一維度,比如ExaFLOPS、FP8、HBM 容量等指標直接對標的宣傳。一、 商業模式的降維打擊:垂直整合 vs. 水平分發輝達的商業模式雖然暴利,但目前來看本質上仍是硬體銷售商。它依賴台積電代工,通過高昂的毛利率(75%+)賺取利潤,再通過 CUDA 鎖定客戶。而Google的 TPU 業務並不是為了賣晶片賺錢,它是為了降低整個Google生態的單位計算成本(Unit Compute Cost)。1. 利潤中心的轉移輝達的邏輯: 晶片本身就是利潤來源。因此,它必須不斷推高單卡性能和價格,以維持高股價。Google的邏輯: 一開始,Google認為晶片是成本中心,而非利潤中心。TPU 越便宜、越高效,Google的搜尋、廣告和雲服務利潤就越高。這種“羊毛出在豬身上”的打擊是致命的——Google可以用接近成本價的算力來支撐其 AI 服務,而輝達的客戶必須支付高昂的硬體溢價。2. 系統級效率的碾壓輝達必須設計通用的 GPU 來適應戴爾、惠普、聯想等成千上萬種伺服器環境。而Google的 TPU 從設計之初就是為了插在Google自訂的資料中心機架上,配合Google自研的光路交換機(OCS)和液冷系統。洞察: 這種“量身定製”帶來了極致的系統級 TCO——總擁有成本。據分析,在同等算力規模下,TPU 叢集的建設成本和電力消耗往往比輝達方案低 30%-50%。這不僅僅是省錢,更是Google雲(GCP)在 AI 基礎設施定價戰中的核武器。在大模型時代,真正的戰場已經從“誰的單卡更快”轉向“誰能在同樣電費和機房成本下提供更多 token/s 與更低延時”。在這一點上,TPU 對輝達的威脅是真實存在的。二、 生態戰:瓦解 CUDA 的“軟”圍剿輝達最堅固的堡壘不是 GPU,而是 CUDA。Google深知直接再造一個 CUDA 是不可能的,因此它選擇了“升維攻擊”。1. 軟體抽象層的去特定化Google大力推廣 JAX 框架和 XLA (Accelerated Linear Algebra) 編譯器。它們的戰略意圖非常明確:將底層硬體商品化。在 PyTorch/XLA 的架構下,開發者只需寫一次程式碼,編譯器就會自動將其翻譯成適合 GPU 或 TPU 的指令。後果: 一旦程式碼與硬體解耦,輝達 GPU 就從“不可替代品”變成了“可替換的算力通貨”。這對輝達的高溢價定價權是釜底抽薪。2. 建立反輝達聯盟Google正在將其 TPU 算力變為一種戰略資源,與其投資的 AI 獨角獸進行繫結。案例: Google重注Anthropic,目前來看,Anthropic、Lightricks 等第三方公司已經在新一代 TPU/AI Hypercomputer 平台上訓練和部署模型,並公開反饋成本與性能收益。有分析指出,大規模推理場景下,某些工作負載從輝達 GPU 遷移到 TPU,可獲得約 4.7 倍的性價比提升和約 67% 的功耗降低。傳聞中的 Meta 合作: 近期有市場傳聞稱,Meta 正在考慮引入 TPU 算力作為其自研晶片(MTIA)之外的補充。如果連輝達的大的客戶(Meta)都開始擁抱 TPU,輝達的營收基本盤將產生裂痕。這意味著 TPU 不再只是Google內部“吃自家狗糧”的項目,而是被越來越多雲端客戶視作對標輝達的現實選項。不過也受限於其只能在 Google Cloud 上“租”,不能隨處“買”,以及GPU 的通用性仍然難以撼動,TPU 可以在“頭部大模型算力”這塊蛋糕上搶份額,但在整個 AI+HPC 大盤裡,輝達通用 GPU 的剛性需求仍然存在。三、 市場周期的逆轉:推理時代的王牌過去五年是“大模型訓練”的時代,通用性極強的 GPU 是絕對王者。但未來五年將是“大模型推理”的時代,這正是專用晶片(ASIC)的主場。訓練(Training): 需要極高的靈活性,不斷嘗試新演算法。輝達佔優。推理(Inference): 演算法已定型,需要極致的能效比和低延遲。TPU 佔優。隨著 ChatGPT、Gemini 等應用的大規模普及,推理算力的需求將遠超訓練。Google TPU 憑藉專為 Transformer 架構最佳化的脈動陣列設計,在處理大規模並行推理時,擁有比 GPU 更高的“每瓦特性能(Performance per Watt)”。這意味著,全球 AI 算力需求越是爆發,Google相對於輝達的成本優勢就越明顯。四、 對輝達帶來的深層挑戰TPU 對輝達的衝擊,遠不止市場份額的蠶食。定價權的喪失: 過去,輝達擁有絕對的定價權,比如H100 即使賣 3 萬美元也有人搶。但現在,TPU v5p/v6/Ironwood 的存在為市場提供了一個“價格錨點”。如果輝達溢價過高,雲廠商和巨頭就會倒向自研或租用 TPU。TPU 實質上成為了 AI 算力市場的“調節閥”,限制了輝達無休止漲價的能力。客戶關係的異化: 輝達正在推出 DGX Cloud,直接向終端企業出售算力服務。這讓輝達從Google、亞馬遜的供應商,變成了它們的直接競爭對手。這種“既當裁判又當運動員”的行為,迫使Google更堅定地通過 TPU 建構自己的獨立王國,加速了雙方的分道揚鑣。人才與創新的分流: TPU 的成功證明了 ASIC 路線的可行性,這激勵了微軟(Maia)、亞馬遜(Trainium)甚至 OpenAI 都在招募晶片團隊。Google作為“黃埔軍校”,培養的大量定製晶片人才正在向全行業擴散,最終形成一個龐大的“非輝達晶片聯盟”。五、 未來的展望:雙寡頭格局的形成我們不會看到 TPU 徹底消滅 GPU,正如 iOS 沒有消滅 Android。TPU 更深層的影響,是加速整個行業走向“多極算力秩序”,未來大機率會形成一種“二元算力的結構”:輝達的領地: 前沿探索、科學計算、中小企業市場、以及對靈活性要求極高的初創訓練任務。它依然是 AI 界的“軍火商”。Google TPU 的領地: 超大規模模型的訓練與推理、全球性 AI 服務的基礎設施。它將成為 AI 界的“水電站”。結論: Google TPU 對輝達的最大衝擊,在於它打破了“AI 發展必須向輝達交稅”的鐵律。通過將晶片、系統、軟體和業務深度捆綁,Google證明了在兆級算力時代統級的垂直整合才能產生極致的效益。如果說輝達過去幾年收的是“帝國稅”,那麼 TPU 和一眾專用加速器的崛起,本質上是一場關於電費、能效與議價權的革命。在這場革命裡,TPU 未必是最後的贏家,卻幾乎註定會是最重要的“攪局者”之一。 (AI Xploring)