面對GoogleTPU的攻勢,輝達開始緊張了。
Google的 Gemini 3 和 Anthropic 的 Claude 4.5 Opus 等前沿模型,並非使用輝達硬體訓練,而是運行在Google最新的 Ironwood 架構 TPUv7 上。
TPU 的成果無需多言:Gemini 3 是全球最強模型之一,而且完全在 TPU 上訓練。
連山姆·奧特曼也公開承認,Gemini 搶走了 OpenAI 的風頭,“前景有些不妙”。
這意味著,一種可行的 GPU 替代方案已經到來。
輝達也慌了,趕緊發佈了一份安撫性的新聞稿,告訴所有人保持冷靜,我們仍然遙遙領先。
輝達的緊張不難理解,這幾個月對 Google DeepMind、GCP 和 TPU 戰線而言是一路大勝:
為什麼在 Blackwell 還沒完全鋪開、輝達的 GPU 帝國依然銅牆鐵壁的情況下,TPU 卻突然具備了挑戰 GPU 的實力?
——輝達的統治地位要結束了嗎?
這一切還得從2006年開始嘮起。
早在 2006 年,Google就開始推銷建構專門 AI 基礎設施的想法, 但問題在 2013年發生了轉變。Google開始意識到,如果想在任何規模上部署人工智慧,就必須將現有的資料中心數量翻倍。因此,他們開始為 TPU 晶片奠定基礎,並於 2016 年投入生產。
TPU 協議棧長期以來一直與輝達的 AI 硬體抗衡,但它主要支援Google內部工作負載。過去,Google只通過 Google Cloud Platform 出租 TPU,外部團隊無法直接購買。
直到最近,Google開始將 TPU 硬體直接出售給企業客戶。
關鍵轉折點在於Google與Anthropic達成的戰略協議。今年九月初,就有消息稱Anthropic 作為主要外部客戶之一, 需求至少有 100 萬個 TPU。這一消息在十月得到了 Anthropic 和Google的正式確認 。
關於 100 萬顆 TPU 的分配結構:
據SemiAnalysis報導,Anthropic 的承諾為Google的利潤增加了數十億美元。此外,Meta 也是 TPU 的大客戶。
即便作為競爭對手,OpenAI也計畫租賃GoogleTPU。有消息稱,今年OpenAI 希望通過 Google Cloud 租賃的 TPU 能夠幫助降低推理成本,這可能會推動 TPU 成為輝達 GPU 更廉價的替代品。
值得注意的是,OpenAI 甚至還沒有部署 TPU,僅僅是存在可行的替代方案,就爭取到了輝達GPU大約 30%的折扣。
因此有分析師調侃道:“你買的TPU越多,你節省的輝達GPU支出就越多。”
這句話真是狠狠打臉了老黃在介紹BlackWell時那句知名的口號:“買得越多,省得越多。”
從紙面規格看,TPUv7 “Ironwood” 的理論算力(FLOPs)和記憶體頻寬已經接近輝達最新一代 Blackwell GPU。
但真正的殺手鐧是:TPU極低的總擁有成本(TCO)。
根據分析:
TPU 的架構還帶來天然擴展優勢:Google的系統能把 9,216 顆晶片聯成一個高密度的訓練域;而傳統輝達系統通常只有 64~72 顆晶片能做到緊密互聯。這使得 TPU 更適合超大規模 AI 訓練任務。
另一個關鍵因素是 Anthropic 的工程實力。團隊中有前 Google 編譯器專家,既熟悉 TPU 軟體棧,也精通自家模型架構。他們可以通過定製核心提升 TPU 利用效率,從而實現 更高的模型 FLOP 利用率(MFU) 和更優的 $/PFLOP 性能。
綜合考慮更低的 TCO 和更高的有效算力:
換句話說,即便Google或 Anthropic 僅實現 GB300 FLOPs 的一半,成本也能持平。憑藉頂尖的編譯器團隊和對模型的深度理解,Anthropic 在 TPU 上的 MFU 潛力甚至可能達到 40%,這意味著每單位有效訓練 FLOP 的成本可降低約 62%,帶來巨大的經濟優勢。
長期以來,軟體生態是 TPU 最大的短板。和所有非輝達加速器一樣,TPU 生態系統中的外部開發者數量遠少於 CUDA 生態系統。CUDA 是行業標準,開發者要遷移到 TPU 需要重寫大量工具鏈。
但現在情況正在改變,因為Google正在三件事上投入大量資源:
TPUv7 支援原生 PyTorch 整合,包括急切執行、完全支援分佈式 API、torch.compile 以及 PyTorch 工具鏈下的自訂 TPU 核心支援。目標是讓 PyTorch 能像在 Nvidia GPU 上一樣輕鬆運行 TPU。
Google還大力參與 vLLM 和 SGLang 這兩個流行的開源推理框架,並宣佈通過一個非常“獨特”的整合,支援 vLLM 和 SGLang 的測試版 TPU v5p/v6e。
Google的目標很明確:讓開發者無需重建生態,就能無痛切換到 TPU。
不過,TPU 軟體棧的核心XLA 編譯器仍未開源,文件也不完善。這導致從高級使用者到普通使用者都感到沮喪,無法偵錯程式碼出了什麼問題。此外,他們的 MegaScale 多重訓練程式碼庫也不是開放原始碼的。SemiAnalysis 認為,如果能開源,將顯著降低 TPU 的採用門檻。
此外,為了讓數十萬顆 TPU 快速落地,Google 還採用了一種非常激進的融資策略:
在這些交易中,Google充當“最終兜底者”,如果營運方失敗,Google 保證繼續支付租金。
這使得大量舊的加密挖礦資料中心被迅速改造成 AI 資料中心,也讓 TPU 的部署速度大幅提升。
面對Google的威脅,輝達正在準備反擊。其下一代 “Vera Rubin” 晶片,預計將在 2026~2027 年推出,將採用相當激進的設計,包括:
而Google計畫中的應對方案 TPUv8,則採用了雙重策略。據瞭解,Google計畫發佈兩個變體:一個與長期合作夥伴博通(代號“Sunfish”)共同開發,另一個與聯發科(代號“Zebrafish”)合作開發。
但TPUv8的設計稍顯保守。有分析師指出,該項目存在延誤,且依賴架構避免了競爭對手中激進使用台積電的 2 奈米工藝或 HBM4。
SemiAnalysis也指出,一開始,Google在矽晶片設計理念上相較於輝達更為保守。歷史上,TPU 出廠時峰值理論 FLOP 數量明顯少於相應的輝達 GPU 和更低的記憶體規格。
如果輝達 Rubin 按計畫實現性能躍升,TPU 當下的成本優勢可能會被徹底抹平。甚至可能出現,輝達 Rubin(特別是 Kyber Rack)比 Google TPUv8 更便宜、更高效的情況。
此外,TPU 也並非完美。它在特定深度學習場景中表現出色,卻遠不如 GPU 靈活。GPU 能運行各種演算法,包括非 AI 工作負載。如果明天出現一種全新的 AI 技術,GPU 基本可以立即運行;TPU 則可能需要編譯器或核心最佳化。
此外,從 GPU 體系遷移出來的成本依然高昂,特別是對於深度依賴 CUDA、自訂 kernel 或尚未針對 TPU 最佳化的框架的團隊。
WEKA 的首席人工智慧官Val Bercovici 建議:“當企業需要快速迭代、快速上市時,應選擇 GPU。GPU 使用標準化基礎設施、擁有全球最大的開發者生態、適合動態複雜的工作負載,並能輕鬆部署在現有本地資料中心,而無需進行電力或網路的重構。”
由於 GPU 更普及,對應工程人才也更多。TPU 則需要更稀缺的技能。Bercovici 也表示:“要充分發揮 TPU 的潛力,需要能寫自訂 kernel 與最佳化編譯器的工程深度,這類人才極為稀缺。”
總的來說,AI 硬體的競爭愈演愈烈,但現在預測誰將獲勝還太早,甚至無法確定是否會有一個唯一的贏家。TPU 的性價比和架構優勢確實讓人眼前一亮,但輝達的 GPU 在生態、軟體和成熟度上依然不可小覷。在輝達、Google快速迭代,以及亞馬遜也加入競爭的背景下,未來性能最高的 AI 系統很可能是混合架構,同時整合 TPU 與 GPU。 (51CTO技術堆疊)