Google第八代TPU詳解:聯手博通與聯發科挑戰輝達!

當地時間2026年4月22日,在拉斯維加斯舉行的Google Cloud Next '26大會上,Google正式發佈了第八代張量處理器(TPU)。這是Google史上首次將AI訓練與推理任務拆分至兩款獨立晶片——專為模型訓練設計的TPU 8t與專為推理最佳化的TPU 8i,標誌著其AI硬體戰略的重大轉向。

與此同時,Google宣佈其第七代TPU Ironwood正式向雲客戶開放,並預告了與輝達的深度合作——將在2026年下半年成為首家提供NVIDIA Vera Rubin NVL72超級電腦的雲服務商。

為何拆分訓練與推理?

Google做出這一戰略調整的根本原因,是AI計算負載的日益分化。GoogleAI與基礎設施高級副總裁兼首席技術官Amin Vahdat在官方部落格中指出:“隨著AI智能體的興起,我們確定業界將受益於針對訓練和推理需求分別進行專門最佳化的晶片。”

具體而言,訓練任務追求極致的吞吐量與規模擴展能力,需要晶片具備最高的計算密度和記憶體頻寬,以在數周甚至數月內處理兆級參數。而推理任務則對延遲和並行更為敏感——當數百萬個AI智能體同時執行階段,響應速度至關重要,而對峰值算力的要求相對較低。

Amin Vahdat在大會現場明確表示:“這兩款晶片都是從頭開始專門為訓練和推理設計的,而非彼此衍生產品。它們的規格、能力、互聯方式都因各自需求而專門設計。

Alphabet首席執行長桑達爾·皮查伊則強調,這一新架構旨在以低成本提供大規模吞吐量和低延遲,滿足數百萬個AI智能體同時運行的需求。

TPU 8t:大規模預訓練旗艦晶片

TPU 8t由Google和博通共同設計,是Google為超大規模AI模型訓練打造的旗艦晶片。單個超級計算節點最多可整合9,600塊TPU 8t晶片,配備2 PB高頻寬記憶體,每Pod計算性能達121 exaflops(FP4精度),較上一代Ironwood提升約3倍,同等價格下性能提升2.8倍。通過JAX與Pathways框架,可將分佈式訓練擴展至單一叢集超過100萬塊晶片。

在架構設計上,TPU 8t採用雙計算芯粒加單I/O芯粒的架構,配備8組12層堆疊的HBM3e高頻寬記憶體。晶片搭載了SparseCore專用加速器,專門處理大語言模型尋找過程中常見的不規則記憶體訪問問題;同時支援原生FP4浮點精度,矩陣運算單元算力吞吐直接翻倍,海量資料搬運功耗大幅下降。

為匹配海量資料吞吐需求,Google全新研發了Virgo互聯架構,訓練場景資料中心網路頻寬最高提升至前代4倍。該架構採用高基數交換機減少層級,扁平化兩層無阻塞拓撲結構,單套網路可互聯13.4萬顆TPU 8t晶片,無阻塞二分頻寬高達47Pbps,晶片間互聯頻寬較上一代提升2倍。在儲存訪問方面,TPU 8t通過TPU直連RDMA和TPU直連儲存兩項技術,繞過CPU實現TPU與網路卡、高速儲存之間的直接記憶體訪問,儲存訪問速度提升10倍。此外,晶片還擁有一整套可靠性、可用性與可維護性能力,包括即時遙測監控、自動檢測並繞過故障鏈路、以及無需人工干預自動重構硬體拓撲的光路電路交換技術。

TPU 8i:高並行推理專屬平台

TPU 8i首次由Google和聯發科合作設計,專注於AI推理場景,旨在消除“等待室效應”——即使用者請求被有意排隊或延遲以實現硬體利用率最大化的情況。單個Pod可擴展至1,152塊晶片,提供11.6 exaflops FP8計算性能,較Ironwood同等價格下性能提升80%,每瓦性能較上一代提升117%。

TPU 8i最顯著的特徵是搭載了384MB片上SRAM快取,容量是上一代Ironwood的三倍。這一設計的核心價值在於可將更大的KV Cache保留在晶片上,大幅減少長上下文解碼時晶片核心的空閒等待時間,實現更快的文字生成速度和更低的延遲。晶片還引入了全新的集合通訊加速引擎(CAE),專門加速自回歸解碼與思維鏈推理所需的規約與同步運算,多核心結果聚合幾乎零延遲,片上集合通訊延遲較前代降低5倍。單顆TPU 8i內建兩顆張量核心和一顆片上CAE,替代前代Ironwood的四顆稀疏計算核心。

TPU 8i最大的架構創新在於放棄了TPU傳統的3D環形拓撲結構,轉而採用全新的Boardfly層級互聯拓撲。在MoE(混合專家模型)與推理模型時代,任意晶片都需要隨時互通Token資料,跳轉次數直接決定性能。對於8×8×16規模(1024晶片)的3D環形網路,最遠晶片通訊需要16跳;而Boardfly拓撲在同等規模下僅需7跳,網路直徑縮減56%。

Boardfly採用分層設計:4顆晶片環形互聯構成基礎單元,8塊板卡通過銅纜全互聯構成本地算力組,36個算力組通過光開關互聯構成最高1024顆晶片的叢集。

在這種結構下,任意兩枚晶片之間的通訊最多隻需經過7次跳轉,全對全通訊延遲改善最高50%,這對混合專家模型和頻繁的跨晶片令牌路由極為有利。TPU 8i配備288GB HBM高頻寬記憶體,結合384MB片上SRAM,確保模型的活躍工作集能夠完全保留在晶片內部運行,從根本上解決“記憶體牆”問題。

基於2nm製程,2027年底量產

兩款第八代TPU晶片均搭載了Google自研的Arm架構Axion CPU作為主控,徹底解決資料預處理延遲導致的主機算力瓶頸。晶片採用台積電2nm製程工藝製造,目標在2027年底量產,並由公司第四代液冷技術支援散熱。

在軟體生態方面,第八代TPU支援JAX、PyTorch、Keras及vLLM等主流框架,原生PyTorch支援現已進入預覽階段,使用者可直接遷移模型而無需修改程式碼。

Anthropic已承諾採用

GoogleTPU的採用率正在持續攀升。Anthropic已承諾採用數GW等級的TPU算力,2027年上線規模將擴展至3.5吉瓦,成為第八代TPU的錨定客戶。此外,Citadel Securities已利用TPU打造量化研究軟體,美國能源部旗下17個國家實驗室全面採用基於TPU的AI協同科學家系統。

分析師普遍認為,Google通過將TPU一拆為二,是對AI訓練與推理需求加速分化的直接回應,有助於大幅提升特定場景下的單位算力性價比,從而降低雲客戶部署成本。 (芯智訊)