目錄
- 為訓練而生的 TPU 8t
- 專注代理式 AI 及推理需求的 TPU 8i
- 與 Gemini 共同設計、支援廣泛開發框架
- 最大化能源效率
Google Cloud 的 TPU 以往都是採用單晶片兼具訓練及推理功能的設計,不過在 Google Cloud 年度盛會 Google Cloud Next '26 上,宣佈推出兩款差異化的第 8 代 TPU 產品,攜手 Google DeepMind 開發針對訓練的 TPU 8t 以及針對推理的 TPU 8i。
Google強調通過針對 AI 兩大核心任務不同的執行需求進行最佳化設計,進一步將性能發揮到極致。同時 Google 也強調兩款晶片都能運行各類 AI 負載,只是在各自擅長的領域表現更強。
為訓練而生的 TPU 8t
TPU 8t 旨在處理大規模、計算密集型訓練任務,提供更高的計算吞吐量與可擴展頻寬,滿足 AI 模型訓練需求,單晶片配備 216GB HBM。Google 表示,基於 TPU 8t 的 Pod 相較上一代產品性能提升 3 倍,可將模型開發周期從數月縮短至數周,並儘可能提升能源效率。TPU 8t 可擴展至 9600 顆晶片與 2PB 的 HBM 記憶體,晶片間頻寬相較上一代提升兩倍,可實現高達 121 ExaFlops 的算力,讓超大型模型能夠使用統一的超大記憶體池。
此外,TPU 8t 還整合了速度提升 10 倍的儲存訪問,通過 TPUDirect 讓資料繞過 CPU 直接進入 TPU,進一步提升計算效率。借助 Google 全新 Virgo 網路以及 JAX、Pathways 軟體,TPU 8t 可在包含百萬顆晶片的叢集中實現近乎線性的性能擴展。同時,TPU 8t 通過 RAS 功能保障可靠性,包括對數萬顆晶片即時監測、自動檢測並在不中斷作業的情況下繞過故障 ICI 連接,以及 OCS 光路交換任務等自主維護機制,將硬體故障對叢集及訓練的影響降至最低,力爭實現超過 97% 的有效吞吐量。
專注代理式 AI 及推理需求的 TPU 8i
TPU 8i 是面向 AI 推理與代理式 AI 服務開發的晶片,擁有更高記憶體頻寬與極低的推理延遲。通過解決記憶體傳輸瓶頸、搭配 Axion CPU 架構、針對 MoE 混合專家模型最佳化及降低延遲等四項關鍵技術,為新一代代理式 AI 及 AI 推理需求實現最佳化設計,綜合使每美元效能提升 80%,企業可用相同成本服務兩倍的使用者。
TPU 8i 搭載 288GB HBM 記憶體與 384MB 片上 SRAM,解決記憶體傳輸瓶頸,容量相較上一代提升 3 倍,幾乎不會出現等待記憶體傳輸的閒置情況。同時,TPU 8i 伺服器物理 CPU 數量相較上一代增加一倍,採用基於 Arm 指令集的 Google 定製 Axion 架構,通過非均勻記憶體架構(NUMA)隔離,進一步擴展性能。
MoE 混合專家模型是代理式 AI 的發展趨勢,由多個小型專家模型組成,僅在需要時載入相關模型,執行混合任務時無需在多個模型間切換。Google 將 TPU 8i 的晶片互聯頻寬提升至 19.2TB/s,相較上一代翻倍,確保多顆 TPU 8i 組成的系統具備統一、低延遲特性,媲美大型單晶片。此外,通過片上 CAE(集體加速引擎)解除安裝全域操作,可將晶片延遲降低 5 倍,大幅縮短響應時間。
與 Gemini 共同設計、支援廣泛開發框架
兩款第 8 代 TPU 晶片均與 Gemini 協同設計,其中 Boardfly 拓撲結構為滿足當前最強推理模型的通訊需求而設計,TPU 8i 的 SRAM 容量則依據量產級推理模型的 KV 快取佔用空間確定,Virgo 網路架構的頻寬目標則根據兆參數訓練的平行性需求制定。
同時,TPU 8t 與 TPU 8i 均搭配 Google 定製 Axion CPU 系統運行,實現系統級最佳化。兩款平台均原生支援 AX、MaxText、PyTorch、SGLang、vLLM 等常用框架,支援客戶無需虛擬化直接訪問硬體,同時開源了 MaxText 參考實現與用於強化學習的 Tunix 等相關資料。
最大化能源效率:第4代液冷
面對 AI 資料中心因海量算力需求帶來的能源緊張問題,Google 表示,TPU 8t 與 TPU 8i 相較代號 Ironwood 的第 7 代 TPU,能源效率提升兩倍,最佳化覆蓋整體架構設計、整合可即時動態調節功耗的電源管理等方面。同時從晶片到資料中心實現全系統級能效最佳化,例如將網路連線與計算整合在同一晶片,降低 TPU 晶片資料傳輸能耗,並圍繞 TPU 協同設計資料中心架構,最終相較五年前每單位電力算力提升 6 倍。
TPU 8t 與 TPU 8i 採用 Google 第 4 代液冷散熱架構,實現傳統風冷難以企及的高性能密度。加上從 CPU、TPU 到整機系統的全鏈路自主設計,達成傳統分體式主機與晶片方案無法實現的高效能表現。 (芯榜+)
