Google TPU v7和輝達GB300的架構,供應鏈差異

01.Google TPU V7 vs 輝達GB300 晶片差異

在 AI 晶片領域,Google TPU 與輝達 GPU 的競爭已進入白熱化階段。作為雙方的旗艦產品,TPU v7(代號 “Ironwood”)與 GB300 分別代表了專用 ASIC 架構與通用平行計算架構的巔峰水平,二者在架構設計、性能參數、能效比、擴展性及成本等維度存在顯著差異,這些差異直接決定了它們在不同 AI 場景中的適配性。

TPU v7 屬於ASIC晶片的類別。TPU v7 延續了Google TPU 系列 “犧牲通用性、追求張量運算極致效率” 的設計邏輯,核心架構圍繞深度學習中的矩陣乘法(張量運算核心)深度定製,更加適合推理場景,單晶片功耗中等。

GB300 作為輝達 Blackwell 架構的旗艦產品,延續了 GPU “通用平行計算” 的核心優勢,兼顧張量運算、圖形渲染、科學計算等多場景需求,算力較高,適合高算力的AI大模型訓練,成本高,功耗高。

02.Google TPU V7 vs 輝達GB300機櫃級架構差異

從表面參數來看,TPU v7 與 GB300 的差異首先體現在機櫃尺度上。

TPU v7 機櫃的熱設計功率約為 90kW,整櫃部署 64 顆 TPU 晶片,採用 16 台 2U 伺服器的形態。網路層面使用 OCS 光交換架構,機櫃內部不設定獨立交換機,算力節點之間通過高度定製化的光互連直接通訊。

相比之下,GB300 機櫃的單櫃功率提升至約熱 150kW,晶片數量 72 顆,伺服器形態收斂為 18 台 1U 伺服器,並配備獨立的 InfiniBand / 乙太網路交換裝置。這種設計明顯更貼近當前主流 AI 資料中心的部署邏輯。

但真正值得關注的,並不是功率或晶片數量的差距,而是兩種機櫃在設計目標上的根本不同。TPU v7 本質上是為 Google 內部算力體系定製的“算力終端”;而 GB300 則被定義為可以被反覆複製、快速部署的“標準算力模組”。

02.Google TPU V7 vs 輝達GB300伺服器內部架構差異

TPU v7 伺服器部署4顆TPU晶片。在 TPU v7 的伺服器內部結構中,液冷系統呈現出高度聚焦的特徵。TPU 晶片被單獨配置為 4 塊小冷板,液冷覆蓋範圍嚴格限定在算力核心之上,而 CPU、記憶體、電源模組仍然沿用風冷方案,儲存系統則未被納入液冷體系。

TPU v7 採用 EPDM 軟管、Parker NSP 接頭與 Manifold 分配結構,配合 In-row CDU 使用。這種方案具備良好的安裝靈活性和成本可控性,非常適合 Google 這種自建、自維運的資料中心體系。

在 TPU v7 的體系裡,傳統意義上的“交換機”本身就被弱化了。TPU Pod 裡真正承擔大規模互聯角色的,是 OCS(Optical Circuit Switch,光電路交換),這種方案更多是一個“光層調度裝置”,而不是高功耗、高算力的包轉發晶片裝置。這類 OCS 的特點是交換晶片功耗低、發熱密度分散、運行狀態極其穩定,遠沒有 GPU 或 NVLink / InfiniBand 交換 ASIC 那麼“熱”。從熱設計角度看,它根本沒有到必須引入液冷的門檻,用成熟的風冷方案完全可以覆蓋,而且風險更低。

GB300伺服器部署4GPU+2GPU。液冷方案更加複雜,液冷覆蓋率95%,幾乎全液冷覆蓋,是小冷板結構,4+2方案,採用不鏽鋼波紋管、MOD + UQD 快接結構,以及 Rack / Row 級 CDU 相容設計,為長期運行、頻繁部署與快速維護而服務的工程選擇。

GB300 使用的是新一代 InfiniBand 交換平台(對應 Quantum / Quantum-X 這一代架構),單顆交換 ASIC 的功耗已經進入數百瓦等級,並且連接埠速率、SerDes 數量、內部交換頻寬都在指數級提升。GB300的交換機是1u高度,採用液冷架構方案,Asic晶片部署液冷冷板。

04.Google TPU V7 vs 輝達GB300 供應鏈差異

由於輝達目前只提供L6板卡產品,不直接提供L10-L11整機伺服器,比如冷板,CDU等部件屬於L6之後的環節,不屬於輝達的直接環節,但是液冷系統又是非常重要的一環,所以為保障下遊客戶使用輝達晶片正常運行,輝達會提前設計一套整機系統提供給終端及伺服器OEM廠商參考,在液冷生態體系中,輝達要求通過一系列的認證測試進而確定各個液冷元件的RVL(推薦供應商名錄);要成為供應商進入RVL基本成為進入輝達液冷生態體系的強制性要求。在RVL基礎上,輝達GB200採用強制指定少數液冷部件供應商的模式,如 Vertiv 是輝達指定的系統級液冷合作夥伴。在這種模式下,液冷供應商將可能形成產能瓶頸,無法支撐GB300及後續產品的巨大需求。

為降低供應鏈的風險,輝達在GB300上做出了調整,僅負責提供液冷部件設計參考及介面的規範;由此給予了ODM/OEM廠商更大的設計靈活性,並且由CSP或ODM/OEM在RVL範圍內自主選擇液冷部件供應商,為新供應商的進入創造了條件。在這種模式下,液冷部件供應商需要同時通過英偉 達RVL 認證以獲取配套資格,同時也需要進入OEM/ODM的AVL(合格供應商名錄)以確保在液冷系統整合階段被選用。

Google與輝達的冷供應商選擇模式不同,Google目前不直接出售TPU晶片,而是出售google Colud的算力,資料中心多數採用自健,所以Google的所有資料中心基礎設施產品由google自己採購。

因此Google液冷系統供應商會作為一級供應商直接向Google提供配套產品,液冷系統供應商將向Google指定的部件供應商採購液冷系統部件。因此對於國內廠商來說有更大的機會切入Google的供應鏈並且能夠持續獲得市場份額。 (零氪1+1)