#ASIC液冷
GoogleTPU異軍突起,ASIC液冷將爆發,部署已超1GW !回看Google液冷進化史
01. Google TPU向輝達GPU發起衝擊,ASIC市場有望迎來爆發增長近期,AI市場火熱,Google對輝達發起最大衝擊,此前輝達的GPU一直穩居AI晶片王座,不容挑戰,但在Google發佈Gemini 3後,市場的風向開始轉變,Google的這一模型採用的是自研TPU進,而不是輝達GPU,更重要的是,業內認為其已經“超越”了OpenAI的GPT模型。除了Gemini 3,今年The Information也報導,Meta 正在與 Google 進行秘密談判,計畫大批次採購 Google 的 TPU 晶片,用於部分替代輝達的 GPU 以支援其龐大的資料中心 AI 運算。2027年Meta 可能將直接採購數十億美元的 TPU 晶片,部署於自建的資料中心此前Google有限責任公司已與人工智慧初創公司Anthropic達成一項價值數百億美元的交易。Anthropic官宣原話:宣佈計畫擴大對Google雲技術的使用,包括高達一百萬個 TPU,這將大幅提升計算資源,以持續推動人工智慧研究和產品開發的邊界。此次擴展價值數百億美元,預計將在 2026 年上線超過一吉瓦的容量。零氪認為,在Gemini 3等非GPU AI 模型推動下,近期 AI 算力需求逐步由訓練算力轉向推理算力,以Google TPU 為代表的 ASIC 在 AI 推理領域具備不遜色於輝達 GPU 的性能以及更低的功耗,有望在 AI 推理領域對 GPU 實現部分替代。02.液冷部署超1GW,Google伺服器液冷及整機方案回顧在 2024 年的 Google I/O 開發者大會上,Google CEO 桑達爾·皮查伊透露,Google的液冷裝置數量已增長至……約1吉瓦。Google的液冷技術已從晶片、伺服器、機架到資料中心基礎設施等各個層面進行了大規模開發。在晶片和伺服器層面,Google開發了冷板回路,其中冷板採用串聯和並聯配置,以滿足各個平台特定的散熱管理需求。Google的液冷故事始於 2018 年的 TPUv3,這是Google首次在量產 AI 伺服器上引入直接液冷。TPUv3 的液冷冷板採用銅材質、微通道鰭片結構,並設計了一種獨特的“中心衝擊、雙向分流(split-flow)”內部流道。這種結構相比傳統直通式流道具有更低的熱阻,更能有效覆蓋晶片中心的熱點區域。TPUv3 使用液冷的意義不僅在於溫度下降,而是直接帶來性能提升:它在同體積內實現 1.6 倍的 TDP 支援,頻率提升約 30%,並使得 TPU 超算的規模可以在相同空間內翻倍。TPUv3冷板的橫截面圖。冷板通過機械方式連接到TPUv3上。TPUv3產生的熱量通過導熱介面材料傳遞到冷板底座。Google開發的行內冷卻液分配單元,適配TPU V3。CDU 系統由泵和液-液熱交換器組成,用於將機架冷卻液回路與設施冷卻液回路隔離,從而為 IT 系統回路提供更小、化學成分更可控、更清潔的泵送冷卻液。CDU 由 6 個模組化 CDU (mCDU) 組成。在Google的 CDU 架構中,一個 mCDU 是冗餘的,這使得Google能夠實現整個機房範圍內的 CDU 可用性。約99.999 %自 2020 年以來一直如此。Google CDU 機隊從 2020 年第一季度 (Q1) 到 2024 年第四季度 (Q4) 的正常執行階段間。進入 2021 年,TPUv4 代表Google液冷技術邁向更高的工程複雜度。這一代 TPU 採用裸芯(bare die)封裝,冷板底部增加了“台階式接觸面”,精準穿過晶片封裝的機械圍框,直接觸達裸露的矽片表面。同一代還首次引入並聯液冷流道和主動流量控制閥,通過伺服器級閉環控制實現不同晶片的精準流量與溫度分配。Google特別指出,從 TPUv4 開始,液冷不再只是“去除熱量”,而變成“可控、可調的高性能熱管理系統”,直接服務於 AI 訓練過程中負載波動大、功耗變化快的特點。此時的液冷已經從被動散熱走向主動熱管理,是全新的計算架構能力組成部分。TPUv4 裸晶片封裝的橫截面示意圖。(c)帶底座的 TPUv4 冷板底座。TPU v5p也採用冷板式液冷技術,下圖為Google液冷式 AI 超級電腦方案。Google的第七代 TPU Ironwood 性能比肩輝達的B200,同時晶片的功耗也在飆升,Google的TPU今年功耗單晶片突破600w,叢集功率高達10MW。目前已經確認採用冷板式液冷技術。Ironwood晶片托盤。每個托盤包含4個Ironwood TPU晶片。該托盤採用液冷散熱。再上一層,每個機架可容納 16 個 TPU 托架,共計 64 個 TPU。該機架與另外 16 個 CPU 主機機架相連。機架內的所有互連均採用銅纜;OCS 提供與其他機架的連接。03.Google液冷CDU,加液車產品開發歷史Google開發的行內冷卻液分配單元,適配TPU V3。CDU 系統由泵和液-液熱交換器組成,用於將機架冷卻液回路與設施冷卻液回路隔離,從而為 IT 系統回路提供更小、化學成分更可控、更清潔的泵送冷卻液。CDU 由 6 個模組化 CDU (mCDU) 組成。在Google的 CDU 架構中,一個 mCDU 是冗餘的,這使得Google能夠實現整個機房範圍內的 CDU 可用性。Google發佈的第五代CDU單機可支援高達2MW的散熱能力,並且通過三塊並聯液-液換熱器、無密封高性能泵和全冗餘設計,實現了超高壓差、超高流量與極低溫差的散熱性能,同時相容風冷與液冷混合場景;更重要的是,Google還將該方案開源到OCP社區,為行業提供了一套面向AI時代超高功率資料中心的“液冷心臟”級解決方案。Google還開發了多種工具,其中包括一個相對較大的“注液套件”,用於在部署和日常維護期間向CDU裝置注液和排液。“注液套件”由一個150加侖的液體罐、泵、過濾器和其他輔助裝置組成。Google還開發了一種相對較小的推車,用於為IT托架和IT機架歧管等小型裝置注液和排液,如圖所示。IT托架注液推車由供液罐和回液罐、泵、電磁閥、空氣壓縮機和人機介面(HMI)以及其他輔助元件組成。這些工具由Google及其外部合作夥伴定製開發,並已通過認證,可在Google全球資料中心範圍內使用。Google資料中心大規模部署節能型液冷IT系統,得益於端到端供應商到資料中心模式的開發,該模式用於設計和交付IT規模和資料中心規模的液冷裝置。推薦的模式需要一個強大的多供應商供應鏈和生態系統,以確保端到端熱工水力性能、質量和可靠性達到最高標準。此外,建議資料中心所有者制定部署計畫,並考慮液冷裝置的端到端生命周期。利用開放標準可以加速資料中心液冷技術的規模化應用。04.ASIC液冷市場展望據媒體報導,預計 2025 年Google和 AWS 的 ASIC 合計出貨量將達到 400 萬片以上,後續 Meta,字節等廠商也將加快部署自研 ASIC 解決方案,ASIC 市場將迎來加速擴張,有望推動液冷需求進一步提升。此前台灣負責人在半年度財報發佈會也表示,最大客戶持續加大ASIC投入,預估明年這部分成長會滿可觀。 ASIC是高度客制化,包括水冷板數量與系統設計較GPU更複雜,儘管目前GPU水冷營收比重較高,但是高階ASIC專案投入速度快於GB系列,而且對水冷解決方案需求明顯升溫,預期將會成為後續重要成長引擎之一。從富邦發佈的台積電晶片研報資料來看,ASIC晶片目前市場份額正在快速升高,預估在AI市場的推動下,預估到明年ASIC晶片市場份額將會快速升高至36%-40左右。 (零氪1+1)