#液冷
GoogleTPU異軍突起,ASIC液冷將爆發,部署已超1GW !回看Google液冷進化史
01. Google TPU向輝達GPU發起衝擊,ASIC市場有望迎來爆發增長近期,AI市場火熱,Google對輝達發起最大衝擊,此前輝達的GPU一直穩居AI晶片王座,不容挑戰,但在Google發佈Gemini 3後,市場的風向開始轉變,Google的這一模型採用的是自研TPU進,而不是輝達GPU,更重要的是,業內認為其已經“超越”了OpenAI的GPT模型。除了Gemini 3,今年The Information也報導,Meta 正在與 Google 進行秘密談判,計畫大批次採購 Google 的 TPU 晶片,用於部分替代輝達的 GPU 以支援其龐大的資料中心 AI 運算。2027年Meta 可能將直接採購數十億美元的 TPU 晶片,部署於自建的資料中心此前Google有限責任公司已與人工智慧初創公司Anthropic達成一項價值數百億美元的交易。Anthropic官宣原話:宣佈計畫擴大對Google雲技術的使用,包括高達一百萬個 TPU,這將大幅提升計算資源,以持續推動人工智慧研究和產品開發的邊界。此次擴展價值數百億美元,預計將在 2026 年上線超過一吉瓦的容量。零氪認為,在Gemini 3等非GPU AI 模型推動下,近期 AI 算力需求逐步由訓練算力轉向推理算力,以Google TPU 為代表的 ASIC 在 AI 推理領域具備不遜色於輝達 GPU 的性能以及更低的功耗,有望在 AI 推理領域對 GPU 實現部分替代。02.液冷部署超1GW,Google伺服器液冷及整機方案回顧在 2024 年的 Google I/O 開發者大會上,Google CEO 桑達爾·皮查伊透露,Google的液冷裝置數量已增長至……約1吉瓦。Google的液冷技術已從晶片、伺服器、機架到資料中心基礎設施等各個層面進行了大規模開發。在晶片和伺服器層面,Google開發了冷板回路,其中冷板採用串聯和並聯配置,以滿足各個平台特定的散熱管理需求。Google的液冷故事始於 2018 年的 TPUv3,這是Google首次在量產 AI 伺服器上引入直接液冷。TPUv3 的液冷冷板採用銅材質、微通道鰭片結構,並設計了一種獨特的“中心衝擊、雙向分流(split-flow)”內部流道。這種結構相比傳統直通式流道具有更低的熱阻,更能有效覆蓋晶片中心的熱點區域。TPUv3 使用液冷的意義不僅在於溫度下降,而是直接帶來性能提升:它在同體積內實現 1.6 倍的 TDP 支援,頻率提升約 30%,並使得 TPU 超算的規模可以在相同空間內翻倍。TPUv3冷板的橫截面圖。冷板通過機械方式連接到TPUv3上。TPUv3產生的熱量通過導熱介面材料傳遞到冷板底座。Google開發的行內冷卻液分配單元,適配TPU V3。CDU 系統由泵和液-液熱交換器組成,用於將機架冷卻液回路與設施冷卻液回路隔離,從而為 IT 系統回路提供更小、化學成分更可控、更清潔的泵送冷卻液。CDU 由 6 個模組化 CDU (mCDU) 組成。在Google的 CDU 架構中,一個 mCDU 是冗餘的,這使得Google能夠實現整個機房範圍內的 CDU 可用性。約99.999 %自 2020 年以來一直如此。Google CDU 機隊從 2020 年第一季度 (Q1) 到 2024 年第四季度 (Q4) 的正常執行階段間。進入 2021 年,TPUv4 代表Google液冷技術邁向更高的工程複雜度。這一代 TPU 採用裸芯(bare die)封裝,冷板底部增加了“台階式接觸面”,精準穿過晶片封裝的機械圍框,直接觸達裸露的矽片表面。同一代還首次引入並聯液冷流道和主動流量控制閥,通過伺服器級閉環控制實現不同晶片的精準流量與溫度分配。Google特別指出,從 TPUv4 開始,液冷不再只是“去除熱量”,而變成“可控、可調的高性能熱管理系統”,直接服務於 AI 訓練過程中負載波動大、功耗變化快的特點。此時的液冷已經從被動散熱走向主動熱管理,是全新的計算架構能力組成部分。TPUv4 裸晶片封裝的橫截面示意圖。(c)帶底座的 TPUv4 冷板底座。TPU v5p也採用冷板式液冷技術,下圖為Google液冷式 AI 超級電腦方案。Google的第七代 TPU Ironwood 性能比肩輝達的B200,同時晶片的功耗也在飆升,Google的TPU今年功耗單晶片突破600w,叢集功率高達10MW。目前已經確認採用冷板式液冷技術。Ironwood晶片托盤。每個托盤包含4個Ironwood TPU晶片。該托盤採用液冷散熱。再上一層,每個機架可容納 16 個 TPU 托架,共計 64 個 TPU。該機架與另外 16 個 CPU 主機機架相連。機架內的所有互連均採用銅纜;OCS 提供與其他機架的連接。03.Google液冷CDU,加液車產品開發歷史Google開發的行內冷卻液分配單元,適配TPU V3。CDU 系統由泵和液-液熱交換器組成,用於將機架冷卻液回路與設施冷卻液回路隔離,從而為 IT 系統回路提供更小、化學成分更可控、更清潔的泵送冷卻液。CDU 由 6 個模組化 CDU (mCDU) 組成。在Google的 CDU 架構中,一個 mCDU 是冗餘的,這使得Google能夠實現整個機房範圍內的 CDU 可用性。Google發佈的第五代CDU單機可支援高達2MW的散熱能力,並且通過三塊並聯液-液換熱器、無密封高性能泵和全冗餘設計,實現了超高壓差、超高流量與極低溫差的散熱性能,同時相容風冷與液冷混合場景;更重要的是,Google還將該方案開源到OCP社區,為行業提供了一套面向AI時代超高功率資料中心的“液冷心臟”級解決方案。Google還開發了多種工具,其中包括一個相對較大的“注液套件”,用於在部署和日常維護期間向CDU裝置注液和排液。“注液套件”由一個150加侖的液體罐、泵、過濾器和其他輔助裝置組成。Google還開發了一種相對較小的推車,用於為IT托架和IT機架歧管等小型裝置注液和排液,如圖所示。IT托架注液推車由供液罐和回液罐、泵、電磁閥、空氣壓縮機和人機介面(HMI)以及其他輔助元件組成。這些工具由Google及其外部合作夥伴定製開發,並已通過認證,可在Google全球資料中心範圍內使用。Google資料中心大規模部署節能型液冷IT系統,得益於端到端供應商到資料中心模式的開發,該模式用於設計和交付IT規模和資料中心規模的液冷裝置。推薦的模式需要一個強大的多供應商供應鏈和生態系統,以確保端到端熱工水力性能、質量和可靠性達到最高標準。此外,建議資料中心所有者制定部署計畫,並考慮液冷裝置的端到端生命周期。利用開放標準可以加速資料中心液冷技術的規模化應用。04.ASIC液冷市場展望據媒體報導,預計 2025 年Google和 AWS 的 ASIC 合計出貨量將達到 400 萬片以上,後續 Meta,字節等廠商也將加快部署自研 ASIC 解決方案,ASIC 市場將迎來加速擴張,有望推動液冷需求進一步提升。此前台灣負責人在半年度財報發佈會也表示,最大客戶持續加大ASIC投入,預估明年這部分成長會滿可觀。 ASIC是高度客制化,包括水冷板數量與系統設計較GPU更複雜,儘管目前GPU水冷營收比重較高,但是高階ASIC專案投入速度快於GB系列,而且對水冷解決方案需求明顯升溫,預期將會成為後續重要成長引擎之一。從富邦發佈的台積電晶片研報資料來看,ASIC晶片目前市場份額正在快速升高,預估在AI市場的推動下,預估到明年ASIC晶片市場份額將會快速升高至36%-40左右。 (零氪1+1)
行業深度:從風冷到液冷 資料中心散熱的破局與未來
數字經濟爆發下,全球資料中心耗電量佔比逐年攀升。據統計,2024年中國資料中心能耗總量1660億千瓦時,約佔全社會用電量的1.68%,同比增長10.7%。2024年全社會用電增速為6.8%,資料中心用電量增速遠高於全社會用電量平均增速【1】。資料中心能耗已成為不可忽視的能源消耗領域。隨著人工智慧技術的迅猛發展,AI相關行業正經歷著前所未有的快速增長和技術迭代。這一變革不僅推動了社會的進步,也帶來了對計算能力的巨大需求。智能計算中心,作為AI技術發展的核心基礎設施,正面臨著前所未有的挑戰。01AI行業的快速發展AI技術的進步和應用場景的拓展,使得智能計算中心的建設成為推動行業發展的關鍵。技術的快速迭代要求資料中心能夠迅速適應新的計算需求,保持技術的領先地位。02高密散熱的需求關注隨著AI計算密度的增加,散熱問題成為智能計算中心必須面對的挑戰。高密度計算裝置產生的熱量如果不能有效管理,將直接影響資料中心的穩定性和效率,甚至可能導致裝置損壞和性能下降。03液冷技術的應用為瞭解決高密度散熱問題,液冷技術作為一種高效、環保的冷卻解決方案,已經成為智能計算中心散熱管理的重要趨勢。液冷技術能夠有效降低資料中心的能耗,提高裝置的散熱效率,是應對高密度散熱挑戰的有效手段。隨著晶片功耗增長加速,在面對不同業務需求時,製冷解決方案變得更多多樣。隨著機架功率密度的不斷攀升,行業內普遍認同,40~60kW/Rack已經達到了風冷極限,超過這個能力邊界,無論是考慮到散熱能力還是散熱成本,必須開始部署液冷。資料中心製冷從完全風冷邁向風液混合製冷,不同機架功率密度的製冷解決方案推薦如圖1所示。▲ 圖1 不同功率密度機櫃製冷解決方案機櫃功率密度在20~25kW以內時,常規遠端風冷方案即可解決伺服器散熱需求。當機櫃功率密度進一步提升,單機櫃功率密度在25~45kW時,就應該開始考慮近端風冷的解決方案。風冷方案再疊加背板熱交換器(Rear Door Heat Exchanger,RDHx),可以進一步解決單機櫃60kW以內的散熱需求。單機櫃功率密度在40~60kW時,就可以開始考慮採用液冷,但根據伺服器或晶片不同,也可以更早開始採用液冷。即使採用液冷,根據風液比不同,伺服器仍然有5%~50%的熱量需要通過風冷散熱來解決,風液混合將成為大多數高熱密度機櫃散熱方案。根據伺服器供液溫度要求,室外一次側需選擇不同的散熱方案。伺服器供液溫度要求大於40℃時,室外一次側散熱可以採用完全自然冷的解決方案,當伺服器供液溫度要求較低時,室外一次側需要採用機械冷卻。在單機櫃功率密度小於40kW時,考慮伺服器類型,往往更多選用風冷技術。為實現PUE要求,各類自然冷技術在機房空調裝置中已經大量應用。從節能技術維度,可以分為三類:01風側自然冷方案通過利用室外低溫空氣直接為資料中心供冷。在實際應用中有兩種方案:直接空氣自然冷,直接引入自然界新風對資料中心進行冷卻,但該方案受空氣質量、濕度等因素限制,適用場景較為有限。間接空氣自然冷,借助換熱器實現自然界低溫空氣與資料中心高溫空氣的熱交換,以降低機房溫度。此類方案可有效解決空氣質量及濕度問題,但在夏季室外溫度較高時,其應用仍會受到限制。02水側自然冷方案通過利用低溫水源或者水蒸發潛熱來為資料中心供冷。在過往的水側自然冷應用案例中,有直接引入湖水為資料中心供冷的方式,但此方案受水質條件,以及可能對當地生態環境影響的限制,應用範圍較窄。另一種通過水蒸發利用自然冷的方式應用則更為普遍,常見的冷卻塔及間接蒸發冷裝置等,在開啟水噴淋的情況下,均屬於水側自然冷,通過水的蒸發潛熱利用自然冷源。03氟泵自然冷方案通過氟泵來驅動冷媒循環,付出少量機械能,在室外低溫時將室外自然冷源的冷量通過冷媒相變傳遞至機房,從而達到降低機房降溫的效果。一般氟泵自然冷和壓縮機製冷整合在一個系統裡,當室外低溫時,壓縮機停止運行,啟動氟泵完成製冷循環。當時外溫度較高時,則需要啟動壓縮機來完成製冷循環。以上自然冷方式可以單獨應用,或者組合應用,充分挖掘室外自然冷潛能,實現節能效果。近期在資料中心領域應用比較多的混合雙冷源方案,即為一種組合式的自然冷方案。機房空調設計兩組盤管,層疊安裝。高溫迴風首先經過第一組盤管進行預冷,此時預冷冷源可以是氟泵自然冷,也可以是冷卻塔提供的冷卻水,之後通過第二組盤管,第二組盤管可以是氟泵自然冷,也可以是壓縮機機械製冷,根據製冷需求進行自動切換,詳見圖2所示。▲ 圖2 兩種不同雙冷源自然冷方案通過“預冷+補冷”的控制思路,實現自然冷源利用最大化,從而實現空調裝置高能效,有效幫助降低資料中心PUE。以資料中心常用100kW空調為例,採用上述自然冷技術的機組,在以下區域應用,可以達到的製冷因子CLF如表1所示。在空調機組100%輸出的條件下,水側自然冷通過利用更長時長的自然冷,製冷因子更低,見表2所示。在空調機組75%輸出條件下,可以看到氟側機組的能效提升更快,在北京以及上海,均可表現出比雙冷源機組更好的節能效果,見表3所示。隨著負載率進一步降低,在空調機組50%輸出條件下,氟泵自然冷機組的能效已經全面優於水側自然冷雙冷源機組。不管採用那種雙冷源,北方全年室外環境溫度更低,可以收穫更好的節能效果。隨著負載率降低,氟泵自然冷工作時長顯著增加,氟泵功耗遠小於水泵功耗,在各地均可獲得更好的節能效果。可以看到,利用“預冷+補冷”設計方案,兩類雙冷源方案可達到系統級的製冷因子相當,在選擇具體方案時,需結合項目地自然條件進行選擇。液體冷卻是指利用高導熱性能的流體介質(諸如25%丙二醇諸如25%丙二醇,去離子水、冷卻液或製冷劑)而不是空氣來冷卻資料中心。液體直接參與資料中心關鍵發熱源(如伺服器內部高性能晶片)的熱量交換過程。液冷技術縮短了熱傳導路徑,使得熱量能夠更直接、更有效地從熱源匯出,進而顯著降低了對伺服器內部風扇輔助散熱的依賴,從而降低整體能耗與噪音水平。資料中心液冷技術的應用可細分為兩大主流類別:直接到晶片(Direct-to-Chip, DTC)冷卻技術,常被稱為冷板冷卻,其特點在於將冷卻液直接匯入至伺服器內部,通過緊貼晶片的冷板結構實現高效熱交換。浸沒式冷卻技術,該技術將整個或部分伺服器元件完全浸沒於非導電冷卻液中,實現熱量的全面、均勻散發。在DTC配置中,液體不直接與電子元件接觸,液體冷卻劑被泵送到解決伺服器內部電子元件散熱的冷板上。雖然大部分熱量都被冷板帶走了,但仍然需要風扇來幫助去除電路板層面的熱量,儘管風量和風速都非常低。在這種情況下,一些設計通過空氣將熱量從伺服器機箱交換出去,而另一些設計則需要在機架或行級使用熱交換器將熱量傳輸到主冷卻回路,具體見圖3冷板液冷系統原理圖。▲ 圖3 冷板液冷系統原理圖CDU是液體冷卻系統中必不可少的元件,可在整個系統中均勻分配冷卻液。CDU建立了一個獨立的二次側回路,與提供室外散熱的一次側回路隔離開,並調節和控製冷卻液的流量以保持二次側回路所需的溫度和流量。其次,CDU要採用高耐腐蝕性的不鏽鋼材質,確保與冷卻液的完美相容,有效防止腐蝕。設計上尤其要注重關鍵器件的冗餘備份,如電源、泵、感測器及過濾器等,確保系統在任何情況下都能穩定運行。同時,CDU需內建精準溫控系統,能有效消除伺服器CPU和GPU的熱衝擊問題。此外,配備補液罐以滿足長期運行需求,並設有自動排氣裝置以排除空氣,保持冷卻效率。1)供液溫度冷板液冷系統的供液溫度設計需充分考慮不同晶片及伺服器製造商的特定要求,如Dell可能接受高達32℃甚至更高的供液溫度,而Nvidia則設定在25℃至45℃的較寬範圍內。需要注意的是,必須嚴格避免供液溫度過低,以防止水蒸氣凝結現象的發生,這可能嚴重損害IT裝置的正常運行。此外,系統還需具備強大的穩定性,確保在一次側流量出現波動時,二次側仍能維持穩定的供液溫度,以保障整體散熱效能與裝置安全,見圖4所示。▲ 圖4 一次側流量波動,二次側仍可保障穩定供液溫度2)供液流量冷板液冷系統的供液流量設計是確保高效散熱與穩定運行的關鍵環節。CDU(冷量分配單元)在此過程中扮演著核心角色,負責精確調控一次流體與二次流體的流量。具體而言,二次流體需維持穩定的流速進入IT裝置,以在裝置滿載時能夠有效從冷板中帶走所有熱量,保持IT入口溫度的恆定。同時,一次流體的流量則根據需散熱的熱量動態調整,並依據CDU的接近溫度(ATD)進行調整,見圖5所示。▲ 圖5 一次側流量波動,二次側仍可保障穩定回液溫度為了確保流量控制的精準性,系統要採用壓差控制並輔以即時監控,以確保系統中的洩漏不會導致壓力下降。此外,通過CDU內,泵與電源的冗餘設計,系統能夠在關鍵業務場景下保障流量的連續供應,進一步提升整體系統的可靠性與穩定性。3)過濾要求冷板液冷系統要求冷卻液順暢通過冷板內極其微小的通道,這些通道的寬度可精細至低於50微米,甚至達到30微米以內。堵塞不僅會限制流量,甚至可能完全中斷IT裝置的冷卻,導致維護成本急劇上升,因此系統對冷卻液的過濾精度提出了嚴格標準。通常,這一精度需低於冷板通道的最小尺寸,業界經驗傾向於採用25微米或更細的過濾等級。此外,為確保系統長期保持清潔狀態,CDU(冷量分配單元)需持續進行線上過濾,這是維護系統高效運行與延長使用壽命的關鍵措施。4)流體選擇在設計冷板液冷系統的初期,選擇合適的流體化學成分及可靠的供應商非常重要。一旦確定流體策略,後續的任何更改都將涉及繁瑣且成本高昂的清洗與淨化過程。此外,流體的選擇還會在偵錯階段帶來顯著複雜性,包括循環測試、雜質沖洗以及系統氣泡的排除,這些工作對於每台伺服器及整體解決方案的順利運行都至關重要。在整個系統使用周期內,對液體的持續關注同樣不可或缺,需定期進行pH值、外觀、抑製劑濃度及污染物水平的檢測,以確保其性能穩定與系統的持續高效運行。同時,所有冷卻液均需遵循嚴格的儲存與處理規範,並配備適當的個人防護裝置以保障操作安全。在冷板液冷系統的二次側流體選擇中,存在三種主流方案。首先,去離子水配方液換熱效果優越,然而其腐蝕風險不容忽視,需採取額外措施加以防範。其次,乙二醇配方液雖具備一定的防腐能力,但其毒性相對較大,且在環保要求較高的地區,其排放處理成為一大現實問題。最後,丙二醇配方液作為Intel、Nvidia等業界巨頭推薦的選擇,由於其防腐效果更好,成為眾多使用者信賴的優選方案。在選擇時,需綜合考慮流體性能、成本、環保要求及安全性等多方面因素,以做出最適合自身需求的決策。5)故障預防和檢測在冷板液冷系統中,除了二次流體網路內其他感測器的監測外,CDU的嚴密監控與管理是預防並儘早發現故障的關鍵。資料中心尤為關注洩漏問題,大部分洩漏案例發生在manifold與伺服器軟管快速斷開附件處,對IT裝置影響很小。但伺服器機箱內部的洩漏,特別是發生在內部manifold、軟管與冷板之間的洩漏,則對IT裝置構成重大威脅。因此,實施額外過濾與感測器在內的防錯系統至關重要,這些措施不僅能在熱交換性能下降時提供預警,還能有效遏制人為錯誤導致的污染物增加或液體質量漏檢風險,從而全面提升系統的穩定性與安全性。液體輔助DTC冷卻:機箱級、閉環的獨立產品,帶有冷板、泵和散熱器,針對處理器的局部熱點。熱量通過伺服器內部的液體-空氣熱交換器消散。與液體-液體DTC冷卻相比,這種液體輔助DTC產品不需要和伺服器外部的液體進行熱交換,也不需要CDU或其他液體基礎設施或對現有基礎設施進行修改,同時能夠解決高密度點。全液冷板冷卻:目前大部分DTC冷卻伺服器僅覆蓋高功率、高發熱部件,如中央處理器(CPU)、圖形處理器(GPU),其他部件仍需通過風扇提供的氣流進行冷卻,包括記憶體、儲存、硬碟驅動器/固態驅動器、外圍元件互連高速通道/開放計算項目(OCP)卡和電源單元。全液冷板冷卻配置將為所有部件配置冷板,並使用液體進行冷卻,完全消除風扇,進一步提高電源使用效率(PUE)。根據執行階段液體的狀態,DTC還可以進一步分為單相和雙相兩類。在單相系統中,液體冷卻劑始終保持液態。在雙相系統中,液體冷卻劑蒸發以將熱量從液體中轉移出去,然後通過熱交換器冷凝並轉換回液態。負壓液冷:有三個氣密性較好的液腔,分別是主真空腔、儲液腔、輔真空腔。主真空腔和輔真空腔交替保持高真空度確保工藝冷媒從伺服器冷卻環路流回,儲液腔保持較低的真空度使工藝冷媒流進伺服器冷卻環路。二次泵採用低揚程潛水泵,安裝於儲液腔內部,當檢測到二次側供液溫度低於機房的露點溫度時,潛水泵將停止工作以確保不會有凝露產生。配有真空泵等負壓系統(包含氣液分離器、消音排氣口,空氣流量感測器),用以保證三個腔體的真空度。三個腔體各配有兩個氣動開關閥,一個接通真空泵,另一個接通大氣相連的氣液分離器,用於控制各個腔體的真空度,以確保液體順利循環。伺服器不同,伺服器運行的冷卻液體溫度不同。根據水溫,冷板液冷有不同的製冷系統架構設計方案。當一次側水溫在W32及以下時,一次側冷源不能完全依靠冷卻塔全年供應,需要補充額外的機械製冷,即冷凍水冷源機組,常見可用的冷凍水冷源機組有水冷冷水機組、風冷冷水機組等。1)同源液冷方案和風冷部分均採用冷卻塔同源冷卻塔方案,不同末端例如液冷部分(XDU)以及水冷型空氣處理機組(AHU)等所需負荷都由同一冷卻塔進行供應。2)非同源液冷方案採用冷卻塔,風冷部分採用機械製冷或冷機非同源方案,包括高水溫不同源風冷和高水溫不同源冷凍水方案。當採用不同源風冷補冷方案時,精密空調和液冷CDU分別採用不同的冷卻塔或乾冷器;當採用不同源冷凍水方案時,空氣處理機組(AHU)冷源採用冷水機組,液冷部分(XDU)冷源採用冷卻塔,見圖6所示。▲ 圖6 風液混合系統製冷架構3)風液方案:機房已有風冷精密空調裝置,需要部署少量液冷機櫃,此時集中式風液型CDU方案是優選方案。CDU和液冷機櫃間通過軟管連接,液冷伺服器中的熱量通過冷板,Manifold,以及管路傳遞至風液CDUSB 隨身碟管,最後散至機房,再通過機房空調將所有熱量帶至室外,見圖7所示。▲ 圖7 風液方案系統製冷架構在做液冷方案選擇時,需要考慮伺服器可接受的冷卻液溫度,以及機房條件,來選擇適合的製冷系統架構方案。在當前的AI算力範式下,擴大算力的一個基本邏輯是不斷提高“堆疊”密度,由此帶來(單位空間內)的能量密度持續上升,將進一步推動液冷技術的應用。基於此,對於未來智算中心液冷技術發展方向可以概括為以下兩點:目前主流的冷板式液冷仍然存在較大比例的熱量需要風冷解決,這對智算中心的複雜度造成了很大影響。進一步降低風冷佔比,是進一步提升單機櫃功率密度、降低資料中心複雜度的迫切需要。傳統冷板方案可進一步最佳化伺服器和冷板設計,將主要發熱器件儘可能使用冷板散熱,單相浸沒式液冷、全覆蓋冷板液冷也是可以大力發展的方向。單相浸沒式液冷在解決高功率晶片擴熱問題後,可以實現100%液冷。全覆蓋冷板方案可以較好地適配AI伺服器,而不用考慮普通伺服器的通用性要求。進一步降低風冷佔比後,可能會面臨以下難點:晶片層面由於製程改進的效果越來越有限,利用先進封裝技術將多個較小的晶片拼裝為一體的Chiplet技術正得到普遍的應用,其中的一個重要趨勢是3D堆疊,這意味著單位面積上的電晶體數量會繼續高速增長,如何將晶片封裝內的熱量有效的傳匯出來,將成為行業面對的一大挑戰。機櫃層面以NVIDIA GB200 NVL72為代表的解決方案目前採用風液混合模式,櫃內互聯採用大量的銅纜,對散熱風道的設計形成了一定的阻礙。隨著機櫃功率的進一步提高,需要提高冷板在各節點內的覆蓋率,向全液冷的方向演進。隨著AI晶片功率的進一步提升(1500W-2000W以上),風冷散熱器已達瓶頸(1000W),單相水冷板也將很快到達散熱能力瓶頸(1500W),相變散熱技術是必然的方向,包括相變浸沒液冷和相變冷板液冷。相變冷板又包括泵驅兩相(Pumped twophase)冷板和自驅動兩相(Passive 2-Phase)冷板等方向。相比較而言,泵驅兩相冷板國外有較多的研究,但其複雜度較高、可靠性問題比較難以解決;自驅動兩相冷板的技術基於環路熱管(LHP)技術,挑戰更大,但其具有解熱能力強、高可靠、易維運、長壽命等優點。 (零氪1+1)
71億!Vertiv 液冷再收購!半年三次出手,回顧維諦的資料中心收購歷史
01.維諦液冷再出手,收購Purge Rite Intermediate全球關鍵數字基礎設施領導者Vertiv 宣佈,已達成協議,將從Milton Street Capital LLC手中收購Purge Rite Intermediate, LLC(簡稱“PurgeRite”)。PurgeRite是一家領先的資料中心及其他關鍵設施機械沖洗、淨化和過濾服務提供商。此次收購將在交割時以約10億美元現金完成,並可能根據2026年特定業績指標的達成情況,額外支付至多2.5億美元的現金。此次收購價格約為10億美元,相當於2026年預期息稅折舊攤銷前利潤(EBITDA)的約10倍,其中包括預期的成本協同效應。PurgeRite有望增強Vertiv的熱管理服務能力,並鞏固其作為下一代液冷系統熱鏈服務(包括支援人工智慧資料中心的液冷系統)全球領導者的地位。Vertiv 首席執行官Giordano Albertazzi表示:“此次計畫收購代表了 Vertiv 從設計到維護的流體管理能力的戰略擴展,”Vertiv 首席執行官 Gio Albertazzi 說。“PurgeRite 的專業服務和卓越工程預計將補充我們現有的產品組合,並增強我們支援高密度計算和人工智慧工廠的能力,在這些工廠中,高效的熱管理對性能和可靠性至關重要。交易完成後,PurgeRite的服務將與Vertiv現有的液冷服務產品相結合,提供從機房到機房、從機架到機櫃的端到端熱管理解決方案。預計PurgeRite的加入將為客戶帶來顯著的效益,包括:通過提高傳熱效率和裝置效率來增強系統性能通過卓越的營運、周密的計畫、快速的執行和行業領先的流程,降低停機風險。擴大服務規模,以始終如一的質量支援全球營運。PurgeRite 目前總部位於德克薩斯州休斯頓,並計畫將其服務中心網路擴展到整個北美。該交易須滿足慣例成交條件,包括獲得 1976 年《哈特-斯科特-羅迪諾反壟斷改進法案》的監管批准,預計將於 2025 年第四季度完成。02.維諦的資料中心&液冷近期收購歷史路線,5個月已經收購3家公司2023-收購CDU廠商Cooltera:維諦Vertiv子收購資料中心液冷技術基礎設施提供商CoolTera Ltd. (CoolTera)全部股份和相關資產,包括CoolTera關聯公司的相關合同、專利、商標和智慧財產權。CoolTera成立於2016年,是一家總部位於英國的資料中心液冷基礎設施解決方案廠家,具備冷量分配單元(CDU)、二次側管路(SFN)和Manifold的專業原廠研發設計製造能力。憑藉一支高素質、經驗豐富的液冷工程師團隊,CoolTera為客戶提供卓越的工程設計和強大的客戶服務。2024-收購蘇州必信,補齊冷水機磁懸浮產品:維諦宣佈,其中國分公司完成了對必信能源科技(蘇州)有限公司(以下簡稱“必信公司”)核心資產和技術的收購。必信公司專注於冷機、熱泵、餘熱回收及空氣處理裝置的研發與製造。此次收購旨在增強維諦的冷水機組產品實力,從而進一步提升其在關鍵基礎設施產品與解決方案的競爭力,為全球高性能計算和AI應用的發展提供堅實支援。2025.07-收購Great Lakes,機架產品線完善:維諦Vertiv發佈公告斥資2億美金收購美國本土資料中心機架方案商 great lakes data racks & cabinets。great lakes data racks & cabinets是一家美國本土的資料中心機架方案商,提供包括傳統資料中心機架,整合機櫃,液冷資料中心機架,配電等產品,該公司已有40年歷史。2025.08-收購AI軟體領軍企業Waylay NV:收購比利時超自動化與生成式AI軟體平台領軍企業Waylay NV。作為戰略佈局的一部分,此次收購旨在通過引入AI驅動的監控技術,全面提升客戶關鍵數字基礎設施的營運連續性、能源使用效率和系統智能化水平。2025.11-收購PurgeRite,加強液冷產品:10億美元收購PurgeRite,這是一家領先的資料中心及其他關鍵設施機械沖洗、清洗與過濾服務提供商。PurgeRite擁有完善的工程能力、成熟的專有技術,以及可適應高負荷項目排期的靈活部署能力,能夠覆蓋從冷水機組到冷量分配單元(CDU)在內的整個熱鏈,為複雜的液冷應用提供全面支援。憑藉與Hyperscale客戶和Tier 1主機託管服務商的長期合作,PurgeRite已在關鍵資料中心場景中確立了機械沖洗、排氣及過濾服務的行業領導地位。 (零氪1+1)
Rubin曝光!2000萬張GPU出貨!輝達鏈液冷將迎來爆發需求
01.輝達:預計18個月出貨2000萬高端GPU,液冷二次側有望迎來2000億需求昨天,輝達GTC大會,黃仁勳再次對AI的市場趨勢做了詳細分析,同時也發佈了輝達的系列產品,包括未來的架構和量子計算,站在全場C位的,還是首次亮相下一代Vera Rubin的。這是輝達第三代NVLink 72機架級超級電腦,徹底實現了無線纜連接。目前,Vera Rubin超級晶片已在實驗室完成測試,預計明年10月可以投產。輝達CEO黃仁勳在GTC大會上預計,未來六個季度業務規模將達5000億美元,將出貨2000萬塊Blackwell和Rubin圖形處理器(GPU)。黃仁勳還表示,Blackwell在亞利桑那州“全面投入生產”。本次GTC大會,輝達也首次曝光了其Rubin伺服器和交換機的液冷架構,雖然沒有很清楚的爆炸圖,但是從現場圖看,其液冷架構設計的更加複雜,更加緊湊,液冷覆蓋佔比100%,光模組,SSD部分也做了銅冷板覆蓋,採用的不鏽鋼波紋管數量也愈加上升。從液冷市場規模來看來看,未來18個月輝達將會出貨2000萬塊Blackwell和Rubin GPU,按照NV72架構來算,預計將會出貨278000個整機櫃,按照機櫃10萬美金的液冷價值佔比(Rubin架構可能佔比更高),預計未來18個月,輝達生態二次液冷需求將達到保守估計278億美金需求,也就是2000億人民幣,體量規模巨大,對液冷市場是強利多!Rubin整機櫃架構,結構也變得更加複雜,特別是電源部分有重大更新,Power rack將成為一個大趨勢。02.市場預期良好,算力基礎設施廠商受益台北時間10月29日晚間,輝達股價高開高走,盤中漲幅一度突破5%,成為首家市值突破5兆美元的上市公司。同時昨天多家A股上市公司已在全球算力產業鏈上充分佈局,或將受益於AI算力競賽加劇以及全球AI基礎設施的持續擴容。10月29日晚,工業富聯披露2025年第三季度報告。雲端運算業務方面,前三季度,公司雲端運算業務營業收入較上年同期增長超過65%,第三季度單季同比增長超過75%,主要受益於超大規模資料中心用AI機櫃產品的規模交付及AI算力需求的持續旺盛。特別是雲服務商業務表現亮眼,前三季度營業收入佔比達雲端運算業務的70%,同比增長超過150%,第三季度單季同比增長逾2.1倍。其中,雲服務商GPU AI伺服器前三季度營業收入同比增長超過300%,第三季度單季環比增長逾90%、同比增長逾5倍。通用伺服器出貨亦保持穩健,整體雲端運算業務營收結構持續最佳化。工業富聯相關負責人此前在投資者調研中表示,公司對下半年AI伺服器業務持樂觀態度,除GB200持續放量外,GB300亦將逐步進入實質出貨階段。GB300在明年有望成為公司AI伺服器業務盈利的重要支撐點。交換機方面,公司預期800G產品會是2025-2026年的出貨主力,有望成為交換機業務的核心增長引擎。同時,公司與多家客戶協同開發的CPO(共封裝光學)新一代ASIC及1.6T交換機也在推進當中,後續將逐步推向市場。光通訊與高速連接方面,中際旭創可為雲資料中心客戶提供400G、800G和1.6T等高速光模組,為電信裝置商客戶提供5G前傳、中傳和回傳光模組以及應用於骨幹網和核心網傳輸光模組等高端整體解決方案。10月26日,公司在互動易平台上表示,其1.6T產品正在持續起量。新易盛亦致力於高性能光模組的研發、生產和銷售,產品服務於人工智慧叢集(AI Cluster)、雲資料中心、資料通訊、5G無線網路、電信傳輸、固網接入等領域的國內外客戶。目前,新易盛已經完成了滿足IEEE標準要求的全系列1.6T產品的開發,支援CMIS5.0及以上版本,可滿足不同客戶的應用需求,並啟動預研下一代3.2T產品。在PCB/載板方面,勝宏科技的主要產品覆蓋剛性電路板(多層板和HDI為核心)、柔性電路板(單雙面板、多層板、剛撓結合板)全系列,廣泛應用於人工智慧、新一代通訊技術、巨量資料中心等領域。公司半年報顯示,勝宏科技已成為國內外眾多頭部科技企業的核心合作夥伴,具備100層以上高多層板製造能力,是全球首批實現6階24層HDI產品大規模生產,及8階28層HDI與16層任意互聯(Any-layer)HDI技術能力的企業,同時加速佈局下一代產品,支援最前沿人工智慧產品及自動駕駛平台。散熱與電源方面,英維克已推出全鏈條液冷解決方案,從冷板、快速接頭、Manifold、CDU、機櫃,到SoluKing長效液冷工質、管路、冷源等“端到端”的產品覆蓋,從伺服器製造工廠,到資料中心運行現場的“廠到場”交付場景覆蓋。近年來,英維克已為字節跳動、騰訊、阿里巴巴、秦淮資料、萬國資料、資料港、中國移動、中國電信等使用者的大型資料中心提供了大量製冷產品及系統。麥格米特則具備高功率高效率網路電源技術及產品研發與供應能力,可支援通訊、交換機、通用伺服器、AI伺服器等多項場景應用。近年來,公司網路電源業務始終與國際頭部客戶保持緊密合作關係,持續獲得了愛立信(Ericsson)、思科(Cisco)、瞻博網路(Juniper)、阿里斯塔(Arista)、智邦科技(Accton)等頭部國際客戶的多項項目需求與訂單。(零氪1+1)
AMD大動作頻出!液冷市場有望打破輝達單點生態
01.AMD算力簽大單,高端晶片被客戶包攬近期,AI晶片巨頭AMD頻繁釋放出其在AI市場的動作,先與OpenAI宣佈達成一項總計6GW (gigawatt)的合作協議,OpenAI將AMD定位為其核心策略運算夥伴,推動AMD技術的大規模部署與應用,為OpenAI新一代AI基礎設施注入強大運算動能。其中,首階段1GW的AMD Instinct MI450 GPU部署預計將於2026年下半年啟動。然後AMD與甲骨文達成5萬卡晶片訂單,從明年第三季度開始,甲骨文將在其營運的資料中心內部署50,000枚AMD MI450晶片,該叢集將使用相當於200兆瓦的計算能力,兩家公司表示他們計畫在2027年及以後擴展合作夥伴關係。同時在上周的OCP峰會上,meta也展示了其和AMD合作的MI450超節點AI整機櫃,這是AMD將在明年發佈的產品,目前已經陸續給北美的CSP廠商送樣。從近期市場的資訊來看,AMD在AI市場取得的成績斐然,雖然訂單量不如輝達,但是市場開發節奏不比輝達慢。02.AMD和輝達的直接競爭目前全球高端AI晶片市場,輝達佔據全球高端AI晶片90%以上的市場份額,幾乎壟斷整個市場全球沒有同等級的競爭對手,早期與輝達競爭的英特爾已逐漸淡出市場,此前AMD的AI晶片話語權也比較小,AMD沉澱了一段時間後,帶著最新發佈的MI350晶片又“殺”了回來,性能比肩GB200。輝達發佈節奏AMD晶片節奏在2026年,AMD MI450的預計將直接與Nvidia開發的Vera Rubin系列伺服器晶片競爭,Nvidia是AMD的主要競爭對手,也是AI晶片設計領域的無可爭議的領頭羊。03.AMD起量,對液冷市場的帶動關係AMD的快速放量,得到北美大客戶的進一步認可,對於液冷市場來看是一件利多資訊。過去兩年,液冷賽道幾乎被輝達帶著跑。無論是冷板、CDU、接頭閥門,還是整機櫃液冷系統,行業節奏幾乎完全隨輝達的AI伺服器出貨節奏而動,全球液冷上下游企業幾乎都在追隨著輝達液冷的技術和落地應用進展,可以說是輝達前進,液冷市場就往前進,輝達往後推,液冷市場就往後退,可以說輝達目前掌握這液冷市場的命脈。尤其是輝達的液冷生態白名單,讓很多計畫和輝達AI伺服器生態合作的廠望而卻步,這對於整個市場來看,是一個不太健康的生態,這種“單點驅動”讓液冷廠商的產品適配面太窄、議價能力有限、驗證周期漫長,行業健康度受限。市場沒有第二個可以選擇深度繫結的AI晶片廠商,所以隨著近期AMD的大規模液冷叢集落地和AMD MI350晶片的發佈,對於液冷市場來說是一件利多,有望和華為一起成為下一個與輝達AI晶片搶奪市場份額的公司,對液冷生態起到帶動效應,尤其是那些輝達生態以外的液冷元件及裝置提供商。目前AMD的MI350和明年的MI450GPU訂單簽訂很快, 明年有望拿到15-20%的AI晶片市場份額。將通過領先的雲服務提供商廣泛提供,包括主要的超大規模雲和下一代 Neo 雲,戴爾、HPE 和 Supermicro 也將把加速器整合到他們的平台中。並且AMD 表示,MI350 系列已於本月初開始量產出貨,首波合作夥伴伺服器發佈和 CSP 實例預計將於 2025 年第三季度上市,並且頭部雲服務客戶傾向於採用液冷版本。(零氪1+1)
台積電推上國際的"微通道液冷"是什麼?
01.微通道液冷簡介微通道液冷是一種利用具有數百微米到數毫米尺度流道的散熱結構,將冷卻液直接引導到發熱晶片(CPU、GPU、FPAG,ASIC 等)表面附近,通過液體的高導熱與高比熱特性高效帶走熱量的技術。02.微通道液冷引起國際巨頭熱議在2024年IEEE ECTC會議上,一篇題為“邁向基於微通道的晶片冷卻”的引人注目的技術論文被發表。這篇論文的價值不僅在於其技術深度,還在於其作者來自SEMI、KLA、EVG、Meta、台積電、惠普、Google和日月光等全球領先機構。台積電在 IEEE ECTC 2024 上展示了其“矽整合微冷卻器” ,展示了利用 MEMS/DRIE 技術直接蝕刻到有源晶片背面的晶圓級微通道。這些通道與 CoWoS 封裝和中介層整合,可支援高達2.6 kW 的熱通量,同時保持 ΔT ≈ 63 °C。正在進行的研究包括溝槽、柱狀和平面微通道變體,其中基於柱狀的結構表現出最佳性能。03.微通道冷卻的優勢和挑戰隨著人工智慧和高性能計算 (HPC) 的快速發展,晶片功率密度和封裝複雜性不斷提升,傳統冷卻方法已達到極限。當表面熱通量超過300 W/cm²時,風冷和傳統冷卻板等解決方案已不再適用。為此,業界正在轉向更高效的局部熱管理策略,其中基於微通道的液冷已成為領先的下一代解決方案。為何採用微通道冷卻?傳統的冷卻技術,例如散熱器、熱管和冷板,已經成熟並廣泛應用於桌上型電腦和伺服器。然而,在 NVIDIA 的 B100、Cerebras 的 WSE 或 AMD 的 MI300 等高功率 AI 晶片中,不均勻的熱點可能會導致熱節流、性能下降甚至物理故障。微通道冷卻具有以下幾個關鍵優勢:靠近熱源:微通道可以直接整合到晶片表面或 3D 堆疊中的晶片間層中,從而最大限度地降低熱阻。高對流傳熱係數:微尺度通道促進從層流到湍流的轉變,顯著提高熱性能。模組化設計:可以定製通道幾何形狀和分佈以與熱點位置保持一致。適應高熱通量:單相和雙相液體冷卻方法均允許微通道支援幾百 W/cm² 的熱通量。微通道幾何形狀和封裝挑戰微通道的幾何形狀(矩形、圓形、鋸齒形)和尺寸(寬度、深度、間距)會影響熱阻、壓降和流動均勻性。關鍵的封裝挑戰包括:管理矽和金屬冷卻結構之間的熱介面平衡壓降並確保流體分佈均勻設計與先進封裝相容的介面(例如2.5D/3D IC、HBM)確保材料可靠性並減輕包裝引起的機械應力本文強調了薄的高導熱矽層與低電阻 TIM 和整合接頭相結合的價值,以提高封裝限制內整體冷卻模組的可行性。實驗驗證和性能結果來自各種微通道配置的熱性能和流體性能資料顯示:微通道冷卻可有效維持晶片熱點溫度低於70°C實現熱阻低於0.1K·cm²/W ,性能優於傳統冷卻數倍增加通道數量可以降低每個通道的壓降,但代價是增加流量分配和封裝複雜性。微通道液冷的挑戰儘管微通道冷卻具有諸多優點,但它也面臨一些侷限性:流體分佈不均勻和熱點管理:在並聯微通道配置中,不合適的歧管設計(例如 U/I/Z 型)會導致局部熱點流動不均勻和冷卻不足。加入奈米流體或許可以改善熱均勻性,但會增加流體管理系統的複雜性。封裝整合和結構可靠性:將冷卻通道與晶片封裝相結合,必須考慮CTE失配、機械應力和封裝應變。TIM通道、矽片和金屬層之間的熱介面也會消耗部分熱預算,有時甚至超過30%。兩相冷卻的複雜性:雖然兩相冷卻(沸騰)具有出色的傳熱效率,但它帶來了設計複雜性工程師必須管理沸騰壓力、冷凝回收,並避免乾涸(冷卻劑失去接觸)。04.微通道冷卻的一些產業化進展台積電ECT2025最新技術披露:晶片直接液冷2025台積電展示了CoWos-R最新的熱管理的研究進展,主要討論了兩部分內容:(1)對比了三種不同的TIM1在CoWos-R的熱管理性能;(2)介紹了一種名為矽整合微冷卻器(IMEC-Si)的液冷架構。在本研究中採用三種先進 TIM 的 CoWoS-R 熱測試載體(TTV),包括:(1)石墨薄膜 TIM;(2)液態金屬凝膠 TIM;(3)銦金屬 TIM。為進一步提升金屬 TIM封裝的熱性能,設計了具備衝擊結構的新型液冷系統,以應對超過 2000W 的熱功率輸入。tsmc該方案利用先進的矽製造技術,在有源矽晶片的背面直接製造矽微柱陣列,以實現直接液體冷卻。他們研究了微柱的幾何形狀和流動條件,並成功證明:使用 40°C 的水作為冷卻劑,IMC-Si能夠在接近全晶圓尺寸的晶片上耗散2000瓦的均勻熱量,且系統能耗極低,小於 10 瓦。整合液體歧管以實現直接液體冷卻的 CoWoS-R 封裝示意圖(圖源:IEEE ECTC)為了展示 IMC- Si與台積電用於高性能計算(HPC)應用的 3D Fabric™平台的整合能力,該解決方案被整合到 3.3 倍晶圓尺寸的 CoWoS-R熱測試載體(TTV)平台上。已開發出一種 CoWoS組裝工藝,通過應用密封劑來實現液體入口/出口歧管的組裝。針對組裝流程中不同溫度導致的CoWoS- R封裝翹曲變化,對密封劑的機械可靠性進行了測試。同時,還在嚴苛的壓力條件下對密封劑進行測試,以確保無洩漏。台積電還證明在允許結溫(Tj)上升 60°C(合理流量下晶圓入口溫度為 20°C)的情況下,IMC-Si可實現超過 3000 瓦的散熱能力JetCool——將實驗室理念推向工程化的代表企業JetCool 是美國馬薩諸塞州的創新冷卻企業,成立之初即以“打破傳統冷卻範式”為目標,其研發路徑與EPFL提出的晶片微通道冷卻有著高度的技術理念共振。但不同的是,JetCool 改採用的微噴射冷卻陣列,則更像是從系統端最佳化的“軟著陸”版本——實現了類似的熱阻極限突破,但更容易嵌入到現有產業鏈之中。JetCool的核心理念是微尺度噴射冷卻(Microconvective Cooling)。其冷卻模組由密佈微噴嘴的金屬板構成,這些噴嘴以幾十微米的尺寸,能夠將冷卻液以高速精準噴射至晶片表面最熱區域,隨後迅速帶走熱量。本段整理來自-洞見熱管理05.未來發展和系統級整合與傳統散熱技術相比,不論是散熱能力還是整合發展,微通道散熱結構均有著較強的優勢。對微通道結構進行最佳化設計是提高微通道散熱結構綜合散熱性能的主要手段。微通道冷卻在三維積體電路、先進封裝和晶片內流體通道中的未來應用。隨著人工智慧晶片從平面架構演進到垂直堆疊和異構整合架構,冷卻技術必須與晶片設計同步演進,以應對兆瓦級計算模組的散熱挑戰。微通道冷卻已不再僅僅是學術研究的課題,它正在成為下一代人工智慧封裝的核心推動力。通過結合材料科學、流體力學和半導體封裝領域的進步,這項技術正在迅速轉化為工業應用,為支援人工智慧計算的基礎設施帶來革命性的冷卻能力飛躍。 (零氪1+1)