#液冷
他在戈壁灘上,為全球算力退燒
美國矽谷,聖克拉拉。輝達即將完成GB300液冷方案認證,坐鎮北美主場,在溫控領域實力雄厚的維諦,希望繼續主導市場。此前,這一格局已經延續了很多年。但這一次,他們碰到了中國廠商的強力挑戰。最終的結果是,維諦(Vertiv)保住了全球系統級合作夥伴的地位,但同時在中國市場上,他們不得不做出讓步。迫使其讓步的,是以英維克、高瀾為主的中國廠商。據第三方行業測算,2025年Q3英維克拿下輝達G300中國區液冷機櫃近一半市場份額。此外,它還在全球範圍內,為維諦提供關鍵零部件。更重要的是,它通過了輝達極其嚴苛的NPN Tier1認證,是中國大陸唯一獲得該認證的液冷供應商。過去,維諦一家獨大的格局,從此被改寫。敗給英維克,維諦並不冤,畢竟領銜英維克的不是泛泛之輩,而是前華為悍將齊勇。早在二十多年前,朗訊、北電、摩托羅拉等一眾美國通訊廠商,就敗在華為陣下,而齊勇當時就任職於華為電氣。從華為離職後的齊勇,在溫控領域默默耕耘了近二十年。這期間,他歷經技術的多次迭代,最終在AI液冷時代,臻於極致,登頂產業巔峰。過去十幾年,全球AI產業的敘事一直圍繞算力、模型和應用展開,而散熱是一個長期被忽略的主戰場。隨著算力密度持續提升,當單個GPU功耗超過千瓦時,人們才幡然醒悟:如果散熱失控,GPU再貴、演算法再先進,都是廢鐵。面對飆升的功耗,傳統風冷技術開始頂不住了。於是,液冷技術走到台前。不只國內廠商,包括維諦在內的全球頭部玩家,都在往液冷方向轉型。但問題也恰恰出在這裡。很多廠商嘴上說擁抱液冷,腦子卻還停留在風冷時代,其產品針對穩態運行的邏輯設計,難以應對AI時代的極端工況和極端負載。更麻煩的是,液冷本身也不是裝上就完事。冷板會不會被腐蝕?管路會不會漏液?冷卻液用久了會不會失效?這些事故一旦出現,輕則停機,重則整機報廢,讓很多客戶望而卻步。而齊勇帶領團隊,跳出行業思維慣性,從真實場景需求出發,去倒推AI時代究竟需要怎樣的液冷技術。最終,他們做出了令輝達難以拒絕的液冷部件和方案。以快接頭為例,英維克自研部件可滿足插拔200萬次依然穩定無故障,遠超行業平均5-10萬次的水平。微流道設計的冷板,則將熱阻值降至行業平均水平的一半以下,晶片發熱瞬間被導走,不會因過熱卡頓、當機。再加上冷卻液分配單元(CDU)的加持,猶如一個聰明的大管家,可精準泵送冷卻液、控制溫度壓力、監測漏液,節省每一度電。這種全端自研的液冷方案,從一開始就對齊了輝達的需求。它不光為穩態工況而設計,而是充分考慮到輝達AI伺服器在極端功耗、極端熱密度和長期滿負荷運轉的現實,即便在最差條件下,依然可控、可交付。這也是黃仁勳反覆斟酌之後,最終選擇英維克的原因。英維克在液冷時代的崛起,很大程度上,要歸因於齊勇的戰略遠見。早在2015年,齊勇就預判到,隨著資料中心算力密度的快速提升,傳統風冷散熱已逼近物理極限,將難以為繼。彼時,AI尚未爆發,雲端運算才初現端倪,主流資料中心仍在用風冷,液冷被視為超前的小眾技術。客戶擔心,液冷技術不成熟,一旦漏液,將導致價值數百萬的伺服器報廢。團隊內部也有人反對,認為液冷研發投入太大,風險太高,應該先鞏固公司在傳統基站業務上的地位。面對各方質疑與阻力,齊勇力排眾議,堅持押注液冷賽道。理由很簡單,技術趨勢不可逆,液冷是未來的必然方向。另外,風冷時代,市場長期被外資主導,液冷是國產換道超車的機會。拍板不容易,做起來更難。在英維克之前,無論冷板液冷還是浸沒式液冷,早有美國企業積累了數十年專利,行業主流的做法是:外購零部件,然後做整合。但齊勇卻劍走偏鋒,堅持自研核心零部件。這個決定,最初只是為了突破外資的技術壁壘,但隨著項目的推進,齊勇更堅信,只有全端自研才能解決困擾行業多年的耦合難題。液冷不是一個零件,而是冷板、接頭、冷卻液等在一起工作。過去,這些零部件來自不同供應商,將它們拼接在一起,適配困難不說,接觸久了,還容易發生漏液等嚴重事故。在算力飆升和極端負載之下,更是漏洞百出。齊勇拒絕拼湊思路,提出全鏈條戰略,在公司內部組建跨學科團隊,統籌推進全端自研。核心部件的研發沒有捷徑。為此,齊勇和他的團隊,面臨種種技術挑戰。在快接頭研發初期,為瞭解決密封件老化、插拔精度不足等問題,團隊與英特爾聯合進行了上千次的循環測試。因為複雜度極高,原計畫半年完成的測試,實際耗時接近一年。同樣經過上千次測試的,還有微通道冷板。這是英維克的專利技術,換熱效率較傳統冷板大幅提升。為瞭解決漏液這個液冷行業最大的痛點,英維克甚至自研了長效液冷工質。此舉,不僅打破了國外技術壟斷,更突破傳統工質的腐蝕魔咒,可實現5年免維護,讓裝置告別生鏽漏液。大膽押注液冷賽道的齊勇,最終摘到了果實。在AI算力大爆發時代,英維克憑藉多年的前瞻性佈局和技術積累,接住了輝達的潑天財富,成為中國液冷之王。加冕液冷之王,讓齊勇身處聚光燈下。過去一年,在輝達等巨頭訂單的刺激下,英維克股價狂飆,從每股31元一路上漲至最高117元,市值破千億。齊勇也因此賺得缽滿盆滿,按直接和間接持股計算,身價超過200億元。然而,就在媒體試圖打探這位AI液冷新貴的消息時,卻發現他十分低調。最近幾年,齊勇很少接受媒體專訪,行業峰會、論壇等公開場合也鮮少露面,似乎把更多時間花在了工作上。這位前華為老兵不喜歡拋頭露面,而更願意待在客戶現場,這是他在華為收穫的一筆寶貴財富。1968年出生在內蒙古包頭的齊勇,於上個世紀90年代,坐上南下的綠皮火車。在深圳,他通過社招進入華為電氣,從此開啟了與精密溫控的不解之緣。期間,他從普通電氣工程師成長為技術部門負責人,主持了通訊基站溫控裝置研發,參與多項關鍵技術突破。遺憾的是,2001年由於戰略調整,華為將該業務賣給了美國艾默生。但這段經歷,為齊勇植入了華為“以客戶為中心,奮鬥者為本”的基因,並養成現場主義的工作習慣:問題在現場,答案也在現場。這也成為他後來創業的核心指導思想。2005年創業初期,英維克只有8人團隊,沒有市場,沒有產品,沒有資源,沒有訂單!但有理想和一腔熱血。齊勇租來民房當辦公室,在樓道里搭建實驗室,用二手裝置搞研發。為了趕工期、偵錯產品,他帶領團隊通宵達旦,每天工作16個小時,餓了泡泡麵,累了趴在桌上打盹。一次產品測試中,空調壓縮機在高溫下突然爆裂,飛濺的金屬碎片擦過齊勇耳際,他卻異常冷靜地說:“如果連安全測試都通不過,我們憑什麼讓客戶信任?”這種對技術的極致追求,讓英維克成立僅一年,就入圍中國移動、中國聯通採購名單,打破了外資品牌在基站溫控領域的壟斷。站穩了腳跟的齊勇,並沒有忘記初心,反而以更大的熱情投入現場。為了打造更可靠的產品,他不僅組建了國家級測試中心,還要求研發人員將更多時間投入現場。從40℃高溫的新疆戈壁灘,到零下30℃的東北雪林,再到海島高鹽霧環境……英維克的產品經受住了各種極端測試。在齊勇看來,實驗室資料再完美,也抵不過現場真實運行。20年間,正是在對可靠性近乎偏執的追求中,英維克從通訊基站起步,把溫控一步步做到了儲能、AI資料中心等眾多領域,並在一個個高難度場景中,贏得客戶信任。當年,日本軟銀在全球尋求高可靠性基站方案,英維克團隊帶著裝置飛赴東京,經受住一輪又一輪近乎苛刻的測試,敲開了海外市場的大門。今天,站在AI算力時代的風口上,英維克再次贏得了輝達的信賴。科技產業一日千里,雖然英維克已在冷板市場佔據先機,更高效的浸沒式液冷路線,也正在逼近。前有強敵,後有追兵,壓力始終存在。“潮平兩岸闊,風正一帆懸。”去年8月,時逢英維克成立20周年,齊勇意氣風發,目光投向更遠的未來。“我們希望在英維克三十而立時,真正站立於精密環境控制領域的全球巔峰。”他說。 (華商韜略)
2026十大突破性技術─深度解讀超大規模AI資料中心:核電站供電、液冷取代空調,AI正在重塑全球能源版圖
這是《麻省理工科技評論》2026 年“十大突破性技術”深度解讀系列的第四篇內容,關注 DeepTech,關注新興科技趨勢。在廣闊的農田和工業園區裡,一棟棟塞滿電腦機架的超大型建築正拔地而起,為 AI 競賽提供動力。這些工程奇蹟是一種新型的基礎設施:它們是專為訓練和運行超大規模大語言模型而設計的超級電腦,並配備了專用的晶片、冷卻系統,甚至獨立的能源供應。2025 年,AI 基礎設施的投資規模已從“數十億美元”的量級躍升至“兆美元”。1 月 21 日,美國總統川普在白宮宣佈了“星際之門”(Stargate Project)——由 OpenAI、軟銀、Oracle 和阿布扎比投資基金 MGX 組建的合資企業,計畫四年內向美國 AI 基礎設施投資 5,000 億美元,首期即刻部署 1,000 億美元。軟銀 CEO 孫正義出任董事長,OpenAI 負責營運。星際之門正迅速從藍圖變為現實。位於德克薩斯州阿比林的旗艦園區已於 9 月投入營運,Oracle 開始交付首批輝達 GB200 晶片機架。到年底,星際之門已宣佈五個新址,總規劃容量接近 7 吉瓦,投資額超過 4,000 億美元。與此同時,OpenAI 還在阿聯、挪威和阿根廷啟動國際佈局,阿根廷巴塔哥尼亞的“星際之門阿根廷”項目投資高達 250 億美元,將成為拉丁美洲最大的資料中心。但星際之門只是冰山一角。據 HSBC 估計,全球已規劃的 AI 基礎設施投資超過 2 兆美元。亞馬遜承諾投入 1,000 億美元,Google 750 億美元,Meta 650 億美元,微軟僅 2025 年就將支出 800 億美元。據一項分析估算,OpenAI 已承諾在 2025 年至 2035 年間向硬體和雲基礎設施支出約 1.15 兆美元,涉及輝達、AMD、Oracle、微軟、Broadcom 等七家主要供應商。超大規模 AI 資料中心將數十萬個 GPU 晶片,如輝達的 H200 或 GB200,捆綁成協同工作的叢集。這些晶片擅長平行處理海量資料,每秒執行數兆次數學計算。數十萬英里長的光纖電纜像神經系統一樣連接著它們,巨大的儲存系統晝夜不停地輸送資料。但驚人的算力是有代價的。首先是電力。國際能源署(IEA)預測,全球資料中心電力消耗將在五年內翻一番以上,到 2030 年將超過 1,000 太瓦,相當於整個日本的用電量。僅在美國,資料中心已佔全國電力消耗的 4.4%,而 2018 年僅為 1.9%;到 2028 年可能攀升至 12%。在弗吉尼亞州這個全球資料中心最密集的地區,資料中心消耗了該州約 26% 的總電力。在建的最大型資料中心可能吞噬超過一吉瓦的電力,足以為約 75 萬戶家庭供電。某些規劃中的園區佔地 5 萬英畝,耗電量可達 5 吉瓦,超過美國現有最大核電站的容量。Grid Strategies 估計,到 2030 年美國將新增 120 吉瓦電力需求,其中 60 吉瓦來自資料中心,相當於義大利的峰值電力需求。目前,煤炭以約 30% 的份額成為資料中心最大電力來源,天然氣佔 26%,可再生能源約 27%,核能佔 15%。儘管可再生能源增長最快,但天然氣和煤炭仍將在 2030 年前滿足超過 40% 的新增需求。科技巨頭們正競相尋找清潔方案:亞馬遜從賓夕法尼亞州核電站直接獲取約 960 兆瓦電力;Google與 Kairos Power 簽署協議部署小型模組化反應堆;OpenAI 在挪威利用水電資源建立資料中心。但核能從開工到發電需要 5 至 11 年,資本支出是天然氣的 5 至 10 倍,遠水難解近渴。第二個挑戰是冷卻。AI 晶片的功率密度從過去的每機架 15 千瓦飆升至 80 至 120 千瓦,傳統空調已無法滿足需求。直接晶片冷卻(D2C)正在成為主流,這種技術將冷板直接安裝在 GPU 上,閉環系統在熱源處帶走 70% 至 80% 的熱負荷。浸沒式冷卻則更進一步:伺服器被浸泡在非導電液體浴槽中,可將冷卻能耗降低 50%,水耗降低最高 91%。微軟最新設計採用晶片內微流體冷卻,微小通道直接蝕刻在矽晶片背面,使 GPU 溫度降低 65%。然而,許多設施仍依賴蒸發冷卻,消耗大量淡水。據估計,2023 年美國資料中心直接消耗約 175 億加侖水,到 2028 年可能翻兩番。僅訓練 GPT-3 就蒸發了 70 萬升清潔淡水。彭博社報導,自 2022 年以來建造的美國資料中心約三分之二位於高水壓力地區。公眾正在為這些建設買單。Dominion Energy 的 2025 年報告顯示,弗吉尼亞州居民電費預計到 2039 年將翻一番以上,主要因資料中心增長。在佐治亞州牛頓縣,某些擬議資料中心每天請求的水量超過整個縣的日用水量,迫使當地官員在拒絕項目、要求替代冷卻方案或對居民實施限水之間艱難抉擇。地方反對正在加劇。據 Data Center Watch 統計,自 2023 年以來美國已有 180 億美元項目被取消,460 億美元被延遲。僅 2025 年第二季度,被阻止或延遲的項目價值達 980 億美元。居民們因噪音、光污染、水資源枯竭和電費上漲而組織抵制;2025 年 12 月,超過 200 個環保組織聯名致信國會,呼籲暫停批准新的資料中心。科技高管們對此不以為然。AMD 首席執行長蘇姿丰在被問及 AI 熱潮是否過度時斬釘截鐵:“絕對不是。”他們將答案訴諸於 8 億每周 ChatGPT 使用者、40% 大型企業的 AI 採用率,以及 AI 作為經濟引擎和國家安全優先事項的戰略價值。OpenAI 首席財務官 Sarah Friar 引用歷史作為辯護:“當網際網路剛起步時,人們總覺得我們建設過度了。看看我們今天在那裡?”這些交易的循環性質以及預測的需求能否兌現,仍是懸而未決的問題。電網規劃者發現科技公司正在向多個公用事業展示同樣的項目以尋求最快的電力接入,使需求預測變得困難。聯邦能源監管委員會前主席 Willie Phillips 坦承:“有些地區預測了巨大的增長,然後又向下調整了。”從 1990 年代的本地伺服器到 2000 年代的雲端運算,再到如今的 AI 超級工廠,資料中心的演進從未停止。生成式 AI 已從瓶中釋放,沒有回頭路。但關於經濟預測是否精準、資源供應能否持續、建成後誰來使用,這些問題的答案,或許只有時間才能揭曉。我們邀請了三位來自產業與科研一線的代表,圍繞其關鍵技術路徑與產業影響進行點評。以下評論內容均為個人見解,不代表《麻省理工科技評論》觀點從算力堆疊到能源博弈:超大規模 AI 資料中心的現狀、瓶頸與趨勢首先需要明確一個核心概念:超大規模 AI 資料中心,絕對不是傳統資料中心的簡單放大版。它誕生的根本驅動力,是為了滿足大模型對算力近乎指數級增長的海量需求。因此它的架構是革命性的,本質上是把數十萬計的 GPU 通過極高速網路“粘合”在一起,形成前所未有的單體式超級電腦。Google、微軟、亞馬遜、Meta 等全球科技巨頭,都在投入數千億美元競相佈局。但與此同時,這個龐然大物也帶來了一系列前所未有的挑戰:驚人的功耗、棘手的散熱、巨大的能源壓力,以及如何在規模擴展與效率提升之間找到最佳平衡點。目前業界的技術路徑已經比較清晰,核心思路是通過高速互聯技術建構高效的“超節點”,最大程度減少晶片間的通訊延遲和開銷。算力確實已邁入 ZFLOPS 時代,但“記憶體牆”,即資料搬運的瓶頸,也愈發突出。另一個無法迴避的挑戰是散熱:隨著晶片密度飆升,傳統風冷已力不從心,液冷技術正從“可選項”變為“必選項”,配套供電架構也必須同步升級。而這個產業也面臨著多維度的瓶頸。首先是能源約束。一個超大規模資料中心的功耗可超過 1 吉瓦,相當於一座中型城市的用電量。這使它從單純的電力消費者,變成必須像能源公司一樣深度規劃電力獲取的“准公用事業體”。獲取穩定充足的清潔能源成為首要任務,而全球許多地區老舊電網的承載能力,已開始反向制約資料中心的選址和規模。其次是時間約束。AI 晶片迭代速度極快,約一年一代,遠超傳統資料中心基礎設施兩年左右的更新周期。這導致一個尷尬局面:本代資料中心剛建成,就要準備迎接兩三代新晶片。而市場競爭又要求算力快速上線,建設周期被從近兩年壓縮至一年以內,對預製化、模組化的快速交付能力構成極致考驗。最後是生態與治理約束。算力高度集中必然引發一系列新問題:市場壟斷的擔憂、資料主權的爭議、對當地水資源和環境的影響等。產業競爭也在從純粹的技術比拚,轉向標準與生態之爭——未來是走向開放協作,還是形成若干封閉的私有體系,將深刻重塑整個算力市場的格局。往前看,幾個趨勢比較確定:架構將更加立體協同。“雲端集中訓練、邊緣就近推理”的模式會日趨成熟,“全球算力網際網路”的構想也可能逐步落地,實現跨地域的算力調度與最佳化;它的營運將更加智能高效,用 AI 最佳化資料中心自身能耗會成為標配,行業關注的指標將從單純的 PUE,轉向更本質的“每瓦特電力產出多少有效算力”;這項技術將更加綠色多元,液冷全面普及之外,餘熱回收、水循環等深度綠色方案會加速落地;芯粒(Chiplet)、光計算等後摩爾時代的新技術,也將從實驗室走向產業試點。綜上,超大規模 AI 資料中心無疑是智能時代最關鍵的基石之一,但它也對能源、基建和治理能力提出了巨大挑戰。資料中心正從支撐業務的“成本中心”,演變為驅動創新的“智能生態樞紐”。其成功將取決於能否與電網、社區共建可持續的“數字能源共同體”,並對環境影響實現透明、負責任的管理。未來能在這一領域脫穎而出的,必定是那些以架構創新破解算力瓶頸、以卓越工程能力贏得時間競賽、同時以生態責任感建構可持續未來的實踐者。從電力成本到模型安全:AI 資料中心的三重挑戰隨著大模型的規模化應用,AI 資料中心正面臨一系列深層次的產業挑戰。以下從成本、算力調度和資料安全三個維度,分析當前的關鍵瓶頸與應對方向。首先,電力成本將成為 AI 服務社會的主要成本。大模型目前在正確性和確定性上仍有待改進:錯誤會快速累積,導致不可接受的結果;而提高正確性,則意味著增加計算量;不確定性帶來的重試機制,又可能引發新的錯誤,形成惡性循環。在這一背景下,更廉價的電力意味著在同樣計算成本下獲得更好的模型服務效果。電力成本,正在成為AI能否大規模服務社會的核心變數。其次,加速卡的多樣性將持續提高。隨著時間推移,不同品牌、不同代際的加速卡將長期共存於資料中心。CPU 與 GPU 虛擬化技術以及高速網路技術的發展,將使算力調度更加靈活——推理任務可以有效利用不同加速卡從而降低成本,但大型訓練任務的複雜性仍需適應多樣化的算力環境。短期來看,宏觀的任務調度策略與微觀的通訊計算融合策略會有所幫助;長期來看,建構混合加速卡計算框架將是必然選擇。最後,丟失模型等於丟失資料。大模型有效壓縮了海量資料並支援靈活提取,壓縮比可達十萬倍。丟失一個磁碟容量僅為 700GB 的模型成品,基本等效於丟失 70TB 的原始訓練資料。由於資料的差異化帶來模型的差異化,企業獨有的資料正在轉化為企業獨有的競爭力。在資料安全合規的諸多限制下,企業需要擁有自有算力,在開源模型基礎上精調自有模型。這意味著,基礎設施在保護核心模型方面面臨的挑戰,比傳統資料安全場景更為嚴峻。超大規模 AI 資料中心的關鍵轉向:液冷與新型能源架構超大規模 AI 資料中心是人工智慧時代的關鍵基礎設施。Scaling Laws 揭示了模型性能與參數規模、資料量、算力投入之間的冪律關係 [1],使大模型發展從經驗探索轉向可預測的工程實踐,並推動 Amazon、Google、Microsoft 等科技巨頭斥資數千億美元建構數十萬塊 GPU 互連的超級計算叢集,以滿足大模型訓練的爆炸性算力需求。然而,當 GPU 機櫃的功率密度突破 50 千瓦時(例如輝達 GB200 NVL72 機櫃級系統的功率密度高達 132 千瓦/櫃 [2]),傳統風冷散熱技術成為了制約系統的瓶頸。風冷散熱依賴空氣對流傳熱,其有效功率密度上限為 20-50 千瓦,超過此閾值後,維持散熱所需的風量呈指數級增長,導致風道截面積、風扇功耗、噪音和系統體積急劇上升而難以工程實現。另一方面,全球資料中心預計 2030 年佔全球總用電量 4%-7%、單體資料中心能耗將突破吉瓦級 [3]。因此,傳統的風冷與供電模式已難以為繼,行業正加速向液冷技術及核能等新型能源架構轉型。液冷技術通過直接接觸式散熱並將餘熱用於園區供暖、工業供熱,能夠有效改善資料中心的電能使用效率,而核能的穩定基荷特性為解決“AI 大模型訓練的持續高功耗與傳統電網的負荷平衡模式存在本質衝突”這一困境提供了有效途徑。Google、Amazon、Microsoft 等公司均在積極推進核電工程,以滿足超大規模 AI 資料中心的用電需求 [4]。此外,瑞士 Deep Atomic 公司和美國愛達荷國家實驗室計畫建造首個核動力人工智慧資料中心 [5],標誌著能源-算力一體化資料中心架構正在從概念走向實踐。因此,基於液冷與核能的超大規模資料中心能夠有效地支撐算力規模的擴展與躍遷,代表了全球 AI 算力基礎設施形態的趨勢,也為物理極限約束下的 AI 持續發展開闢了新的空間。 (麻省理工科技評論APP)
微軟Maia200發佈,液冷架構曝光,Asic液冷,電源市場迎來新買家
01.微軟Maia 200晶片發佈時隔兩年,微軟宣佈推出第二代人工智慧晶片Maia 200。微軟雲與人工智慧執行副總裁斯科特·格思裡表示,Maia 200採用台積電3奈米工藝製造,每顆晶片包含超過 1400 億個電晶體,為大規模  AI 工作負載量身打造,同時兼顧高性價比。他稱Maia  200是微軟迄今為止部署的最高效推理系統,其每美元性能比微軟目前部署的最新一代硬體提升了30%。他同時表示,Maia 200的FP4性能是第三代  Amazon Trainium的3倍。目前,Maia 200已部署在微軟位於愛荷華州得梅因附近的美國中部資料中心區域,接下來將部署位於亞利桑那州鳳凰城附近的美國西部3資料中心區域,未來還將部署更多區域。Maia 200 的每個 Tray 整合 4 顆晶片,單晶片TDP達750W,並採用完全直連、無交換的高頻寬互連結構。在這種高算力密度、持續滿載的推理工況下,傳統風冷已無法在可控噪音與能效條件下穩定工作,所以在散熱方面,微軟首先採用冷板液冷,每個晶片上覆蓋一塊小冷板,在管路方面採用不鏽鋼波紋管,目前Maia 200的液冷僅覆蓋晶片部分,電源等部件採用風扇輔助散熱。微軟Maia 200伺服器機櫃採用微軟自研的第二代閉環液冷 Heat Exchanger Unit(HXU),也就是saidecar方案。Sidecar是一種外掛在機櫃側面的液冷“小模組”,它最大的特點就是不用去動伺服器本身的結構,也不用把資料中心整個重做水路、換風道、重布管線,方便快速部署。02.2026年成Asic晶片,液冷,電源迎來新機會CoWoS 產能的客戶分配,本質上是 AI 晶片市場話語權的爭奪。從富邦發佈的台積電晶片研報資料來看,ASIC晶片目前在台積電的的CoWoS產能份額正在勻速升高,預估在AI市場的推動下,預估到今年ASIC晶片CoWoS份額將會快速升高至36%-40左右。出來微軟,近期google,aws等廠商接連發佈最新一代aisc晶片及伺服器整機的消息,頭部CSP廠商的節奏明顯加快很多,同時結合台積電的Coswos資料來看,今年將是Aisc晶片市場元年。從液冷,電源等基礎設施廠商來看,24-25液冷,電源廠商基本只能背靠輝達生態,今年Asic市場的快速爆發且出貨量上升有望打破輝達的單點客戶市場,液冷,電源等廠商可以匯入ASIC伺服器市場,從而獲取訂單,對於廠商來看,是利多資訊。今年台灣頭部液冷公司AVC在2025年度財報會發言也稱:今年除GPU平台液冷客戶外,切入ASIC伺服器液冷供應鏈,進入初期匯入階段。部分ASIC平台開始採用水冷配置,惟目前出貨仍以驗證與小量匯入為主,實際放量節奏將隨客戶平台推進而後移,預期ASIC水冷相關滲透率將於2026年第三季有較明確提升。所以今年零氪認為Asic市場的爆發對液冷,電源市場將會有大波新訂單需求。 (零氪1+1)
高盛:AI 伺服器需求再超預期:機架級、ASIC、液冷全線加速!
我們更新了全球伺服器總潛在市場的覆蓋範圍,具體包括:(1)人工智慧訓練伺服器(全機架 / 高功率)、(2)人工智慧推理伺服器、(3)通用伺服器、(4)高性能計算(HPC)伺服器,以及(5)美國和中國頭部雲服務商的資本支出。隨著 AMD 發佈 “Helios” 人工智慧伺服器機架,我們將全機架伺服器預測範圍擴大至更多元化的晶片平台,預計 2025 年、2026 年(預測)、2027 年(預測)的機架級伺服器數量分別為 1.9 萬台、5.5 萬台、8 萬台。專用積體電路(ASIC)人工智慧伺服器方面,我們預計 ASIC 的採用率將加速提升,其在人工智慧晶片中的佔比將從此前預測的 2025/2026/2027 年38%/40%/45%,上調至 38%/40%/50%。結合 ASIC 和 GPU 架構的基板式人工智慧伺服器需求上調、人工智慧全機架納入更多元化晶片平台,以及 2026 年下半年將有更多搭載新型人工智慧晶片的伺服器推出,我們上調了全球人工智慧伺服器出貨量預測,預計 2025-2027 年(預測)人工智慧晶片需求將達 1100 萬 / 1600 萬 / 2100 萬顆(圖表 1)。我們認為,人工智慧基礎設施周期將持續至 2027 年(預測),為行業增長提供支撐。人工智慧伺服器推薦標的:Wiwynn/ 緯創Wistron(原始設計製造商,ODM)、Hon Hai/ FII(ODM)、LandMark(矽光技術)、VPEC(矽光技術)、AVC/ Fositek(液冷)、Auras(液冷)、King Slide(滑軌)、Chenbro(機箱)、EMC(覆銅板,CCL)、GCE(印刷電路板,PCB)、TSMC(晶圓代工廠;重點推薦)、MPI(探針卡)、WinWay(測試插座)、Aspeed(無晶圓廠模式)、Hon Precision(最終測試處理器)。圖表 1:人工智慧伺服器預測:隱含 GPU 與 ASIC 出貨量人工智慧伺服器更新要點在全球雲服務商資本支出增加及人工智慧應用普及率提升的支撐下,我們上調了高功率人工智慧伺服器(搭載算力超 500 兆次 / 秒的 ASIC 和 GPU,如 H200、B200 等)2025-2027 年的出貨量預測,同比增幅分別為 9%/30%/50%;同時上調推理型人工智慧伺服器(搭載算力低於 500 兆次 / 秒的晶片,如 L40S、L20、ASIC 等)同期出貨量預測,同比增幅分別為 7%/3%/2%。近期人工智慧模型迭代持續推進,Gemini 3 Deep Think、OpenAI GPT-5.2、DeepSeekV3.2 及Qwen Code v0.5.0 等模型已陸續上線。隨著更多晶片平台轉向機架級設計,我們將全機架人工智慧伺服器(如搭載 GB200、GB300、MI450 系列等)2025-2027 年(預測)出貨量預測上調至 1.9 萬 / 5.5 萬 / 8 萬台(此前僅針對輝達機架的預測為 1.9 萬 / 5 萬 / 6.7 萬台),對應總潛在市場規模分別為 550 億 / 1650 億 / 2550 億美元(此前 2025-2027 年預測僅輝達機架的規模為 540 億 / 1570 億 / 2320 億美元)。雲服務商資本支出客戶支出方面,我們的美國網際網路團隊預測,2025-2027 年(預測)美國頭部雲服務商資本支出合計同比增幅將達 78%/37%/15%(高於 9 月更新時的 67%/23%/15%);中國網際網路團隊則預計,同期中國頭部雲平台資本支出同比增幅將達 62%/17%/9%(高於此前的 55%/8%/6%)。伺服器行業前景展望1. 人工智慧訓練伺服器 —— 全機架預測擴展至更多晶片平台全機架人工智慧伺服器(如採用 NVL72/NVL144 配置的 GB200/GB300/Vera Rubin,及採用 Helios 配置的 MI450 系列)自 2024 年第四季度隨輝達 Blackwell 平台開始出貨,預計 2026 年下半年起,包括 AMD Helios 機架在內的更多伺服器將採用全機架設計。我們現將非輝達全機架納入預測,預計 2025-2027 年(預測)全機架出貨量為 1.9 萬 / 5.5 萬 / 8 萬台(此前僅輝達機架為 1.9 萬 / 5 萬 / 6.7 萬台),對應總潛在市場規模 550 億 / 1650 億 / 2550 億美元(此前 2025-2027 年(預測)僅輝達機架為 540 億 / 1570 億 / 2320 億美元)2. 人工智慧訓練伺服器 —— 高功率機型出貨量加速增長高功率人工智慧訓練伺服器(如 H200/B200/B300 伺服器及 ASIC 人工智慧伺服器,單晶片算力超 500 兆次 / 秒)方面,以 8 GPU 等效單位計算,預計 2025-2027 年(預測)出貨量為 69.2 萬 / 95.2 萬 / 122.7 萬台,同比增幅 26%/38%/29%(此前預測為 63.7 萬 / 73.2 萬 / 81.9 萬台),對應總潛在市場規模 1800 億 / 2050 億 / 2510 億美元(此前預測為 1360 億 / 1380 億 / 1390 億美元)。我們看好基板式人工智慧伺服器的需求前景,因其定製化空間更大且能減輕客戶預算壓力;同時,高功率 ASIC 晶片的產能提升也支撐我們對該細分領域的積極看法。3. 推理型伺服器緊隨增長推理型伺服器(如 L40S/L20 伺服器及 ASIC 人工智慧伺服器,單晶片算力低於 500 兆次 / 秒)方面,預計 2025-2027 年(預測)出貨量為 47 萬 / 53.9 萬 / 65.6 萬台,同比增幅 1%/15%/22%(此前預測為 44.1 萬 / 52.2 萬 / 64.6 萬台),對應總潛在市場規模 300 億 / 360 億 / 480 億美元(此前預測為 270 億 / 300 億 / 360 億美元)。增長動力主要來自人工智慧應用場景的持續拓展。4. 通用伺服器回歸正常增長我們預計 2025-2027 年(預測)其出貨量將實現同比 11%/8%/2% 的增長,營收同比增長 51%/19%/5%,增長支撐因素包括:(1)新 CPU 平台替換周期結束後,出貨量回歸正常增長;(2)資料處理需求提升推動產品結構升級,疊加儲存價格上漲,帶動平均銷售價格(ASP)上升。圖表 2:全球伺服器總潛在市場(TAM):2025-2027 年(預測)同比增長 71%/40%/26%,規模分別達 4330 億 / 6060 億 / 7640 億美元圖表 3:隱含人工智慧晶片出貨量(2027 年預測)圖表 4:機架級人工智慧伺服器:2025-2027 年(預測)輝達機架數量維持 1.9 萬 / 5 萬 / 6.7 萬台不變圖表 5:基板式高功率人工智慧伺服器將維持增長圖表 6:美國頭部雲服務商(CSP)2025-2027 年(預測)資本支出同比增長 78%/37%/15%圖表 7:中國頭部雲服務商 2025-2027 年(預測)資本支出同比增長 62%/17%/9%圖表 8:伺服器總潛在市場(TAM):營收預測調整圖表 9:伺服器總潛在市場(TAM):出貨量預測調整個人電腦(PC):2026 年(預測)/2027 年(預測)同比增長 3%/2%智慧型手機:2026 年(預測)/2027 年(預測)出貨量同比增長 1%/1%;可折疊手機 2026 年 / 2027 年(預測)出貨量達 4600 萬 / 6600 萬台(大行投研)
16億訂單!液冷加速落地,蒙特獲北美CDU及冷水機組訂單
01.北美液冷項目加速落地,Munters拿下15.9億北美資料中心製冷訂單。全球資料中心暖通廠商Munters 資料中心技術業務部 (DCT) 已收到總價值約21億瑞典克朗(約16億人民幣訂單)的冷凍水機房空氣處理機組 (CRAH)、冷卻劑分配單元 (CDU) 和冷水機組訂單,其中 (CRAH)佔8.9億瑞典克朗,CDU部分佔12.1億瑞典克朗。客戶是一家位於美國的託管資料中心公司,預計將於2026年第四季度開始交付,並持續到2028年第一季度。該訂單將計入蒙特斯集團 2025 年第四季度的訂單量,涵蓋客戶冷凍水基礎設施的所有主要冷卻元件,包括定製的精密空調機組 (CRAH)、冷卻分配單元 (CDU) 和 Geoclima Circlemiser 冷水機組,以及啟動和偵錯服務。02.北美資料中心基建發力,多家巨頭客戶將在2026落地GW級液冷項目據零氪1+1液冷組分析師統計,預計2026年全球hyper scaler客戶的AI capex投資規模將達到7000億美金,北美市場將佔比6300億左右,預計將新增15GW左右的AI資料中心建設需求,XAI,OPEN AI及meta等csp廠商是主要需求方。2025年12月.30日,埃隆·馬斯克在X平台正式確認,其旗下人工智慧初創公司xAI已完成第三棟大樓的收購,將用於建設第三座超大型資料中心,目標是2026將訓練算力提升至近2吉瓦(GW)等級,為部署100萬卡blackwell晶片鋪路Meta也宣佈去年首個上線了1GW以上超級叢集的資料中心,首個叢集名為Prometheus,計畫於2026年上線,同時在2026年2GW資料中心已經規劃,未來還有5GW叢集,面積堪比曼哈頓!在晶片方面主要採購輝達blackwell晶片。輝達於在去年九月宣佈,將向OpenAI投資最多1000億美元,用於供應數百萬塊AI晶片,以支撐其下一代資料中心建設。雙方簽署的意向書顯示,合作最終能耗將超過10吉瓦,預計在2026年落地首個GW級資料中心。除了輝達的投資,微軟,軟銀,open AI發起的星際之門項目,在2026年也將快速落地資料中心建設。03.關於Munter集團的資料中心暖通及液冷產品線Munters(蒙特)集團是一家源自瑞典的全球化環境與熱管理技術公司,長期深耕空氣處理與節能冷卻領域,在資料中心行業擁有超過二十年的工程與產品積累。相比單純做製冷裝置的廠商,Munters更強調“系統級熱管理”,其技術能力覆蓋從室外冷源到機房內部熱量排出的完整鏈路,這也成為其切入AI資料中心液冷賽道的重要基礎。隨著GPU、AI加速卡功耗快速提升,傳統風冷逐步觸頂,Munters近幾年明確將液冷作為資料中心業務的核心發展方向之一,從“以空氣為中心”轉向“空氣與液體協同”的冷卻架構。在液冷產品層面,Munters的核心定位並不在晶片或冷板本身,而是在液冷系統的分配、換熱與整體整合。其代表性產品是LCX系列液冷分配單元 (CDU),LCX採用模組化、可擴展設計,可覆蓋數百千瓦到兆瓦級的散熱能力,能夠適配單相冷板、兩相液冷等不同技術路線,滿足AI叢集規模化部署對可靠性與維運友好的要求。此前Munters還和知名兩相液冷廠商zutacore聯合推出兩相CDU。(零氪1+1)
華為AI 資料中心設計方案,預製化,液冷,電源
01.華為AI資料中心參考設計白皮書解讀近期,華為發佈《華為AI 資料中心設計》,系統闡述了在 AI 算力快速提升背景下,資料中心從傳統 IT 基礎設施向高能耗、高密度算力基礎設施演進的整體設計思路,圍繞園區級規劃、模組化建設、暖通與液冷協同、電源架構重構等核心問題,提出以“可擴展性、確定性和長期演進能力”為核心的設計原則,強調通過分期建設、製冷與供配電系統解耦、高功率液冷架構以及更高效率的供電路徑,來應對 AI 伺服器功耗持續上升、電力資源受限和技術快速迭代帶來的不確定性,為新一代 AI 資料中心的規劃、建設和產業鏈協同提供了系統性的工程參考框架。註:《華為AI 資料中心設計白皮書》全文56頁,需要的可上方二維碼加入微信自取在資料中心建設層面,華為首先解決的不是“效率問題”,而是“不確定性問題”。AI 的最大特點不是算力高,而是變化快,晶片功耗在漲,伺服器形態在變,液冷路線在演進,電力資源卻越來越緊張。在這樣的背景下,華為並沒有去強調某一種最優建築形式,而是反覆強調模組化、分期建設和能力解耦。華為非常克制地避免一次性把園區設計到極致,而是更關注未來每一次擴容是不是“順著原來的邏輯繼續往上堆”。這種設計思路背後,其實是一個很工程化的判斷:AI 資料中心不可能一次建完,它一定是在算力需求、資本投入和電力資源之間不斷博弈、不斷調整的結果。暖通和液冷部分:華為對風冷和液冷的態度其實非常務實,並沒有簡單地站隊某一種技術路線,而是把冷卻方案和機櫃功率區間直接掛鉤。很清楚地指出,在中低功率階段,風冷依然有其成熟度和成本優勢;但當 AI 機櫃進入 80kW、100kW 甚至更高功率區間時,液冷不再是“性能更好”,而是“不做不行”。這裡面一個很重要的判斷是:製冷能力正在從“配套條件”變成“算力能否落地的硬約束”。華為在液冷設計上的核心思路,關注系統層面的可複製性和可維運性,強調 CDU 架構、一次側和二次側解耦、冗餘設計、漏液風險控制以及維運友好性,這其實是在明確一個訊號——液冷不能只是少數高端項目的定製方案,而必須成為像風冷一樣可規模複製的基礎設施,真正關心的不是“液冷能不能跑得更猛”,而是“液冷能不能在成百上千個機櫃、幾十兆瓦規模下長期穩定運行”。電源架構這部分,並沒有簡單地否定傳統交流供電,而是直截了當地指出,在 AI 負載快速抬升的情況下,傳統多級 AC 架構正在被系統性拉到極限。問題不在單台 UPS 或單個配電櫃,而在於能量在傳輸和轉換過程中的層級過多,損耗、發熱和空間佔用被同步放大。華為的設計思路,是儘量讓電力“少繞路、更直達”,通過更高電壓等級、更少的轉換級數,把有限的電力資源更多地交付到算力端。這背後的邏輯非常現實:在電力越來越緊張的時代,誰能用同樣的電,跑出更多有效算力,誰就更具競爭力。華為的設計方案亮點有兩個。第一,它始終站在“十年周期”的角度看問題,而不是圍繞當前某一代晶片或伺服器做最佳化;第二,它把電力、製冷、建築這些過去各自為政的專業體系,統一放進了“算力交付能力”這個核心目標下進行協同設計。這種系統級視角,恰恰是當前很多 AI 資料中心項目最容易缺失的部分。對整個資料中心產業鏈來說,這本白皮書的參考意義其實非常直接。伺服器廠商會意識到,單純堆性能已經不夠,裝置形態必須更早地融入基礎設施約束;液冷廠商會發現,未來拼的不只是換熱性能,而是系統可靠性、工程適配能力和規模複製能力;供配電廠商也會更加清楚,裝置放量只是第一步,真正的價值在於參與下一代供電架構的定義;而對營運方和投資方來說,AI 資料中心已經不再是一個“建成即交付”的項目,而是一套需要長期演進、持續投入的能源系統。整體來看,華為這本 AI 資料中心設計白皮書並不是在給行業一個“標準答案”,而是在幫行業把一個越來越清晰的事實講透:當 AI 成為核心生產力時,資料中心的設計目標,已經從“滿足當前需求”,轉向“為未來的不確定性預留足夠的空間”。這一點,可能比任何具體參數,都更值得整個產業反覆琢磨。 (零氪1+1)
GoogleTPU異軍突起,ASIC液冷將爆發,部署已超1GW !回看Google液冷進化史
01. Google TPU向輝達GPU發起衝擊,ASIC市場有望迎來爆發增長近期,AI市場火熱,Google對輝達發起最大衝擊,此前輝達的GPU一直穩居AI晶片王座,不容挑戰,但在Google發佈Gemini 3後,市場的風向開始轉變,Google的這一模型採用的是自研TPU進,而不是輝達GPU,更重要的是,業內認為其已經“超越”了OpenAI的GPT模型。除了Gemini 3,今年The Information也報導,Meta 正在與 Google 進行秘密談判,計畫大批次採購 Google 的 TPU 晶片,用於部分替代輝達的 GPU 以支援其龐大的資料中心 AI 運算。2027年Meta 可能將直接採購數十億美元的 TPU 晶片,部署於自建的資料中心此前Google有限責任公司已與人工智慧初創公司Anthropic達成一項價值數百億美元的交易。Anthropic官宣原話:宣佈計畫擴大對Google雲技術的使用,包括高達一百萬個 TPU,這將大幅提升計算資源,以持續推動人工智慧研究和產品開發的邊界。此次擴展價值數百億美元,預計將在 2026 年上線超過一吉瓦的容量。零氪認為,在Gemini 3等非GPU AI 模型推動下,近期 AI 算力需求逐步由訓練算力轉向推理算力,以Google TPU 為代表的 ASIC 在 AI 推理領域具備不遜色於輝達 GPU 的性能以及更低的功耗,有望在 AI 推理領域對 GPU 實現部分替代。02.液冷部署超1GW,Google伺服器液冷及整機方案回顧在 2024 年的 Google I/O 開發者大會上,Google CEO 桑達爾·皮查伊透露,Google的液冷裝置數量已增長至……約1吉瓦。Google的液冷技術已從晶片、伺服器、機架到資料中心基礎設施等各個層面進行了大規模開發。在晶片和伺服器層面,Google開發了冷板回路,其中冷板採用串聯和並聯配置,以滿足各個平台特定的散熱管理需求。Google的液冷故事始於 2018 年的 TPUv3,這是Google首次在量產 AI 伺服器上引入直接液冷。TPUv3 的液冷冷板採用銅材質、微通道鰭片結構,並設計了一種獨特的“中心衝擊、雙向分流(split-flow)”內部流道。這種結構相比傳統直通式流道具有更低的熱阻,更能有效覆蓋晶片中心的熱點區域。TPUv3 使用液冷的意義不僅在於溫度下降,而是直接帶來性能提升:它在同體積內實現 1.6 倍的 TDP 支援,頻率提升約 30%,並使得 TPU 超算的規模可以在相同空間內翻倍。TPUv3冷板的橫截面圖。冷板通過機械方式連接到TPUv3上。TPUv3產生的熱量通過導熱介面材料傳遞到冷板底座。Google開發的行內冷卻液分配單元,適配TPU V3。CDU 系統由泵和液-液熱交換器組成,用於將機架冷卻液回路與設施冷卻液回路隔離,從而為 IT 系統回路提供更小、化學成分更可控、更清潔的泵送冷卻液。CDU 由 6 個模組化 CDU (mCDU) 組成。在Google的 CDU 架構中,一個 mCDU 是冗餘的,這使得Google能夠實現整個機房範圍內的 CDU 可用性。約99.999 %自 2020 年以來一直如此。Google CDU 機隊從 2020 年第一季度 (Q1) 到 2024 年第四季度 (Q4) 的正常執行階段間。進入 2021 年,TPUv4 代表Google液冷技術邁向更高的工程複雜度。這一代 TPU 採用裸芯(bare die)封裝,冷板底部增加了“台階式接觸面”,精準穿過晶片封裝的機械圍框,直接觸達裸露的矽片表面。同一代還首次引入並聯液冷流道和主動流量控制閥,通過伺服器級閉環控制實現不同晶片的精準流量與溫度分配。Google特別指出,從 TPUv4 開始,液冷不再只是“去除熱量”,而變成“可控、可調的高性能熱管理系統”,直接服務於 AI 訓練過程中負載波動大、功耗變化快的特點。此時的液冷已經從被動散熱走向主動熱管理,是全新的計算架構能力組成部分。TPUv4 裸晶片封裝的橫截面示意圖。(c)帶底座的 TPUv4 冷板底座。TPU v5p也採用冷板式液冷技術,下圖為Google液冷式 AI 超級電腦方案。Google的第七代 TPU Ironwood 性能比肩輝達的B200,同時晶片的功耗也在飆升,Google的TPU今年功耗單晶片突破600w,叢集功率高達10MW。目前已經確認採用冷板式液冷技術。Ironwood晶片托盤。每個托盤包含4個Ironwood TPU晶片。該托盤採用液冷散熱。再上一層,每個機架可容納 16 個 TPU 托架,共計 64 個 TPU。該機架與另外 16 個 CPU 主機機架相連。機架內的所有互連均採用銅纜;OCS 提供與其他機架的連接。03.Google液冷CDU,加液車產品開發歷史Google開發的行內冷卻液分配單元,適配TPU V3。CDU 系統由泵和液-液熱交換器組成,用於將機架冷卻液回路與設施冷卻液回路隔離,從而為 IT 系統回路提供更小、化學成分更可控、更清潔的泵送冷卻液。CDU 由 6 個模組化 CDU (mCDU) 組成。在Google的 CDU 架構中,一個 mCDU 是冗餘的,這使得Google能夠實現整個機房範圍內的 CDU 可用性。Google發佈的第五代CDU單機可支援高達2MW的散熱能力,並且通過三塊並聯液-液換熱器、無密封高性能泵和全冗餘設計,實現了超高壓差、超高流量與極低溫差的散熱性能,同時相容風冷與液冷混合場景;更重要的是,Google還將該方案開源到OCP社區,為行業提供了一套面向AI時代超高功率資料中心的“液冷心臟”級解決方案。Google還開發了多種工具,其中包括一個相對較大的“注液套件”,用於在部署和日常維護期間向CDU裝置注液和排液。“注液套件”由一個150加侖的液體罐、泵、過濾器和其他輔助裝置組成。Google還開發了一種相對較小的推車,用於為IT托架和IT機架歧管等小型裝置注液和排液,如圖所示。IT托架注液推車由供液罐和回液罐、泵、電磁閥、空氣壓縮機和人機介面(HMI)以及其他輔助元件組成。這些工具由Google及其外部合作夥伴定製開發,並已通過認證,可在Google全球資料中心範圍內使用。Google資料中心大規模部署節能型液冷IT系統,得益於端到端供應商到資料中心模式的開發,該模式用於設計和交付IT規模和資料中心規模的液冷裝置。推薦的模式需要一個強大的多供應商供應鏈和生態系統,以確保端到端熱工水力性能、質量和可靠性達到最高標準。此外,建議資料中心所有者制定部署計畫,並考慮液冷裝置的端到端生命周期。利用開放標準可以加速資料中心液冷技術的規模化應用。04.ASIC液冷市場展望據媒體報導,預計 2025 年Google和 AWS 的 ASIC 合計出貨量將達到 400 萬片以上,後續 Meta,字節等廠商也將加快部署自研 ASIC 解決方案,ASIC 市場將迎來加速擴張,有望推動液冷需求進一步提升。此前台灣負責人在半年度財報發佈會也表示,最大客戶持續加大ASIC投入,預估明年這部分成長會滿可觀。 ASIC是高度客制化,包括水冷板數量與系統設計較GPU更複雜,儘管目前GPU水冷營收比重較高,但是高階ASIC專案投入速度快於GB系列,而且對水冷解決方案需求明顯升溫,預期將會成為後續重要成長引擎之一。從富邦發佈的台積電晶片研報資料來看,ASIC晶片目前市場份額正在快速升高,預估在AI市場的推動下,預估到明年ASIC晶片市場份額將會快速升高至36%-40左右。 (零氪1+1)
行業深度:從風冷到液冷 資料中心散熱的破局與未來
數字經濟爆發下,全球資料中心耗電量佔比逐年攀升。據統計,2024年中國資料中心能耗總量1660億千瓦時,約佔全社會用電量的1.68%,同比增長10.7%。2024年全社會用電增速為6.8%,資料中心用電量增速遠高於全社會用電量平均增速【1】。資料中心能耗已成為不可忽視的能源消耗領域。隨著人工智慧技術的迅猛發展,AI相關行業正經歷著前所未有的快速增長和技術迭代。這一變革不僅推動了社會的進步,也帶來了對計算能力的巨大需求。智能計算中心,作為AI技術發展的核心基礎設施,正面臨著前所未有的挑戰。01AI行業的快速發展AI技術的進步和應用場景的拓展,使得智能計算中心的建設成為推動行業發展的關鍵。技術的快速迭代要求資料中心能夠迅速適應新的計算需求,保持技術的領先地位。02高密散熱的需求關注隨著AI計算密度的增加,散熱問題成為智能計算中心必須面對的挑戰。高密度計算裝置產生的熱量如果不能有效管理,將直接影響資料中心的穩定性和效率,甚至可能導致裝置損壞和性能下降。03液冷技術的應用為瞭解決高密度散熱問題,液冷技術作為一種高效、環保的冷卻解決方案,已經成為智能計算中心散熱管理的重要趨勢。液冷技術能夠有效降低資料中心的能耗,提高裝置的散熱效率,是應對高密度散熱挑戰的有效手段。隨著晶片功耗增長加速,在面對不同業務需求時,製冷解決方案變得更多多樣。隨著機架功率密度的不斷攀升,行業內普遍認同,40~60kW/Rack已經達到了風冷極限,超過這個能力邊界,無論是考慮到散熱能力還是散熱成本,必須開始部署液冷。資料中心製冷從完全風冷邁向風液混合製冷,不同機架功率密度的製冷解決方案推薦如圖1所示。▲ 圖1 不同功率密度機櫃製冷解決方案機櫃功率密度在20~25kW以內時,常規遠端風冷方案即可解決伺服器散熱需求。當機櫃功率密度進一步提升,單機櫃功率密度在25~45kW時,就應該開始考慮近端風冷的解決方案。風冷方案再疊加背板熱交換器(Rear Door Heat Exchanger,RDHx),可以進一步解決單機櫃60kW以內的散熱需求。單機櫃功率密度在40~60kW時,就可以開始考慮採用液冷,但根據伺服器或晶片不同,也可以更早開始採用液冷。即使採用液冷,根據風液比不同,伺服器仍然有5%~50%的熱量需要通過風冷散熱來解決,風液混合將成為大多數高熱密度機櫃散熱方案。根據伺服器供液溫度要求,室外一次側需選擇不同的散熱方案。伺服器供液溫度要求大於40℃時,室外一次側散熱可以採用完全自然冷的解決方案,當伺服器供液溫度要求較低時,室外一次側需要採用機械冷卻。在單機櫃功率密度小於40kW時,考慮伺服器類型,往往更多選用風冷技術。為實現PUE要求,各類自然冷技術在機房空調裝置中已經大量應用。從節能技術維度,可以分為三類:01風側自然冷方案通過利用室外低溫空氣直接為資料中心供冷。在實際應用中有兩種方案:直接空氣自然冷,直接引入自然界新風對資料中心進行冷卻,但該方案受空氣質量、濕度等因素限制,適用場景較為有限。間接空氣自然冷,借助換熱器實現自然界低溫空氣與資料中心高溫空氣的熱交換,以降低機房溫度。此類方案可有效解決空氣質量及濕度問題,但在夏季室外溫度較高時,其應用仍會受到限制。02水側自然冷方案通過利用低溫水源或者水蒸發潛熱來為資料中心供冷。在過往的水側自然冷應用案例中,有直接引入湖水為資料中心供冷的方式,但此方案受水質條件,以及可能對當地生態環境影響的限制,應用範圍較窄。另一種通過水蒸發利用自然冷的方式應用則更為普遍,常見的冷卻塔及間接蒸發冷裝置等,在開啟水噴淋的情況下,均屬於水側自然冷,通過水的蒸發潛熱利用自然冷源。03氟泵自然冷方案通過氟泵來驅動冷媒循環,付出少量機械能,在室外低溫時將室外自然冷源的冷量通過冷媒相變傳遞至機房,從而達到降低機房降溫的效果。一般氟泵自然冷和壓縮機製冷整合在一個系統裡,當室外低溫時,壓縮機停止運行,啟動氟泵完成製冷循環。當時外溫度較高時,則需要啟動壓縮機來完成製冷循環。以上自然冷方式可以單獨應用,或者組合應用,充分挖掘室外自然冷潛能,實現節能效果。近期在資料中心領域應用比較多的混合雙冷源方案,即為一種組合式的自然冷方案。機房空調設計兩組盤管,層疊安裝。高溫迴風首先經過第一組盤管進行預冷,此時預冷冷源可以是氟泵自然冷,也可以是冷卻塔提供的冷卻水,之後通過第二組盤管,第二組盤管可以是氟泵自然冷,也可以是壓縮機機械製冷,根據製冷需求進行自動切換,詳見圖2所示。▲ 圖2 兩種不同雙冷源自然冷方案通過“預冷+補冷”的控制思路,實現自然冷源利用最大化,從而實現空調裝置高能效,有效幫助降低資料中心PUE。以資料中心常用100kW空調為例,採用上述自然冷技術的機組,在以下區域應用,可以達到的製冷因子CLF如表1所示。在空調機組100%輸出的條件下,水側自然冷通過利用更長時長的自然冷,製冷因子更低,見表2所示。在空調機組75%輸出條件下,可以看到氟側機組的能效提升更快,在北京以及上海,均可表現出比雙冷源機組更好的節能效果,見表3所示。隨著負載率進一步降低,在空調機組50%輸出條件下,氟泵自然冷機組的能效已經全面優於水側自然冷雙冷源機組。不管採用那種雙冷源,北方全年室外環境溫度更低,可以收穫更好的節能效果。隨著負載率降低,氟泵自然冷工作時長顯著增加,氟泵功耗遠小於水泵功耗,在各地均可獲得更好的節能效果。可以看到,利用“預冷+補冷”設計方案,兩類雙冷源方案可達到系統級的製冷因子相當,在選擇具體方案時,需結合項目地自然條件進行選擇。液體冷卻是指利用高導熱性能的流體介質(諸如25%丙二醇諸如25%丙二醇,去離子水、冷卻液或製冷劑)而不是空氣來冷卻資料中心。液體直接參與資料中心關鍵發熱源(如伺服器內部高性能晶片)的熱量交換過程。液冷技術縮短了熱傳導路徑,使得熱量能夠更直接、更有效地從熱源匯出,進而顯著降低了對伺服器內部風扇輔助散熱的依賴,從而降低整體能耗與噪音水平。資料中心液冷技術的應用可細分為兩大主流類別:直接到晶片(Direct-to-Chip, DTC)冷卻技術,常被稱為冷板冷卻,其特點在於將冷卻液直接匯入至伺服器內部,通過緊貼晶片的冷板結構實現高效熱交換。浸沒式冷卻技術,該技術將整個或部分伺服器元件完全浸沒於非導電冷卻液中,實現熱量的全面、均勻散發。在DTC配置中,液體不直接與電子元件接觸,液體冷卻劑被泵送到解決伺服器內部電子元件散熱的冷板上。雖然大部分熱量都被冷板帶走了,但仍然需要風扇來幫助去除電路板層面的熱量,儘管風量和風速都非常低。在這種情況下,一些設計通過空氣將熱量從伺服器機箱交換出去,而另一些設計則需要在機架或行級使用熱交換器將熱量傳輸到主冷卻回路,具體見圖3冷板液冷系統原理圖。▲ 圖3 冷板液冷系統原理圖CDU是液體冷卻系統中必不可少的元件,可在整個系統中均勻分配冷卻液。CDU建立了一個獨立的二次側回路,與提供室外散熱的一次側回路隔離開,並調節和控製冷卻液的流量以保持二次側回路所需的溫度和流量。其次,CDU要採用高耐腐蝕性的不鏽鋼材質,確保與冷卻液的完美相容,有效防止腐蝕。設計上尤其要注重關鍵器件的冗餘備份,如電源、泵、感測器及過濾器等,確保系統在任何情況下都能穩定運行。同時,CDU需內建精準溫控系統,能有效消除伺服器CPU和GPU的熱衝擊問題。此外,配備補液罐以滿足長期運行需求,並設有自動排氣裝置以排除空氣,保持冷卻效率。1)供液溫度冷板液冷系統的供液溫度設計需充分考慮不同晶片及伺服器製造商的特定要求,如Dell可能接受高達32℃甚至更高的供液溫度,而Nvidia則設定在25℃至45℃的較寬範圍內。需要注意的是,必須嚴格避免供液溫度過低,以防止水蒸氣凝結現象的發生,這可能嚴重損害IT裝置的正常運行。此外,系統還需具備強大的穩定性,確保在一次側流量出現波動時,二次側仍能維持穩定的供液溫度,以保障整體散熱效能與裝置安全,見圖4所示。▲ 圖4 一次側流量波動,二次側仍可保障穩定供液溫度2)供液流量冷板液冷系統的供液流量設計是確保高效散熱與穩定運行的關鍵環節。CDU(冷量分配單元)在此過程中扮演著核心角色,負責精確調控一次流體與二次流體的流量。具體而言,二次流體需維持穩定的流速進入IT裝置,以在裝置滿載時能夠有效從冷板中帶走所有熱量,保持IT入口溫度的恆定。同時,一次流體的流量則根據需散熱的熱量動態調整,並依據CDU的接近溫度(ATD)進行調整,見圖5所示。▲ 圖5 一次側流量波動,二次側仍可保障穩定回液溫度為了確保流量控制的精準性,系統要採用壓差控制並輔以即時監控,以確保系統中的洩漏不會導致壓力下降。此外,通過CDU內,泵與電源的冗餘設計,系統能夠在關鍵業務場景下保障流量的連續供應,進一步提升整體系統的可靠性與穩定性。3)過濾要求冷板液冷系統要求冷卻液順暢通過冷板內極其微小的通道,這些通道的寬度可精細至低於50微米,甚至達到30微米以內。堵塞不僅會限制流量,甚至可能完全中斷IT裝置的冷卻,導致維護成本急劇上升,因此系統對冷卻液的過濾精度提出了嚴格標準。通常,這一精度需低於冷板通道的最小尺寸,業界經驗傾向於採用25微米或更細的過濾等級。此外,為確保系統長期保持清潔狀態,CDU(冷量分配單元)需持續進行線上過濾,這是維護系統高效運行與延長使用壽命的關鍵措施。4)流體選擇在設計冷板液冷系統的初期,選擇合適的流體化學成分及可靠的供應商非常重要。一旦確定流體策略,後續的任何更改都將涉及繁瑣且成本高昂的清洗與淨化過程。此外,流體的選擇還會在偵錯階段帶來顯著複雜性,包括循環測試、雜質沖洗以及系統氣泡的排除,這些工作對於每台伺服器及整體解決方案的順利運行都至關重要。在整個系統使用周期內,對液體的持續關注同樣不可或缺,需定期進行pH值、外觀、抑製劑濃度及污染物水平的檢測,以確保其性能穩定與系統的持續高效運行。同時,所有冷卻液均需遵循嚴格的儲存與處理規範,並配備適當的個人防護裝置以保障操作安全。在冷板液冷系統的二次側流體選擇中,存在三種主流方案。首先,去離子水配方液換熱效果優越,然而其腐蝕風險不容忽視,需採取額外措施加以防範。其次,乙二醇配方液雖具備一定的防腐能力,但其毒性相對較大,且在環保要求較高的地區,其排放處理成為一大現實問題。最後,丙二醇配方液作為Intel、Nvidia等業界巨頭推薦的選擇,由於其防腐效果更好,成為眾多使用者信賴的優選方案。在選擇時,需綜合考慮流體性能、成本、環保要求及安全性等多方面因素,以做出最適合自身需求的決策。5)故障預防和檢測在冷板液冷系統中,除了二次流體網路內其他感測器的監測外,CDU的嚴密監控與管理是預防並儘早發現故障的關鍵。資料中心尤為關注洩漏問題,大部分洩漏案例發生在manifold與伺服器軟管快速斷開附件處,對IT裝置影響很小。但伺服器機箱內部的洩漏,特別是發生在內部manifold、軟管與冷板之間的洩漏,則對IT裝置構成重大威脅。因此,實施額外過濾與感測器在內的防錯系統至關重要,這些措施不僅能在熱交換性能下降時提供預警,還能有效遏制人為錯誤導致的污染物增加或液體質量漏檢風險,從而全面提升系統的穩定性與安全性。液體輔助DTC冷卻:機箱級、閉環的獨立產品,帶有冷板、泵和散熱器,針對處理器的局部熱點。熱量通過伺服器內部的液體-空氣熱交換器消散。與液體-液體DTC冷卻相比,這種液體輔助DTC產品不需要和伺服器外部的液體進行熱交換,也不需要CDU或其他液體基礎設施或對現有基礎設施進行修改,同時能夠解決高密度點。全液冷板冷卻:目前大部分DTC冷卻伺服器僅覆蓋高功率、高發熱部件,如中央處理器(CPU)、圖形處理器(GPU),其他部件仍需通過風扇提供的氣流進行冷卻,包括記憶體、儲存、硬碟驅動器/固態驅動器、外圍元件互連高速通道/開放計算項目(OCP)卡和電源單元。全液冷板冷卻配置將為所有部件配置冷板,並使用液體進行冷卻,完全消除風扇,進一步提高電源使用效率(PUE)。根據執行階段液體的狀態,DTC還可以進一步分為單相和雙相兩類。在單相系統中,液體冷卻劑始終保持液態。在雙相系統中,液體冷卻劑蒸發以將熱量從液體中轉移出去,然後通過熱交換器冷凝並轉換回液態。負壓液冷:有三個氣密性較好的液腔,分別是主真空腔、儲液腔、輔真空腔。主真空腔和輔真空腔交替保持高真空度確保工藝冷媒從伺服器冷卻環路流回,儲液腔保持較低的真空度使工藝冷媒流進伺服器冷卻環路。二次泵採用低揚程潛水泵,安裝於儲液腔內部,當檢測到二次側供液溫度低於機房的露點溫度時,潛水泵將停止工作以確保不會有凝露產生。配有真空泵等負壓系統(包含氣液分離器、消音排氣口,空氣流量感測器),用以保證三個腔體的真空度。三個腔體各配有兩個氣動開關閥,一個接通真空泵,另一個接通大氣相連的氣液分離器,用於控制各個腔體的真空度,以確保液體順利循環。伺服器不同,伺服器運行的冷卻液體溫度不同。根據水溫,冷板液冷有不同的製冷系統架構設計方案。當一次側水溫在W32及以下時,一次側冷源不能完全依靠冷卻塔全年供應,需要補充額外的機械製冷,即冷凍水冷源機組,常見可用的冷凍水冷源機組有水冷冷水機組、風冷冷水機組等。1)同源液冷方案和風冷部分均採用冷卻塔同源冷卻塔方案,不同末端例如液冷部分(XDU)以及水冷型空氣處理機組(AHU)等所需負荷都由同一冷卻塔進行供應。2)非同源液冷方案採用冷卻塔,風冷部分採用機械製冷或冷機非同源方案,包括高水溫不同源風冷和高水溫不同源冷凍水方案。當採用不同源風冷補冷方案時,精密空調和液冷CDU分別採用不同的冷卻塔或乾冷器;當採用不同源冷凍水方案時,空氣處理機組(AHU)冷源採用冷水機組,液冷部分(XDU)冷源採用冷卻塔,見圖6所示。▲ 圖6 風液混合系統製冷架構3)風液方案:機房已有風冷精密空調裝置,需要部署少量液冷機櫃,此時集中式風液型CDU方案是優選方案。CDU和液冷機櫃間通過軟管連接,液冷伺服器中的熱量通過冷板,Manifold,以及管路傳遞至風液CDUSB 隨身碟管,最後散至機房,再通過機房空調將所有熱量帶至室外,見圖7所示。▲ 圖7 風液方案系統製冷架構在做液冷方案選擇時,需要考慮伺服器可接受的冷卻液溫度,以及機房條件,來選擇適合的製冷系統架構方案。在當前的AI算力範式下,擴大算力的一個基本邏輯是不斷提高“堆疊”密度,由此帶來(單位空間內)的能量密度持續上升,將進一步推動液冷技術的應用。基於此,對於未來智算中心液冷技術發展方向可以概括為以下兩點:目前主流的冷板式液冷仍然存在較大比例的熱量需要風冷解決,這對智算中心的複雜度造成了很大影響。進一步降低風冷佔比,是進一步提升單機櫃功率密度、降低資料中心複雜度的迫切需要。傳統冷板方案可進一步最佳化伺服器和冷板設計,將主要發熱器件儘可能使用冷板散熱,單相浸沒式液冷、全覆蓋冷板液冷也是可以大力發展的方向。單相浸沒式液冷在解決高功率晶片擴熱問題後,可以實現100%液冷。全覆蓋冷板方案可以較好地適配AI伺服器,而不用考慮普通伺服器的通用性要求。進一步降低風冷佔比後,可能會面臨以下難點:晶片層面由於製程改進的效果越來越有限,利用先進封裝技術將多個較小的晶片拼裝為一體的Chiplet技術正得到普遍的應用,其中的一個重要趨勢是3D堆疊,這意味著單位面積上的電晶體數量會繼續高速增長,如何將晶片封裝內的熱量有效的傳匯出來,將成為行業面對的一大挑戰。機櫃層面以NVIDIA GB200 NVL72為代表的解決方案目前採用風液混合模式,櫃內互聯採用大量的銅纜,對散熱風道的設計形成了一定的阻礙。隨著機櫃功率的進一步提高,需要提高冷板在各節點內的覆蓋率,向全液冷的方向演進。隨著AI晶片功率的進一步提升(1500W-2000W以上),風冷散熱器已達瓶頸(1000W),單相水冷板也將很快到達散熱能力瓶頸(1500W),相變散熱技術是必然的方向,包括相變浸沒液冷和相變冷板液冷。相變冷板又包括泵驅兩相(Pumped twophase)冷板和自驅動兩相(Passive 2-Phase)冷板等方向。相比較而言,泵驅兩相冷板國外有較多的研究,但其複雜度較高、可靠性問題比較難以解決;自驅動兩相冷板的技術基於環路熱管(LHP)技術,挑戰更大,但其具有解熱能力強、高可靠、易維運、長壽命等優點。 (零氪1+1)