#液冷
【MWC 2026】出海硬剛輝達!華為昇騰950超節點及液冷架構解析
01. 華為攜950 SuperPoD出征海外,MWC展會硬剛輝達昨天,在 2026 年巴塞隆納世界移動通訊大會上,華為計算產品線總裁張世偉發佈了最新的 SuperPoD 產品 Atlas 950 SuperPoD、TaiShan 950 SuperPoD 以及一系列計算解決方案,標誌著這些產品首次在全球亮相。華為Atlas 950 SuperPoD專為人工智慧資料中心部署而設計,整合了8192顆華為昇騰950 DT晶片,是華為最新的高性能人工智慧基礎設施產品。此次活動將為華為提供向海外客戶展示其人工智慧解決方案的機會,報告補充道,SuperPoD計畫於2026年第四季度商用。除了Atlas系統外,華為還展示通用計算平台TaiShan 950 SuperPoD,以及包括TaiShan 500和TaiShan 200在內的下一代伺服器。02. 叢集級人工智慧:華為Atlas 950 SuperPoD揭秘在聊華為的950前,先簡單梳理下華為昇騰AI晶片出貨節點。25年9 月 18 日,在華為全聯接大會 2025 上,華為輪值董事長徐直軍公佈了最新的 AscendAI 晶片路線圖。根據路線圖顯示,華為在25年 Q1 已經推出了 Ascend910C,2026 年 Q1 推出全新的 Ascend950PR晶片,2026 年 Q4 推出 Ascend950DT,2027 年 Q4 推出 Ascend960 晶片,2028 年Q4 推出 Ascend970 晶片。關於華為的Atlas 950 SuperPoD的架構特點: 華為為其SuperPoD開發了一種名為UnifiedBus的新型互連架構,旨在與NVIDIA的NVLink競爭。在基於 UnifiedBus 的 Atlas 950 SuperPoD 每個機櫃整合 64 個 NPU,最高可擴展至128個機櫃,也是就 8,192 個 NPU,可以為為大規模人工智慧訓練和高並行推理提供卓越的性能。與傳統叢集相比,它顯著提升了模型訓練效率、可靠性和推理性能。950超節點整機櫃是通過正交架構,可實現零線纜電互聯,採用液冷接頭浮動盲插設計做到零漏液,其獨創的材料和工藝讓光模組液冷可靠性提升一倍。其創新的 UB-Mesh 遞迴直連拓撲網路架構,支援單板內、單板間和機架間的 NPU 全互聯,以 64 卡為步長按需擴展,最大可實現 8192 卡無收斂全互聯。03. 液冷唯一標配!華為950超節點液冷用量及架構解析華為950 Atlas SuperPoD採用面向大規模AI訓練場景的超節點架構設計。該系統由8192張 Huawei Ascend 950昇騰加速卡構成,單機櫃配置64張加速卡,總體由128個電腦櫃和32個互聯機櫃組成,整套系統共計160個機櫃,形成完整的大規模AI算力叢集。在散熱方案上,Atlas 950 SuperPoD全面採用全液冷架構設計,不提供風冷版本選配,出廠即為液冷機櫃。這一策略表明,隨著算力密度和功耗持續提升,液冷已從傳統的可選配置升級為基礎架構能力。通過全液冷部署,系統能夠實現更高的功率密度、更優的能效表現以及更穩定的運行環境,滿足大模型訓練等高強度負載的長期運行需求。同時,統一液冷形態也有助於提升系統交付效率與維運標準化水平,降低複雜度,體現出當前AI資料中心從“風液混合”向“全液冷”演進的趨勢。整機櫃架構方面,華為950採用高密度超節點設計。單機櫃由16台1U伺服器構成,總計整合64顆NPU晶片,整櫃設計功耗約75kW,已進入典型高密度液冷部署區間。在散熱方案上,整體採用冷板式液冷架構,對核心高功率器件進行直接液冷覆蓋,以保障在高算力負載下的穩定運行與能效表現。在系統架構層面,該方案機櫃內部不配置Rack級CDU(機架內CDU),而是採用機櫃式CDU進行統一冷卻液分配與控制。這種集中式CDU部署方式有利於提升維護便利性與系統一致性,同時減少機櫃內部空間佔用,最佳化結構佈局。伺服器方面,華為950平台採用分佈式獨立冷板架構,在每一顆NPU上均配置單獨冷板,實現對高功率核心器件的精細化散熱管理。據業內資訊顯示,當前華為尚未大規模引入MLCP技術,而是以成熟穩定的單級冷板方案為主,以兼顧可靠性與工程可落地性。在管路設計上,華為採用EPDM材質的液冷軟管,強調柔性與裝配便利性,並未像 NVIDIA 那樣大量採用不鏽鋼金屬波紋管結構。同時,在連接方式上,華為引入浮動接頭設計,以緩解裝配公差、熱膨脹及振動帶來的機械應力,從而提升系統長期可靠性。值得關注的是,華為950方案中液冷覆蓋範圍進一步擴大。此前液冷主要集中於CPU/NPU等核心晶片,本次方案則將光模組納入液冷散熱體系。在超節點(Supernode)架構下,光互連密度與頻寬需求顯著提升,光器件功耗持續攀升,傳統風冷逐漸難以滿足熱管理要求。隨著高速光模組(如800G及以上)功耗進入更高區間,液冷正從“可選方案”向“必選路徑”轉變,這也標誌著伺服器液冷從核心計算晶片向系統級關鍵器件全面擴展。更多液冷前沿趨勢,液冷大會現場呈現 2026年4月14日至15日,第五屆資料中心液冷峰會暨展覽會將在上海舉行。本次大會由零氪主辦,聚焦AI時代資料中心散熱技術升級與產業生態協同,吸引了包括整機廠、晶片廠、資料中心營運商及核心裝置供應商在內的產業鏈頭部企業參與,預計2000位行業專家參與。 (零氪1+1)
他在戈壁灘上,為全球算力退燒
美國矽谷,聖克拉拉。輝達即將完成GB300液冷方案認證,坐鎮北美主場,在溫控領域實力雄厚的維諦,希望繼續主導市場。此前,這一格局已經延續了很多年。但這一次,他們碰到了中國廠商的強力挑戰。最終的結果是,維諦(Vertiv)保住了全球系統級合作夥伴的地位,但同時在中國市場上,他們不得不做出讓步。迫使其讓步的,是以英維克、高瀾為主的中國廠商。據第三方行業測算,2025年Q3英維克拿下輝達G300中國區液冷機櫃近一半市場份額。此外,它還在全球範圍內,為維諦提供關鍵零部件。更重要的是,它通過了輝達極其嚴苛的NPN Tier1認證,是中國大陸唯一獲得該認證的液冷供應商。過去,維諦一家獨大的格局,從此被改寫。敗給英維克,維諦並不冤,畢竟領銜英維克的不是泛泛之輩,而是前華為悍將齊勇。早在二十多年前,朗訊、北電、摩托羅拉等一眾美國通訊廠商,就敗在華為陣下,而齊勇當時就任職於華為電氣。從華為離職後的齊勇,在溫控領域默默耕耘了近二十年。這期間,他歷經技術的多次迭代,最終在AI液冷時代,臻於極致,登頂產業巔峰。過去十幾年,全球AI產業的敘事一直圍繞算力、模型和應用展開,而散熱是一個長期被忽略的主戰場。隨著算力密度持續提升,當單個GPU功耗超過千瓦時,人們才幡然醒悟:如果散熱失控,GPU再貴、演算法再先進,都是廢鐵。面對飆升的功耗,傳統風冷技術開始頂不住了。於是,液冷技術走到台前。不只國內廠商,包括維諦在內的全球頭部玩家,都在往液冷方向轉型。但問題也恰恰出在這裡。很多廠商嘴上說擁抱液冷,腦子卻還停留在風冷時代,其產品針對穩態運行的邏輯設計,難以應對AI時代的極端工況和極端負載。更麻煩的是,液冷本身也不是裝上就完事。冷板會不會被腐蝕?管路會不會漏液?冷卻液用久了會不會失效?這些事故一旦出現,輕則停機,重則整機報廢,讓很多客戶望而卻步。而齊勇帶領團隊,跳出行業思維慣性,從真實場景需求出發,去倒推AI時代究竟需要怎樣的液冷技術。最終,他們做出了令輝達難以拒絕的液冷部件和方案。以快接頭為例,英維克自研部件可滿足插拔200萬次依然穩定無故障,遠超行業平均5-10萬次的水平。微流道設計的冷板,則將熱阻值降至行業平均水平的一半以下,晶片發熱瞬間被導走,不會因過熱卡頓、當機。再加上冷卻液分配單元(CDU)的加持,猶如一個聰明的大管家,可精準泵送冷卻液、控制溫度壓力、監測漏液,節省每一度電。這種全端自研的液冷方案,從一開始就對齊了輝達的需求。它不光為穩態工況而設計,而是充分考慮到輝達AI伺服器在極端功耗、極端熱密度和長期滿負荷運轉的現實,即便在最差條件下,依然可控、可交付。這也是黃仁勳反覆斟酌之後,最終選擇英維克的原因。英維克在液冷時代的崛起,很大程度上,要歸因於齊勇的戰略遠見。早在2015年,齊勇就預判到,隨著資料中心算力密度的快速提升,傳統風冷散熱已逼近物理極限,將難以為繼。彼時,AI尚未爆發,雲端運算才初現端倪,主流資料中心仍在用風冷,液冷被視為超前的小眾技術。客戶擔心,液冷技術不成熟,一旦漏液,將導致價值數百萬的伺服器報廢。團隊內部也有人反對,認為液冷研發投入太大,風險太高,應該先鞏固公司在傳統基站業務上的地位。面對各方質疑與阻力,齊勇力排眾議,堅持押注液冷賽道。理由很簡單,技術趨勢不可逆,液冷是未來的必然方向。另外,風冷時代,市場長期被外資主導,液冷是國產換道超車的機會。拍板不容易,做起來更難。在英維克之前,無論冷板液冷還是浸沒式液冷,早有美國企業積累了數十年專利,行業主流的做法是:外購零部件,然後做整合。但齊勇卻劍走偏鋒,堅持自研核心零部件。這個決定,最初只是為了突破外資的技術壁壘,但隨著項目的推進,齊勇更堅信,只有全端自研才能解決困擾行業多年的耦合難題。液冷不是一個零件,而是冷板、接頭、冷卻液等在一起工作。過去,這些零部件來自不同供應商,將它們拼接在一起,適配困難不說,接觸久了,還容易發生漏液等嚴重事故。在算力飆升和極端負載之下,更是漏洞百出。齊勇拒絕拼湊思路,提出全鏈條戰略,在公司內部組建跨學科團隊,統籌推進全端自研。核心部件的研發沒有捷徑。為此,齊勇和他的團隊,面臨種種技術挑戰。在快接頭研發初期,為瞭解決密封件老化、插拔精度不足等問題,團隊與英特爾聯合進行了上千次的循環測試。因為複雜度極高,原計畫半年完成的測試,實際耗時接近一年。同樣經過上千次測試的,還有微通道冷板。這是英維克的專利技術,換熱效率較傳統冷板大幅提升。為瞭解決漏液這個液冷行業最大的痛點,英維克甚至自研了長效液冷工質。此舉,不僅打破了國外技術壟斷,更突破傳統工質的腐蝕魔咒,可實現5年免維護,讓裝置告別生鏽漏液。大膽押注液冷賽道的齊勇,最終摘到了果實。在AI算力大爆發時代,英維克憑藉多年的前瞻性佈局和技術積累,接住了輝達的潑天財富,成為中國液冷之王。加冕液冷之王,讓齊勇身處聚光燈下。過去一年,在輝達等巨頭訂單的刺激下,英維克股價狂飆,從每股31元一路上漲至最高117元,市值破千億。齊勇也因此賺得缽滿盆滿,按直接和間接持股計算,身價超過200億元。然而,就在媒體試圖打探這位AI液冷新貴的消息時,卻發現他十分低調。最近幾年,齊勇很少接受媒體專訪,行業峰會、論壇等公開場合也鮮少露面,似乎把更多時間花在了工作上。這位前華為老兵不喜歡拋頭露面,而更願意待在客戶現場,這是他在華為收穫的一筆寶貴財富。1968年出生在內蒙古包頭的齊勇,於上個世紀90年代,坐上南下的綠皮火車。在深圳,他通過社招進入華為電氣,從此開啟了與精密溫控的不解之緣。期間,他從普通電氣工程師成長為技術部門負責人,主持了通訊基站溫控裝置研發,參與多項關鍵技術突破。遺憾的是,2001年由於戰略調整,華為將該業務賣給了美國艾默生。但這段經歷,為齊勇植入了華為“以客戶為中心,奮鬥者為本”的基因,並養成現場主義的工作習慣:問題在現場,答案也在現場。這也成為他後來創業的核心指導思想。2005年創業初期,英維克只有8人團隊,沒有市場,沒有產品,沒有資源,沒有訂單!但有理想和一腔熱血。齊勇租來民房當辦公室,在樓道里搭建實驗室,用二手裝置搞研發。為了趕工期、偵錯產品,他帶領團隊通宵達旦,每天工作16個小時,餓了泡泡麵,累了趴在桌上打盹。一次產品測試中,空調壓縮機在高溫下突然爆裂,飛濺的金屬碎片擦過齊勇耳際,他卻異常冷靜地說:“如果連安全測試都通不過,我們憑什麼讓客戶信任?”這種對技術的極致追求,讓英維克成立僅一年,就入圍中國移動、中國聯通採購名單,打破了外資品牌在基站溫控領域的壟斷。站穩了腳跟的齊勇,並沒有忘記初心,反而以更大的熱情投入現場。為了打造更可靠的產品,他不僅組建了國家級測試中心,還要求研發人員將更多時間投入現場。從40℃高溫的新疆戈壁灘,到零下30℃的東北雪林,再到海島高鹽霧環境……英維克的產品經受住了各種極端測試。在齊勇看來,實驗室資料再完美,也抵不過現場真實運行。20年間,正是在對可靠性近乎偏執的追求中,英維克從通訊基站起步,把溫控一步步做到了儲能、AI資料中心等眾多領域,並在一個個高難度場景中,贏得客戶信任。當年,日本軟銀在全球尋求高可靠性基站方案,英維克團隊帶著裝置飛赴東京,經受住一輪又一輪近乎苛刻的測試,敲開了海外市場的大門。今天,站在AI算力時代的風口上,英維克再次贏得了輝達的信賴。科技產業一日千里,雖然英維克已在冷板市場佔據先機,更高效的浸沒式液冷路線,也正在逼近。前有強敵,後有追兵,壓力始終存在。“潮平兩岸闊,風正一帆懸。”去年8月,時逢英維克成立20周年,齊勇意氣風發,目光投向更遠的未來。“我們希望在英維克三十而立時,真正站立於精密環境控制領域的全球巔峰。”他說。 (華商韜略)
2026十大突破性技術─深度解讀超大規模AI資料中心:核電站供電、液冷取代空調,AI正在重塑全球能源版圖
這是《麻省理工科技評論》2026 年“十大突破性技術”深度解讀系列的第四篇內容,關注 DeepTech,關注新興科技趨勢。在廣闊的農田和工業園區裡,一棟棟塞滿電腦機架的超大型建築正拔地而起,為 AI 競賽提供動力。這些工程奇蹟是一種新型的基礎設施:它們是專為訓練和運行超大規模大語言模型而設計的超級電腦,並配備了專用的晶片、冷卻系統,甚至獨立的能源供應。2025 年,AI 基礎設施的投資規模已從“數十億美元”的量級躍升至“兆美元”。1 月 21 日,美國總統川普在白宮宣佈了“星際之門”(Stargate Project)——由 OpenAI、軟銀、Oracle 和阿布扎比投資基金 MGX 組建的合資企業,計畫四年內向美國 AI 基礎設施投資 5,000 億美元,首期即刻部署 1,000 億美元。軟銀 CEO 孫正義出任董事長,OpenAI 負責營運。星際之門正迅速從藍圖變為現實。位於德克薩斯州阿比林的旗艦園區已於 9 月投入營運,Oracle 開始交付首批輝達 GB200 晶片機架。到年底,星際之門已宣佈五個新址,總規劃容量接近 7 吉瓦,投資額超過 4,000 億美元。與此同時,OpenAI 還在阿聯、挪威和阿根廷啟動國際佈局,阿根廷巴塔哥尼亞的“星際之門阿根廷”項目投資高達 250 億美元,將成為拉丁美洲最大的資料中心。但星際之門只是冰山一角。據 HSBC 估計,全球已規劃的 AI 基礎設施投資超過 2 兆美元。亞馬遜承諾投入 1,000 億美元,Google 750 億美元,Meta 650 億美元,微軟僅 2025 年就將支出 800 億美元。據一項分析估算,OpenAI 已承諾在 2025 年至 2035 年間向硬體和雲基礎設施支出約 1.15 兆美元,涉及輝達、AMD、Oracle、微軟、Broadcom 等七家主要供應商。超大規模 AI 資料中心將數十萬個 GPU 晶片,如輝達的 H200 或 GB200,捆綁成協同工作的叢集。這些晶片擅長平行處理海量資料,每秒執行數兆次數學計算。數十萬英里長的光纖電纜像神經系統一樣連接著它們,巨大的儲存系統晝夜不停地輸送資料。但驚人的算力是有代價的。首先是電力。國際能源署(IEA)預測,全球資料中心電力消耗將在五年內翻一番以上,到 2030 年將超過 1,000 太瓦,相當於整個日本的用電量。僅在美國,資料中心已佔全國電力消耗的 4.4%,而 2018 年僅為 1.9%;到 2028 年可能攀升至 12%。在弗吉尼亞州這個全球資料中心最密集的地區,資料中心消耗了該州約 26% 的總電力。在建的最大型資料中心可能吞噬超過一吉瓦的電力,足以為約 75 萬戶家庭供電。某些規劃中的園區佔地 5 萬英畝,耗電量可達 5 吉瓦,超過美國現有最大核電站的容量。Grid Strategies 估計,到 2030 年美國將新增 120 吉瓦電力需求,其中 60 吉瓦來自資料中心,相當於義大利的峰值電力需求。目前,煤炭以約 30% 的份額成為資料中心最大電力來源,天然氣佔 26%,可再生能源約 27%,核能佔 15%。儘管可再生能源增長最快,但天然氣和煤炭仍將在 2030 年前滿足超過 40% 的新增需求。科技巨頭們正競相尋找清潔方案:亞馬遜從賓夕法尼亞州核電站直接獲取約 960 兆瓦電力;Google與 Kairos Power 簽署協議部署小型模組化反應堆;OpenAI 在挪威利用水電資源建立資料中心。但核能從開工到發電需要 5 至 11 年,資本支出是天然氣的 5 至 10 倍,遠水難解近渴。第二個挑戰是冷卻。AI 晶片的功率密度從過去的每機架 15 千瓦飆升至 80 至 120 千瓦,傳統空調已無法滿足需求。直接晶片冷卻(D2C)正在成為主流,這種技術將冷板直接安裝在 GPU 上,閉環系統在熱源處帶走 70% 至 80% 的熱負荷。浸沒式冷卻則更進一步:伺服器被浸泡在非導電液體浴槽中,可將冷卻能耗降低 50%,水耗降低最高 91%。微軟最新設計採用晶片內微流體冷卻,微小通道直接蝕刻在矽晶片背面,使 GPU 溫度降低 65%。然而,許多設施仍依賴蒸發冷卻,消耗大量淡水。據估計,2023 年美國資料中心直接消耗約 175 億加侖水,到 2028 年可能翻兩番。僅訓練 GPT-3 就蒸發了 70 萬升清潔淡水。彭博社報導,自 2022 年以來建造的美國資料中心約三分之二位於高水壓力地區。公眾正在為這些建設買單。Dominion Energy 的 2025 年報告顯示,弗吉尼亞州居民電費預計到 2039 年將翻一番以上,主要因資料中心增長。在佐治亞州牛頓縣,某些擬議資料中心每天請求的水量超過整個縣的日用水量,迫使當地官員在拒絕項目、要求替代冷卻方案或對居民實施限水之間艱難抉擇。地方反對正在加劇。據 Data Center Watch 統計,自 2023 年以來美國已有 180 億美元項目被取消,460 億美元被延遲。僅 2025 年第二季度,被阻止或延遲的項目價值達 980 億美元。居民們因噪音、光污染、水資源枯竭和電費上漲而組織抵制;2025 年 12 月,超過 200 個環保組織聯名致信國會,呼籲暫停批准新的資料中心。科技高管們對此不以為然。AMD 首席執行長蘇姿丰在被問及 AI 熱潮是否過度時斬釘截鐵:“絕對不是。”他們將答案訴諸於 8 億每周 ChatGPT 使用者、40% 大型企業的 AI 採用率,以及 AI 作為經濟引擎和國家安全優先事項的戰略價值。OpenAI 首席財務官 Sarah Friar 引用歷史作為辯護:“當網際網路剛起步時,人們總覺得我們建設過度了。看看我們今天在那裡?”這些交易的循環性質以及預測的需求能否兌現,仍是懸而未決的問題。電網規劃者發現科技公司正在向多個公用事業展示同樣的項目以尋求最快的電力接入,使需求預測變得困難。聯邦能源監管委員會前主席 Willie Phillips 坦承:“有些地區預測了巨大的增長,然後又向下調整了。”從 1990 年代的本地伺服器到 2000 年代的雲端運算,再到如今的 AI 超級工廠,資料中心的演進從未停止。生成式 AI 已從瓶中釋放,沒有回頭路。但關於經濟預測是否精準、資源供應能否持續、建成後誰來使用,這些問題的答案,或許只有時間才能揭曉。我們邀請了三位來自產業與科研一線的代表,圍繞其關鍵技術路徑與產業影響進行點評。以下評論內容均為個人見解,不代表《麻省理工科技評論》觀點從算力堆疊到能源博弈:超大規模 AI 資料中心的現狀、瓶頸與趨勢首先需要明確一個核心概念:超大規模 AI 資料中心,絕對不是傳統資料中心的簡單放大版。它誕生的根本驅動力,是為了滿足大模型對算力近乎指數級增長的海量需求。因此它的架構是革命性的,本質上是把數十萬計的 GPU 通過極高速網路“粘合”在一起,形成前所未有的單體式超級電腦。Google、微軟、亞馬遜、Meta 等全球科技巨頭,都在投入數千億美元競相佈局。但與此同時,這個龐然大物也帶來了一系列前所未有的挑戰:驚人的功耗、棘手的散熱、巨大的能源壓力,以及如何在規模擴展與效率提升之間找到最佳平衡點。目前業界的技術路徑已經比較清晰,核心思路是通過高速互聯技術建構高效的“超節點”,最大程度減少晶片間的通訊延遲和開銷。算力確實已邁入 ZFLOPS 時代,但“記憶體牆”,即資料搬運的瓶頸,也愈發突出。另一個無法迴避的挑戰是散熱:隨著晶片密度飆升,傳統風冷已力不從心,液冷技術正從“可選項”變為“必選項”,配套供電架構也必須同步升級。而這個產業也面臨著多維度的瓶頸。首先是能源約束。一個超大規模資料中心的功耗可超過 1 吉瓦,相當於一座中型城市的用電量。這使它從單純的電力消費者,變成必須像能源公司一樣深度規劃電力獲取的“准公用事業體”。獲取穩定充足的清潔能源成為首要任務,而全球許多地區老舊電網的承載能力,已開始反向制約資料中心的選址和規模。其次是時間約束。AI 晶片迭代速度極快,約一年一代,遠超傳統資料中心基礎設施兩年左右的更新周期。這導致一個尷尬局面:本代資料中心剛建成,就要準備迎接兩三代新晶片。而市場競爭又要求算力快速上線,建設周期被從近兩年壓縮至一年以內,對預製化、模組化的快速交付能力構成極致考驗。最後是生態與治理約束。算力高度集中必然引發一系列新問題:市場壟斷的擔憂、資料主權的爭議、對當地水資源和環境的影響等。產業競爭也在從純粹的技術比拚,轉向標準與生態之爭——未來是走向開放協作,還是形成若干封閉的私有體系,將深刻重塑整個算力市場的格局。往前看,幾個趨勢比較確定:架構將更加立體協同。“雲端集中訓練、邊緣就近推理”的模式會日趨成熟,“全球算力網際網路”的構想也可能逐步落地,實現跨地域的算力調度與最佳化;它的營運將更加智能高效,用 AI 最佳化資料中心自身能耗會成為標配,行業關注的指標將從單純的 PUE,轉向更本質的“每瓦特電力產出多少有效算力”;這項技術將更加綠色多元,液冷全面普及之外,餘熱回收、水循環等深度綠色方案會加速落地;芯粒(Chiplet)、光計算等後摩爾時代的新技術,也將從實驗室走向產業試點。綜上,超大規模 AI 資料中心無疑是智能時代最關鍵的基石之一,但它也對能源、基建和治理能力提出了巨大挑戰。資料中心正從支撐業務的“成本中心”,演變為驅動創新的“智能生態樞紐”。其成功將取決於能否與電網、社區共建可持續的“數字能源共同體”,並對環境影響實現透明、負責任的管理。未來能在這一領域脫穎而出的,必定是那些以架構創新破解算力瓶頸、以卓越工程能力贏得時間競賽、同時以生態責任感建構可持續未來的實踐者。從電力成本到模型安全:AI 資料中心的三重挑戰隨著大模型的規模化應用,AI 資料中心正面臨一系列深層次的產業挑戰。以下從成本、算力調度和資料安全三個維度,分析當前的關鍵瓶頸與應對方向。首先,電力成本將成為 AI 服務社會的主要成本。大模型目前在正確性和確定性上仍有待改進:錯誤會快速累積,導致不可接受的結果;而提高正確性,則意味著增加計算量;不確定性帶來的重試機制,又可能引發新的錯誤,形成惡性循環。在這一背景下,更廉價的電力意味著在同樣計算成本下獲得更好的模型服務效果。電力成本,正在成為AI能否大規模服務社會的核心變數。其次,加速卡的多樣性將持續提高。隨著時間推移,不同品牌、不同代際的加速卡將長期共存於資料中心。CPU 與 GPU 虛擬化技術以及高速網路技術的發展,將使算力調度更加靈活——推理任務可以有效利用不同加速卡從而降低成本,但大型訓練任務的複雜性仍需適應多樣化的算力環境。短期來看,宏觀的任務調度策略與微觀的通訊計算融合策略會有所幫助;長期來看,建構混合加速卡計算框架將是必然選擇。最後,丟失模型等於丟失資料。大模型有效壓縮了海量資料並支援靈活提取,壓縮比可達十萬倍。丟失一個磁碟容量僅為 700GB 的模型成品,基本等效於丟失 70TB 的原始訓練資料。由於資料的差異化帶來模型的差異化,企業獨有的資料正在轉化為企業獨有的競爭力。在資料安全合規的諸多限制下,企業需要擁有自有算力,在開源模型基礎上精調自有模型。這意味著,基礎設施在保護核心模型方面面臨的挑戰,比傳統資料安全場景更為嚴峻。超大規模 AI 資料中心的關鍵轉向:液冷與新型能源架構超大規模 AI 資料中心是人工智慧時代的關鍵基礎設施。Scaling Laws 揭示了模型性能與參數規模、資料量、算力投入之間的冪律關係 [1],使大模型發展從經驗探索轉向可預測的工程實踐,並推動 Amazon、Google、Microsoft 等科技巨頭斥資數千億美元建構數十萬塊 GPU 互連的超級計算叢集,以滿足大模型訓練的爆炸性算力需求。然而,當 GPU 機櫃的功率密度突破 50 千瓦時(例如輝達 GB200 NVL72 機櫃級系統的功率密度高達 132 千瓦/櫃 [2]),傳統風冷散熱技術成為了制約系統的瓶頸。風冷散熱依賴空氣對流傳熱,其有效功率密度上限為 20-50 千瓦,超過此閾值後,維持散熱所需的風量呈指數級增長,導致風道截面積、風扇功耗、噪音和系統體積急劇上升而難以工程實現。另一方面,全球資料中心預計 2030 年佔全球總用電量 4%-7%、單體資料中心能耗將突破吉瓦級 [3]。因此,傳統的風冷與供電模式已難以為繼,行業正加速向液冷技術及核能等新型能源架構轉型。液冷技術通過直接接觸式散熱並將餘熱用於園區供暖、工業供熱,能夠有效改善資料中心的電能使用效率,而核能的穩定基荷特性為解決“AI 大模型訓練的持續高功耗與傳統電網的負荷平衡模式存在本質衝突”這一困境提供了有效途徑。Google、Amazon、Microsoft 等公司均在積極推進核電工程,以滿足超大規模 AI 資料中心的用電需求 [4]。此外,瑞士 Deep Atomic 公司和美國愛達荷國家實驗室計畫建造首個核動力人工智慧資料中心 [5],標誌著能源-算力一體化資料中心架構正在從概念走向實踐。因此,基於液冷與核能的超大規模資料中心能夠有效地支撐算力規模的擴展與躍遷,代表了全球 AI 算力基礎設施形態的趨勢,也為物理極限約束下的 AI 持續發展開闢了新的空間。 (麻省理工科技評論APP)
微軟Maia200發佈,液冷架構曝光,Asic液冷,電源市場迎來新買家
01.微軟Maia 200晶片發佈時隔兩年,微軟宣佈推出第二代人工智慧晶片Maia 200。微軟雲與人工智慧執行副總裁斯科特·格思裡表示,Maia 200採用台積電3奈米工藝製造,每顆晶片包含超過 1400 億個電晶體,為大規模  AI 工作負載量身打造,同時兼顧高性價比。他稱Maia  200是微軟迄今為止部署的最高效推理系統,其每美元性能比微軟目前部署的最新一代硬體提升了30%。他同時表示,Maia 200的FP4性能是第三代  Amazon Trainium的3倍。目前,Maia 200已部署在微軟位於愛荷華州得梅因附近的美國中部資料中心區域,接下來將部署位於亞利桑那州鳳凰城附近的美國西部3資料中心區域,未來還將部署更多區域。Maia 200 的每個 Tray 整合 4 顆晶片,單晶片TDP達750W,並採用完全直連、無交換的高頻寬互連結構。在這種高算力密度、持續滿載的推理工況下,傳統風冷已無法在可控噪音與能效條件下穩定工作,所以在散熱方面,微軟首先採用冷板液冷,每個晶片上覆蓋一塊小冷板,在管路方面採用不鏽鋼波紋管,目前Maia 200的液冷僅覆蓋晶片部分,電源等部件採用風扇輔助散熱。微軟Maia 200伺服器機櫃採用微軟自研的第二代閉環液冷 Heat Exchanger Unit(HXU),也就是saidecar方案。Sidecar是一種外掛在機櫃側面的液冷“小模組”,它最大的特點就是不用去動伺服器本身的結構,也不用把資料中心整個重做水路、換風道、重布管線,方便快速部署。02.2026年成Asic晶片,液冷,電源迎來新機會CoWoS 產能的客戶分配,本質上是 AI 晶片市場話語權的爭奪。從富邦發佈的台積電晶片研報資料來看,ASIC晶片目前在台積電的的CoWoS產能份額正在勻速升高,預估在AI市場的推動下,預估到今年ASIC晶片CoWoS份額將會快速升高至36%-40左右。出來微軟,近期google,aws等廠商接連發佈最新一代aisc晶片及伺服器整機的消息,頭部CSP廠商的節奏明顯加快很多,同時結合台積電的Coswos資料來看,今年將是Aisc晶片市場元年。從液冷,電源等基礎設施廠商來看,24-25液冷,電源廠商基本只能背靠輝達生態,今年Asic市場的快速爆發且出貨量上升有望打破輝達的單點客戶市場,液冷,電源等廠商可以匯入ASIC伺服器市場,從而獲取訂單,對於廠商來看,是利多資訊。今年台灣頭部液冷公司AVC在2025年度財報會發言也稱:今年除GPU平台液冷客戶外,切入ASIC伺服器液冷供應鏈,進入初期匯入階段。部分ASIC平台開始採用水冷配置,惟目前出貨仍以驗證與小量匯入為主,實際放量節奏將隨客戶平台推進而後移,預期ASIC水冷相關滲透率將於2026年第三季有較明確提升。所以今年零氪認為Asic市場的爆發對液冷,電源市場將會有大波新訂單需求。 (零氪1+1)
高盛:AI 伺服器需求再超預期:機架級、ASIC、液冷全線加速!
我們更新了全球伺服器總潛在市場的覆蓋範圍,具體包括:(1)人工智慧訓練伺服器(全機架 / 高功率)、(2)人工智慧推理伺服器、(3)通用伺服器、(4)高性能計算(HPC)伺服器,以及(5)美國和中國頭部雲服務商的資本支出。隨著 AMD 發佈 “Helios” 人工智慧伺服器機架,我們將全機架伺服器預測範圍擴大至更多元化的晶片平台,預計 2025 年、2026 年(預測)、2027 年(預測)的機架級伺服器數量分別為 1.9 萬台、5.5 萬台、8 萬台。專用積體電路(ASIC)人工智慧伺服器方面,我們預計 ASIC 的採用率將加速提升,其在人工智慧晶片中的佔比將從此前預測的 2025/2026/2027 年38%/40%/45%,上調至 38%/40%/50%。結合 ASIC 和 GPU 架構的基板式人工智慧伺服器需求上調、人工智慧全機架納入更多元化晶片平台,以及 2026 年下半年將有更多搭載新型人工智慧晶片的伺服器推出,我們上調了全球人工智慧伺服器出貨量預測,預計 2025-2027 年(預測)人工智慧晶片需求將達 1100 萬 / 1600 萬 / 2100 萬顆(圖表 1)。我們認為,人工智慧基礎設施周期將持續至 2027 年(預測),為行業增長提供支撐。人工智慧伺服器推薦標的:Wiwynn/ 緯創Wistron(原始設計製造商,ODM)、Hon Hai/ FII(ODM)、LandMark(矽光技術)、VPEC(矽光技術)、AVC/ Fositek(液冷)、Auras(液冷)、King Slide(滑軌)、Chenbro(機箱)、EMC(覆銅板,CCL)、GCE(印刷電路板,PCB)、TSMC(晶圓代工廠;重點推薦)、MPI(探針卡)、WinWay(測試插座)、Aspeed(無晶圓廠模式)、Hon Precision(最終測試處理器)。圖表 1:人工智慧伺服器預測:隱含 GPU 與 ASIC 出貨量人工智慧伺服器更新要點在全球雲服務商資本支出增加及人工智慧應用普及率提升的支撐下,我們上調了高功率人工智慧伺服器(搭載算力超 500 兆次 / 秒的 ASIC 和 GPU,如 H200、B200 等)2025-2027 年的出貨量預測,同比增幅分別為 9%/30%/50%;同時上調推理型人工智慧伺服器(搭載算力低於 500 兆次 / 秒的晶片,如 L40S、L20、ASIC 等)同期出貨量預測,同比增幅分別為 7%/3%/2%。近期人工智慧模型迭代持續推進,Gemini 3 Deep Think、OpenAI GPT-5.2、DeepSeekV3.2 及Qwen Code v0.5.0 等模型已陸續上線。隨著更多晶片平台轉向機架級設計,我們將全機架人工智慧伺服器(如搭載 GB200、GB300、MI450 系列等)2025-2027 年(預測)出貨量預測上調至 1.9 萬 / 5.5 萬 / 8 萬台(此前僅針對輝達機架的預測為 1.9 萬 / 5 萬 / 6.7 萬台),對應總潛在市場規模分別為 550 億 / 1650 億 / 2550 億美元(此前 2025-2027 年預測僅輝達機架的規模為 540 億 / 1570 億 / 2320 億美元)。雲服務商資本支出客戶支出方面,我們的美國網際網路團隊預測,2025-2027 年(預測)美國頭部雲服務商資本支出合計同比增幅將達 78%/37%/15%(高於 9 月更新時的 67%/23%/15%);中國網際網路團隊則預計,同期中國頭部雲平台資本支出同比增幅將達 62%/17%/9%(高於此前的 55%/8%/6%)。伺服器行業前景展望1. 人工智慧訓練伺服器 —— 全機架預測擴展至更多晶片平台全機架人工智慧伺服器(如採用 NVL72/NVL144 配置的 GB200/GB300/Vera Rubin,及採用 Helios 配置的 MI450 系列)自 2024 年第四季度隨輝達 Blackwell 平台開始出貨,預計 2026 年下半年起,包括 AMD Helios 機架在內的更多伺服器將採用全機架設計。我們現將非輝達全機架納入預測,預計 2025-2027 年(預測)全機架出貨量為 1.9 萬 / 5.5 萬 / 8 萬台(此前僅輝達機架為 1.9 萬 / 5 萬 / 6.7 萬台),對應總潛在市場規模 550 億 / 1650 億 / 2550 億美元(此前 2025-2027 年(預測)僅輝達機架為 540 億 / 1570 億 / 2320 億美元)2. 人工智慧訓練伺服器 —— 高功率機型出貨量加速增長高功率人工智慧訓練伺服器(如 H200/B200/B300 伺服器及 ASIC 人工智慧伺服器,單晶片算力超 500 兆次 / 秒)方面,以 8 GPU 等效單位計算,預計 2025-2027 年(預測)出貨量為 69.2 萬 / 95.2 萬 / 122.7 萬台,同比增幅 26%/38%/29%(此前預測為 63.7 萬 / 73.2 萬 / 81.9 萬台),對應總潛在市場規模 1800 億 / 2050 億 / 2510 億美元(此前預測為 1360 億 / 1380 億 / 1390 億美元)。我們看好基板式人工智慧伺服器的需求前景,因其定製化空間更大且能減輕客戶預算壓力;同時,高功率 ASIC 晶片的產能提升也支撐我們對該細分領域的積極看法。3. 推理型伺服器緊隨增長推理型伺服器(如 L40S/L20 伺服器及 ASIC 人工智慧伺服器,單晶片算力低於 500 兆次 / 秒)方面,預計 2025-2027 年(預測)出貨量為 47 萬 / 53.9 萬 / 65.6 萬台,同比增幅 1%/15%/22%(此前預測為 44.1 萬 / 52.2 萬 / 64.6 萬台),對應總潛在市場規模 300 億 / 360 億 / 480 億美元(此前預測為 270 億 / 300 億 / 360 億美元)。增長動力主要來自人工智慧應用場景的持續拓展。4. 通用伺服器回歸正常增長我們預計 2025-2027 年(預測)其出貨量將實現同比 11%/8%/2% 的增長,營收同比增長 51%/19%/5%,增長支撐因素包括:(1)新 CPU 平台替換周期結束後,出貨量回歸正常增長;(2)資料處理需求提升推動產品結構升級,疊加儲存價格上漲,帶動平均銷售價格(ASP)上升。圖表 2:全球伺服器總潛在市場(TAM):2025-2027 年(預測)同比增長 71%/40%/26%,規模分別達 4330 億 / 6060 億 / 7640 億美元圖表 3:隱含人工智慧晶片出貨量(2027 年預測)圖表 4:機架級人工智慧伺服器:2025-2027 年(預測)輝達機架數量維持 1.9 萬 / 5 萬 / 6.7 萬台不變圖表 5:基板式高功率人工智慧伺服器將維持增長圖表 6:美國頭部雲服務商(CSP)2025-2027 年(預測)資本支出同比增長 78%/37%/15%圖表 7:中國頭部雲服務商 2025-2027 年(預測)資本支出同比增長 62%/17%/9%圖表 8:伺服器總潛在市場(TAM):營收預測調整圖表 9:伺服器總潛在市場(TAM):出貨量預測調整個人電腦(PC):2026 年(預測)/2027 年(預測)同比增長 3%/2%智慧型手機:2026 年(預測)/2027 年(預測)出貨量同比增長 1%/1%;可折疊手機 2026 年 / 2027 年(預測)出貨量達 4600 萬 / 6600 萬台(大行投研)
16億訂單!液冷加速落地,蒙特獲北美CDU及冷水機組訂單
01.北美液冷項目加速落地,Munters拿下15.9億北美資料中心製冷訂單。全球資料中心暖通廠商Munters 資料中心技術業務部 (DCT) 已收到總價值約21億瑞典克朗(約16億人民幣訂單)的冷凍水機房空氣處理機組 (CRAH)、冷卻劑分配單元 (CDU) 和冷水機組訂單,其中 (CRAH)佔8.9億瑞典克朗,CDU部分佔12.1億瑞典克朗。客戶是一家位於美國的託管資料中心公司,預計將於2026年第四季度開始交付,並持續到2028年第一季度。該訂單將計入蒙特斯集團 2025 年第四季度的訂單量,涵蓋客戶冷凍水基礎設施的所有主要冷卻元件,包括定製的精密空調機組 (CRAH)、冷卻分配單元 (CDU) 和 Geoclima Circlemiser 冷水機組,以及啟動和偵錯服務。02.北美資料中心基建發力,多家巨頭客戶將在2026落地GW級液冷項目據零氪1+1液冷組分析師統計,預計2026年全球hyper scaler客戶的AI capex投資規模將達到7000億美金,北美市場將佔比6300億左右,預計將新增15GW左右的AI資料中心建設需求,XAI,OPEN AI及meta等csp廠商是主要需求方。2025年12月.30日,埃隆·馬斯克在X平台正式確認,其旗下人工智慧初創公司xAI已完成第三棟大樓的收購,將用於建設第三座超大型資料中心,目標是2026將訓練算力提升至近2吉瓦(GW)等級,為部署100萬卡blackwell晶片鋪路Meta也宣佈去年首個上線了1GW以上超級叢集的資料中心,首個叢集名為Prometheus,計畫於2026年上線,同時在2026年2GW資料中心已經規劃,未來還有5GW叢集,面積堪比曼哈頓!在晶片方面主要採購輝達blackwell晶片。輝達於在去年九月宣佈,將向OpenAI投資最多1000億美元,用於供應數百萬塊AI晶片,以支撐其下一代資料中心建設。雙方簽署的意向書顯示,合作最終能耗將超過10吉瓦,預計在2026年落地首個GW級資料中心。除了輝達的投資,微軟,軟銀,open AI發起的星際之門項目,在2026年也將快速落地資料中心建設。03.關於Munter集團的資料中心暖通及液冷產品線Munters(蒙特)集團是一家源自瑞典的全球化環境與熱管理技術公司,長期深耕空氣處理與節能冷卻領域,在資料中心行業擁有超過二十年的工程與產品積累。相比單純做製冷裝置的廠商,Munters更強調“系統級熱管理”,其技術能力覆蓋從室外冷源到機房內部熱量排出的完整鏈路,這也成為其切入AI資料中心液冷賽道的重要基礎。隨著GPU、AI加速卡功耗快速提升,傳統風冷逐步觸頂,Munters近幾年明確將液冷作為資料中心業務的核心發展方向之一,從“以空氣為中心”轉向“空氣與液體協同”的冷卻架構。在液冷產品層面,Munters的核心定位並不在晶片或冷板本身,而是在液冷系統的分配、換熱與整體整合。其代表性產品是LCX系列液冷分配單元 (CDU),LCX採用模組化、可擴展設計,可覆蓋數百千瓦到兆瓦級的散熱能力,能夠適配單相冷板、兩相液冷等不同技術路線,滿足AI叢集規模化部署對可靠性與維運友好的要求。此前Munters還和知名兩相液冷廠商zutacore聯合推出兩相CDU。(零氪1+1)
華為AI 資料中心設計方案,預製化,液冷,電源
01.華為AI資料中心參考設計白皮書解讀近期,華為發佈《華為AI 資料中心設計》,系統闡述了在 AI 算力快速提升背景下,資料中心從傳統 IT 基礎設施向高能耗、高密度算力基礎設施演進的整體設計思路,圍繞園區級規劃、模組化建設、暖通與液冷協同、電源架構重構等核心問題,提出以“可擴展性、確定性和長期演進能力”為核心的設計原則,強調通過分期建設、製冷與供配電系統解耦、高功率液冷架構以及更高效率的供電路徑,來應對 AI 伺服器功耗持續上升、電力資源受限和技術快速迭代帶來的不確定性,為新一代 AI 資料中心的規劃、建設和產業鏈協同提供了系統性的工程參考框架。註:《華為AI 資料中心設計白皮書》全文56頁,需要的可上方二維碼加入微信自取在資料中心建設層面,華為首先解決的不是“效率問題”,而是“不確定性問題”。AI 的最大特點不是算力高,而是變化快,晶片功耗在漲,伺服器形態在變,液冷路線在演進,電力資源卻越來越緊張。在這樣的背景下,華為並沒有去強調某一種最優建築形式,而是反覆強調模組化、分期建設和能力解耦。華為非常克制地避免一次性把園區設計到極致,而是更關注未來每一次擴容是不是“順著原來的邏輯繼續往上堆”。這種設計思路背後,其實是一個很工程化的判斷:AI 資料中心不可能一次建完,它一定是在算力需求、資本投入和電力資源之間不斷博弈、不斷調整的結果。暖通和液冷部分:華為對風冷和液冷的態度其實非常務實,並沒有簡單地站隊某一種技術路線,而是把冷卻方案和機櫃功率區間直接掛鉤。很清楚地指出,在中低功率階段,風冷依然有其成熟度和成本優勢;但當 AI 機櫃進入 80kW、100kW 甚至更高功率區間時,液冷不再是“性能更好”,而是“不做不行”。這裡面一個很重要的判斷是:製冷能力正在從“配套條件”變成“算力能否落地的硬約束”。華為在液冷設計上的核心思路,關注系統層面的可複製性和可維運性,強調 CDU 架構、一次側和二次側解耦、冗餘設計、漏液風險控制以及維運友好性,這其實是在明確一個訊號——液冷不能只是少數高端項目的定製方案,而必須成為像風冷一樣可規模複製的基礎設施,真正關心的不是“液冷能不能跑得更猛”,而是“液冷能不能在成百上千個機櫃、幾十兆瓦規模下長期穩定運行”。電源架構這部分,並沒有簡單地否定傳統交流供電,而是直截了當地指出,在 AI 負載快速抬升的情況下,傳統多級 AC 架構正在被系統性拉到極限。問題不在單台 UPS 或單個配電櫃,而在於能量在傳輸和轉換過程中的層級過多,損耗、發熱和空間佔用被同步放大。華為的設計思路,是儘量讓電力“少繞路、更直達”,通過更高電壓等級、更少的轉換級數,把有限的電力資源更多地交付到算力端。這背後的邏輯非常現實:在電力越來越緊張的時代,誰能用同樣的電,跑出更多有效算力,誰就更具競爭力。華為的設計方案亮點有兩個。第一,它始終站在“十年周期”的角度看問題,而不是圍繞當前某一代晶片或伺服器做最佳化;第二,它把電力、製冷、建築這些過去各自為政的專業體系,統一放進了“算力交付能力”這個核心目標下進行協同設計。這種系統級視角,恰恰是當前很多 AI 資料中心項目最容易缺失的部分。對整個資料中心產業鏈來說,這本白皮書的參考意義其實非常直接。伺服器廠商會意識到,單純堆性能已經不夠,裝置形態必須更早地融入基礎設施約束;液冷廠商會發現,未來拼的不只是換熱性能,而是系統可靠性、工程適配能力和規模複製能力;供配電廠商也會更加清楚,裝置放量只是第一步,真正的價值在於參與下一代供電架構的定義;而對營運方和投資方來說,AI 資料中心已經不再是一個“建成即交付”的項目,而是一套需要長期演進、持續投入的能源系統。整體來看,華為這本 AI 資料中心設計白皮書並不是在給行業一個“標準答案”,而是在幫行業把一個越來越清晰的事實講透:當 AI 成為核心生產力時,資料中心的設計目標,已經從“滿足當前需求”,轉向“為未來的不確定性預留足夠的空間”。這一點,可能比任何具體參數,都更值得整個產業反覆琢磨。 (零氪1+1)
GoogleTPU異軍突起,ASIC液冷將爆發,部署已超1GW !回看Google液冷進化史
01. Google TPU向輝達GPU發起衝擊,ASIC市場有望迎來爆發增長近期,AI市場火熱,Google對輝達發起最大衝擊,此前輝達的GPU一直穩居AI晶片王座,不容挑戰,但在Google發佈Gemini 3後,市場的風向開始轉變,Google的這一模型採用的是自研TPU進,而不是輝達GPU,更重要的是,業內認為其已經“超越”了OpenAI的GPT模型。除了Gemini 3,今年The Information也報導,Meta 正在與 Google 進行秘密談判,計畫大批次採購 Google 的 TPU 晶片,用於部分替代輝達的 GPU 以支援其龐大的資料中心 AI 運算。2027年Meta 可能將直接採購數十億美元的 TPU 晶片,部署於自建的資料中心此前Google有限責任公司已與人工智慧初創公司Anthropic達成一項價值數百億美元的交易。Anthropic官宣原話:宣佈計畫擴大對Google雲技術的使用,包括高達一百萬個 TPU,這將大幅提升計算資源,以持續推動人工智慧研究和產品開發的邊界。此次擴展價值數百億美元,預計將在 2026 年上線超過一吉瓦的容量。零氪認為,在Gemini 3等非GPU AI 模型推動下,近期 AI 算力需求逐步由訓練算力轉向推理算力,以Google TPU 為代表的 ASIC 在 AI 推理領域具備不遜色於輝達 GPU 的性能以及更低的功耗,有望在 AI 推理領域對 GPU 實現部分替代。02.液冷部署超1GW,Google伺服器液冷及整機方案回顧在 2024 年的 Google I/O 開發者大會上,Google CEO 桑達爾·皮查伊透露,Google的液冷裝置數量已增長至……約1吉瓦。Google的液冷技術已從晶片、伺服器、機架到資料中心基礎設施等各個層面進行了大規模開發。在晶片和伺服器層面,Google開發了冷板回路,其中冷板採用串聯和並聯配置,以滿足各個平台特定的散熱管理需求。Google的液冷故事始於 2018 年的 TPUv3,這是Google首次在量產 AI 伺服器上引入直接液冷。TPUv3 的液冷冷板採用銅材質、微通道鰭片結構,並設計了一種獨特的“中心衝擊、雙向分流(split-flow)”內部流道。這種結構相比傳統直通式流道具有更低的熱阻,更能有效覆蓋晶片中心的熱點區域。TPUv3 使用液冷的意義不僅在於溫度下降,而是直接帶來性能提升:它在同體積內實現 1.6 倍的 TDP 支援,頻率提升約 30%,並使得 TPU 超算的規模可以在相同空間內翻倍。TPUv3冷板的橫截面圖。冷板通過機械方式連接到TPUv3上。TPUv3產生的熱量通過導熱介面材料傳遞到冷板底座。Google開發的行內冷卻液分配單元,適配TPU V3。CDU 系統由泵和液-液熱交換器組成,用於將機架冷卻液回路與設施冷卻液回路隔離,從而為 IT 系統回路提供更小、化學成分更可控、更清潔的泵送冷卻液。CDU 由 6 個模組化 CDU (mCDU) 組成。在Google的 CDU 架構中,一個 mCDU 是冗餘的,這使得Google能夠實現整個機房範圍內的 CDU 可用性。約99.999 %自 2020 年以來一直如此。Google CDU 機隊從 2020 年第一季度 (Q1) 到 2024 年第四季度 (Q4) 的正常執行階段間。進入 2021 年,TPUv4 代表Google液冷技術邁向更高的工程複雜度。這一代 TPU 採用裸芯(bare die)封裝,冷板底部增加了“台階式接觸面”,精準穿過晶片封裝的機械圍框,直接觸達裸露的矽片表面。同一代還首次引入並聯液冷流道和主動流量控制閥,通過伺服器級閉環控制實現不同晶片的精準流量與溫度分配。Google特別指出,從 TPUv4 開始,液冷不再只是“去除熱量”,而變成“可控、可調的高性能熱管理系統”,直接服務於 AI 訓練過程中負載波動大、功耗變化快的特點。此時的液冷已經從被動散熱走向主動熱管理,是全新的計算架構能力組成部分。TPUv4 裸晶片封裝的橫截面示意圖。(c)帶底座的 TPUv4 冷板底座。TPU v5p也採用冷板式液冷技術,下圖為Google液冷式 AI 超級電腦方案。Google的第七代 TPU Ironwood 性能比肩輝達的B200,同時晶片的功耗也在飆升,Google的TPU今年功耗單晶片突破600w,叢集功率高達10MW。目前已經確認採用冷板式液冷技術。Ironwood晶片托盤。每個托盤包含4個Ironwood TPU晶片。該托盤採用液冷散熱。再上一層,每個機架可容納 16 個 TPU 托架,共計 64 個 TPU。該機架與另外 16 個 CPU 主機機架相連。機架內的所有互連均採用銅纜;OCS 提供與其他機架的連接。03.Google液冷CDU,加液車產品開發歷史Google開發的行內冷卻液分配單元,適配TPU V3。CDU 系統由泵和液-液熱交換器組成,用於將機架冷卻液回路與設施冷卻液回路隔離,從而為 IT 系統回路提供更小、化學成分更可控、更清潔的泵送冷卻液。CDU 由 6 個模組化 CDU (mCDU) 組成。在Google的 CDU 架構中,一個 mCDU 是冗餘的,這使得Google能夠實現整個機房範圍內的 CDU 可用性。Google發佈的第五代CDU單機可支援高達2MW的散熱能力,並且通過三塊並聯液-液換熱器、無密封高性能泵和全冗餘設計,實現了超高壓差、超高流量與極低溫差的散熱性能,同時相容風冷與液冷混合場景;更重要的是,Google還將該方案開源到OCP社區,為行業提供了一套面向AI時代超高功率資料中心的“液冷心臟”級解決方案。Google還開發了多種工具,其中包括一個相對較大的“注液套件”,用於在部署和日常維護期間向CDU裝置注液和排液。“注液套件”由一個150加侖的液體罐、泵、過濾器和其他輔助裝置組成。Google還開發了一種相對較小的推車,用於為IT托架和IT機架歧管等小型裝置注液和排液,如圖所示。IT托架注液推車由供液罐和回液罐、泵、電磁閥、空氣壓縮機和人機介面(HMI)以及其他輔助元件組成。這些工具由Google及其外部合作夥伴定製開發,並已通過認證,可在Google全球資料中心範圍內使用。Google資料中心大規模部署節能型液冷IT系統,得益於端到端供應商到資料中心模式的開發,該模式用於設計和交付IT規模和資料中心規模的液冷裝置。推薦的模式需要一個強大的多供應商供應鏈和生態系統,以確保端到端熱工水力性能、質量和可靠性達到最高標準。此外,建議資料中心所有者制定部署計畫,並考慮液冷裝置的端到端生命周期。利用開放標準可以加速資料中心液冷技術的規模化應用。04.ASIC液冷市場展望據媒體報導,預計 2025 年Google和 AWS 的 ASIC 合計出貨量將達到 400 萬片以上,後續 Meta,字節等廠商也將加快部署自研 ASIC 解決方案,ASIC 市場將迎來加速擴張,有望推動液冷需求進一步提升。此前台灣負責人在半年度財報發佈會也表示,最大客戶持續加大ASIC投入,預估明年這部分成長會滿可觀。 ASIC是高度客制化,包括水冷板數量與系統設計較GPU更複雜,儘管目前GPU水冷營收比重較高,但是高階ASIC專案投入速度快於GB系列,而且對水冷解決方案需求明顯升溫,預期將會成為後續重要成長引擎之一。從富邦發佈的台積電晶片研報資料來看,ASIC晶片目前市場份額正在快速升高,預估在AI市場的推動下,預估到明年ASIC晶片市場份額將會快速升高至36%-40左右。 (零氪1+1)