#最冷
【MWC 2026】出海硬剛輝達!華為昇騰950超節點及液冷架構解析
01. 華為攜950 SuperPoD出征海外,MWC展會硬剛輝達昨天,在 2026 年巴塞隆納世界移動通訊大會上,華為計算產品線總裁張世偉發佈了最新的 SuperPoD 產品 Atlas 950 SuperPoD、TaiShan 950 SuperPoD 以及一系列計算解決方案,標誌著這些產品首次在全球亮相。華為Atlas 950 SuperPoD專為人工智慧資料中心部署而設計,整合了8192顆華為昇騰950 DT晶片,是華為最新的高性能人工智慧基礎設施產品。此次活動將為華為提供向海外客戶展示其人工智慧解決方案的機會,報告補充道,SuperPoD計畫於2026年第四季度商用。除了Atlas系統外,華為還展示通用計算平台TaiShan 950 SuperPoD,以及包括TaiShan 500和TaiShan 200在內的下一代伺服器。02. 叢集級人工智慧:華為Atlas 950 SuperPoD揭秘在聊華為的950前,先簡單梳理下華為昇騰AI晶片出貨節點。25年9 月 18 日,在華為全聯接大會 2025 上,華為輪值董事長徐直軍公佈了最新的 AscendAI 晶片路線圖。根據路線圖顯示,華為在25年 Q1 已經推出了 Ascend910C,2026 年 Q1 推出全新的 Ascend950PR晶片,2026 年 Q4 推出 Ascend950DT,2027 年 Q4 推出 Ascend960 晶片,2028 年Q4 推出 Ascend970 晶片。關於華為的Atlas 950 SuperPoD的架構特點: 華為為其SuperPoD開發了一種名為UnifiedBus的新型互連架構,旨在與NVIDIA的NVLink競爭。在基於 UnifiedBus 的 Atlas 950 SuperPoD 每個機櫃整合 64 個 NPU,最高可擴展至128個機櫃,也是就 8,192 個 NPU,可以為為大規模人工智慧訓練和高並行推理提供卓越的性能。與傳統叢集相比,它顯著提升了模型訓練效率、可靠性和推理性能。950超節點整機櫃是通過正交架構,可實現零線纜電互聯,採用液冷接頭浮動盲插設計做到零漏液,其獨創的材料和工藝讓光模組液冷可靠性提升一倍。其創新的 UB-Mesh 遞迴直連拓撲網路架構,支援單板內、單板間和機架間的 NPU 全互聯,以 64 卡為步長按需擴展,最大可實現 8192 卡無收斂全互聯。03. 液冷唯一標配!華為950超節點液冷用量及架構解析華為950 Atlas SuperPoD採用面向大規模AI訓練場景的超節點架構設計。該系統由8192張 Huawei Ascend 950昇騰加速卡構成,單機櫃配置64張加速卡,總體由128個電腦櫃和32個互聯機櫃組成,整套系統共計160個機櫃,形成完整的大規模AI算力叢集。在散熱方案上,Atlas 950 SuperPoD全面採用全液冷架構設計,不提供風冷版本選配,出廠即為液冷機櫃。這一策略表明,隨著算力密度和功耗持續提升,液冷已從傳統的可選配置升級為基礎架構能力。通過全液冷部署,系統能夠實現更高的功率密度、更優的能效表現以及更穩定的運行環境,滿足大模型訓練等高強度負載的長期運行需求。同時,統一液冷形態也有助於提升系統交付效率與維運標準化水平,降低複雜度,體現出當前AI資料中心從“風液混合”向“全液冷”演進的趨勢。整機櫃架構方面,華為950採用高密度超節點設計。單機櫃由16台1U伺服器構成,總計整合64顆NPU晶片,整櫃設計功耗約75kW,已進入典型高密度液冷部署區間。在散熱方案上,整體採用冷板式液冷架構,對核心高功率器件進行直接液冷覆蓋,以保障在高算力負載下的穩定運行與能效表現。在系統架構層面,該方案機櫃內部不配置Rack級CDU(機架內CDU),而是採用機櫃式CDU進行統一冷卻液分配與控制。這種集中式CDU部署方式有利於提升維護便利性與系統一致性,同時減少機櫃內部空間佔用,最佳化結構佈局。伺服器方面,華為950平台採用分佈式獨立冷板架構,在每一顆NPU上均配置單獨冷板,實現對高功率核心器件的精細化散熱管理。據業內資訊顯示,當前華為尚未大規模引入MLCP技術,而是以成熟穩定的單級冷板方案為主,以兼顧可靠性與工程可落地性。在管路設計上,華為採用EPDM材質的液冷軟管,強調柔性與裝配便利性,並未像 NVIDIA 那樣大量採用不鏽鋼金屬波紋管結構。同時,在連接方式上,華為引入浮動接頭設計,以緩解裝配公差、熱膨脹及振動帶來的機械應力,從而提升系統長期可靠性。值得關注的是,華為950方案中液冷覆蓋範圍進一步擴大。此前液冷主要集中於CPU/NPU等核心晶片,本次方案則將光模組納入液冷散熱體系。在超節點(Supernode)架構下,光互連密度與頻寬需求顯著提升,光器件功耗持續攀升,傳統風冷逐漸難以滿足熱管理要求。隨著高速光模組(如800G及以上)功耗進入更高區間,液冷正從“可選方案”向“必選路徑”轉變,這也標誌著伺服器液冷從核心計算晶片向系統級關鍵器件全面擴展。更多液冷前沿趨勢,液冷大會現場呈現 2026年4月14日至15日,第五屆資料中心液冷峰會暨展覽會將在上海舉行。本次大會由零氪主辦,聚焦AI時代資料中心散熱技術升級與產業生態協同,吸引了包括整機廠、晶片廠、資料中心營運商及核心裝置供應商在內的產業鏈頭部企業參與,預計2000位行業專家參與。 (零氪1+1)
西伯利亞的冬天有多可怕?汽車幾個月不敢熄火,上個廁所都要拿命去搏!
眾所周知,南極洲是地球上最冷的大陸,但是在有人居住的區域,西伯利亞的冬天才是真正的生命禁區!這裡的寒冬長達七個月,冷到呼吸的水汽會瞬間在臉上凝結成冰碴,河裡的魚剛被撈起來就被凍成硬邦邦的“冰棍”,極端低溫甚至能達到零下71℃,讓這裡的一切生命活動都圍繞著“對抗寒冷”展開。西伯利亞的冷從來不是溫和的降溫,而是源於獨特的地理環境,高緯度讓這裡接收的太陽輻射極少,東面、西面、南面被山脈環繞,只有北面向北冰洋敞開,北極的冷空氣能長驅直入並在谷地中停滯,再加上西伯利亞冷高壓的長期盤踞,讓這裡成了冷空氣的“聚集地”,最終造就了這場漫長的極寒考驗。極端的低溫不僅重塑了西伯利亞的自然景觀,更徹底改變了當地的生活節奏,尤其是出行依賴的汽車,在冬天成了需要時刻守護的“夥伴”,稍有疏忽就可能陷入癱瘓。當地居民深知極寒對汽車的破壞力,機油會在低溫下變得像凝固的油脂,失去流動性無法潤滑發動機,電瓶電量會快速流失,那怕用特製保溫棉覆蓋車身,每隔兩小時啟動一次預熱,在零下30℃以下啟動汽車都要耗費數小時。汽車一旦熄火便無法重啟,在積雪封路、救援困難的冬季,被困在路上往往意味著致命的危險,而帶地暖的車庫費用高昂,多數家庭難以承受,於是讓汽車從10月到次年4月持續怠速運轉,成了很多居民的無奈選擇,即便會耗費大量的燃油,也比失去出行能力更穩妥。新能源汽車在這裡完全無法立足,老式蘇聯汽車憑藉簡單的機械結構,反而能在零下40℃的環境中勉強啟動,偶爾還能看到駕駛員在發動機下生火解凍,這些特殊的用車場景,都要拜極寒氣候所賜。如果說汽車不熄火是為了應對機械的脆弱,那麼人類在極寒中的暴露,就是直面生命的極限,那怕是短暫離開溫暖的房屋,比如上個廁所,都要做好生死較量的準備。人體的核心體溫低於35℃就會進入凍僵狀態,而在西伯利亞的核心寒區,暴露在外的皮膚不到5分鐘就會出現凍傷,皮膚會從蒼白變得麻木,後續可能發展為組織壞死,要是沒做好防護,簡單的如廁往返,就可能讓手腳留下永久性損傷。更危險的是極寒對身體機能的破壞,寒風吹拂下,體溫會快速下降,初期會劇烈寒戰、牙齒打顫,隨著體溫降低,意識會逐漸模糊,陷入昏迷。2012年,西伯利亞遭遇幾十年來最強寒潮時,10天內就有100多人因嚴寒失去生命,近2000人凍傷,其中不少人就是因為短暫暴露在戶外,沒能及時保暖導致悲劇發生。當地人出門時會裹上厚重的鹿皮大衣、帽子和靴子,那怕是這樣,也會儘量縮短在戶外停留的時間,赤手觸碰金屬更是絕對的禁忌,因為低溫會讓皮膚瞬間粘在金屬表面,強行拉扯就會撕裂皮膚,這些刻在骨子裡的警惕,都是用無數教訓換來的。極寒早已滲透到西伯利亞生活的每一處細節,為了熬過漫長的冬季,當地人從8月末就開始進行冬儲,醃肉、煙燻魚、凍魚堆滿庫房,土豆、胡蘿蔔等耐儲蔬菜被放進地窖。每家每戶還要儲備大量的木材,屋裡的火爐需要整夜燃燒,一旦熄滅,屋內溫度在1小時內就會降到零下30℃以下。即便是這樣精心準備,供暖系統故障、燃油耗盡等意外,依然可能讓當地居民的生存陷入危機。極寒的西伯利亞,讓我們深刻地認識到,自然力量的強大足以重塑人類的生活方式,而生命在逆境中頑強生長的姿態,更成了這片冰封土地上最動人的風景,這份在嚴寒中堅守的勇氣,遠比寒冷本身更令人震撼。 (寰宇志)
他在戈壁灘上,為全球算力退燒
美國矽谷,聖克拉拉。輝達即將完成GB300液冷方案認證,坐鎮北美主場,在溫控領域實力雄厚的維諦,希望繼續主導市場。此前,這一格局已經延續了很多年。但這一次,他們碰到了中國廠商的強力挑戰。最終的結果是,維諦(Vertiv)保住了全球系統級合作夥伴的地位,但同時在中國市場上,他們不得不做出讓步。迫使其讓步的,是以英維克、高瀾為主的中國廠商。據第三方行業測算,2025年Q3英維克拿下輝達G300中國區液冷機櫃近一半市場份額。此外,它還在全球範圍內,為維諦提供關鍵零部件。更重要的是,它通過了輝達極其嚴苛的NPN Tier1認證,是中國大陸唯一獲得該認證的液冷供應商。過去,維諦一家獨大的格局,從此被改寫。敗給英維克,維諦並不冤,畢竟領銜英維克的不是泛泛之輩,而是前華為悍將齊勇。早在二十多年前,朗訊、北電、摩托羅拉等一眾美國通訊廠商,就敗在華為陣下,而齊勇當時就任職於華為電氣。從華為離職後的齊勇,在溫控領域默默耕耘了近二十年。這期間,他歷經技術的多次迭代,最終在AI液冷時代,臻於極致,登頂產業巔峰。過去十幾年,全球AI產業的敘事一直圍繞算力、模型和應用展開,而散熱是一個長期被忽略的主戰場。隨著算力密度持續提升,當單個GPU功耗超過千瓦時,人們才幡然醒悟:如果散熱失控,GPU再貴、演算法再先進,都是廢鐵。面對飆升的功耗,傳統風冷技術開始頂不住了。於是,液冷技術走到台前。不只國內廠商,包括維諦在內的全球頭部玩家,都在往液冷方向轉型。但問題也恰恰出在這裡。很多廠商嘴上說擁抱液冷,腦子卻還停留在風冷時代,其產品針對穩態運行的邏輯設計,難以應對AI時代的極端工況和極端負載。更麻煩的是,液冷本身也不是裝上就完事。冷板會不會被腐蝕?管路會不會漏液?冷卻液用久了會不會失效?這些事故一旦出現,輕則停機,重則整機報廢,讓很多客戶望而卻步。而齊勇帶領團隊,跳出行業思維慣性,從真實場景需求出發,去倒推AI時代究竟需要怎樣的液冷技術。最終,他們做出了令輝達難以拒絕的液冷部件和方案。以快接頭為例,英維克自研部件可滿足插拔200萬次依然穩定無故障,遠超行業平均5-10萬次的水平。微流道設計的冷板,則將熱阻值降至行業平均水平的一半以下,晶片發熱瞬間被導走,不會因過熱卡頓、當機。再加上冷卻液分配單元(CDU)的加持,猶如一個聰明的大管家,可精準泵送冷卻液、控制溫度壓力、監測漏液,節省每一度電。這種全端自研的液冷方案,從一開始就對齊了輝達的需求。它不光為穩態工況而設計,而是充分考慮到輝達AI伺服器在極端功耗、極端熱密度和長期滿負荷運轉的現實,即便在最差條件下,依然可控、可交付。這也是黃仁勳反覆斟酌之後,最終選擇英維克的原因。英維克在液冷時代的崛起,很大程度上,要歸因於齊勇的戰略遠見。早在2015年,齊勇就預判到,隨著資料中心算力密度的快速提升,傳統風冷散熱已逼近物理極限,將難以為繼。彼時,AI尚未爆發,雲端運算才初現端倪,主流資料中心仍在用風冷,液冷被視為超前的小眾技術。客戶擔心,液冷技術不成熟,一旦漏液,將導致價值數百萬的伺服器報廢。團隊內部也有人反對,認為液冷研發投入太大,風險太高,應該先鞏固公司在傳統基站業務上的地位。面對各方質疑與阻力,齊勇力排眾議,堅持押注液冷賽道。理由很簡單,技術趨勢不可逆,液冷是未來的必然方向。另外,風冷時代,市場長期被外資主導,液冷是國產換道超車的機會。拍板不容易,做起來更難。在英維克之前,無論冷板液冷還是浸沒式液冷,早有美國企業積累了數十年專利,行業主流的做法是:外購零部件,然後做整合。但齊勇卻劍走偏鋒,堅持自研核心零部件。這個決定,最初只是為了突破外資的技術壁壘,但隨著項目的推進,齊勇更堅信,只有全端自研才能解決困擾行業多年的耦合難題。液冷不是一個零件,而是冷板、接頭、冷卻液等在一起工作。過去,這些零部件來自不同供應商,將它們拼接在一起,適配困難不說,接觸久了,還容易發生漏液等嚴重事故。在算力飆升和極端負載之下,更是漏洞百出。齊勇拒絕拼湊思路,提出全鏈條戰略,在公司內部組建跨學科團隊,統籌推進全端自研。核心部件的研發沒有捷徑。為此,齊勇和他的團隊,面臨種種技術挑戰。在快接頭研發初期,為瞭解決密封件老化、插拔精度不足等問題,團隊與英特爾聯合進行了上千次的循環測試。因為複雜度極高,原計畫半年完成的測試,實際耗時接近一年。同樣經過上千次測試的,還有微通道冷板。這是英維克的專利技術,換熱效率較傳統冷板大幅提升。為瞭解決漏液這個液冷行業最大的痛點,英維克甚至自研了長效液冷工質。此舉,不僅打破了國外技術壟斷,更突破傳統工質的腐蝕魔咒,可實現5年免維護,讓裝置告別生鏽漏液。大膽押注液冷賽道的齊勇,最終摘到了果實。在AI算力大爆發時代,英維克憑藉多年的前瞻性佈局和技術積累,接住了輝達的潑天財富,成為中國液冷之王。加冕液冷之王,讓齊勇身處聚光燈下。過去一年,在輝達等巨頭訂單的刺激下,英維克股價狂飆,從每股31元一路上漲至最高117元,市值破千億。齊勇也因此賺得缽滿盆滿,按直接和間接持股計算,身價超過200億元。然而,就在媒體試圖打探這位AI液冷新貴的消息時,卻發現他十分低調。最近幾年,齊勇很少接受媒體專訪,行業峰會、論壇等公開場合也鮮少露面,似乎把更多時間花在了工作上。這位前華為老兵不喜歡拋頭露面,而更願意待在客戶現場,這是他在華為收穫的一筆寶貴財富。1968年出生在內蒙古包頭的齊勇,於上個世紀90年代,坐上南下的綠皮火車。在深圳,他通過社招進入華為電氣,從此開啟了與精密溫控的不解之緣。期間,他從普通電氣工程師成長為技術部門負責人,主持了通訊基站溫控裝置研發,參與多項關鍵技術突破。遺憾的是,2001年由於戰略調整,華為將該業務賣給了美國艾默生。但這段經歷,為齊勇植入了華為“以客戶為中心,奮鬥者為本”的基因,並養成現場主義的工作習慣:問題在現場,答案也在現場。這也成為他後來創業的核心指導思想。2005年創業初期,英維克只有8人團隊,沒有市場,沒有產品,沒有資源,沒有訂單!但有理想和一腔熱血。齊勇租來民房當辦公室,在樓道里搭建實驗室,用二手裝置搞研發。為了趕工期、偵錯產品,他帶領團隊通宵達旦,每天工作16個小時,餓了泡泡麵,累了趴在桌上打盹。一次產品測試中,空調壓縮機在高溫下突然爆裂,飛濺的金屬碎片擦過齊勇耳際,他卻異常冷靜地說:“如果連安全測試都通不過,我們憑什麼讓客戶信任?”這種對技術的極致追求,讓英維克成立僅一年,就入圍中國移動、中國聯通採購名單,打破了外資品牌在基站溫控領域的壟斷。站穩了腳跟的齊勇,並沒有忘記初心,反而以更大的熱情投入現場。為了打造更可靠的產品,他不僅組建了國家級測試中心,還要求研發人員將更多時間投入現場。從40℃高溫的新疆戈壁灘,到零下30℃的東北雪林,再到海島高鹽霧環境……英維克的產品經受住了各種極端測試。在齊勇看來,實驗室資料再完美,也抵不過現場真實運行。20年間,正是在對可靠性近乎偏執的追求中,英維克從通訊基站起步,把溫控一步步做到了儲能、AI資料中心等眾多領域,並在一個個高難度場景中,贏得客戶信任。當年,日本軟銀在全球尋求高可靠性基站方案,英維克團隊帶著裝置飛赴東京,經受住一輪又一輪近乎苛刻的測試,敲開了海外市場的大門。今天,站在AI算力時代的風口上,英維克再次贏得了輝達的信賴。科技產業一日千里,雖然英維克已在冷板市場佔據先機,更高效的浸沒式液冷路線,也正在逼近。前有強敵,後有追兵,壓力始終存在。“潮平兩岸闊,風正一帆懸。”去年8月,時逢英維克成立20周年,齊勇意氣風發,目光投向更遠的未來。“我們希望在英維克三十而立時,真正站立於精密環境控制領域的全球巔峰。”他說。 (華商韜略)
2026十大突破性技術─深度解讀超大規模AI資料中心:核電站供電、液冷取代空調,AI正在重塑全球能源版圖
這是《麻省理工科技評論》2026 年“十大突破性技術”深度解讀系列的第四篇內容,關注 DeepTech,關注新興科技趨勢。在廣闊的農田和工業園區裡,一棟棟塞滿電腦機架的超大型建築正拔地而起,為 AI 競賽提供動力。這些工程奇蹟是一種新型的基礎設施:它們是專為訓練和運行超大規模大語言模型而設計的超級電腦,並配備了專用的晶片、冷卻系統,甚至獨立的能源供應。2025 年,AI 基礎設施的投資規模已從“數十億美元”的量級躍升至“兆美元”。1 月 21 日,美國總統川普在白宮宣佈了“星際之門”(Stargate Project)——由 OpenAI、軟銀、Oracle 和阿布扎比投資基金 MGX 組建的合資企業,計畫四年內向美國 AI 基礎設施投資 5,000 億美元,首期即刻部署 1,000 億美元。軟銀 CEO 孫正義出任董事長,OpenAI 負責營運。星際之門正迅速從藍圖變為現實。位於德克薩斯州阿比林的旗艦園區已於 9 月投入營運,Oracle 開始交付首批輝達 GB200 晶片機架。到年底,星際之門已宣佈五個新址,總規劃容量接近 7 吉瓦,投資額超過 4,000 億美元。與此同時,OpenAI 還在阿聯、挪威和阿根廷啟動國際佈局,阿根廷巴塔哥尼亞的“星際之門阿根廷”項目投資高達 250 億美元,將成為拉丁美洲最大的資料中心。但星際之門只是冰山一角。據 HSBC 估計,全球已規劃的 AI 基礎設施投資超過 2 兆美元。亞馬遜承諾投入 1,000 億美元,Google 750 億美元,Meta 650 億美元,微軟僅 2025 年就將支出 800 億美元。據一項分析估算,OpenAI 已承諾在 2025 年至 2035 年間向硬體和雲基礎設施支出約 1.15 兆美元,涉及輝達、AMD、Oracle、微軟、Broadcom 等七家主要供應商。超大規模 AI 資料中心將數十萬個 GPU 晶片,如輝達的 H200 或 GB200,捆綁成協同工作的叢集。這些晶片擅長平行處理海量資料,每秒執行數兆次數學計算。數十萬英里長的光纖電纜像神經系統一樣連接著它們,巨大的儲存系統晝夜不停地輸送資料。但驚人的算力是有代價的。首先是電力。國際能源署(IEA)預測,全球資料中心電力消耗將在五年內翻一番以上,到 2030 年將超過 1,000 太瓦,相當於整個日本的用電量。僅在美國,資料中心已佔全國電力消耗的 4.4%,而 2018 年僅為 1.9%;到 2028 年可能攀升至 12%。在弗吉尼亞州這個全球資料中心最密集的地區,資料中心消耗了該州約 26% 的總電力。在建的最大型資料中心可能吞噬超過一吉瓦的電力,足以為約 75 萬戶家庭供電。某些規劃中的園區佔地 5 萬英畝,耗電量可達 5 吉瓦,超過美國現有最大核電站的容量。Grid Strategies 估計,到 2030 年美國將新增 120 吉瓦電力需求,其中 60 吉瓦來自資料中心,相當於義大利的峰值電力需求。目前,煤炭以約 30% 的份額成為資料中心最大電力來源,天然氣佔 26%,可再生能源約 27%,核能佔 15%。儘管可再生能源增長最快,但天然氣和煤炭仍將在 2030 年前滿足超過 40% 的新增需求。科技巨頭們正競相尋找清潔方案:亞馬遜從賓夕法尼亞州核電站直接獲取約 960 兆瓦電力;Google與 Kairos Power 簽署協議部署小型模組化反應堆;OpenAI 在挪威利用水電資源建立資料中心。但核能從開工到發電需要 5 至 11 年,資本支出是天然氣的 5 至 10 倍,遠水難解近渴。第二個挑戰是冷卻。AI 晶片的功率密度從過去的每機架 15 千瓦飆升至 80 至 120 千瓦,傳統空調已無法滿足需求。直接晶片冷卻(D2C)正在成為主流,這種技術將冷板直接安裝在 GPU 上,閉環系統在熱源處帶走 70% 至 80% 的熱負荷。浸沒式冷卻則更進一步:伺服器被浸泡在非導電液體浴槽中,可將冷卻能耗降低 50%,水耗降低最高 91%。微軟最新設計採用晶片內微流體冷卻,微小通道直接蝕刻在矽晶片背面,使 GPU 溫度降低 65%。然而,許多設施仍依賴蒸發冷卻,消耗大量淡水。據估計,2023 年美國資料中心直接消耗約 175 億加侖水,到 2028 年可能翻兩番。僅訓練 GPT-3 就蒸發了 70 萬升清潔淡水。彭博社報導,自 2022 年以來建造的美國資料中心約三分之二位於高水壓力地區。公眾正在為這些建設買單。Dominion Energy 的 2025 年報告顯示,弗吉尼亞州居民電費預計到 2039 年將翻一番以上,主要因資料中心增長。在佐治亞州牛頓縣,某些擬議資料中心每天請求的水量超過整個縣的日用水量,迫使當地官員在拒絕項目、要求替代冷卻方案或對居民實施限水之間艱難抉擇。地方反對正在加劇。據 Data Center Watch 統計,自 2023 年以來美國已有 180 億美元項目被取消,460 億美元被延遲。僅 2025 年第二季度,被阻止或延遲的項目價值達 980 億美元。居民們因噪音、光污染、水資源枯竭和電費上漲而組織抵制;2025 年 12 月,超過 200 個環保組織聯名致信國會,呼籲暫停批准新的資料中心。科技高管們對此不以為然。AMD 首席執行長蘇姿丰在被問及 AI 熱潮是否過度時斬釘截鐵:“絕對不是。”他們將答案訴諸於 8 億每周 ChatGPT 使用者、40% 大型企業的 AI 採用率,以及 AI 作為經濟引擎和國家安全優先事項的戰略價值。OpenAI 首席財務官 Sarah Friar 引用歷史作為辯護:“當網際網路剛起步時,人們總覺得我們建設過度了。看看我們今天在那裡?”這些交易的循環性質以及預測的需求能否兌現,仍是懸而未決的問題。電網規劃者發現科技公司正在向多個公用事業展示同樣的項目以尋求最快的電力接入,使需求預測變得困難。聯邦能源監管委員會前主席 Willie Phillips 坦承:“有些地區預測了巨大的增長,然後又向下調整了。”從 1990 年代的本地伺服器到 2000 年代的雲端運算,再到如今的 AI 超級工廠,資料中心的演進從未停止。生成式 AI 已從瓶中釋放,沒有回頭路。但關於經濟預測是否精準、資源供應能否持續、建成後誰來使用,這些問題的答案,或許只有時間才能揭曉。我們邀請了三位來自產業與科研一線的代表,圍繞其關鍵技術路徑與產業影響進行點評。以下評論內容均為個人見解,不代表《麻省理工科技評論》觀點從算力堆疊到能源博弈:超大規模 AI 資料中心的現狀、瓶頸與趨勢首先需要明確一個核心概念:超大規模 AI 資料中心,絕對不是傳統資料中心的簡單放大版。它誕生的根本驅動力,是為了滿足大模型對算力近乎指數級增長的海量需求。因此它的架構是革命性的,本質上是把數十萬計的 GPU 通過極高速網路“粘合”在一起,形成前所未有的單體式超級電腦。Google、微軟、亞馬遜、Meta 等全球科技巨頭,都在投入數千億美元競相佈局。但與此同時,這個龐然大物也帶來了一系列前所未有的挑戰:驚人的功耗、棘手的散熱、巨大的能源壓力,以及如何在規模擴展與效率提升之間找到最佳平衡點。目前業界的技術路徑已經比較清晰,核心思路是通過高速互聯技術建構高效的“超節點”,最大程度減少晶片間的通訊延遲和開銷。算力確實已邁入 ZFLOPS 時代,但“記憶體牆”,即資料搬運的瓶頸,也愈發突出。另一個無法迴避的挑戰是散熱:隨著晶片密度飆升,傳統風冷已力不從心,液冷技術正從“可選項”變為“必選項”,配套供電架構也必須同步升級。而這個產業也面臨著多維度的瓶頸。首先是能源約束。一個超大規模資料中心的功耗可超過 1 吉瓦,相當於一座中型城市的用電量。這使它從單純的電力消費者,變成必須像能源公司一樣深度規劃電力獲取的“准公用事業體”。獲取穩定充足的清潔能源成為首要任務,而全球許多地區老舊電網的承載能力,已開始反向制約資料中心的選址和規模。其次是時間約束。AI 晶片迭代速度極快,約一年一代,遠超傳統資料中心基礎設施兩年左右的更新周期。這導致一個尷尬局面:本代資料中心剛建成,就要準備迎接兩三代新晶片。而市場競爭又要求算力快速上線,建設周期被從近兩年壓縮至一年以內,對預製化、模組化的快速交付能力構成極致考驗。最後是生態與治理約束。算力高度集中必然引發一系列新問題:市場壟斷的擔憂、資料主權的爭議、對當地水資源和環境的影響等。產業競爭也在從純粹的技術比拚,轉向標準與生態之爭——未來是走向開放協作,還是形成若干封閉的私有體系,將深刻重塑整個算力市場的格局。往前看,幾個趨勢比較確定:架構將更加立體協同。“雲端集中訓練、邊緣就近推理”的模式會日趨成熟,“全球算力網際網路”的構想也可能逐步落地,實現跨地域的算力調度與最佳化;它的營運將更加智能高效,用 AI 最佳化資料中心自身能耗會成為標配,行業關注的指標將從單純的 PUE,轉向更本質的“每瓦特電力產出多少有效算力”;這項技術將更加綠色多元,液冷全面普及之外,餘熱回收、水循環等深度綠色方案會加速落地;芯粒(Chiplet)、光計算等後摩爾時代的新技術,也將從實驗室走向產業試點。綜上,超大規模 AI 資料中心無疑是智能時代最關鍵的基石之一,但它也對能源、基建和治理能力提出了巨大挑戰。資料中心正從支撐業務的“成本中心”,演變為驅動創新的“智能生態樞紐”。其成功將取決於能否與電網、社區共建可持續的“數字能源共同體”,並對環境影響實現透明、負責任的管理。未來能在這一領域脫穎而出的,必定是那些以架構創新破解算力瓶頸、以卓越工程能力贏得時間競賽、同時以生態責任感建構可持續未來的實踐者。從電力成本到模型安全:AI 資料中心的三重挑戰隨著大模型的規模化應用,AI 資料中心正面臨一系列深層次的產業挑戰。以下從成本、算力調度和資料安全三個維度,分析當前的關鍵瓶頸與應對方向。首先,電力成本將成為 AI 服務社會的主要成本。大模型目前在正確性和確定性上仍有待改進:錯誤會快速累積,導致不可接受的結果;而提高正確性,則意味著增加計算量;不確定性帶來的重試機制,又可能引發新的錯誤,形成惡性循環。在這一背景下,更廉價的電力意味著在同樣計算成本下獲得更好的模型服務效果。電力成本,正在成為AI能否大規模服務社會的核心變數。其次,加速卡的多樣性將持續提高。隨著時間推移,不同品牌、不同代際的加速卡將長期共存於資料中心。CPU 與 GPU 虛擬化技術以及高速網路技術的發展,將使算力調度更加靈活——推理任務可以有效利用不同加速卡從而降低成本,但大型訓練任務的複雜性仍需適應多樣化的算力環境。短期來看,宏觀的任務調度策略與微觀的通訊計算融合策略會有所幫助;長期來看,建構混合加速卡計算框架將是必然選擇。最後,丟失模型等於丟失資料。大模型有效壓縮了海量資料並支援靈活提取,壓縮比可達十萬倍。丟失一個磁碟容量僅為 700GB 的模型成品,基本等效於丟失 70TB 的原始訓練資料。由於資料的差異化帶來模型的差異化,企業獨有的資料正在轉化為企業獨有的競爭力。在資料安全合規的諸多限制下,企業需要擁有自有算力,在開源模型基礎上精調自有模型。這意味著,基礎設施在保護核心模型方面面臨的挑戰,比傳統資料安全場景更為嚴峻。超大規模 AI 資料中心的關鍵轉向:液冷與新型能源架構超大規模 AI 資料中心是人工智慧時代的關鍵基礎設施。Scaling Laws 揭示了模型性能與參數規模、資料量、算力投入之間的冪律關係 [1],使大模型發展從經驗探索轉向可預測的工程實踐,並推動 Amazon、Google、Microsoft 等科技巨頭斥資數千億美元建構數十萬塊 GPU 互連的超級計算叢集,以滿足大模型訓練的爆炸性算力需求。然而,當 GPU 機櫃的功率密度突破 50 千瓦時(例如輝達 GB200 NVL72 機櫃級系統的功率密度高達 132 千瓦/櫃 [2]),傳統風冷散熱技術成為了制約系統的瓶頸。風冷散熱依賴空氣對流傳熱,其有效功率密度上限為 20-50 千瓦,超過此閾值後,維持散熱所需的風量呈指數級增長,導致風道截面積、風扇功耗、噪音和系統體積急劇上升而難以工程實現。另一方面,全球資料中心預計 2030 年佔全球總用電量 4%-7%、單體資料中心能耗將突破吉瓦級 [3]。因此,傳統的風冷與供電模式已難以為繼,行業正加速向液冷技術及核能等新型能源架構轉型。液冷技術通過直接接觸式散熱並將餘熱用於園區供暖、工業供熱,能夠有效改善資料中心的電能使用效率,而核能的穩定基荷特性為解決“AI 大模型訓練的持續高功耗與傳統電網的負荷平衡模式存在本質衝突”這一困境提供了有效途徑。Google、Amazon、Microsoft 等公司均在積極推進核電工程,以滿足超大規模 AI 資料中心的用電需求 [4]。此外,瑞士 Deep Atomic 公司和美國愛達荷國家實驗室計畫建造首個核動力人工智慧資料中心 [5],標誌著能源-算力一體化資料中心架構正在從概念走向實踐。因此,基於液冷與核能的超大規模資料中心能夠有效地支撐算力規模的擴展與躍遷,代表了全球 AI 算力基礎設施形態的趨勢,也為物理極限約束下的 AI 持續發展開闢了新的空間。 (麻省理工科技評論APP)
資料中心散熱革命,冷機退場,但熱量管理永不過時
資料中心散熱革命:冷機退場,但熱量管理永不過時核心命題:晶片功率飆升正在改寫散熱遊戲規則,傳統冷機可能不再是唯一選擇,但如何高效排熱始終是繞不開的死結。💡 行業共識正在坍塌📌 聚焦Nvidia CEO 黃仁勳在 2024 年 10 月的一次演講中斷言:"液冷將成為主流,空氣冷卻即將過時。"但現實遠比這句話複雜得多,冷卻技術的演變不是簡單的二選一,而是一場關於能效、成本與物理極限的三方博弈。資料中心營運商長期依賴的冷水機組(Chiller)正面臨存在性挑戰。原因很簡單,當單個 GPU 功耗從 300W 狂飆至 1000W 以上時,傳統風冷系統的極限被徹底暴露。行業開始轉向液冷方案,尤其是浸沒式冷卻和冷板式液冷,這些技術能直接接觸晶片帶走熱量,效率遠超空氣介質。但這裡有個被忽視的矛盾:液冷減少了對冷機的依賴,卻無法消除熱量本身。無論採用何種冷卻方式,資料中心每消耗 1 兆瓦電力,就必須向外界排放近乎等量的熱能。問題從"如何冷卻"變成了"如何排熱",而後者的技術壁壘和成本壓力絲毫不比前者低。🔥 Nvidia 的 Rubin 晶片:一場能源危機預告⚠️ 警示Nvidia 即將推出的 Rubin 架構晶片單卡功耗預計突破 1500W,這意味著一個標準 42U 機架的總功耗可能達到 200kW 以上,相當於 150 個美國家庭的用電量。如果繼續沿用傳統散熱方案,資料中心的能源帳單將徹底失控。以某超大規模雲服務商的實際案例為參照:部署 10,000 台搭載 Rubin 晶片的伺服器,總計算功耗約 15MW,但配套的冷卻系統額外消耗 5-7MW 電力。這意味著每投入 1 美元用於計算,就要額外支付 0.35-0.5 美元用於散熱。更致命的是,許多老舊資料中心的電力基礎設施根本無法承載這種負荷,改造成本動輒上億美元。這張表揭示的真相是:即便 PUE(電能使用效率)最佳化到 1.1,散熱消耗仍佔總能耗的 10%。當計算密度提升 5 倍時,散熱的絕對成本增長可能達到 8-10 倍,因為你需要更強的泵、更大的冷卻塔、更複雜的管網。🌊 液冷不是萬能藥,排熱才是終極戰場🔍 洞察液冷技術解決的是"如何把熱量從晶片轉移到冷卻液"的問題,但冷卻液最終仍需通過乾冷器(Dry Cooler)或冷卻塔將熱量釋放到大氣中。這個環節的效率瓶頸,正在成為行業新的焦灼點。歐洲某 AI 訓練中心的工程師曾透露一個細節:他們採用浸沒式液冷後,機房內溫度從 28°C 降至 20°C,但室外冷卻塔的負荷卻增加了 40%。原因在於液冷系統雖然減少了空調能耗,卻對散熱末端提出了更苛刻的要求。傳統冷卻塔依賴水蒸髮帶走熱量,但在低溫或乾燥地區,蒸發效率急劇下降,必須引入乾冷器或混合系統。現實是殘酷的:乾冷器的初裝成本比冷卻塔高 2-3 倍,維護費用也更高,但它能在水資源匱乏地區運行,這對中東、北非的資料中心至關重要。Meta 在瑞典建設的資料中心就完全放棄了水冷,轉而使用全乾冷方案,利用北歐寒冷氣候實現 90% 以上時間的自然冷卻,PUE 常年維持在 1.08 左右。📊 冷機的退場與堅守:一場區域性的分裂✅ 機遇冷機並非即將消亡,而是在重新定義自己的生存空間。在高溫高濕地區(如東南亞、中東),冷機仍然是維持穩定運行的基石;在寒冷地區(如北歐、加拿大),自然冷卻和液冷的組合則大幅降低了對冷機的依賴。以下是不同氣候區域的冷卻策略差異:新加坡政府在 2023 年批准的一項資料中心擴建計畫中明確要求:所有新建設施必須將 PUE 控制在 1.3 以下,否則不予審批。這迫使營運商採用高效冷機配合液冷系統,並投資昂貴的餘熱回收裝置。相比之下,微軟在愛爾蘭的資料中心全年 75% 時間僅依靠外界冷空氣散熱,幾乎不啟動冷機。金句警示:冷機不會死,但它正在從"必需品"降格為"奢侈品",只有那些別無選擇的地區才會繼續為它買單。⚡ 餘熱回收:從成本中心到利潤來源💎 案例芬蘭資料中心營運商 Yandex 將伺服器廢熱輸送至赫爾辛基市政供暖網路,每年向市政府出售熱能收入超過 200 萬歐元,同時獲得稅收減免。這種模式已在北歐多國複製,資料中心從"能源黑洞"變成"城市熱源"。餘熱回收技術的經濟學正在改寫。傳統觀念認為資料中心的熱量品質太低(通常 40-60°C),難以商業化利用。但液冷技術的普及改變了這一點,浸沒式液冷可以將冷卻液溫度提升至 70-80°C,足以直接接入區域供暖系統。計算一筆帳:一個 10MW 規模的資料中心,如果回收 50% 的廢熱用於供暖,在北歐地區每年可節省約 150 萬歐元能源成本,同時減少約 5000 噸碳排放。這不僅符合 ESG(環境、社會、治理)要求,還能顯著改善財務模型。但障礙同樣明顯:餘熱回收需要與市政供暖網路緊密耦合,這意味著資料中心選址必須靠近城市,而城市土地成本、噪音管制、社區反對等問題又會抬高建設門檻。德國法蘭克福就因居民投訴噪音污染,否決了一座計畫中的大型資料中心項目。🧠 跳出框架:散熱的終極解法可能不在地球上🚨 前沿思考當地面資料中心的散熱成本無限逼近算力收益時,也許該重新審視一個瘋狂的想法:把資料中心搬到太空或深海。SpaceX 已在測試衛星算力節點,而微軟的 Project Natick 證明了海底資料中心的可行性。這不是科幻,而是物理學對成本曲線的終極反抗。深海資料中心的邏輯很簡單:海水溫度常年穩定在 4-10°C,無需任何主動冷卻裝置,PUE 理論上可低至 1.05。微軟在蘇格蘭海岸部署的實驗艙運行兩年後,故障率僅為陸地資料中心的八分之一,因為密封環境隔絕了氧氣和濕度,延長了硬體壽命。但商業化路徑仍不清晰。海底資料中心的部署和維護成本極高,光纜鋪設、潛水器維護、緊急故障處理都是難題。更致命的是法律真空:誰擁有海底資料中心的產權?如何監管跨國海底網路?這些問題在聯合國海洋法公約中沒有明確答案。太空資料中心則面臨另一個極端挑戰:如何在真空環境中散熱?沒有空氣對流,熱量只能通過輻射排放,這需要巨大的散熱板,衛星體積和發射成本會急劇膨脹。但長遠來看,太陽能充足、無需地租、零碳排放的優勢可能抵消這些劣勢。🎯 結論:熱量是新的稀缺資源資料中心行業正在經歷一場範式轉移:從"如何用更多能源冷卻"轉向"如何讓每一焦耳熱量產生價值"。冷機可以減少,但熱量管理的複雜度只會增加。未來的贏家不是那些擁有最強冷卻裝置的公司,而是那些能把散熱變成系統工程、把廢熱變成商品的玩家。當 Rubin 晶片真正量產時,整個行業將面臨一次集體大考。那些仍在用 2020 年思維建設資料中心的人,會發現自己的資產迅速貶值;而那些提前佈局液冷、餘熱回收、智能熱管理的先行者,將在能效競賽中拉開代差。最後一句話送給所有從業者:在算力軍備競賽中,散熱能力才是真正的護城河,因為摩爾定律可以失效,但熱力學第二定律永遠有效。💬 專業評論解讀:散熱焦慮背後的行業共識與分歧🎯 核心共識:熱力學定律無法繞過看完內容,大家的評論雖然角度不同,但都指向同一個鐵律:熱量守恆定律不會因為技術進步而失效。David Chen 工程師的發言最為直白:"第一熱力學定律仍然適用,GPU 消耗的每一焦耳電能最終都會變成必須排出的熱量。"這句話擊碎了所有對"液冷能消除散熱問題"的幻想。🔍 關鍵洞察變化的不是熱量總量,而是處理方式的靈活性。溫水液冷(45-60°C)允許更高的冷卻液溫度,這意味著可以減少甚至消除機械製冷(冷機),轉而依賴自然散熱或環境輔助冷卻。這不是技術突破,而是物理約束的重新分配。⚖️ 分歧點一:乾冷器 + 密閉循環能否扛住極端場景?第一位評論者提出了最尖銳的問題:"在高溫缺水地區,乾式散熱 + 密閉循環系統能否在不犧牲韌性的前提下擴展?"這個問題戳中了行業痛點。乾冷器(Dry Cooler)的優勢是零水耗,但劣勢同樣致命:現實案例:中東某資料中心在 2023 年夏季遭遇 48°C 高溫時,乾冷器的散熱能力下降了 40%,迫使營運商臨時啟用備用冷機,能耗飆升 60%。這暴露了一個殘酷真相:乾冷器在理論上完美,但在極端氣候下的韌性仍需驗證。第一位評論者的擔憂完全合理——當機架密度衝破 200kW 時,任何散熱方案的容錯空間都在縮小。你不能允許系統在最熱的那 5% 時間裡崩潰,因為 AI 訓練任務是 7×24 小時運行的。📈 分歧點二:散熱是維運話題還是戰略決策?Cheong Nicholas 的發言將討論拉到了更高維度:"冷卻不再是設施部門的話題,而是董事會等級的決策。"這個判斷背後有三層含義:1️⃣ 選址邏輯徹底改寫傳統資料中心選址優先考慮:電力成本 > 網路延遲 > 土地價格。但現在必須加入新變數:氣候適配性北歐、加拿大等寒冷地區成為香餑餑水資源可得性新加坡、中東即便電力充足也面臨水限制餘熱消納能力能否接入市政供暖網路直接影響 ROI微軟在愛爾蘭、Meta 在瑞典的選址,本質上是用"地理套利"避險散熱成本。但這種策略有天花板——全球適合建大型資料中心的寒冷地區屈指可數,一旦飽和,晚來者只能硬啃高溫地區。2️⃣ 資本支出的結構性變化評論者提到"影響 CAPEX 規劃",具體體現在:前期投資重心轉移從 IT 裝置轉向散熱基礎設施全生命周期成本重估PUE 1.3 的傳統方案 vs PUE 1.1 的液冷方案,10 年 TCO 差距可達 30-40%靈活性溢價模組化液冷系統初裝貴 20%,但能快速響應算力擴容需求3️⃣ 風險管理的新維度Cheong 提到的"長期風險管理"包括:監管風險歐盟正在推動強制性 PUE 限制和碳稅氣候風險極端天氣頻率增加,散熱系統必須有冗餘設計社會風險社區對噪音、熱島效應的抵制可能導致項目擱淺金句提煉:當散熱成本佔總營運成本的 35% 以上時,它就不再是工程問題,而是生死存亡的戰略問題。🔄 分歧點三:餘熱回收是理想主義還是現實路徑?Chuck Blythe 的評論最具顛覆性:"不要只想著排熱,要想辦法回收熱量。用熱泵將 45°C 溫水升級到 85°C 以上,COP(能效比)可以超過 4,這些熱水有大量工業和農業用途。"這個思路在北歐已經驗證可行,但在其他地區面臨三大障礙:障礙 1:需求匹配難題新加坡資料中心產生的熱水,在當地幾乎找不到買家。即便能供應給工業園區,輸送距離超過 5 公里後,管道熱損失和成本就會吞噬大部分收益。障礙 2:基礎設施鎖定餘熱回收需要與市政系統深度耦合,但大多數資料中心選址時沒考慮這一點。改造成本包括:鋪設保溫管網(每公里 200-500 萬美元)建設熱交換站(500-1000 萬美元/站)法律協調成本(供熱協議談判可能耗時 1-2 年)障礙 3:商業模式不成熟芬蘭案例的成功有特殊性:政府強制要求新建建築接入區域供暖,且給予資料中心稅收優惠。但在美國、亞洲大部分地區,這種政策激勵缺失,餘熱回收項目 IRR(內部收益率)往往低於 8%,無法吸引投資。現實判斷:餘熱回收在 2026 年仍是"錦上添花"而非"雪中送炭"。只有當碳稅真正重到讓排放成本超過回收成本時,這個模式才會從理想走向主流。⚡ 隱藏議題:電網容量才是最大瓶頸David Chen 提到的一個細節值得放大:"省下來的冷機功率可以重新分配給額外的計算容量,提升每單位電網連接的 AI 輸出。"這句話揭示了一個被忽視的戰場:資料中心的增長速度已經超過電網擴容速度。以馬來西亞柔佛州為例,該地區計畫建設 10GW 資料中心產能,但當地電網容量僅 6GW,水資源也嚴重不足。結果是什麼?項目排隊等電力配額,部分營運商被迫自建燃氣電廠,成本暴漲 50%。換個角度看液冷的價值:傳統方案:100MW 計算 + 30MW 散熱 = 130MW 電網需求液冷方案:100MW 計算 + 10MW 散熱 = 110MW 電網需求在電網受限地區,這 20MW 差異意味著能多部署 20% 的伺服器。這才是液冷真正的殺手鐧——不是降低能耗,而是突破電網瓶頸。🚨 Steven Howell 的警告:紙面資料 ≠ 實際性能最後一條評論雖短,但擊中要害:"我見過太多 S45 規格隱藏冷卻極限,紙面數字不等於現場表現。"這是行業潛規則:實驗室 PUE 1.2→ 實際運行 PUE 1.5標稱冷卻能力 200kW/機架→ 實際穩定運行僅 150kW號稱零水耗→ 應急模式仍需蒸發冷卻原因很簡單:裝置廠商的測試條件是理想化的(恆溫 25°C、海拔 0 米、無灰塵),而真實資料中心要應對 40°C 高溫、沙塵暴、電壓波動等極端場景。建議:任何散熱方案都應該按"最壞情況設計,平均情況運行"。別指望系統在最熱的那 1% 時間裡仍能滿負荷,20% 的冗餘設計不是浪費,而是保命。🎯 彙總結論:行業正在經歷認知升級這五條評論共同勾勒出一個事實:資料中心行業正從"技術驅動"轉向"物理約束驅動"。✅ 已達成的共識液冷不是魔法,只是改變了熱量處理方式乾冷器 + 密閉循環在缺水地區有潛力,但韌性待驗證散熱已從維運話題升級為戰略決策餘熱回收理論上可行,但需要政策、基礎設施、商業模式三者對齊❓ 仍在爭議的問題200kW/機架密度下,那種散熱方案的 TCO 最優?電網瓶頸會不會倒逼資料中心向偏遠地區擴散?碳稅和水限制政策會不會重塑全球資料中心版圖?🔮 一個大膽預測2028 年前,我們會看到第一座"負碳資料中心"——不是通過碳抵消,而是通過餘熱回收產生的經濟價值超過自身碳排放成本。這不是環保口號,而是熱力學定律與市場機制共同作用的必然結果。最後一句話:在算力軍備競賽中,誰先解決散熱問題,誰就能在電網、水資源、土地這三重約束下搶到最後的擴張空間。技術迭代可以等,但物理極限不會給你第二次機會。(芯在說)
微軟Maia200發佈,液冷架構曝光,Asic液冷,電源市場迎來新買家
01.微軟Maia 200晶片發佈時隔兩年,微軟宣佈推出第二代人工智慧晶片Maia 200。微軟雲與人工智慧執行副總裁斯科特·格思裡表示,Maia 200採用台積電3奈米工藝製造,每顆晶片包含超過 1400 億個電晶體,為大規模  AI 工作負載量身打造,同時兼顧高性價比。他稱Maia  200是微軟迄今為止部署的最高效推理系統,其每美元性能比微軟目前部署的最新一代硬體提升了30%。他同時表示,Maia 200的FP4性能是第三代  Amazon Trainium的3倍。目前,Maia 200已部署在微軟位於愛荷華州得梅因附近的美國中部資料中心區域,接下來將部署位於亞利桑那州鳳凰城附近的美國西部3資料中心區域,未來還將部署更多區域。Maia 200 的每個 Tray 整合 4 顆晶片,單晶片TDP達750W,並採用完全直連、無交換的高頻寬互連結構。在這種高算力密度、持續滿載的推理工況下,傳統風冷已無法在可控噪音與能效條件下穩定工作,所以在散熱方面,微軟首先採用冷板液冷,每個晶片上覆蓋一塊小冷板,在管路方面採用不鏽鋼波紋管,目前Maia 200的液冷僅覆蓋晶片部分,電源等部件採用風扇輔助散熱。微軟Maia 200伺服器機櫃採用微軟自研的第二代閉環液冷 Heat Exchanger Unit(HXU),也就是saidecar方案。Sidecar是一種外掛在機櫃側面的液冷“小模組”,它最大的特點就是不用去動伺服器本身的結構,也不用把資料中心整個重做水路、換風道、重布管線,方便快速部署。02.2026年成Asic晶片,液冷,電源迎來新機會CoWoS 產能的客戶分配,本質上是 AI 晶片市場話語權的爭奪。從富邦發佈的台積電晶片研報資料來看,ASIC晶片目前在台積電的的CoWoS產能份額正在勻速升高,預估在AI市場的推動下,預估到今年ASIC晶片CoWoS份額將會快速升高至36%-40左右。出來微軟,近期google,aws等廠商接連發佈最新一代aisc晶片及伺服器整機的消息,頭部CSP廠商的節奏明顯加快很多,同時結合台積電的Coswos資料來看,今年將是Aisc晶片市場元年。從液冷,電源等基礎設施廠商來看,24-25液冷,電源廠商基本只能背靠輝達生態,今年Asic市場的快速爆發且出貨量上升有望打破輝達的單點客戶市場,液冷,電源等廠商可以匯入ASIC伺服器市場,從而獲取訂單,對於廠商來看,是利多資訊。今年台灣頭部液冷公司AVC在2025年度財報會發言也稱:今年除GPU平台液冷客戶外,切入ASIC伺服器液冷供應鏈,進入初期匯入階段。部分ASIC平台開始採用水冷配置,惟目前出貨仍以驗證與小量匯入為主,實際放量節奏將隨客戶平台推進而後移,預期ASIC水冷相關滲透率將於2026年第三季有較明確提升。所以今年零氪認為Asic市場的爆發對液冷,電源市場將會有大波新訂單需求。 (零氪1+1)
高盛:AI 伺服器需求再超預期:機架級、ASIC、液冷全線加速!
我們更新了全球伺服器總潛在市場的覆蓋範圍,具體包括:(1)人工智慧訓練伺服器(全機架 / 高功率)、(2)人工智慧推理伺服器、(3)通用伺服器、(4)高性能計算(HPC)伺服器,以及(5)美國和中國頭部雲服務商的資本支出。隨著 AMD 發佈 “Helios” 人工智慧伺服器機架,我們將全機架伺服器預測範圍擴大至更多元化的晶片平台,預計 2025 年、2026 年(預測)、2027 年(預測)的機架級伺服器數量分別為 1.9 萬台、5.5 萬台、8 萬台。專用積體電路(ASIC)人工智慧伺服器方面,我們預計 ASIC 的採用率將加速提升,其在人工智慧晶片中的佔比將從此前預測的 2025/2026/2027 年38%/40%/45%,上調至 38%/40%/50%。結合 ASIC 和 GPU 架構的基板式人工智慧伺服器需求上調、人工智慧全機架納入更多元化晶片平台,以及 2026 年下半年將有更多搭載新型人工智慧晶片的伺服器推出,我們上調了全球人工智慧伺服器出貨量預測,預計 2025-2027 年(預測)人工智慧晶片需求將達 1100 萬 / 1600 萬 / 2100 萬顆(圖表 1)。我們認為,人工智慧基礎設施周期將持續至 2027 年(預測),為行業增長提供支撐。人工智慧伺服器推薦標的:Wiwynn/ 緯創Wistron(原始設計製造商,ODM)、Hon Hai/ FII(ODM)、LandMark(矽光技術)、VPEC(矽光技術)、AVC/ Fositek(液冷)、Auras(液冷)、King Slide(滑軌)、Chenbro(機箱)、EMC(覆銅板,CCL)、GCE(印刷電路板,PCB)、TSMC(晶圓代工廠;重點推薦)、MPI(探針卡)、WinWay(測試插座)、Aspeed(無晶圓廠模式)、Hon Precision(最終測試處理器)。圖表 1:人工智慧伺服器預測:隱含 GPU 與 ASIC 出貨量人工智慧伺服器更新要點在全球雲服務商資本支出增加及人工智慧應用普及率提升的支撐下,我們上調了高功率人工智慧伺服器(搭載算力超 500 兆次 / 秒的 ASIC 和 GPU,如 H200、B200 等)2025-2027 年的出貨量預測,同比增幅分別為 9%/30%/50%;同時上調推理型人工智慧伺服器(搭載算力低於 500 兆次 / 秒的晶片,如 L40S、L20、ASIC 等)同期出貨量預測,同比增幅分別為 7%/3%/2%。近期人工智慧模型迭代持續推進,Gemini 3 Deep Think、OpenAI GPT-5.2、DeepSeekV3.2 及Qwen Code v0.5.0 等模型已陸續上線。隨著更多晶片平台轉向機架級設計,我們將全機架人工智慧伺服器(如搭載 GB200、GB300、MI450 系列等)2025-2027 年(預測)出貨量預測上調至 1.9 萬 / 5.5 萬 / 8 萬台(此前僅針對輝達機架的預測為 1.9 萬 / 5 萬 / 6.7 萬台),對應總潛在市場規模分別為 550 億 / 1650 億 / 2550 億美元(此前 2025-2027 年預測僅輝達機架的規模為 540 億 / 1570 億 / 2320 億美元)。雲服務商資本支出客戶支出方面,我們的美國網際網路團隊預測,2025-2027 年(預測)美國頭部雲服務商資本支出合計同比增幅將達 78%/37%/15%(高於 9 月更新時的 67%/23%/15%);中國網際網路團隊則預計,同期中國頭部雲平台資本支出同比增幅將達 62%/17%/9%(高於此前的 55%/8%/6%)。伺服器行業前景展望1. 人工智慧訓練伺服器 —— 全機架預測擴展至更多晶片平台全機架人工智慧伺服器(如採用 NVL72/NVL144 配置的 GB200/GB300/Vera Rubin,及採用 Helios 配置的 MI450 系列)自 2024 年第四季度隨輝達 Blackwell 平台開始出貨,預計 2026 年下半年起,包括 AMD Helios 機架在內的更多伺服器將採用全機架設計。我們現將非輝達全機架納入預測,預計 2025-2027 年(預測)全機架出貨量為 1.9 萬 / 5.5 萬 / 8 萬台(此前僅輝達機架為 1.9 萬 / 5 萬 / 6.7 萬台),對應總潛在市場規模 550 億 / 1650 億 / 2550 億美元(此前 2025-2027 年(預測)僅輝達機架為 540 億 / 1570 億 / 2320 億美元)2. 人工智慧訓練伺服器 —— 高功率機型出貨量加速增長高功率人工智慧訓練伺服器(如 H200/B200/B300 伺服器及 ASIC 人工智慧伺服器,單晶片算力超 500 兆次 / 秒)方面,以 8 GPU 等效單位計算,預計 2025-2027 年(預測)出貨量為 69.2 萬 / 95.2 萬 / 122.7 萬台,同比增幅 26%/38%/29%(此前預測為 63.7 萬 / 73.2 萬 / 81.9 萬台),對應總潛在市場規模 1800 億 / 2050 億 / 2510 億美元(此前預測為 1360 億 / 1380 億 / 1390 億美元)。我們看好基板式人工智慧伺服器的需求前景,因其定製化空間更大且能減輕客戶預算壓力;同時,高功率 ASIC 晶片的產能提升也支撐我們對該細分領域的積極看法。3. 推理型伺服器緊隨增長推理型伺服器(如 L40S/L20 伺服器及 ASIC 人工智慧伺服器,單晶片算力低於 500 兆次 / 秒)方面,預計 2025-2027 年(預測)出貨量為 47 萬 / 53.9 萬 / 65.6 萬台,同比增幅 1%/15%/22%(此前預測為 44.1 萬 / 52.2 萬 / 64.6 萬台),對應總潛在市場規模 300 億 / 360 億 / 480 億美元(此前預測為 270 億 / 300 億 / 360 億美元)。增長動力主要來自人工智慧應用場景的持續拓展。4. 通用伺服器回歸正常增長我們預計 2025-2027 年(預測)其出貨量將實現同比 11%/8%/2% 的增長,營收同比增長 51%/19%/5%,增長支撐因素包括:(1)新 CPU 平台替換周期結束後,出貨量回歸正常增長;(2)資料處理需求提升推動產品結構升級,疊加儲存價格上漲,帶動平均銷售價格(ASP)上升。圖表 2:全球伺服器總潛在市場(TAM):2025-2027 年(預測)同比增長 71%/40%/26%,規模分別達 4330 億 / 6060 億 / 7640 億美元圖表 3:隱含人工智慧晶片出貨量(2027 年預測)圖表 4:機架級人工智慧伺服器:2025-2027 年(預測)輝達機架數量維持 1.9 萬 / 5 萬 / 6.7 萬台不變圖表 5:基板式高功率人工智慧伺服器將維持增長圖表 6:美國頭部雲服務商(CSP)2025-2027 年(預測)資本支出同比增長 78%/37%/15%圖表 7:中國頭部雲服務商 2025-2027 年(預測)資本支出同比增長 62%/17%/9%圖表 8:伺服器總潛在市場(TAM):營收預測調整圖表 9:伺服器總潛在市場(TAM):出貨量預測調整個人電腦(PC):2026 年(預測)/2027 年(預測)同比增長 3%/2%智慧型手機:2026 年(預測)/2027 年(預測)出貨量同比增長 1%/1%;可折疊手機 2026 年 / 2027 年(預測)出貨量達 4600 萬 / 6600 萬台(大行投研)
16億訂單!液冷加速落地,蒙特獲北美CDU及冷水機組訂單
01.北美液冷項目加速落地,Munters拿下15.9億北美資料中心製冷訂單。全球資料中心暖通廠商Munters 資料中心技術業務部 (DCT) 已收到總價值約21億瑞典克朗(約16億人民幣訂單)的冷凍水機房空氣處理機組 (CRAH)、冷卻劑分配單元 (CDU) 和冷水機組訂單,其中 (CRAH)佔8.9億瑞典克朗,CDU部分佔12.1億瑞典克朗。客戶是一家位於美國的託管資料中心公司,預計將於2026年第四季度開始交付,並持續到2028年第一季度。該訂單將計入蒙特斯集團 2025 年第四季度的訂單量,涵蓋客戶冷凍水基礎設施的所有主要冷卻元件,包括定製的精密空調機組 (CRAH)、冷卻分配單元 (CDU) 和 Geoclima Circlemiser 冷水機組,以及啟動和偵錯服務。02.北美資料中心基建發力,多家巨頭客戶將在2026落地GW級液冷項目據零氪1+1液冷組分析師統計,預計2026年全球hyper scaler客戶的AI capex投資規模將達到7000億美金,北美市場將佔比6300億左右,預計將新增15GW左右的AI資料中心建設需求,XAI,OPEN AI及meta等csp廠商是主要需求方。2025年12月.30日,埃隆·馬斯克在X平台正式確認,其旗下人工智慧初創公司xAI已完成第三棟大樓的收購,將用於建設第三座超大型資料中心,目標是2026將訓練算力提升至近2吉瓦(GW)等級,為部署100萬卡blackwell晶片鋪路Meta也宣佈去年首個上線了1GW以上超級叢集的資料中心,首個叢集名為Prometheus,計畫於2026年上線,同時在2026年2GW資料中心已經規劃,未來還有5GW叢集,面積堪比曼哈頓!在晶片方面主要採購輝達blackwell晶片。輝達於在去年九月宣佈,將向OpenAI投資最多1000億美元,用於供應數百萬塊AI晶片,以支撐其下一代資料中心建設。雙方簽署的意向書顯示,合作最終能耗將超過10吉瓦,預計在2026年落地首個GW級資料中心。除了輝達的投資,微軟,軟銀,open AI發起的星際之門項目,在2026年也將快速落地資料中心建設。03.關於Munter集團的資料中心暖通及液冷產品線Munters(蒙特)集團是一家源自瑞典的全球化環境與熱管理技術公司,長期深耕空氣處理與節能冷卻領域,在資料中心行業擁有超過二十年的工程與產品積累。相比單純做製冷裝置的廠商,Munters更強調“系統級熱管理”,其技術能力覆蓋從室外冷源到機房內部熱量排出的完整鏈路,這也成為其切入AI資料中心液冷賽道的重要基礎。隨著GPU、AI加速卡功耗快速提升,傳統風冷逐步觸頂,Munters近幾年明確將液冷作為資料中心業務的核心發展方向之一,從“以空氣為中心”轉向“空氣與液體協同”的冷卻架構。在液冷產品層面,Munters的核心定位並不在晶片或冷板本身,而是在液冷系統的分配、換熱與整體整合。其代表性產品是LCX系列液冷分配單元 (CDU),LCX採用模組化、可擴展設計,可覆蓋數百千瓦到兆瓦級的散熱能力,能夠適配單相冷板、兩相液冷等不同技術路線,滿足AI叢集規模化部署對可靠性與維運友好的要求。此前Munters還和知名兩相液冷廠商zutacore聯合推出兩相CDU。(零氪1+1)