數字經濟爆發下,全球資料中心耗電量佔比逐年攀升。據統計,2024年中國資料中心能耗總量1660億千瓦時,約佔全社會用電量的1.68%,同比增長10.7%。2024年全社會用電增速為6.8%,資料中心用電量增速遠高於全社會用電量平均增速【1】。資料中心能耗已成為不可忽視的能源消耗領域。隨著人工智慧技術的迅猛發展,AI相關行業正經歷著前所未有的快速增長和技術迭代。這一變革不僅推動了社會的進步,也帶來了對計算能力的巨大需求。智能計算中心,作為AI技術發展的核心基礎設施,正面臨著前所未有的挑戰。01AI行業的快速發展AI技術的進步和應用場景的拓展,使得智能計算中心的建設成為推動行業發展的關鍵。技術的快速迭代要求資料中心能夠迅速適應新的計算需求,保持技術的領先地位。02高密散熱的需求關注隨著AI計算密度的增加,散熱問題成為智能計算中心必須面對的挑戰。高密度計算裝置產生的熱量如果不能有效管理,將直接影響資料中心的穩定性和效率,甚至可能導致裝置損壞和性能下降。03液冷技術的應用為瞭解決高密度散熱問題,液冷技術作為一種高效、環保的冷卻解決方案,已經成為智能計算中心散熱管理的重要趨勢。液冷技術能夠有效降低資料中心的能耗,提高裝置的散熱效率,是應對高密度散熱挑戰的有效手段。隨著晶片功耗增長加速,在面對不同業務需求時,製冷解決方案變得更多多樣。隨著機架功率密度的不斷攀升,行業內普遍認同,40~60kW/Rack已經達到了風冷極限,超過這個能力邊界,無論是考慮到散熱能力還是散熱成本,必須開始部署液冷。資料中心製冷從完全風冷邁向風液混合製冷,不同機架功率密度的製冷解決方案推薦如圖1所示。▲ 圖1 不同功率密度機櫃製冷解決方案機櫃功率密度在20~25kW以內時,常規遠端風冷方案即可解決伺服器散熱需求。當機櫃功率密度進一步提升,單機櫃功率密度在25~45kW時,就應該開始考慮近端風冷的解決方案。風冷方案再疊加背板熱交換器(Rear Door Heat Exchanger,RDHx),可以進一步解決單機櫃60kW以內的散熱需求。單機櫃功率密度在40~60kW時,就可以開始考慮採用液冷,但根據伺服器或晶片不同,也可以更早開始採用液冷。即使採用液冷,根據風液比不同,伺服器仍然有5%~50%的熱量需要通過風冷散熱來解決,風液混合將成為大多數高熱密度機櫃散熱方案。根據伺服器供液溫度要求,室外一次側需選擇不同的散熱方案。伺服器供液溫度要求大於40℃時,室外一次側散熱可以採用完全自然冷的解決方案,當伺服器供液溫度要求較低時,室外一次側需要採用機械冷卻。在單機櫃功率密度小於40kW時,考慮伺服器類型,往往更多選用風冷技術。為實現PUE要求,各類自然冷技術在機房空調裝置中已經大量應用。從節能技術維度,可以分為三類:01風側自然冷方案通過利用室外低溫空氣直接為資料中心供冷。在實際應用中有兩種方案:直接空氣自然冷,直接引入自然界新風對資料中心進行冷卻,但該方案受空氣質量、濕度等因素限制,適用場景較為有限。間接空氣自然冷,借助換熱器實現自然界低溫空氣與資料中心高溫空氣的熱交換,以降低機房溫度。此類方案可有效解決空氣質量及濕度問題,但在夏季室外溫度較高時,其應用仍會受到限制。02水側自然冷方案通過利用低溫水源或者水蒸發潛熱來為資料中心供冷。在過往的水側自然冷應用案例中,有直接引入湖水為資料中心供冷的方式,但此方案受水質條件,以及可能對當地生態環境影響的限制,應用範圍較窄。另一種通過水蒸發利用自然冷的方式應用則更為普遍,常見的冷卻塔及間接蒸發冷裝置等,在開啟水噴淋的情況下,均屬於水側自然冷,通過水的蒸發潛熱利用自然冷源。03氟泵自然冷方案通過氟泵來驅動冷媒循環,付出少量機械能,在室外低溫時將室外自然冷源的冷量通過冷媒相變傳遞至機房,從而達到降低機房降溫的效果。一般氟泵自然冷和壓縮機製冷整合在一個系統裡,當室外低溫時,壓縮機停止運行,啟動氟泵完成製冷循環。當時外溫度較高時,則需要啟動壓縮機來完成製冷循環。以上自然冷方式可以單獨應用,或者組合應用,充分挖掘室外自然冷潛能,實現節能效果。近期在資料中心領域應用比較多的混合雙冷源方案,即為一種組合式的自然冷方案。機房空調設計兩組盤管,層疊安裝。高溫迴風首先經過第一組盤管進行預冷,此時預冷冷源可以是氟泵自然冷,也可以是冷卻塔提供的冷卻水,之後通過第二組盤管,第二組盤管可以是氟泵自然冷,也可以是壓縮機機械製冷,根據製冷需求進行自動切換,詳見圖2所示。▲ 圖2 兩種不同雙冷源自然冷方案通過“預冷+補冷”的控制思路,實現自然冷源利用最大化,從而實現空調裝置高能效,有效幫助降低資料中心PUE。以資料中心常用100kW空調為例,採用上述自然冷技術的機組,在以下區域應用,可以達到的製冷因子CLF如表1所示。在空調機組100%輸出的條件下,水側自然冷通過利用更長時長的自然冷,製冷因子更低,見表2所示。在空調機組75%輸出條件下,可以看到氟側機組的能效提升更快,在北京以及上海,均可表現出比雙冷源機組更好的節能效果,見表3所示。隨著負載率進一步降低,在空調機組50%輸出條件下,氟泵自然冷機組的能效已經全面優於水側自然冷雙冷源機組。不管採用那種雙冷源,北方全年室外環境溫度更低,可以收穫更好的節能效果。隨著負載率降低,氟泵自然冷工作時長顯著增加,氟泵功耗遠小於水泵功耗,在各地均可獲得更好的節能效果。可以看到,利用“預冷+補冷”設計方案,兩類雙冷源方案可達到系統級的製冷因子相當,在選擇具體方案時,需結合項目地自然條件進行選擇。液體冷卻是指利用高導熱性能的流體介質(諸如25%丙二醇諸如25%丙二醇,去離子水、冷卻液或製冷劑)而不是空氣來冷卻資料中心。液體直接參與資料中心關鍵發熱源(如伺服器內部高性能晶片)的熱量交換過程。液冷技術縮短了熱傳導路徑,使得熱量能夠更直接、更有效地從熱源匯出,進而顯著降低了對伺服器內部風扇輔助散熱的依賴,從而降低整體能耗與噪音水平。資料中心液冷技術的應用可細分為兩大主流類別:直接到晶片(Direct-to-Chip, DTC)冷卻技術,常被稱為冷板冷卻,其特點在於將冷卻液直接匯入至伺服器內部,通過緊貼晶片的冷板結構實現高效熱交換。浸沒式冷卻技術,該技術將整個或部分伺服器元件完全浸沒於非導電冷卻液中,實現熱量的全面、均勻散發。在DTC配置中,液體不直接與電子元件接觸,液體冷卻劑被泵送到解決伺服器內部電子元件散熱的冷板上。雖然大部分熱量都被冷板帶走了,但仍然需要風扇來幫助去除電路板層面的熱量,儘管風量和風速都非常低。在這種情況下,一些設計通過空氣將熱量從伺服器機箱交換出去,而另一些設計則需要在機架或行級使用熱交換器將熱量傳輸到主冷卻回路,具體見圖3冷板液冷系統原理圖。▲ 圖3 冷板液冷系統原理圖CDU是液體冷卻系統中必不可少的元件,可在整個系統中均勻分配冷卻液。CDU建立了一個獨立的二次側回路,與提供室外散熱的一次側回路隔離開,並調節和控製冷卻液的流量以保持二次側回路所需的溫度和流量。其次,CDU要採用高耐腐蝕性的不鏽鋼材質,確保與冷卻液的完美相容,有效防止腐蝕。設計上尤其要注重關鍵器件的冗餘備份,如電源、泵、感測器及過濾器等,確保系統在任何情況下都能穩定運行。同時,CDU需內建精準溫控系統,能有效消除伺服器CPU和GPU的熱衝擊問題。此外,配備補液罐以滿足長期運行需求,並設有自動排氣裝置以排除空氣,保持冷卻效率。1)供液溫度冷板液冷系統的供液溫度設計需充分考慮不同晶片及伺服器製造商的特定要求,如Dell可能接受高達32℃甚至更高的供液溫度,而Nvidia則設定在25℃至45℃的較寬範圍內。需要注意的是,必須嚴格避免供液溫度過低,以防止水蒸氣凝結現象的發生,這可能嚴重損害IT裝置的正常運行。此外,系統還需具備強大的穩定性,確保在一次側流量出現波動時,二次側仍能維持穩定的供液溫度,以保障整體散熱效能與裝置安全,見圖4所示。▲ 圖4 一次側流量波動,二次側仍可保障穩定供液溫度2)供液流量冷板液冷系統的供液流量設計是確保高效散熱與穩定運行的關鍵環節。CDU(冷量分配單元)在此過程中扮演著核心角色,負責精確調控一次流體與二次流體的流量。具體而言,二次流體需維持穩定的流速進入IT裝置,以在裝置滿載時能夠有效從冷板中帶走所有熱量,保持IT入口溫度的恆定。同時,一次流體的流量則根據需散熱的熱量動態調整,並依據CDU的接近溫度(ATD)進行調整,見圖5所示。▲ 圖5 一次側流量波動,二次側仍可保障穩定回液溫度為了確保流量控制的精準性,系統要採用壓差控制並輔以即時監控,以確保系統中的洩漏不會導致壓力下降。此外,通過CDU內,泵與電源的冗餘設計,系統能夠在關鍵業務場景下保障流量的連續供應,進一步提升整體系統的可靠性與穩定性。3)過濾要求冷板液冷系統要求冷卻液順暢通過冷板內極其微小的通道,這些通道的寬度可精細至低於50微米,甚至達到30微米以內。堵塞不僅會限制流量,甚至可能完全中斷IT裝置的冷卻,導致維護成本急劇上升,因此系統對冷卻液的過濾精度提出了嚴格標準。通常,這一精度需低於冷板通道的最小尺寸,業界經驗傾向於採用25微米或更細的過濾等級。此外,為確保系統長期保持清潔狀態,CDU(冷量分配單元)需持續進行線上過濾,這是維護系統高效運行與延長使用壽命的關鍵措施。4)流體選擇在設計冷板液冷系統的初期,選擇合適的流體化學成分及可靠的供應商非常重要。一旦確定流體策略,後續的任何更改都將涉及繁瑣且成本高昂的清洗與淨化過程。此外,流體的選擇還會在偵錯階段帶來顯著複雜性,包括循環測試、雜質沖洗以及系統氣泡的排除,這些工作對於每台伺服器及整體解決方案的順利運行都至關重要。在整個系統使用周期內,對液體的持續關注同樣不可或缺,需定期進行pH值、外觀、抑製劑濃度及污染物水平的檢測,以確保其性能穩定與系統的持續高效運行。同時,所有冷卻液均需遵循嚴格的儲存與處理規範,並配備適當的個人防護裝置以保障操作安全。在冷板液冷系統的二次側流體選擇中,存在三種主流方案。首先,去離子水配方液換熱效果優越,然而其腐蝕風險不容忽視,需採取額外措施加以防範。其次,乙二醇配方液雖具備一定的防腐能力,但其毒性相對較大,且在環保要求較高的地區,其排放處理成為一大現實問題。最後,丙二醇配方液作為Intel、Nvidia等業界巨頭推薦的選擇,由於其防腐效果更好,成為眾多使用者信賴的優選方案。在選擇時,需綜合考慮流體性能、成本、環保要求及安全性等多方面因素,以做出最適合自身需求的決策。5)故障預防和檢測在冷板液冷系統中,除了二次流體網路內其他感測器的監測外,CDU的嚴密監控與管理是預防並儘早發現故障的關鍵。資料中心尤為關注洩漏問題,大部分洩漏案例發生在manifold與伺服器軟管快速斷開附件處,對IT裝置影響很小。但伺服器機箱內部的洩漏,特別是發生在內部manifold、軟管與冷板之間的洩漏,則對IT裝置構成重大威脅。因此,實施額外過濾與感測器在內的防錯系統至關重要,這些措施不僅能在熱交換性能下降時提供預警,還能有效遏制人為錯誤導致的污染物增加或液體質量漏檢風險,從而全面提升系統的穩定性與安全性。液體輔助DTC冷卻:機箱級、閉環的獨立產品,帶有冷板、泵和散熱器,針對處理器的局部熱點。熱量通過伺服器內部的液體-空氣熱交換器消散。與液體-液體DTC冷卻相比,這種液體輔助DTC產品不需要和伺服器外部的液體進行熱交換,也不需要CDU或其他液體基礎設施或對現有基礎設施進行修改,同時能夠解決高密度點。全液冷板冷卻:目前大部分DTC冷卻伺服器僅覆蓋高功率、高發熱部件,如中央處理器(CPU)、圖形處理器(GPU),其他部件仍需通過風扇提供的氣流進行冷卻,包括記憶體、儲存、硬碟驅動器/固態驅動器、外圍元件互連高速通道/開放計算項目(OCP)卡和電源單元。全液冷板冷卻配置將為所有部件配置冷板,並使用液體進行冷卻,完全消除風扇,進一步提高電源使用效率(PUE)。根據執行階段液體的狀態,DTC還可以進一步分為單相和雙相兩類。在單相系統中,液體冷卻劑始終保持液態。在雙相系統中,液體冷卻劑蒸發以將熱量從液體中轉移出去,然後通過熱交換器冷凝並轉換回液態。負壓液冷:有三個氣密性較好的液腔,分別是主真空腔、儲液腔、輔真空腔。主真空腔和輔真空腔交替保持高真空度確保工藝冷媒從伺服器冷卻環路流回,儲液腔保持較低的真空度使工藝冷媒流進伺服器冷卻環路。二次泵採用低揚程潛水泵,安裝於儲液腔內部,當檢測到二次側供液溫度低於機房的露點溫度時,潛水泵將停止工作以確保不會有凝露產生。配有真空泵等負壓系統(包含氣液分離器、消音排氣口,空氣流量感測器),用以保證三個腔體的真空度。三個腔體各配有兩個氣動開關閥,一個接通真空泵,另一個接通大氣相連的氣液分離器,用於控制各個腔體的真空度,以確保液體順利循環。伺服器不同,伺服器運行的冷卻液體溫度不同。根據水溫,冷板液冷有不同的製冷系統架構設計方案。當一次側水溫在W32及以下時,一次側冷源不能完全依靠冷卻塔全年供應,需要補充額外的機械製冷,即冷凍水冷源機組,常見可用的冷凍水冷源機組有水冷冷水機組、風冷冷水機組等。1)同源液冷方案和風冷部分均採用冷卻塔同源冷卻塔方案,不同末端例如液冷部分(XDU)以及水冷型空氣處理機組(AHU)等所需負荷都由同一冷卻塔進行供應。2)非同源液冷方案採用冷卻塔,風冷部分採用機械製冷或冷機非同源方案,包括高水溫不同源風冷和高水溫不同源冷凍水方案。當採用不同源風冷補冷方案時,精密空調和液冷CDU分別採用不同的冷卻塔或乾冷器;當採用不同源冷凍水方案時,空氣處理機組(AHU)冷源採用冷水機組,液冷部分(XDU)冷源採用冷卻塔,見圖6所示。▲ 圖6 風液混合系統製冷架構3)風液方案:機房已有風冷精密空調裝置,需要部署少量液冷機櫃,此時集中式風液型CDU方案是優選方案。CDU和液冷機櫃間通過軟管連接,液冷伺服器中的熱量通過冷板,Manifold,以及管路傳遞至風液CDUSB 隨身碟管,最後散至機房,再通過機房空調將所有熱量帶至室外,見圖7所示。▲ 圖7 風液方案系統製冷架構在做液冷方案選擇時,需要考慮伺服器可接受的冷卻液溫度,以及機房條件,來選擇適合的製冷系統架構方案。在當前的AI算力範式下,擴大算力的一個基本邏輯是不斷提高“堆疊”密度,由此帶來(單位空間內)的能量密度持續上升,將進一步推動液冷技術的應用。基於此,對於未來智算中心液冷技術發展方向可以概括為以下兩點:目前主流的冷板式液冷仍然存在較大比例的熱量需要風冷解決,這對智算中心的複雜度造成了很大影響。進一步降低風冷佔比,是進一步提升單機櫃功率密度、降低資料中心複雜度的迫切需要。傳統冷板方案可進一步最佳化伺服器和冷板設計,將主要發熱器件儘可能使用冷板散熱,單相浸沒式液冷、全覆蓋冷板液冷也是可以大力發展的方向。單相浸沒式液冷在解決高功率晶片擴熱問題後,可以實現100%液冷。全覆蓋冷板方案可以較好地適配AI伺服器,而不用考慮普通伺服器的通用性要求。進一步降低風冷佔比後,可能會面臨以下難點:晶片層面由於製程改進的效果越來越有限,利用先進封裝技術將多個較小的晶片拼裝為一體的Chiplet技術正得到普遍的應用,其中的一個重要趨勢是3D堆疊,這意味著單位面積上的電晶體數量會繼續高速增長,如何將晶片封裝內的熱量有效的傳匯出來,將成為行業面對的一大挑戰。機櫃層面以NVIDIA GB200 NVL72為代表的解決方案目前採用風液混合模式,櫃內互聯採用大量的銅纜,對散熱風道的設計形成了一定的阻礙。隨著機櫃功率的進一步提高,需要提高冷板在各節點內的覆蓋率,向全液冷的方向演進。隨著AI晶片功率的進一步提升(1500W-2000W以上),風冷散熱器已達瓶頸(1000W),單相水冷板也將很快到達散熱能力瓶頸(1500W),相變散熱技術是必然的方向,包括相變浸沒液冷和相變冷板液冷。相變冷板又包括泵驅兩相(Pumped twophase)冷板和自驅動兩相(Passive 2-Phase)冷板等方向。相比較而言,泵驅兩相冷板國外有較多的研究,但其複雜度較高、可靠性問題比較難以解決;自驅動兩相冷板的技術基於環路熱管(LHP)技術,挑戰更大,但其具有解熱能力強、高可靠、易維運、長壽命等優點。 (零氪1+1)