雲棲大會：阿里雲磐久AI超節點液冷方案

2025/09/28

•

阿里雲磐久128卡AI超節點液冷解析

2025年雲棲大會現場，全面升級的阿里雲AI基礎設施重磅亮相，全面展示了阿里雲從底層晶片、超節點伺服器、高性能網路、分佈式儲存、智算叢集到人工智慧平台、模型訓練推理服務的全端AI技術能力。在伺服器層面，阿里雲發佈全新一代磐久128超節點AI伺服器。新一代磐久超節點伺服器由阿里雲自主研發設計，具備高密度、高性能和高可用的核心優勢，可高效支援多種AI晶片，單櫃支援128個AI計算晶片，密度刷新業界紀錄。

整機櫃：阿里雲磐久AI超節點機櫃寬度為2個標準伺服器機櫃的寬度，採用非對稱設計，從機櫃前面看，左側主要為為GPU節點櫃，約23inch+寬，右側為標準的19inch櫃，承載了CPU計算節點、OOB交換機、Powershelf、以及CDU（阿里叫CMC元件）等。

阿里雲磐久AI超節點128單卡的PPU為400W，單晶片最大支援2KW，單櫃最大350KW整櫃液冷：單台6U高CDU，雙櫃液冷浮動盲插接頭+manifold。

CDU部分：從現場照片中看不出阿里雲超節點液冷CDU的廠家資訊，應該是廠商給阿里定製的。

CPU液冷設計：這次展示的 GPU 計算節點整體寬度已經超過 23 英吋，接近 600mm，比標準機架伺服器更寬，主要是為了容納高密度的散熱與供液結構。散熱架構採用風冷 + 液冷組合：

節點後部配置了兩塊 GPU 板，每塊 PCB 上並列佈局兩顆 PPU 晶片；此外還整合了一顆後部交換晶片；這些高功耗晶片均通過液冷冷板進行散熱。冷板的安裝方式為並聯，從節點中部的 manifold分歧管取液，內部所使用的連接器設計風格與 NV的 NVQD 非常接近。

在安全設計方面，節點佈置了漏液檢測線，沿著管路走向鋪設，並配合集水槽來引導冷卻液，確保一旦發生洩漏能第一時間感知並引流。不過，從現場展品來看，檢測線的纏繞方式略顯鬆散，沒有緊貼在管路底部，如果在真實環境中使用，可能會降低檢測的靈敏度和可靠性。

CPU節點：這次展示的 CPU 計算節點依然保持了標準 19 英吋機架寬度，整體採用的是風液混合架構。兩顆 CPU 晶片通過液冷冷板進行散熱，從管路佈局來看，連接方式大機率是並聯，這樣可以保證兩顆晶片得到相對均衡的冷卻效果。不過，由於 CPU 的單顆功耗相比 GPU、加速卡要低一些，其實也完全可以採用串聯的方式，把液體依次經過兩塊冷板，從而簡化管路設計、降低系統複雜度。

交換機：在阿里雲這次展示的超節點液冷方案裡，交換板的主晶片採用了液冷設計，並且通過手插式快接頭與管路連接，便於維護和更換。比較特別的是，冷板底部還接了一根透明的 PU 管。從設計上看，這根管子大機率是作為導流用的——在極端情況下如果發生漏液，冷卻液會被快速引流到集水盤，避免液體在機櫃內部亂溢，造成裝置短路或損壞。

阿里雲超節點後面的一些現場資料：

背部採用2進2出，實現冗餘備份，球閥是丹佛斯的FD83，UQD應該也是丹佛斯供應。

(零氪1+1)