2025年雲棲大會現場,全面升級的阿里雲AI基礎設施重磅亮相,全面展示了阿里雲從底層晶片、超節點伺服器、高性能網路、分佈式儲存、智算叢集到人工智慧平台、模型訓練推理服務的全端AI技術能力。在伺服器層面,阿里雲發佈全新一代磐久128超節點AI伺服器。新一代磐久超節點伺服器由阿里雲自主研發設計,具備高密度、高性能和高可用的核心優勢,可高效支援多種AI晶片,單櫃支援128個AI計算晶片,密度刷新業界紀錄。
整機櫃:阿里雲磐久AI超節點機櫃寬度為2個標準伺服器機櫃的寬度,採用非對稱設計,從機櫃前面看,左側主要為為GPU節點櫃,約23inch+寬,右側為標準的19inch櫃,承載了CPU計算節點、OOB交換機、Powershelf、以及CDU(阿里叫CMC元件)等。
阿里雲磐久AI超節點128單卡的PPU為400W,單晶片最大支援2KW,單櫃最大350KW整櫃液冷:單台6U高CDU,雙櫃液冷浮動盲插接頭+manifold。
CDU部分:從現場照片中看不出阿里雲超節點液冷CDU的廠家資訊,應該是廠商給阿里定製的。
CPU液冷設計:這次展示的 GPU 計算節點整體寬度已經超過 23 英吋,接近 600mm,比標準機架伺服器更寬,主要是為了容納高密度的散熱與供液結構。散熱架構採用 風冷 + 液冷組合:
節點後部配置了兩塊 GPU 板,每塊 PCB 上並列佈局兩顆 PPU 晶片;此外還整合了一顆後部交換晶片;這些高功耗晶片 均通過液冷冷板進行散熱。冷板的安裝方式為 並聯,從節點中部的 manifold分歧管取液,內部所使用的連接器設計風格與 NV的 NVQD 非常接近。
在安全設計方面,節點佈置了 漏液檢測線,沿著管路走向鋪設,並配合 集水槽來引導冷卻液,確保一旦發生洩漏能第一時間感知並引流。不過,從現場展品來看,檢測線的纏繞方式略顯鬆散,沒有緊貼在管路底部,如果在真實環境中使用,可能會降低檢測的靈敏度和可靠性。
CPU節點:這次展示的 CPU 計算節點依然保持了標準 19 英吋機架寬度,整體採用的是 風液混合架構。兩顆 CPU 晶片通過 液冷冷板進行散熱,從管路佈局來看,連接方式大機率是並聯,這樣可以保證兩顆晶片得到相對均衡的冷卻效果。不過,由於 CPU 的單顆功耗相比 GPU、加速卡要低一些,其實也完全可以採用串聯的方式,把液體依次經過兩塊冷板,從而簡化管路設計、降低系統複雜度。
交換機:在阿里雲這次展示的超節點液冷方案裡,交換板的主晶片採用了液冷設計,並且通過手插式快接頭與管路連接,便於維護和更換。比較特別的是,冷板底部還接了一根透明的 PU 管。從設計上看,這根管子大機率是作為導流用的——在極端情況下如果發生漏液,冷卻液會被快速引流到集水盤,避免液體在機櫃內部亂溢,造成裝置短路或損壞。
阿里雲超節點後面的一些現場資料:
背部採用2進2出,實現冗餘備份,球閥是丹佛斯的FD83,UQD應該也是丹佛斯供應。
(零氪1+1)