摩根大通專家訪談:AI資料中心“產能過剩”了嗎?訓練和推理基建如何部署?

摩根大通最新專家訪談揭示,AI基建“產能過剩”擔憂為時過早,演算法輕量化與硬體循環利用正緩解算力焦慮,但資料中心頭頂的“電力問題”與“散熱難題”,才是AI狂奔路上更現實的減速帶。

近期,摩根大通與Scale AI資料科學家、Meta前高級資料科學家Sri Kanajan舉行電話會議,深入探討超大規模AI資料中心架構趨勢。

Kanajan認為,AI基礎設施部署仍處於早期階段,對產能過剩的擔憂有限。演算法進步正降低訓練算力消耗,基礎設施通過“訓練轉推理”實現高效循環利用,訓練叢集在新一代GPU推出後被快速重新配置為推理工作負載。不過,電力和冷卻問題仍是擴展下一代資料中心的主要瓶頸。

01. 演算法革新:算力需求從訓練向推理遷移

據摩根大通報告,近期演算法突破——如混合模型(含DeepSeek)、精度訓練及策略性強化學習——顯著降低了整體AI模型訓練所需的計算量。這促使行業將最佳化重點轉向推理環節。

Kanajan指出,當前,業界正積極採用模型蒸餾、壓縮等技術精煉模型,力求在不大幅增加原始算力投入的前提下提升性能。

02. 基礎設施:動態部署,擔憂產能過剩尚早

Kanajan認為,AI基礎設施部署仍處早期階段,特別是考慮到雲服務商對其投資的長期回報預期,當前對產能過剩的擔憂有限。

一個關鍵的動態利用策略是:當訓練周期結束且新一代GPU上市時,現有訓練叢集會被快速重新配置,以支援推理工作負載。這種“訓練轉推理”的生命周期轉換,確保了計算資源能高效適配從密集訓練到均衡推理的需求變化。

在建設模式上,訓練叢集通常部署在專為最佳化離線GPU利用率而新建的隔離設施(“綠場”);而推理叢集則傾向於通過擴建現有資料中心(“棕地”),尤其在大都市區,以支撐持續的線上AI服務。

03. 能源挑戰:電力冷卻成最大瓶頸

電力和冷卻挑戰仍是擴展下一代資料中心的主要瓶頸。

在Kanajan看來,隨著資料中心追求更高密度和承載更密集的計算負載,電力供應和散熱問題已成為下一代資料中心規模擴展的普遍性瓶頸。

超大規模企業正積極探索創新方案,如在I型架構設計中採用液冷技術,甚至評估核能或替代能源以實現7x24小時穩定供電。同時,強大的電網互聯策略對保障資料中心不間斷運行至關重要。

04. Meta引領資料中心架構創新

在資料中心設計方面,摩根大通報告重點提及了Meta的創新做法。與傳統超大規模廠商設計支援多租戶雲的H型佈局不同,Meta選擇了專門針對內部AI工作負載的I型校園式配置。

據報告,這種設計在功耗、冷卻和機架密度方面實現了改進,這些因素對支援高性能訓練叢集至關重要。

在硬體策略上,Meta正在平衡品牌解決方案與白盒方案。網路方面,雖然Arista的強大能力在當前基礎設施中仍然必不可少,但Meta正與Celestica等白盒供應商合作,長期目標是將其內部軟體與白盒硬體整合。 (硬AI)