最近高盛搞了一個線上交流會,請來的嘉賓是微軟資料中心高級開發組的前首席工程師 Mark Monroe,他在數字基礎設施領域幹了 40 多年,算是真正的行業專家。他點出了資料中心擴張的三大死穴:電、水、人。
我們之前的文章中,也提過另外兩個卡點:Memory和台積電的CoWoS產能。
關於電力的卡脖子,之前講過非常多,大家應該也都理解。
Monroe 說得很直白,電力是當前最要命的近期約束。雲端運算和 AI 推理這些業務必須離使用者近,響應速度才快,所以都扎堆在大城市周邊。問題是這些地方本來用電就緊張,資料中心一來,電網直接吃不消。
但AI 訓練就沒這個顧慮。訓練模型對地理位置沒啥要求,那兒有電往那兒搬,所以現在很多訓練任務都在往偏遠地區遷移。這種分化其實挺明顯的:推理要速度,訓練要電量,各取所需。
那怎麼辦呢?Monroe 提到了兩個方向。
第一個是“靈活負載管理”,說白了就是在用電高峰期讓資料中心主動降低負荷。杜克大學做過一個研究,如果資料中心願意接受每年 0.25% 的停機時間(也就是 99.75% 的正常運行),美國電網能多承載 76 GW 的新負載;如果能接受 0.5% 的停機(99.5% 正常運行),這個數字能到 98 GW。
聽起來挺美好,但 Monroe 潑了冷水。他說這事兒有兩個大障礙:一是行業天生就怕風險,IT 裝置頻繁開關機誰都不敢輕易嘗試;二是光靠市場激勵還不夠,可能需要監管層面強推才行。所以這個方案理論上能解鎖 100 GW 的容量,實際落地還得看。
第二個方案更直接也更貴——Behind-the-Meter(BTM),也就是自己建發電站。現在已經有一小部分資料中心在這麼幹了,主要用天然氣發電機。
Monroe 說這個方式的成本是電網供電的 5 到 20 倍,聽著嚇人,但對於那些大型 AI 資料中心來說,考慮到利潤空間,這筆帳還是算得過來的。
這個模式之前SemiAnalysis也提到過,BYOG 模式:Bring Your Own Generation。
像馬斯克的 xAI 實驗室通過租用卡車安裝的燃氣渦輪機和引擎,在短短 4 個月內建成了一個 10 萬塊 GPU 的叢集,部署了超過 500MW 的現場電力,OpenAI 和 Oracle 已在德克薩斯州訂購了 2.3GW 的現場天然氣發電廠 。
第二個挑戰是水。傳統資料中心的冷卻系統特別耗水,用的是蒸發冷卻技術。但現在情況變了,社區不幹了,監管收緊了,晶片技術也在進步,整個行業開始往節水方向轉型。
Monroe 說,現在的趨勢是從高耗水的蒸發冷卻轉向閉環和無水冷卻系統,尤其是那些大型雲服務商,轉得特別快。聽起來是好事,但有個代價:能耗大幅上升。
具體來說,傳統蒸發冷卻系統的 PUE(電力使用效率)能做到 1.08,意味著只有 8% 的能源用在了非計算環節。但換成閉環無水系統之後,PUE 會飆到 1.35-1.40,也就是說能源開銷從 8% 跳到了 35%-40%。這個差距可不小。
當然技術也在進步。Monroe 提到了晶片級液冷和高溫水冷這些新技術,能在更多地理位置實現高效散熱。但他也指出,託管型資料中心(co-location)很難跟進這些新技術,因為它們客戶群體太雜,必須在建設早期就確定冷卻架構,沒法靈活調整,所以還是會堅持用傳統的冷水機組。
儘管無水冷卻的份額在上升,Monroe 判斷冷水機組的需求在未來十年還是會大幅增長,原因很簡單——資料中心整體規模在爆發式增長,即便佔比下降,絕對量還是在漲。
巧的是,SemiAnalysis上個月也出了一篇關於資料中心用水的分析,SA認為資料中心用水的爭議被過度誇大,這些討論往往忽略了冷卻架構、能源來源、地理位置和當地水資源稀缺性等關鍵變數 。Colossus 2 作為全球頂級資料中心,Colossus 2 的水消耗僅相當於 2.5 家 In-N-Out 門店,而餐飲行業整體水消耗規模遠大於資料中心。有興趣的可以看下SemiAnalysis的那篇原文。
第三個挑戰可能是最容易被忽視的:人。
Monroe 認為,資料中心不是普通的工業建築,它需要極其專業的電氣和機械系統,這意味著電工和管道工是整個建設過程中的關鍵角色。而現在的問題是,這些技術工人嚴重短缺。
Monroe 認為,技術工人短缺會成為繼電力之後的下一個主要約束。為了應對這個問題,行業組織正在和技術院校合作開發培訓項目,甚至把觸角伸到了中學,試圖讓更多年輕人把技術工種當成有吸引力的職業選擇。
高盛也給出了一個估算:到 2030 年,美國需要淨增超過 50 萬名工人,覆蓋製造、建設、維運以及輸配電等各個環節,才能滿足資料中心擴張帶來的電力部署需求。 (傅里葉的貓)