#核心生產力
百萬倍算力增長的背後,AIDC如何建設才能“跟上需求”?
▎AIDC正在從“輔助設施”升級為“核心生產力”。前不久,華為發佈的《智能世界2035》和《全球數智化指數2025》報告中指出,隨著大模型的發展,AI智能體將從執行工具演進為決策夥伴,驅動產業革命。到2035年,全社會的算力總量將增長10萬倍,算力增長的背後,是對新一代算力基礎設施產業發展的挑戰,但在這過程中,同樣也伴隨著不小的機遇。AI需求暴增資料中心建設面臨挑戰算力需求的激增已經不僅僅是停留在預測層面,根據國家資料局披露的資訊顯示,2024年初中國日均Token消耗量為1000億,到2024年底已增長至3000億量級。而這個數字到了今年6月則是達到驚人的30兆的量級,與2024年初的1000億相比,增長300多倍。此外,IDC報告顯示,2024年全年中國公有雲大模型呼叫量為114兆Tokens,而2025年上半年即飆升至536.7兆,反映出AI應用進入規模化爆發階段‌。而AI應用的爆發,自然也帶動智能算力需求的激增,在這背後,是對底層算力基礎設施帶來的考驗,而AI也正以“算力吞噬者”的姿態重構數字基礎設施格局,全球20億活躍AI使用者產生的海量資料處理需求,使得AIDC從“輔助設施”升級為“核心生產力”。在AI時代,傳統的資料中心建設顯然已經不能滿足當前智算對於底層設施的需求,華為發佈的《智能世界2035》和《全球數智化指數2025》報告中明確,計算領域將突破傳統馮•諾依曼架構的束縛,在計算架構、材料器件、工程工藝、計算範式四大核心層面實現顛覆性創新,最終催生新型計算的全面興起。在華為中國數字能源資料中心能源拓展部部長石憶看來,算力增長的同時,也對基礎設施造成了極大的衝擊,“當前,智算中心建設主要面臨安全、彈性、高功率、高能耗等挑戰。除此之外,作為長期營運的重資產項目,資料中心建設還需要適度超前。”安全方面,AI大模型訓練對算力連續性的要求較傳統通算提升兩個量級:10MW智算中心的算力密度相當於100個傳統通算中心,一旦發生供電中斷,每秒鐘將造成數十萬元的算力損失。對此,石憶表示,“傳統資料中心故障響應時間要求2分鐘以內,但智算中心需壓縮至30秒,且故障影響半徑擴大3倍,任何單點故障都可能引發叢集癱瘓。”安全事件在帶來資料、伺服器等直接損失之外,更可能導致數月模型訓練成果付諸東流。同時,安全事件的發生還會對IDC服務商的品牌價值,以及客戶對其信任度帶來不小的衝擊。更嚴峻的是,傳統集中式架構存在單點故障風險,而AI計算的連續性要求,使得這種風險被放大10倍以上。AIDC的安全已不是“機率問題”,而是“底線問題”,任何一次故障都可能終結企業的AI競爭資格。除了安全問題之外,隨著ChatGPT的問世,人們開始發現機櫃的功率越來越高,原本300W的單顆CPU,已經不足以支撐業務,500W的單顆CPU晶片成為主流。與此同時,AI對於GPU的需求,也讓單機櫃的功率進一步提升。2.5kW標準機櫃已經是過去式,8kW、10kW,甚至20、50kW的機櫃的不斷出現,也讓單機櫃功率越來越高。與此同時,隨著摩爾定律逐漸失效,在後摩爾定律時代下,晶片算力與其功耗仍將大幅提升。機櫃功率的不斷攀升,也對資料中心的供配電系統提出了新的挑戰。這個挑戰一方面是來自供配電穩定性和連續性的保障;另一方面,更容易被人們所忽視的是:傳統資料中心“白空間”(伺服器區)與“黑空間”(配電區)的比例大致為2:1,而在AIDC時代,這個比例將被徹底逆轉,部分高密AIDC甚至出現1:3的極端情況,這意味著3/4的場地被配電、散熱裝置佔據。而對於IDC客戶而言,“白空間”是用來創造價值的,“黑空間”則屬於純成本支出,獲得更多的“白空間”才能獲得更大的收益。與此同時,在AI時代,使用者對於資料中心交付週期的要求也越來越高。而作為算力的底層支撐,資料中心的建設週期之長,是業內的共識。而AI等IT技術的演進日新月異,資料中心機櫃密度也隨之飛速提升,“傳統建設方式,規劃階段規劃的單櫃功率普遍在5-10kW/標準櫃,而目前單台支援大模型的AI伺服器功耗就已達10kW以上,資料中心的規劃建設速度難以滿足各行業對算力持續高速增長的迫切需求。”此外,還有一個尖銳的矛盾擺在面前:伺服器的更新週期是3到5年,而資料中心基礎設施的設計壽命是10至15年。對此,石憶告訴筆者,傳統資料中心18到24個月的建設週期,與算力“一年一迭代”的速度形成致命錯配。客戶交付週期要求從‘年’,壓縮至‘月’,甚至出現‘6個月必須上線’的硬性指標,這種情況對資料中心的建設速度提出了更高的要求。而在這些挑戰的背後,還有一個不容忽視的問題——AI時代帶來的傳統非同步計算向同步計算的轉型。這個過程使得供電、製冷、網路的協同要求達到“微秒級”,而現有基礎設施的“煙囪式”架構根本無法實現這種協同。更嚴峻的是,技術迭代帶來的標準混亂問題——不同廠商的GPU、液冷裝置介面不統一,導致AIDC建設陷入“定製化陷阱”,進一步拉長週期、推高成本。安全是AIDC的首要條件面對挑戰,華為數字能源在2025全聯接大會上提出的RAS理念(Reliable安全可靠、Agile彈性敏捷、Sustainable綠色低碳),而華為也正是沿著這三條路徑向前推進AIDC建設的。而RAS理念中,最為重要的就是“R”——安全。AIDC的安全底線不僅關乎裝置存續,更決定算力服務的連續性。“安全是1,沒有安全,一切都是0。”IDC的安全可靠不僅是某個環節的安全可靠,更是要建構涵蓋資料中心全生命週期的防護體系。不同於傳統資料中心的單點防護思維,華為建構了覆蓋產品、架構、管理、維運的四層防護體系,實現從器件到系統的全生命週期可靠。資料中心安全體系化,首先要做的就是將原有的集中式的架構轉變為分佈式架構。摒棄集中式設計,確保單一故障點不會引發系統性崩潰。例如,製冷系統需要實現風冷或液冷單元相互隔離,按需部署,一台故障時其他單元能迅速補上冷量。其次是主動安全,特別是在高風險環節如鋰電池儲能上。智算時代,通過鋰電池取代原有佔地面積大、生命週期短的鉛酸電池,已經成為資料中心降低後續營運成本,提升資料中心“白空間”面積的重要舉措之一。作為國內較早探索鋰電池應用的企業之一,華為在資料中心鋰電池安全方面提出了“既要快速響應,也要預知風險”的策略。石憶告訴筆者,鋰電池出現安全風險之時實現快速處置,避免損失僅僅是基本操作,更為重要的是,在故障發生前就能精準定位並更換有風險的電池,如此才能將風險降到最低。目前,華為對鋰電池告警的覆蓋率達到了92%,報警的精準率是97%,而且這個告警最高可以提前七天。彈性需求如何滿足?“行百里者半九十”,當安全基礎“打牢”之後,如何滿足使用者在智算時代的需求,成為服務商能否獲得更多份額的關鍵。“智算時代唯一不變的就是變化,彈性是應對變化的唯一選擇”——這句話已經成為行業內公認的事實,也指出了當前很多資料中心“建成即過時”的痛點。面對此,華為給出了“解耦化、模組化、預製化、高密融合”的“四化”解決方案。通過此,讓AIDC建設速度與IT技術迭代實現同頻共振,相較於傳統方案,將資料中心的交付週期縮短60%以上。這個過程中,最為重要的一步是——實現子系統的解耦。傳統資料中心,基礎設施層與伺服器的供配電、供冷系統是緊耦合的狀態,一旦一方發生變化,無異於將資料中心“推倒重建”。即便在通算時代,一代伺服器的“壽命”平均在5年左右,而資料中心基礎設施層的“壽命”則應在10~15年左右。這也就意味著,一個資料中心需要相容三代伺服器的更迭。而當時間來到智算時代,伺服器更迭速度只會比通算時代快,緊耦合的狀態,對於需求敏捷的客戶來說,一點也不敏捷。所以,在石憶看來,資料中心實現彈性的第一步就是實現解耦。“華為將AIDC拆分為IT、供配電、製冷三大獨立子系統,實現序列施工向平行施工的轉變。”石憶介紹道。在華為雲(蕪湖)資料中心項目中,基礎設施與伺服器的解耦設計,使得機電安裝僅用71天完成,較傳統方案節省50%時間,整體項目耗時3個月。不僅於此,石憶表示,這種設計還支援“按需擴容”,“客戶可先部署基礎框架,待確定伺服器功率後再上配電單元。”石憶進一步指出。當系統都實現解耦之後,就可以進一步通過模組化的方式,在工廠預生產後,進行現場組裝即可完成資料中心建設。網際網路“快”的特點也在新一輪人工智慧的浪潮下得以延續,使用者對於資料中心交付週期的要求也越來越高。模組化似乎已經逐漸成為近年來資料中心建設的主流方式,石憶告訴筆者,模組化不是終點,還要將模組預製化,減少現場施工工程量,將現場的裝置安裝、整合、偵錯提前到工廠來完成,實現工程產品化。其最大的價值就是用工廠的標準化、高品質生產和測試,確保了高效率以及高品質,把現場的工程變得最小化,極大減少現場安裝,助力AIDC快速高品質建設。通過模組化方式,還能實現硬體裝置的即插即用——通過預留通用介面的方式,讓後續無論是製冷系統,還是伺服器的更換都可以“傻瓜式”即插即用,進一步提升了部署速度。不僅於此,模組化的方式,還能大幅降低資料中心在建設過程中的碳排放,實現全生命週期內的降碳,這點也正好呼應了RAS理念中——綠色低碳。綠色低碳從“責任”變成“生存需求”在“雙碳”目標與能源危機的雙重驅動下,綠色低碳已從社會責任升級為AIDC的生存需求。傳統模式下,IDC服務商與客戶都存在“降低能耗總量”的誤區。然而,隨著機櫃功率不斷攀升,降低總能耗已經是一條“不可行之路”,面對此,華為提出了“提升系統效率”的核心思路,通過高效供電、高效製冷、系統高效、算電協同等四大路徑,實現全鏈路降碳。高效供電方面,通過技術創新降低損耗。例如,華為UPS在S-ECO模式下效率高達99.1%。高效製冷方面,隨著智算時代液冷的普及,製冷能耗得到進一步降低,但風冷系統仍將繼續存在,風冷和液冷系統走向融合化,冷源統一化,通過AI手段對製冷系統做系統級能效調優,進一步降低製冷能耗,提升製冷效率。系統協同方面,通過系統協同,實現能源與算力的智能匹配。“打通L1能源基礎設施與L2算力基礎設施的資訊流,通過AI演算法根據負載波動調節裝置狀態,讓每瓦電力都能承載更多算力。”石憶強調。算電協同方面,綠電直供,就近消納是目前資料中心綠色低碳化的不可或缺的一步,而從國家規劃的八個算力樞紐節點佈局上就不難看出國家在綠電直供,就近消納的佈局。八個節點除了北上廣這樣的一線算力需求高度集中的城市之外,其餘節點幾乎都處於盛產綠電的地方。在面對行業存在“安全與低碳不可兼得”的誤區——認為冗餘設計會增加能耗,節能措施會犧牲安全,石憶表示,高安全與高能效可以協同實現,關鍵在於系統級的最佳化設計。整體來看,資料中心正在向超高功率、超高密度和超大規模發展,智算中心的建設不僅是應對當前挑戰的務實選擇,更是贏得未來AI競爭的戰略佈局。同時資料中心的設計思路也在變化,從“大系統”向“標準化+模組化分佈式架構”演變,更彈性應對未來需求的不確定性,此外還要從軟硬體層面考慮網路安全、供應安全和備電安全等問題。可以說,AI算力的洪流既帶來了“最好的時代”的機遇,也引發了“最焦慮的時代”的挑戰。在這場AIDC變革中,唯有以全端專業能力與經驗沉澱為底色,才能實現智能進化、再造卓越,而華為正在這條路上挺進。(鈦媒體)