當AI應用以“周”為單位迭代進化,當千億、兆參數的大模型成為競爭的基石,全球科技競爭的焦點,已從單純的“算力競賽”,悄然蔓延至一片更為底層的戰場——儲存。
如果說算力是引擎,資料是燃料,那麼儲存就是容納燃料並確保其能高速、穩定輸送至引擎的“智能油箱”與“高速輸油管”。如果儲存跟不上時代的需求,即便有再強大的算力,也只是“巧婦難為無米之炊”,空轉的引擎無法驅動AI這艘巨輪前行。
AI 技術的爆發式增長正在重構儲存需求的底層邏輯。《2025存力發展報告》顯示,全球資料總量將在2025年突破200ZB,其中AI訓練資料年增速達67%,這種增長不僅體現在容量維度,更催生了性能、架構、協同的全方位變革。
首先就是節點的增加,曙光儲存營運總監石靜告訴筆者,當前大模型訓練需要千卡叢集,甚至萬卡叢集,多計算節點同時儲存的過程中,對儲存的壓力要比通算時代增加了很多。
另一方面,AI時代,企業資料集規模越來越大,且資料來源和種類的豐富多樣性也“不可同日而語”。“當前,企業建構一個儲存體系,動輒就是幾十PB,甚至上百PB。同時,大模型時代之後,原先傳統意義上的‘冷資料’,已經變成了‘溫資料’,甚至是‘熱資料’。這也對儲存的架構提出了很多新的需求。”石靜強調。
此外,在AI時代,最大的不同是——對高性能儲存的需求愈發強烈。大模型訓練對儲存頻寬的渴求呈現指數級增長,當前,AI訓練所用頻寬需求已經進入“TB級紀元”。益企研究院《AI時代的儲存基石》白皮書指出,2025年AI訓練叢集的平均儲存頻寬需求較2023年提升300%,傳統HDD儲存150MB/s的頻寬已成為明顯瓶頸。
而對於頻寬的要求也不僅侷限於模型訓練階段,石靜表示,在推理過程中,企業也需要具備千萬等級IOPS低時延的頻寬支撐高並行的推理場景,“比如現在大家都在講提升訓練和推理效率,但在這個過程中,也需要儲存能夠‘跟得上’GPU的速度,不至於出現GPU等待資料IO的情況。”石靜指出。而這點在以往的通算時代卻並不是絕大多數企業對於儲存的需求。
在AI重構儲存行業的過程中,隨著需求的裂變式增長,儲存行業面臨前所未有的挑戰。
首先是架構瓶頸。傳統儲存與計算分離的架構導致資料搬運成本激增,中國移動呼市資料中心早期採用的集中式儲存系統,在支撐“九天大模型”訓練時,GPU利用率僅能達到40%。北京大學孫廣宇教授曾指出,資料在記憶體與儲存間的搬運能耗佔系統總能耗的50%以上,這種“資料搬運困境”成為AI效率提升的主要障礙。即使採用RDMA網路加速技術,傳統架構仍難以突破頻寬與延遲的物理極限。
其次是成本壓力。性能與投入的失衡困境。全快閃記憶體儲是滿足AI性能需求的核心選擇,但成本始終是規模化應用的障礙。2025年QLCSSD單位容量成本雖較2023年下降40%,但仍比HDD高出2.3倍。
第三是管理難題,多模態資料的治理困境。AI時代的資料呈現“4V”特徵——體量巨大、種類多樣、價值密集、即時性強,給儲存管理帶來嚴峻挑戰。
面對AI需求的倒逼與可持續發展的要求,儲存行業正形成 “高性能突破”與“綠色化轉型”雙輪驅動的發展格局。
在高性能方面,高性能儲存技術的演進正從單點最佳化轉向體系性突破,涵蓋介質、架構、協議等全鏈條創新。
介質方面,全閃成為“必選項”。快閃記憶體技術的成熟使全快閃記憶體儲從高端場景走向普及,《2025存力發展報告》顯示,全國外接快閃記憶體佔比已超過28%,金融、製造、網際網路行業滲透率超45%;架構方面,分佈式架構主導規模化部署。集中式儲存的擴展瓶頸在AI時代愈發明顯,分佈式儲存憑藉彈性擴展能力成為主流;協議層面,協議與硬體的協同加速。NVMe-oF與RDMA技術的結合,正在打破儲存與計算間的通訊壁壘。比如,在中國移動呼市資料中心中,就採用了曙光儲存的“NVMe-oF+RDMA”組合方案,使儲存網路頻寬提升2倍,延遲降低3倍。
中國移動呼市資料中心的實踐表明,千億參數模型單次訓練需讀取超10PB樣本資料,持續頻寬需求達TB級。據悉,曙光儲存為該中心配置的總量逾60PB的儲存資源(包括全閃、混產品),通過高密與資料節能的技術,在400G網路下實現單節點190GB/s頻寬的同時,降低了整體儲存建設成本,提升性價比。
從長遠發展上看,儲存行業光有高性能遠遠不夠。作為高載能的資料中心,這幾年一直致力於推動全生命周期的碳中和,在“雙碳”目標與能源成本壓力下,綠色儲存已從可選配置變為必選項,形成“技術節能+結構最佳化+政策引導”的發展路徑。
硬體層面,中國移動呼市資料中心規模化應用液冷與間接蒸發技術,使智算中心PUE降至1.15。軟體層面,智能調度演算法成效顯著,曙光儲存的動態電壓調節技術根據負載調整能耗,《綠色儲存技術研究》報告顯示,採用智能節能技術的儲存系統,能效比可提升45%以上。
結構最佳化層面,綠電替代成為資料中心綠色轉型的核心舉措,中國移動呼和浩特資料中心總經理王科峰介紹,中國移動呼市資料中心2025年綠電佔比將達100%,較2024年的69%實現跨越式提升。綠電的應用不僅有中國移動呼市資料中心這一個個例,《2025存力發展報告》顯示,西部資料中心綠電佔比平均達58%,較東部高出23個百分點,成為綠色儲存的主戰場。
政策層面,國家層面的政策引導正在加速綠色儲存落地,“東數西算”工程明確要求樞紐節點資料中心PUE低於1.25,推動儲存系統向低能耗方向發展。行業標準也不斷完善,IEEE提出的儲存級能效比(SER)指標,通過量化每GB資料的年能耗,為綠色儲存提供了評價依據。
除了高性能與綠色化的需求之外,在各行業降本增效的當下,成本也是絕大多數IDC使用者考慮重要因素之一。在成本方面,為了更具“性價比”,中國移動呼市資料中心採用“全閃+混閃”的配置,正是平衡性能與成本的折中方案,這種模式已成為國內智算中心的主流選擇。愛集微諮詢資料顯示,AI儲存的單位TB建設成本是傳統儲存的3.7倍,某網際網路巨頭2025年儲存投入同比增長52%,仍難以完全匹配算力擴張速度。
在管理層面,還是以中國移動呼市資料中心為例,其支撐的40余個行業大模型中,既有結構化的政務資料,也有非結構化的醫療影像,傳統儲存管理系統難以實現精準的冷熱資料分層。面對此,曙光儲存拿出了StorInsight智能分析工具,通過即時採集IO特徵,自動將熱資料遷移至全閃層,使儲存資源利用率提升35%,但這種智能化管理能力在行業內的普及率不足20%。
通過儲存架構的最佳化與管理系統的智能化,在確保高性能的前提下,將成本降到最低,這點直擊了絕大多數使用者的痛點。
除了確保高性能儲存與綠色化需求之外,未來的資料中心,尤其是像中國移動呼和浩特這樣的國家樞紐節點,其定位將不再是簡單的“算力中心”,而是“存力與算力融合的中心”。
在融合的過程中,存算一體的架構瓶頸是最大挑戰。北京大學孫廣宇教授指出,未來將形成“層次化的異構存算一體架構”,針對AI訓練、推理等不同場景採用差異化融合方案。
為解決“記憶體牆”問題,存算一體技術將計算單元與儲存單元深度融合,曙光儲存正在研發的存算合封解決方案,通過先進封裝技術拉近資料與計算的距離,預計能效提升300倍。
與此同時,在“東數西算”政策推動下,建構跨域協同存力網路也成為關鍵,儲存資源正形成跨區域協同格局。中國移動依託 “4+N+31+X”體系,以呼市資料中心為核心節點,通過400G算力專網實現儲存資源的全國調度。曙光儲存正在建構跨區域資料授權與安全機制,解決資料流動中的信任問題。《2025存力發展報告》顯示,東部與西部存力協同調度可使整體儲存成本降低22%,算力利用率提升18%。
未來,隨著存算一體、AI原生等技術的成熟,存力將成為數字經濟的核心生產力,為大模型創新、產業智能化轉型提供堅實支撐。 (鈦媒體AGI)