120天複製馬斯克速度! 119塊「樂高」搭出算力工廠,破局Scaling Law算力差

馬斯克建超算速度,被中國這家公司用120天復刻了。 119個集裝箱,像搭積木一樣拼出一座算力工廠。這不是科幻電影,而是浪潮資訊交付的驚豔答案。一個全新的AI時代,正在這裡拉開序幕。

120天,119個集裝箱,一座算力工廠拔地而起。

馬斯克速度,竟被國內這家公司完美復刻了!

上面這座算力工廠,採用了浪潮資訊專為AI時代提出的預製化AIDC解決方案。

他們以「搭積木」方式,向世界詮釋了驚人的基礎建設速度。

它不僅將長達18個月的建設周期,大幅縮短至4個月,甚至還實現了高效節能、彈性擴容、按需定製、便捷維運等技術創新。

更重要的是,這間算力工廠能夠完全滿足scaling大模型的算力需求。

不論是訓練,還是應用部署,預製AIDC解決方案全面支援了AI大模型創新研發與應用。

而現在,這元腦「算力工廠」正式投入營運。

AI猛吞算力,還需破局之道

算力,就是這個AI時代的「命門」。眾所周知,AI大模型對算力的需求,遠超乎所有人的想像。

不論是OpenAI、微軟,還是Google等科技巨頭們堅信的是,scaling law仍在繼續。

2024年12月,堪稱過去一年AI含金量最高的一個月,從中便可瞥見一二。

OpenAI十二天Devday連更,為所有人送上了滿血版o1、o1 Pro、Sora、高級語音功能,以及初次亮相的o3系模型。

大批網友上線直接把ChatGPT搞崩了

與之激烈對打的Google,更是戰績連連,憑藉Gemni 2.0 Flash、Veo 2直接殺出重圍。

邁入2025年,Grok 3、Llama 4、完整版Gemni 2.0等眾多模型,也即將迎來新一輪大戰。

可以預見的是,每一代新模型都在瘋狂「吃」算力,訓練參數呈指數級增長。這種瘋狂擴張的態勢,讓人不禁要問:我們的資料中心基建,還能支撐多久?

實際上,目前的資料中心正面臨最核心的「三重困境」。

1. 建設周期長,無法及時彌補高算力需求

作為算力的核心載體,資料中心的建設非一蹴可幾。

一般來說,傳統資料中心的建設是一個複雜的工程,需要經過設計、土木工程、機電安裝、偵錯等多個階段。其中,光規劃建設就要3-5年時間,佔到了整個生命周期的約1/3。

老黃同樣說過,「建造超算通常需要3年的規劃時間,外加1年裝置交付和偵錯時間」。

而我們所看到的,馬斯克10萬塊GPU建設速度,甚至即將要建造的100萬塊GPU搭建的超算,也只是個例。

3年,這一時間跨度,對於快速發展的AI時代顯得特別漫長。

例如,3年前規劃的資料中心普遍採用5-10kW/標準櫃,而如今單台AI伺服器的耗電量就突破10kW。

顯而易見,AI迭代與基建建設的速度,嚴重不匹配,導致資料中心還未建成就已落後於時代。

同時,這種「建設慢,需求快」的矛盾,不僅影響了產業發展速度,也直接影響了投資方資金回報周期,形成了惡性循環。

2. 功耗攀升,能源利用率低

其次,隨著算力需求的暴增,資料中心的能耗問題也愈發突出。

AI大模型訓練的耗電量,可堪比小城市的用電量。而這樣比比皆是的報導,也早已家喻戶曉。

平均而言,ChatGPT查詢所需的電力是Google搜尋的近10倍。高盛研究估計,到2030年,資料中心的電力需求將增加160%。

從2023年-2030年,AI資料中心功耗的成長將達到每年200Twh

另一方面,資料中心功耗也面臨著巨大的挑戰。

從晶片設計方面來看,CPU熱設計功率(TDP)在過去十年幾乎翻倍,GPU熱設計功耗從2008年少於200W飆升至現如今1000W。

再加上,叢集越來越大,高密度伺服器部署來帶的散熱壓力,與日俱增。

與此同時,信通院發佈的《中國綠色算力發展研究報告(2024年)》顯示,中國資料中心的平均電能利用效率(PUE)在2023年時為1.48,而新的國家政策規定,新建資料中心的PUE不得超過1.25。

如何保持高效能運算的同時,達到節能標準,已成為一大難題。

而當前,智算中心需要探索的是,與綠色電力深度融合,實現能源高效利用,讓算力向智力有效轉化。

3. 擴容難題,升級有限,無法第一時間升級

不僅如此,AI快速迭代對資料中心的靈活性,提出了更高的要求。

然而,傳統資料中心的固定架構,限制了升級空間,無法及時採用新一代技術,難以快速回應業務需求的變化。

另一方面,資料中心也將面臨建成即落後、供不應求的窘境,投資報酬率難以保障。

針對這些挑戰,這些年,一些企業打造的預製模組化資料中心應用而生,並將成為主流模式。

依規模不同,可分為單元級(Unit)、包間級(Pod)、建築級(Stack Cube)、園區級(Base)等細粒度。

在AI時代下,我們需要專為AI而生的預製化AIDC。

浪潮資訊,便是這個方案的引領者。

算力工廠,全方位為AI而生

算力工廠是一種創新的資料中心全生命周期服務模式,核心是通過規(劃)、建(設)、運(營)一體化的「交鑰匙」工程。

其總體架構自下而上,由算力底座、算力支撐、算力營運三部分組成。

算力底座

首先,算力底座,就是我們可以直觀看到的算力中心。

元腦「算力工廠」這座智算中心採用創新的預製化AIDC解決方案,僅需119個預製化集裝箱單層拼接,4個箱體即可實現千卡規模AI算力。

如同先前所述,它書寫了驚人搭建速度的傳奇,直接將同等規模資料中心的建設周期,從18個月縮減至4個月。

這種創新方案,可以說完全顛覆了行業常規。

具體來說,它具備了以下幾點優勢:

- 快速交付,工期可縮短80%左右

因為採用了預製化集裝箱建設方式,同等規模資料中心的建設周期從18個月縮減至4個月,工期縮短了近80%。

- 高效節能,PUE可低至1.1以下

因為創新地應用了液冷、太陽能、儲能、餘熱回收等節能技術,提高了散熱及能源利用效率,PUE可降至1.1以下,全年節省電費近2億元,營運成本大幅降低。

- 靈活擴展,最高可擴容至5層,實現全場景覆蓋

預製模組化疊箱體系建設模式可依業務規模,分期有效率地進行水平及豎向擴容,有效節省前期投入成本。

同時,八種模組化的功能箱體可依不同場景、規模靈活組合,並依照功率區段分區部署,實現風冷/液冷、AI/通用/高密度等多種形態靈活相容,匹配智算算力、一般算力、邊緣算力等多種應用場景。

元腦算力工廠包含了資料處理、AI大模型、業務應用、研發測試等多個叢集,為全球伺服器壓力測試、大模型開發應用等多種業務應用,提供了綠色高效的算力支撐。

算力營運

如前所述,在大模型時代,算力需求呈現爆髮式成長,但高效營運AI算力卻面臨諸多的挑戰。

該如何調度資源?如何控製成本?如何保障算力平台穩定性與可用性?如何讓AI算力性能持續最佳化?

在大規模AI訓練場景下,算力資源調度堪稱一大難題。

一方面,不同AI任務對於算力需求各不相同;另一方面,如何在多使用者、多工場景在實現資源最優分配,避免算力的浪費,都是亟待解決的問題。

不僅如此,隨著算力規模的擴大,營運成本也會隨之攀升。諸如電力消耗、維運人員等各方面成本,都是企業面臨的挑戰。

另外,對於企業級AI應用來說,對算力平台穩定性提出了高標準、高要求。

然而,叢集規模擴大管理只會愈加複雜,硬體故障的風險就會增加,隨之帶來的是系統效能波動頻繁,資料安全隱患增加。

還有需要考慮的一點是,AI算力性能必須持續最佳化。這當中也涉及了多個層面,例如硬體協同最佳化、軟體架構改進、演算法效率提升等等。

為了應對這些挑戰,元腦算力工廠為企業提供了全方位的營運方案。

- AI基礎設施管理平台

AI基礎設施管理平檯面朝向金融、通訊、網際網路等多行業的資料中心,可實現前所未有的一體化管理。

平台突破性解決了IT基礎設施管理與動力環境管理割裂的痛點,帶來了全新的管理體驗。

首先,它實現了智算中心全生命周期的統一納管,維運效率提升100%。

平台還創新實現了高密單排微模組2D/3D、核心製冷零件遠端調控等5大功能,安全性能飆升30%,為超大規模資料中心穩定高效運作提供重要保障。

- 人工智慧開發平台AIStation

作為一個深度學習開發平台,AIStation能夠為企業客戶提供強大的開發支援。

例如,統一管理和精細調度AI計算資源,全面整合計算資源、訓練資料和開發工具。

不僅如此,AIStation還提供了完整的AI軟體棧和敏捷標準化的開發流程,降低資源投入同時,並大幅提升開發效率。

基於系列平台的創新與整合,對於企業來說,算力的高效穩定營運也不再是難題。

大規模AI訓練與應用

既然有了這樣一個堪稱「黑科技」含量最高的解決方案,對於大模型時代下的訓練與部署,代表什麼?

當前,AI大模型正在經歷前所未有的進化:從單一語言模型走向多模態;突破長文字限制;引入MoE架構;強化學習能力不斷提升。

不僅如此,大模型進化Scaling Law仍在繼續,老黃還在CES大會上首次提出了AI時代三個Scaling Law。

這暗示著,大模型的突破未來有著更廣闊的空間,唯一的限制,就是如何建構出強大的算力基礎設施。

如今,AI大模型的參數規模已經從千億等級攀升到了兆級。 AI大模型廠商紛紛投建大規模算力資源,壓縮大模型訓練周期。

顯而易見的是,隨著算力規模的不斷擴展,單顆晶片的效能瓶頸愈發明顯,整個AI系統的通訊效率成為焦點之一。

在大型AI模型訓練過程中,網路通訊通常佔據整體訓練時間的20%到40%,這造成了大量算力資源浪費,最佳化網路通訊效率,成為AI大模型發展的關鍵議題。

然而,目前的傳統RoCE網路面臨網路效能不足、難以滿足多樣化AI系統網路需求、部署周期長、可靠性低、管理難度等問題。

對此,元腦算力工廠採用了專門面向生成式AI打造的超級AI乙太網路交換器-X400,大幅降低網路通訊佔比,革命性地提升了大規模GPU訓練效能;同時,採用浪潮資訊ICE智慧雲引擎,實現智慧化的網路管控。

這,就成為了新型態的AI訓練網路解決方案,打造業界領先的AI Fabric。

超級AI乙太網路交換機X400,採用AR自適應路由、RTT CC擁塞控制、亞毫秒級故障自癒等技術,擁有高效能(高吞吐量、高頻寬、低延遲)、高可靠性、快速部署、靈活拓展等核心優勢。同時,它還具備多租戶隔離、多業務並行支援的能力,以應對AI模型訓練的複雜需求。

效能方面,X400的吞吐量達到了業界最高的51.2T,較上一代產品提升了4倍。在4U空間可提供128個400Gb/s的高速網路連接埠,相比傳統RoCE網路性能提升了1.6倍。

值得一提的是,其對AI網路的頻寬利用率可達95%以上,同時還可將通訊時延降低30%。

綜上,X400的應用將大幅提升大型模型的訓練效率,縮短訓練時長,降低訓練成本。

此外,在AIGC 時代,網路管理已不再是傳統的裝置組態與監控,而是面向未來的智慧化、自動化以及可視化的平台。

浪潮資訊ICE智慧雲引擎正是這一趨勢下的先行者,基於數字孿生技術,打造網路虛擬模擬與最佳化驗證平台,並利用人工智慧技術實現自動化管理與智慧化監控,提升管理效率與故障響應速度,讓企業在複雜環境中實現高效率、可靠的網路維運,協助企業充分釋放AIGC潛能。

系統性創新,三層無縫銜接

算力基礎設施有了之後,如何解決算力與應用之間斷層問題?

在此之前,浪潮資訊早已給出了完美的解決方案-企業大模型開發平台「元腦企智」EPAI。

它猶如一座「橋樑」,透過提供軟體棧及綜合服務,賦能算力挖潛、模型最佳化和應用開發。

這一次,元腦算力工廠直接搭載了EPAI,連接了多元算力、多元模型、應用層,直接加速LLM應用落地。

元腦企智EPAI的完整架構

EPAI可實現百萬token、千億參數、領域大模型的高效微調,可以更好地適應具體行業場景下的任務需求,快速打造領域LLM。

與此同時,它還提供面向多元多模的計算框架,讓LLM應用在跨算力平台上無感遷移。

這個過程,就降低了多模、多元的適配與試錯成本,為企業使用者根據實際場景需求,選擇開發部署適合自己的大模型,提供了極大便利。

透過EPAI,企業可以有效率地開發部署生成式AI應用,打造智慧生產力。

在AI時代浪潮下,算力基建正成為決定創新速度、深度的關鍵要素。

基於預製化AIDC解決方案的算力工廠,不僅是技術創新,更是對這整個產業發展模式的革新。

算力工廠重新定義了算力釋放的價值與效率,實現了基建與算力的強繫結,是以算力為中心來確定建設模式和內部的算力模組,所有設計都是算力的一部分,實現了投入即產出。

這一次,浪潮資訊向世界真正展現了,中國速度與中國智慧的完美融合。

算力工廠的模式將成為智算中心建設的主流。(新智元)