華為AI新技術,揭曉!
華為發佈AI容器技術Flex:ai,透過對GPU、NPU等智慧算力資源的精細化管理與智慧調度,實現AI工作負載與算力資源的匹配,可大幅提升算力利用率。
在2025AI容器應用落地與發展論壇上,華為公司副總裁、資料儲存產品線總裁周躍峰博士在論壇上正式發佈AI容器技術-Flex:ai,同時,華為聯合上海交通大學、西安交通大學與廈門大學共同宣佈,將此項產學合作成果向外界開源。
本次發佈並開放原始碼的Flex:ai XPU池化與調度軟體,是基於Kubernetes容器編排平台建構,透過對GPU、NPU等智慧算力資源的精細化管理與智慧調度,實現AI工作負載與算力資源的匹配,可大幅提升算力利用率。
目前,AI產業高速發展催生海量算力需求,但全球算力資源利用率偏低的問題日益凸顯。
有業內人士對《科創板日報》記者表示,業界算力資源的平均使用率僅30%至40%,甚至低於30%。小模型任務獨佔整卡導致資源閒置,大模型任務單機算力不足難以支撐,大量缺乏GPU/NPU的通用伺服器更是處於算力「休眠」狀態。
AI時代如何喚醒並有效率地運用算力叢集資源,成為整個產業一大難題。而容器技術作為一種輕量級虛擬化技術,可以將模型程式碼、運行環境等打包成一個獨立的、輕量級的鏡像,實現跨平台無縫遷移。容器還可按需掛載GPU、NPU算力資源,按需分配和回收“資源”,提升叢集整體資源利用率。
Gartner的分析師表示,目前AI負載大多已容器化部署和運行,據預測,到2027年,75%以上的AI工作負載將採用容器技術進行部署和運行。
在AI容器領域,業界已經有多家企業推出了不同產品。此前,輝達於以7億美元(約合人民幣49.7億元)收購了以色列AI公司Run:ai。這家公司核心產品,正是基於kubernnetes建構的軟體平台,用於調度GPU的運算資源,透過動態調度、池化、分片等技術,實現GPU資源利用率的最佳化,讓深度學習訓練與推理任務在企業級環境中高效運作。
本次華為發表並開放原始碼的Flex:ai XPU池化與調度軟體,與Run:ai公司的核心產品相比,在虛擬化、智慧調度等方面實現了突破。
具體來看,針對AI小模型訓推場景中「一張卡跑一個任務」的資源浪費問題,華為與上海交通大學聯合研發XPU池化框架,可將單張GPU或NPU算力卡切分為多份虛擬算力單元,切分粒度精準至10%。這項技術實現了單卡同時承載多個AI工作負載,且透過彈性靈活的資源隔離技術,可實現算力單元的按需切分,“用多少,切多少”,使此類場景下的整體算力平均利用率提升30%,提高單卡服務能力。
針對大量通用伺服器因缺乏智慧運算單元而無法服務AI工作負載的問題,華為與廈門大學聯合研發跨節點拉遠虛擬化技術。該技術將叢集內各節點的空閒XPU算力聚合形成“共享算力池”,一方面為高算力需求的AI工作負載提供充足資源支撐;另一方面,可讓不具備智能計算能力的通用伺服器通過高速網路,可將AI工作負載轉發到遠端“資源池”中的GPU/NPU算力卡中執行,從而將AI工作負載轉發到遠端“資源池”中的GPU/NPU算力卡中執行,從而促進通用計算資源與智能算力。
面對算力叢集中多品牌、多規格異構算力資源難以統一調度的痛點,華為與西安交通大學共同打造Hi Scheduler智慧調度器。此調度器可自動感知叢集負載與資源狀態,結合AI工作負載的優先權、算力需求等多維參數,對本地及遠端的虛擬化GPU、NPU資源進行全域最佳調度,實現AI工作負載分時復用資源。
周躍峰介紹,Flex:ai的發佈主要希望推動AI平民化。 「先前AI產業化落地的時候,醫院的某一個科室往往買8張卡,最多是16張卡。這樣小叢集就很難進行粗放的GPU或NPU利用和調度。能不能把一張卡虛擬化成多張卡,以更小的算力單元進行調度,讓每一張卡的算力能力釋放出來,讓平民能夠充分化。
周躍峰表示,Flex:ai將在發佈後同步開源在魔擎社群中。此外,華為也希望透過開源推動形成以AI容器技術為載體的資源高效利用新範式。開放原始碼的Flex:ai可以在產學研各界開發者的參與下,共同推動異構算力虛擬化與AI應用平台對接的標準建構,形成算力高效利用的標準化解決方案。 (科創板日報)