華為AI新技術，揭曉！

2025/11/22

•

華為發佈AI容器技術Flex:ai，透過對GPU、NPU等智慧算力資源的精細化管理與智慧調度，實現AI工作負載與算力資源的匹配，可大幅提升算力利用率。

在2025AI容器應用落地與發展論壇上，華為公司副總裁、資料儲存產品線總裁周躍峰博士在論壇上正式發佈AI容器技術－Flex:ai，同時，華為聯合上海交通大學、西安交通大學與廈門大學共同宣佈，將此項產學合作成果向外界開源。

本次發佈並開放原始碼的Flex:ai XPU池化與調度軟體，是基於Kubernetes容器編排平台建構，透過對GPU、NPU等智慧算力資源的精細化管理與智慧調度，實現AI工作負載與算力資源的匹配，可大幅提升算力利用率。

目前，AI產業高速發展催生海量算力需求，但全球算力資源利用率偏低的問題日益凸顯。

有業內人士對《科創板日報》記者表示，業界算力資源的平均使用率僅30%至40%，甚至低於30%。小模型任務獨佔整卡導致資源閒置，大模型任務單機算力不足難以支撐，大量缺乏GPU/NPU的通用伺服器更是處於算力「休眠」狀態。

AI時代如何喚醒並有效率地運用算力叢集資源，成為整個產業一大難題。而容器技術作為一種輕量級虛擬化技術，可以將模型程式碼、運行環境等打包成一個獨立的、輕量級的鏡像，實現跨平台無縫遷移。容器還可按需掛載GPU、NPU算力資源，按需分配和回收“資源”，提升叢集整體資源利用率。

Gartner的分析師表示，目前AI負載大多已容器化部署和運行，據預測，到2027年，75%以上的AI工作負載將採用容器技術進行部署和運行。

在AI容器領域，業界已經有多家企業推出了不同產品。此前，輝達於以7億美元（約合人民幣49.7億元）收購了以色列AI公司Run:ai。這家公司核心產品，正是基於kubernnetes建構的軟體平台，用於調度GPU的運算資源，透過動態調度、池化、分片等技術，實現GPU資源利用率的最佳化，讓深度學習訓練與推理任務在企業級環境中高效運作。

本次華為發表並開放原始碼的Flex:ai XPU池化與調度軟體，與Run:ai公司的核心產品相比，在虛擬化、智慧調度等方面實現了突破。

具體來看，針對AI小模型訓推場景中「一張卡跑一個任務」的資源浪費問題，華為與上海交通大學聯合研發XPU池化框架，可將單張GPU或NPU算力卡切分為多份虛擬算力單元，切分粒度精準至10%。這項技術實現了單卡同時承載多個AI工作負載，且透過彈性靈活的資源隔離技術，可實現算力單元的按需切分，“用多少，切多少”，使此類場景下的整體算力平均利用率提升30%，提高單卡服務能力。

針對大量通用伺服器因缺乏智慧運算單元而無法服務AI工作負載的問題，華為與廈門大學聯合研發跨節點拉遠虛擬化技術。該技術將叢集內各節點的空閒XPU算力聚合形成“共享算力池”，一方面為高算力需求的AI工作負載提供充足資源支撐；另一方面，可讓不具備智能計算能力的通用伺服器通過高速網路，可將AI工作負載轉發到遠端“資源池”中的GPU/NPU算力卡中執行，從而將AI工作負載轉發到遠端“資源池”中的GPU/NPU算力卡中執行，從而促進通用計算資源與智能算力。

面對算力叢集中多品牌、多規格異構算力資源難以統一調度的痛點，華為與西安交通大學共同打造Hi Scheduler智慧調度器。此調度器可自動感知叢集負載與資源狀態，結合AI工作負載的優先權、算力需求等多維參數，對本地及遠端的虛擬化GPU、NPU資源進行全域最佳調度，實現AI工作負載分時復用資源。

周躍峰介紹，Flex:ai的發佈主要希望推動AI平民化。「先前AI產業化落地的時候，醫院的某一個科室往往買8張卡，最多是16張卡。這樣小叢集就很難進行粗放的GPU或NPU利用和調度。能不能把一張卡虛擬化成多張卡，以更小的算力單元進行調度，讓每一張卡的算力能力釋放出來，讓平民能夠充分化。

周躍峰表示，Flex:ai將在發佈後同步開源在魔擎社群中。此外，華為也希望透過開源推動形成以AI容器技術為載體的資源高效利用新範式。開放原始碼的Flex:ai可以在產學研各界開發者的參與下，共同推動異構算力虛擬化與AI應用平台對接的標準建構，形成算力高效利用的標準化解決方案。（科創板日報）