#CloudMatrix384
華為雲再掀算力風暴:CloudMatrix384超節點將升級,Tokens服務性能最大可超H20四倍
華為雲算力再迎重大突破!剛剛落幕的華為全聯接大會2025,一系列新進展發佈——AI算力雲服務升級,基於華為雲剛剛發佈的最新AI伺服器規劃,CloudMatrix的雲上超節點規格將從384卡升級到未來的8192卡。依託MatrixLink高速對等網際網路絡結合多網合一技術,實現百萬卡的超大叢集,為智能時代提供更澎湃的AI算力。首創EMS彈性記憶體儲存服務,大幅降低多輪對話時延。華為雲Tokens服務正式接入CloudMatrix384超節點,打造極致性能的Tokens服務體驗。這距離CloudMatrix384超節點2025年4月正式發佈僅半年,期間其能力持續進化:2025年4月,CloudMatrix384超節點發佈並商用,在蕪湖資料中心規模化上線;2025年6月,基於CloudMatrix384超節點的新一代昇騰AI雲服務全面上線;2025年9月,Tokens服務全面接入CloudMatrix384超節點,有效遮蔽複雜的底層技術實現,直接為使用者提供最終的AI計算結果。現階段,AI行業內依舊被算力焦慮籠罩。矽谷大廠近期在算力、晶片領域動作頻頻:OpenAI一邊和博通自研AI晶片,一邊向甲骨文拋出3000億美元買算力;馬斯克百天建成萬卡超算叢集,還計畫向百萬卡規模衝擊,同時悄悄佈局晶片;Meta、AWS等企業也在積極獲取更多算力資源……但算力的發展並非一蹴而就,它需要在單點技術上極致突破,還涉及晶片、硬體、架構、軟體、網路、能源乃至整個產業生態的協同演進。放眼全球,能夠輸出澎湃算力的供應商,都離不開十數年、數十年的沉澱積累。華為雲作為其中一員,探索路徑因所處產業階段而顯得尤為深刻:不僅需要在技術“無人區”重新定義算力運行規則;還需把握AI發展時機,通過快速迭代響應產業海量需求。一步步成長為今天的“算力黑土地”。黑土地是極其適合農業的土質,天然含有大量腐植質,在此耕種的莊稼產量高,能夠茁壯成長。華為雲“算力黑土地”理念核心是,華為雲向行業提供一塊肥沃且精心開墾的“土壤”,企業、開發者可根據自身需求,在這片“土壤”上開展AI創新實踐。同時,華為雲通過框架創新、軟硬協同等一系列能力積累作為養料,讓這片黑土地越來越肥沃。正因如此,在大模型浪潮爆發的當下,華為雲才能持續向產業輸送澎湃算力,做最堅實的底座。其背後的研發、行動、理念與認知,也成為中國算力產業發展的重要參考。智算+通算,覆蓋全產業算力需求想要快速前進,綱領是第一要務。華為雲的策略是智算(智能計算)+通算(通用計算)協同推進:智算:聚焦AI前沿,提供極致性能與彈性服務,助力AI更快更好落地千行百業。通算:依託鯤鵬雲服務,從核心到邊緣全場景賦能,提供安全可信的雲上通用算力。智算部分的核心服務模式是Tokens服務,同時也可以提供HCS混合雲、華為雲液冷雲資料中心以及昇騰專屬雲服務。開頭提到的CloudMatrix384超節點能力升級和首創EMS彈性記憶體儲存服務,就屬於智算領域成果。△圖片為AI生成通算部分主要是鯤鵬雲業務,基於華為雲自研的鯤鵬處理器(ARM架構),提供一系列面向通用計算場景的雲服務產品,推動產業智能創新。鯤鵬雲實現了軟硬協同的全面創新,從多核高並行的晶片設計、軟硬一體的“擎天”架構,到華為雲智能調度平台與作業系統的深度最佳化,鯤鵬雲服務釋放出“開箱即用”的強勁算力。目前雲上鯤鵬核數從900多萬核增長到1500萬核,增幅達到67%。同時全面相容主流應用軟體,已適配超過25000個應用,為ARM生態繁榮提供堅實支撐。以上就是華為雲“算力黑土地”的大致架構。在這一體系下,大模型時代中的華為雲能夠更清晰、更針對性根據AI落地需求進行升級,為產業提供更高效、易用、可靠的算力。AI時代,用Tokens定義計算針對AI時代需求,華為雲今年正式推出基於CloudMatrix384超節點的Tokens服務。這是一種面向AI大模型推理場景、按實際Token消耗量計費的雲服務模式,與傳統雲端運算計費方式不同,可顯著降低AI推理成本。這種模式調整背後,是對大模型落地的細緻洞察。Token是將文字分割轉換成數字向量,大模型吞吐內容的規模以Tokens計算,它是大模型時代天然的計量單位。隨著AI落地處理程序推進,Tokens消耗量呈爆發式增長。資料顯示,2024年初中國日均Token消耗量為1000億,截至今年6月底,日均Token消耗量已突破30兆,一年半的時間增長300多倍。顯然,Token不再只是技術領域的計算單位,更是大模型消耗的實際體現,是衡量大模型落地情況的關鍵參考,也能直接反映背後GPU算力、記憶體、計算時間的使用量。用Tokens作為計費單位逐漸成為行業共識:一方面,能更精準計算企業使用的資源,讓使用者僅為實際消耗付費,同時通過實際消耗瞭解費用構成,進一步最佳化成本;另一方面,可解決不同場景Tokens消耗量差距大導致的收費不公問題,為雲廠商動態調節計算資源提供參考。比如我們常遇到的線上、近線、離線等場景:長文字生成任務適用於日常辦公等場景,白天呼叫量大、夜間幾乎靜默,按量計費比按時/按卡計費更合理;智能客服、AI助手等場景中,不同細分情況的會話輪次和深度不確定,Tokens服務模式可以更精準計算每次互動成本。另一方面,Token服務可以有效遮蔽複雜的底層技術實現,使用者不必關心晶片的工藝、伺服器的代次等複雜的硬體技術堆疊,也不必關心推理框架、模型部署等複雜的軟體技術堆疊,可以高效地直接獲得“AI的最終結果”。在本次HC2025上,華為雲宣佈CloudMatrix384 AI Token推理服務全面上線。這意味著AI算力進入以“極致性能、極致效率”為特徵的新階段,性能超越輝達H20 3-4倍。其底層技術主要依託CloudMatrix384超節點及xDeepServe分佈式推理框架等。第一,CloudMatrix384超節點使用全對等互聯架構與高速通訊技術,在計算通訊等方面優勢顯著,能釋放更極致算力。CloudMatrix384超節點通過華為雲自研的MatrixLink高速對等網際網路絡,將384顆昇騰NPU和192顆鯤鵬CPU緊密耦合,形成邏輯統一的超級“AI伺服器”。通過Scale Out方式,還可以組成一個超16萬卡的AI叢集,同時支援1300個千億參數大模型訓練或者上萬個模型的推理。未來,基於華為剛剛發佈的最新AI伺服器規劃,CloudMatrix超節點的規格將進一步升級到8192顆,組成百萬卡的AI叢集。第二,基於“一切可池化”理念,華為雲通過首創的EMS彈性記憶體儲存服務將NPU視訊記憶體、CPU記憶體和儲存資源解耦,形成統一資源池。NPU可直接遠端訪問池化記憶體,實現視訊記憶體獨立擴容,多輪對話Token時延大幅降低。同時,計算、儲存和網路資源可根據負載需求動態組合,提升資源利用率。這一技術對多輪次問答場景提升顯著。大模型進行多輪問答時,通常響應會隨輪次增加而變慢,原因是大模型需“記住”之前每一輪產生的資料以保證回答連貫性,當問答輪次增加,計算量成倍增長,導致響應延遲。而EMS服務能有效解決這一問題。第三,PDC分離及動態PD:PDC( Prefill-Decode-Caching)分離是將Prefill、Decode固化在各自叢集、同時利用MatrixLink高速對等網際網路絡可以全域定址的特點而另設立獨立的KV快取叢集,這樣不論是Prefill叢集還是Decode叢集的NPU都能夠直接訪問獨立KV快取叢集的共用記憶體快取,突破資料的物理位置限制,顯著提高負載平衡、NPU利用率以及記憶體利用率,同時提供更大的彈性。同時,系統能夠準確即時地分析或預測推理業務負載。第四,CloudMatrix384超節點專為主流MoE架構設計,支援“一卡一專家”的分佈式推理模式,將MoE模型的專家模組分佈到不同NPU卡上平行處理,如256個專家對應256張卡,減少通訊延遲導致的算力浪費,減少每張卡權重載入的時延,同時減少權重的視訊記憶體佔用,顯著提升單卡平行的路數。當Tokens服務全面接入CloudMatrix384超節點後,企業使用者能以優的性能、好的服務、高的質量,獲得各行各業所需的“最終AI計算結果”,更專注於應用和業務創新。千行百業AI底座:支撐網際網路應用、高精尖科研任務360推出的奈米AI是全球唯一已經進化到L4等級的多智能體蜂群平台。 (量子位)
華為CloudMatrix384超節點:官方撰文深度解讀
在今年四月舉辦的的華為雲生態大會2025上,華為宣佈推出CloudMatrix 384超節點。據華為介紹,面向AI時代的海量算力需求,華為雲基於“一切可池化、一切皆對等、一切可組合”的新型高速互聯匯流排推出CloudMatrix 384超節點,實現從伺服器級到矩陣級的資源供給模式轉變。CloudMatrix 384具備“高密”“高速”“高效”的特點,通過全面的架構創新,在算力、互聯頻寬、記憶體頻寬等方面實現全面領先。近日,華為團隊和矽基流動合著了一篇題為《Serving Large Language Models on Huawei CloudMatrix384》的文章。介紹了華為 CloudMatrix。(原文連結:https://arxiv.org/pdf/2506.12708)按照他們在文章中所說,這是新一代 AI 資料中心架構,體現了華為重塑 AI 基礎設施基礎架構的願景。華為 CloudMatrix384 代表了這一願景的首個生產級實現。它將 384 個昇騰 910C NPU、192 個鯤鵬 CPU 以及其他硬體元件整合到一個統一的超級節點中,並通過超高頻寬、低延遲的統一匯流排 (UB) 網路互連。與傳統的分層設計不同,該架構通過 UB 實現了直接的全節點通訊,從而允許計算、記憶體和網路資源動態池化、統一訪問和獨立擴展。這些架構特性尤其有利於通訊密集型操作,例如大規模 MoE 專家平行和分佈式鍵值 (KV) 快取訪問,從而使 CloudMatrix384 成為下一代 LLM 服務的可擴展高性能基礎。下面,我們節選文章的關鍵內容翻譯,以供大家參考。華為CloudMatrix介紹為了應對 AI 工作負載中這些新興挑戰,華為提出了 CloudMatrix,這是新一代 AI 資料中心架構,旨在重塑 AI 基礎設施的基礎。該架構願景的核心在於建構一個統一、緊耦合的計算結構,以高效支援現代 AI 應用的規模化、異構性和通訊需求。CloudMatrix384 代表了該願景的首個生產級實現,提供了一個專為大規模 AI 工作負載最佳化的專用平台。CloudMatrix的願景為應對現代大規模AI工作負載日益增長的需求,華為推出了CloudMatrix——一種開創性的下一代AI資料中心架構。該架構精心設計,秉承完全點對點高頻寬互聯和細粒度資源分解的原則。如圖1所示,CloudMatrix突破了傳統的以CPU為中心的層級設計,支援所有異構系統元件(包括NPU、CPU、DRAM、SSD、NIC和特定領域加速器)之間的直接高性能通訊,尤其無需CPU中介。該架構的核心是超高頻寬、低延遲的統一匯流排 (UB) 網路,它促進了高效的全系統資料傳輸和協調。基於此基礎,CloudMatrix提供了四項基礎功能,共同定義了AI原生基礎設施的新範式:(1) 面向TP/EP的可擴展通訊。 UB 互連支援跨 NPU 的直接高吞吐量點對點通訊,使 TP 和 EP 組能夠超越單個節點的邊界進行擴展。這消除了節點間的瓶頸,並允許大型模型在超級節點之間高效分佈。(2) 靈活的異構工作負載資源組合。CloudMatrix 將 CPU、NPU 和記憶體分解為獨立的池化資源,從而實現細粒度的、工作負載驅動的資源組合。這種靈活性允許根據工作負載需求(例如,記憶體豐富的快取節點、CPU 密集型的預處理節點)進行細粒度的資源分配,從而將部署從固定節點配置或基於 PCIe 的主機裝置耦合中解放出來。(3) 統一的融合工作負載基礎架構。高頻寬 UB 網路在單一可擴展的基礎架構中同時支援 AI 和資料密集型應用。這使得LLM推理、訓練、模擬和分析工作負載的融合執行成為可能,而這正是混合AI流水線日益普遍的需求。(4) 通過分解式記憶體池實現記憶體級儲存。CloudMatrix將叢集中連接到CPU的DRAM聚合到一個可通過UB訪問的共享高性能記憶體池中。該底層支援彈性記憶體服務 (EMS) 等服務,該服務通過消除傳統的I/O瓶頸,加速了諸如鍵值快取重用、參數載入和模型檢查點等延遲關鍵型操作。CloudMatrix384 概述:完全點對點硬體架構CloudMatrix384 被設計為一個 AI 超級節點,整合了 384 個昇騰 910C 神經網路處理單元 (NPU) 和 192 個鯤鵬中央處理器 (CPU),如圖 2 所示。CloudMatrix384 的一個顯著特點是其點對點、完全互聯的超高頻寬網路,該網路通過 UB 協議連接所有 NPU 和 CPU。CloudMatrix384 的 UB 設計是UB-Mesh 的遞迴。384 個 NPU 和 192 個 CPU 均通過 UB 交換機連接,使節點間通訊性能接近節點內通訊性能。如表 1 所示,節點間頻寬衰減低於 3%,節點間延遲增加低於 1 µs。鑑於現代 AI 工作負載主要依賴頻寬而非延遲,這種邊際延遲開銷對 AI 任務的端到端性能的影響微乎其微。總體而言,這種設計使 CloudMatrix384 能夠充當一個緊密耦合的大規模邏輯節點,擁有全域可定址的計算和記憶體能力,從而促進統一的資源池化和高效的工作負載編排。為了支援多樣化的流量模式並保持與傳統資料中心網路的相容性,CloudMatrix384 整合了三個獨特但互補的網路平面:(1)UB 平面:UB 平面構成超級節點內主要的超高頻寬縱向擴展架構。它以無阻塞的全對全拓撲結構直接連接所有 384 個 NPU 和 192 個 CPU。每台 Ascend 910C 提供超過 392GB/s 的單向頻寬。UB 能夠:高效實現細粒度平行策略,例如 TP 和 EP,不受節點邊界的限制;快速點對點訪問池化記憶體(跨越 CPU 和 NPU 記憶體),這對於高效快取模型權重和鍵值快取至關重要。(2)RDMA 平面:RDMA 平面支援跨 CloudMatrix384 個超級節點和外部 RDMA 相容系統的橫向擴展通訊。它目前採用融合乙太網路 RDMA (RoCE) 技術,以確保與標準 RDMA 堆疊相容。每個 NPU 貢獻高達 400Gbps 的單向 RDMA 頻寬。NPU 是該平面的唯一參與者,將 RDMA 流量與控制和儲存操作隔離。關鍵功能包括:在推理過程中,預填充和解碼 NPU 之間高速傳輸活動鍵值快取資料;支援使用符合 RDMA 標準的框架進行分佈式訓練和推理;在多叢集部署中實現跨超級節點的低延遲互連(3)VPC 平面:虛擬私有雲 (VPC:virtual private cloud) 平面通過高速網路卡(華為擎天卡)將 CloudMatrix384 超級節點連接到更廣泛的資料中心網路,每個節點可提供高達 400Gbps 的單向頻寬。它基於標準乙太網路和 IP 協議運行,並可選配 UB-over-Ethernet (UBoE) 協議。VPC 平面負責處理:管理和控制平面操作,例如部署、監控和調度;訪問持久化儲存,包括對象儲存服務 (OBS)、彈性卷服務 (EVS) 和可擴展檔案系統服務 (SFS);來自 CPU 駐留工作負載(例如資料庫和使用者介面)的外部服務通訊。儘管 CloudMatrix 的長期願景是將 RDMA 和 VPC 平面融合為一個統一的平面(如圖 1 所示),但當前的 CloudMatrix384 將它們分開,以確保與傳統資料中心基礎設施的向後相容性。硬體元件一、Ascend 910C 晶片CloudMatrix 384 的核心是海思 Ascend 910C NPU,這是華為面2024 年推出的旗艦 AI 加速器,它將接替原版 Ascend 910B。910C 採用雙晶片封裝:兩個相同的計算晶片共封裝,共享八個封裝記憶體儲器堆疊,並通過高頻寬跨晶片結構連接,如圖 3 所示。計算:每個晶片可維持約 376 TFLOPS 的密集 BF16/FP16 吞吐量,每個封裝總吞吐量可達 752 TFLOPS。每個晶片包含 24 個針對矩陣和摺積工作負載最佳化的 AI 立方體 (AIC:AI cube) 核心,以及 48 個用於元素級運算的 AI 向量 (AIV:AI vector) 核心。所有計算引擎均支援 FP16/BF16 和 INT8 資料類型。 8 位量化可以以 INT8 精度實現,從而實現與原生 FP8 硬體相當的計算效率,而無需專用 FP8 支援。兩個晶片通過封裝內互連進行通訊,總頻寬高達 540 GB/s,單向頻寬 270 GB/s。記憶體:Ascend 910C 封裝整合了八個記憶體堆疊(每個 16 GB),共提供 128GB 封裝內記憶體(每個晶片 64GB)。該封裝可提供高達 3.2 TB/s 的總記憶體頻寬,每個晶片可用頻寬為 1.6 TB/s。網路介面:每個 Ascend 910C 晶片與兩個不同的網路平面介面。UB 平面:該晶片整合七個高速收發器,每個收發器的工作速率為 224Gbps,為橫向擴展的 UB 平面提供總計 196GB/s 單向(或 392GB/s 雙向)頻寬。RDMA 平面:每個晶片都包含一個專用介面,為橫向擴展的 RDMA 平面提供高達 200Gbps 的單向頻寬。二、Ascend 910C 節點CloudMatrix384 中的每個計算節點都整合了 8 個 Ascend 910C NPU、4 個鯤鵬 CPU 和 7 個板載 UB 交換晶片,如圖 4 所示。12 個處理器(8 個 NPU 和 4 個 CPU)通過 UB 鏈路連接到這些板載交換機,在節點內建立單層 UB 平面。每個 NPU 都配置了高達 392GB/s 的單向 UB 頻寬,而每個鯤鵬 CPU 插槽則獲得約 160GB/s 的單向 UB 頻寬。單個板載 UB 交換晶片為超級節點結構中的下一層交換層提供 448GB/s 的上行鏈路容量。只有 NPU 參與輔助 RDMA 平面。每個 NPU 裝置額外貢獻一條 400Gbps 單向鏈路,用於橫向擴展 RDMA 流量,使每個節點的 RDMA 頻寬總計達到 3.2 Tbps。在 CPU 叢集內,四個鯤鵬 CPU 插槽通過全網狀 NUMA 拓撲互連,從而實現所有連接 CPU 的 DRAM 的統一記憶體訪問。其中一個 CPU 承載著節點的擎天卡,這是一個專用的資料處理單元 (DPU),不僅整合了高速網路介面,還執行重要的節點級資源管理功能。該擎天卡作為節點的主要南北向出口點,與第三個不同的網路平面(資料中心的 VPC 平面)連接。三、UB 交換機系統CloudMatrix384 超級節點橫跨 16 個機架:12 個電腦架,共承載 48 個 Ascend 910C 節點(共 384 個 NPU),以及 4 個通訊機架。這些通訊機架容納第二層 (L2) UB 交換機,用於連接超級節點內的所有節點。圖 5 展示了板載第一層 (L1) UB 交換機(位於每個 Ascend 910C 節點內部)和機架級 L2 UB 交換機之間的拓撲結構。該網路設計為無阻塞,這意味著 L2 交換層不存在頻寬超額認購。L2 交換機被劃分為 7 個獨立的子平面。每個子平面包含 16 個 L2 UB 交換晶片,每個 L2 交換晶片提供 48 個 28 GB/s 連接埠。在每個節點內部,7 個板載 L1 UB 交換晶片與這 7 個 L2 子平面一一對應。每個 L1 交換晶片扇出 16 條鏈路(每個鏈路與其對應子平面中的每個 L2 交換晶片相連)。此配置可確保節點到 L2 交換矩陣的聚合上行鏈路頻寬與其內部 UB 容量精確匹配,從而在整個超級節點中保持無阻塞特性。軟體棧一、用於昇騰NPU的CANN華為為昇騰NPU開發了全面的軟體生態系統,稱為神經網路計算架構(CANN:compute architecture for neural networks)。CANN充當中間軟體層,實現高級AI框架(如PyTorch 和TensorFlow )與昇騰NPU的低級硬體介面之間的高效整合。通過將這些框架生成的抽象計算圖轉換為最佳化的硬體可執行指令,CANN簡化了開發人員與昇騰硬體的互動,促進了軟硬體協同設計,並旨在最大限度地提高昇騰架構上應用程式的性能。CANN架構。CANN軟體堆疊(圖6)由三個主要層組成:驅動程式、執行階段和庫,其架構類似於NVIDIA的CUDA生態系統。(1)驅動層:Ascend NPU 驅動程式位於底層,由核心模組和韌體組成,充當作業系統與 Ascend NPU 之間的低級介面。它管理必要的硬體互動,包括裝置初始化、資源分配(記憶體、資料流)、命令調度以及 NPU 間通訊設定。(2)執行階段層:CANN Runtime 是 Ascend NPU 上應用程式的核心執行引擎。它負責監督應用程式的生命周期,協調模型計算,並為模型和算子提供全面的裝置控制、記憶體管理和執行管理。這些功能主要通過 Ascend 計算語言 (ACL) API 訪問。(3)庫層:該層提供一套高度最佳化的軟體元件,用於加速各種 AI 工作負載。關鍵要素包括領域特定加速庫 (AOL)、用於分佈式任務的華為集體通訊庫 (HCCL)、包含預最佳化核心的擴展算子包 (OPP),以及用於神經網路加速 (NNAE) 和離線推理 (NNRT) 的引擎。支援自訂算子開發(例如通過 Ascend C 語言開發)以及與第三方庫整合,以進一步增強其功能。除了核心層之外,圖引擎 (GE) 還能編譯和最佳化來自 PyTorch、TensorFlow 和 MindSpore [28] 等框架的計算圖。它通過應用算子融合、記憶體規劃、動態形狀處理和調度等全圖最佳化,連接高級模型和低級執行。這些最佳化降低了開銷,並提高了 Ascend NPU 的執行效率。框架整合:CANN 廣泛支援主流 AI 框架,顯著降低了現有和新 AI 項目採用昇騰 NPU 的門檻:PyTorch:通過 PyTorch 昇騰 NPU 介面卡 (torch_npu) ,開發者可以在現有的 PyTorch 工作流程中無縫利用昇騰 NPU 加速。華為提供預建構的 Python Wheel 包,安裝簡便,API 相容性和最佳實踐詳盡文件,以及簡化的 CUDA 程式碼遷移到 CANN 的工具或指南。TensorFlow:CANN 的 TF_Adapter將昇騰 NPU 加速功能直接整合到 TensorFlow 框架中,使基於 TensorFlow 的 AI 項目能夠以極少的程式碼修改即可獲得高性能和便捷的部署。ONNX:華為為 ONNX 執行階段提供專用的 CANN 執行提供程序。這使得以開放神經網路交換 (ONNX) 格式 [42] 匯出的模型能夠高效執行,從而促進廣泛的模型相容性,並簡化了在包含昇騰 NPU 的異構硬體環境中的部署。MindSpore:MindSpore 由華為內部開發,提供與昇騰硬體的原生且高度最佳化的整合。該框架旨在在華為的 AI 生態系統中提供潛在的卓越性能和易用性,提供緊密耦合的軟硬體解決方案。總而言之,CANN 提供了一個垂直整合的軟體堆疊,包括驅動程式、執行階段和庫,可與 NVIDIA 的 CUDA 相媲美,同時針對昇騰 NPU 進行了定製。其 GE 將全圖表示編譯為高度最佳化的執行計畫,豐富的框架介面卡使現有工作負載的移植幾乎無阻力。這些元件共同使開發人員能夠以最少的程式碼更改利用昇騰硬體,同時在廣泛的 AI 應用中實現接近峰值的裝置性能。二、雲部署基礎設施軟體為了支援 CloudMatrix384 在雲環境中的部署,華為雲提供了一套完善的基礎設施軟體,包括 MatrixResource、MatrixLink、MatrixCompute 和 MatrixContainer,旨在抽象硬體複雜性,並通過標準雲 API 實現無縫的資源編排,如圖 7 所示。MatrixResource 管理超級節點內的物理資源配置,包括基於拓撲感知調度的計算實例分配。實例配置任務由 CloudMatrix384 每個計算節點的擎天卡上運行的 MatrixResource 代理執行。MatrixLink 為 UB 和 RDMA 網路提供面向服務的網路,支援 QoS 保證和動態路由。它管理鏈路級配置,並支援網路感知的工作負載分配,以實現最佳通訊效率。這些任務也由每個計算節點的擎天卡上的 MatrixLink 代理執行。MatrixCompute 協調 CloudMatrix 實例的生命周期,從裸機配置到自動擴縮容和故障恢復。它協調跨多個物理節點的資源組合,以建立緊密耦合的邏輯超級節點實例。MatrixContainer 提供基於 Kubernetes 的容器服務,並通過拓撲感知調度進行增強,以充分利用 CloudMatrix 的高性能互連。它使使用者能夠使用熟悉的容器化工作流部署分佈式 AI 工作負載。ModelArts 位於基礎設施堆疊的頂層,提供端到端 AI 平台服務。它包含:ModelArts Lite,可通過裸機和容器化環境直接訪問 Ascend 硬體;ModelArts Standard,支援完整的 AI 開發和 MLOps 流水線;ModelArts Studio,提供模型即服務 (MaaS) 功能,可快速部署和定製 LLM 及其他模型。這些元件共同支援使用者在 CloudMatrix 384 上高效建構和部署大規模 AI 應用程式,在保持性能的同時抽象底層複雜性未來方向討論人工智慧模型的快速演進及其廣泛應用持續對人工智慧基礎設施提出日益嚴格的要求。儘管 CloudMatrix384 代表了緊耦合人工智慧計算擴展領域的一個重要架構里程碑,但為了滿足新興工作負載的需求,仍需進一步發展。在本節中,我們將討論 CloudMatrix 架構及其建構的 LLM 服務系統的潛在未來發展方向,旨在進一步提升可擴展性、靈活性、效率和性能。CloudMatrix 的未來演進CloudMatrix384 所體現的超級節點概念可以沿多個維度進行擴展,以適應未來的 AI 工作負載。一、統一 VPC 和 RDMA 平面如前文所述,CloudMatrix384 目前採用單獨的網路平面來處理橫向擴展 (RDMA) 和 VPC 流量。然而,CloudMatrix 可以將橫向擴展通訊整合到 VPC 網路中。在典型的 AI 訓練和推理工作負載中,諸如張量、專家和序列平行 (TP/EP/SP) 等頻寬密集型通訊階段主要集中在超級節點內。相比之下,跨超級節點通訊(主要源於資料和流水線平行 (DP/PP))通常對頻寬的需求要低得多。借助分層 DP 通訊和通訊隱藏技術,VPC 網路可以充分滿足大多數 AI 工作負載的超級節點間通訊需求。基於此,基於 VPC 平面的統一網路架構可以建構可用區 (AZ) 規模的大規模 AI 叢集。它能夠相容異構多代AI硬體,以超節點為基本單元實現靈活、模組化的擴展,並通過資料中心網路(DCN)技術支援跨地域的無縫互聯。二、更大規模的超級節點儘管 CloudMatrix384 擁有 384 個 NPU,規模可觀,但下一代 AI 模型和應用場景預計將需要更大規模的超級節點。以下幾個關鍵因素推動了這一規模增長軌跡:(1)擴展以適應模型演進:隨著 LLM 在參數規模和架構複雜度方面的不斷擴展,為其提供服務所需的基礎設施也必須隨之發展。未來的模型預計將具有顯著更大的參數數量、更長的輸入序列以及越來越多的稀疏啟動專家(sparsely activated experts),尤其是在 MoE 設計中。這些趨勢對每個推理會話中的計算、記憶體和互連頻寬提出了越來越高的要求。此外,新興的架構模式,例如用於專門推理的模組化子網路、檢索增強生成或混合密集/稀疏計算,要求模型元件之間更緊密的耦合,從而增加模型內部的通訊和同步。高效支援這些工作負載需要將計算和記憶體共置在一個緊密整合的超級節點內,以最大限度地減少通訊延遲並保持高吞吐量。因此,擴展超級節點容量至關重要,這不僅是為了滿足原始資源需求,也是為了維持下一代LLM所需的細粒度局部性和性能特性。(2)提升資源分配效率:擴展超級節點規模還可以提高實際異構工作負載條件下系統範圍的資源利用率。基於實際生產跟蹤,我們將每個AI任務建模為一組緊密耦合的塊,模擬未來的NPU請求模式。每個塊都是一組連續的NPU,必須在單個超級節點內進行配置,以滿足作業內部的頻寬和延遲限制。如圖24所示,更大的超級節點在各種平均塊大小範圍內始終能夠實現更高的NPU分配率。例如,當平均塊大小為 10.08 時,384 個 NPU 超級節點的分配率超過 94%,而 224 個 NPU 超級節點的分配率則降至 91% 以下。這一改進源於碎片化的減少和更好的統計復用——更大的資源池可以為非均勻大小的作業提供更大的部署靈活性。相反,對於固定的超級節點大小,增加塊大小會導致分配效率降低,因為打包(Packing)難度較大。當平均塊大小達到 11.28 時,224 個 NPU 超級節點的分配率降至 85% 以下。這些結果表明,在實際工作負載分佈下,擴展超級節點規模可顯著提高系統吞吐量和效率。(3)幾乎恆定的攤銷網路成本:擴大超級節點規模並不會必然導致每個 NPU 的網路成本增加。假設網路架構相同,例如雙層 Clos 類交換拓撲,只要配置實現了交換機連接埠的充分利用,每個 NPU 的網路基礎設施攤銷成本在不同規模的超級節點之間幾乎保持不變。如表 11 所示,192、288 或 384 個 NPU 的配置均可實現 100% 的交換機利用率,且每個 NPU 的攤銷交換機成本相同。中等配置(例如 256 或 352 個 NPU)的交換機利用率較低,會略微增加每個節點的成本。這些結果表明,將超級節點規模擴展到給定交換層的上限不會帶來額外的成本開銷,因此從網路角度來看,這是一種經濟高效的策略。(4)適應日益增長的資源異構性:未來的人工智慧工作負載將需要在同一執行環境中獲得日益多樣化的硬體支援。除了 NPU 和 CPU 之外,下一代超級節點還可能整合專用加速器,用於執行物理模擬、即時視訊處理、無損資料壓縮和加密計算等任務。這些單元正在成為端到端人工智慧流水線的重要組成部分,尤其適用於多模態或特定領域的應用。為了高效利用這些異構資源,它們必須共享相同的高頻寬、低延遲互連結構,並能夠作為超級節點內的一流計算對等體進行訪問。要大規模地支援這種多樣性,需要擴展超級節點的規模和更靈活的互連架構,這進一步強化了向更大、更異構的計算域發展的趨勢,這些計算域可以處理緊密耦合、跨功能的人工智慧工作負載。三、CPU 的物理分解和池化雖然當前的 CloudMatrix384 超級節點已經通過從其計算節點(每個節點整合 4 個鯤鵬 CPU 和 8 個昇騰 NPU)池化 CPU 和 NPU 實現了一定程度的資源靈活性,但 CloudMatrix 架構未來的一個關鍵方向是更根本的 CPU 和 NPU 資源的物理分解,如圖 1 所示。這設想了一個由不同的專用節點類型構成的超級節點:以 NPU 為中心的節點,密集部署 AI 加速器;以及以 CPU 為中心的節點,提供強大的通用計算、記憶體容量和 I/O 功能。這些異構節點類型將通過高頻寬、低延遲的 UB 網路平面互連,從而在超級節點等級實現細粒度、靈活且可擴展的資源池化。物理分解的動機源於固定節點配置中傳統 CPU-NPU 配對的僵化性,其中靜態的 NPU 與 CPU 比率限制了系統匹配工作負載需求的能力。例如,某些推理工作負載需要密集的 CPU 預處理/後處理或大量記憶體支援的快取,導致即使 NPU 空閒,也會出現 CPU 瓶頸。相反,訓練工作負載可能會使 NPU 飽和,而 CPU 資源卻未得到充分利用。在這種情況下,緊密耦合的 CPU-NPU 配置會導致硬體利用率不理想,並且擴展不靈活。儘管 CloudMatrix384 的點對點 UB 拓撲已經將邏輯資源與分配解耦,從而實現了跨超級節點的靈活 CPU-NPU 匹配,但將 CPU 和 NPU 資源物理地分離到專用資源池中可以釋放更多優勢:(1)獨立且最佳化的擴展:可以開發物理上獨立的以 NPU 為中心的節點(例如,使用最小的本地 CPU 進行基本管理,但最大化 NPU 密度)和以 CPU 為中心的節點(例如,擁有多個 CPU 核心、大容量 DRAM 和豐富的 I/O 選項,作為超級節點的主要 CPU 和記憶體資源池)。這使得 NPU 計算能力和超級節點的通用 CPU/記憶體容量能夠獨立且更經濟地擴展。資料中心營運商可以建構具有高度可變的 NPU、CPU 和記憶體比例的超級節點,並根據主要工作負載進行精確定製(例如,NPU 密集型用於訓練,CPU/記憶體密集型用於資料密集型預處理或大規模 EMS 快取)(2)增強的資源利用率和專業化:專業化的節點設計允許針對主要資源類型進行硬體最佳化。 NPU 節點可以專注於加速器的供電和冷卻,而 CPU/記憶體節點可以針對記憶體密度、I/O 頻寬或特定的 CPU 指令集進行最佳化。這可以提高整體效率。未來服務系統增強隨著底層超級節點架構的不斷發展,LLM 服務系統必須協同演進,才能充分利用這些功能。一個關鍵方向是超越粗粒度分解(例如預填充-解碼分離),轉向更細粒度的元件級分解和智能自適應部署策略。這些方法旨在提高資源利用率、提升吞吐量,並支援日益異構的工作負載和硬體配置。一、元件級分解CloudMatrix384 採用的預填充-解碼-快取分解的點對點服務架構已被證明能夠有效地分離 LLM 推理的主要階段。然而,通過將模型執行分解為更細粒度的元件,可以實現進一步的改進,這些元件可以獨立管理、部署和擴展。我們重點介紹兩個新興方向:(1)解碼-注意力機制分解與解除安裝:雖然預填充實例受計算限制,而解碼實例通常受記憶體限制,但 Adrenaline 系統 表明,通過將記憶體密集型注意力計算從解碼路徑中分解出來並將其解除安裝到未充分利用的預填充實例,可以實現額外的性能提升。這種方法提高了整體記憶體頻寬利用率,並支援更大的解碼實例批處理大小,從而提高了計算效率。它依賴於低延遲同步、精心安排的解除安裝任務共置以及服務等級目標 (SLO) 感知的解除安裝策略。其結果是在不影響延遲的情況下提高了吞吐量,這體現了注意力分解如何釋放現有服務部署中的潛在容量。(2)注意力機制和 MoE 分解:大規模 MoE 模型由於稀疏的專家啟動和極端的記憶體需求,面臨著獨特的挑戰。MegaScale-Infer 建議將注意力機制和專家元件分解為獨立的執行服務,從而支援不同的平行策略和硬體對應。處理每個 token 的注意力層使用資料平行部署在記憶體最佳化的節點上,而專家 FFN 則通過專家平行分佈在專用資源池中。這種分解執行減少了爭用,提高了吞吐量,並允許注意力機制和專家資源的獨立擴展,這對於高效地服務於兆參數的 MoE 模型至關重要。總而言之,這些分解技術代表著一種轉變,即將 LLM 視為松耦合微服務的集合,每個微服務都有不同的性能配置檔案。這種粒度可以更好地對應到異構硬體,並提高超級節點的負載平衡和可擴展性。二、混合自適應部署一旦將LLM推理分解為可視為細粒度微服務的元件,例如注意力執行、FFN計算、KV快取管理或MoE專家門控,服務系統將獲得顯著的靈活性,從而採用更複雜的部署策略。這些混合自適應部署模型使系統能夠根據每個元件獨特的計算和記憶體需求定製資源分配,從而提高整體利用率和可擴展性。1) 硬體感知的微服務佈局:每個微服務都可以根據其性能狀況對應到最合適的硬體類型。例如,通常受記憶體頻寬限制的注意力層應優先在具有高記憶體吞吐量的NPU上運行;計算密集型的FFN模組則受益於在具有強大計算能力的NPU上分配;而輕量級或延遲容忍操作(例如KV快取索引)可以解除安裝到池化CPU或低成本的通用加速器上。這種細粒度的匹配能夠更高效地利用異構硬體,並在不影響性能的情況下降低成本。2) 混合微服務共置:分解後的微服務也可以動態地共置,以提高整個超級節點的資源利用率。例如,可以將解碼階段中受記憶體限制的注意力操作解除安裝到記憶體利用率較低的預填充實例。這種混合共置策略有助於緩解資源瓶頸,提高跨階段的利用率,並增加有效的系統吞吐量,尤其是在多變或突發性工作負載下。3) 微服務的自適應和獨立擴展:微服務分解的一個關鍵優勢是能夠根據即時工作負載特性獨立地擴展每個元件。例如,在處理長上下文輸入期間,注意力微服務可能會承受更高的負載,並相應地進行擴展,而無需額外的 FFN 或專家資源。這種粒度可防止系統過度配置,並允許系統彈性地適應工作負載的動態變化。為了充分利用這些功能,服務基礎設施必須包含一個複雜的編排層,該層能夠持續分析系統負載、預測性能瓶頸,並做出即時的、基於服務等級目標 (SLO) 的調度和擴展決策。該編排器充當混合部署模型的控制平面,確保即使工作負載和資源可用性發生波動,也能滿足性能保證。總而言之,由元件級分解支援的混合和自適應部署策略代表了 LLM 服務系統設計中一個充滿希望的前沿領域。它們能夠實現更精確的資源利用、跨異構硬體的無縫負載平衡,並能夠滿足日益複雜和多樣化的模型架構所帶來的未來需求。結論本文介紹了華為 CloudMatrix,這是新一代 AI 資料中心架構,體現了華為對先進 AI 基礎設施的願景。我們特別推薦華為 CloudMatrix384,它是這一創新架構理念的首個量產級實現。CloudMatrix384 是一個 AI 超級節點,旨在高效支援大規模 AI 工作負載,採用完全對等互聯的硬體設計。它整合了 384 個昇騰 910C NPU 和 192 個鯤鵬 CPU,並通過超高頻寬、低延遲的統一匯流排 (UB) 網路互連。這種獨特的架構支援動態資源池化、簡化的記憶體管理和卓越的節點間通訊,有效解決了傳統資料中心架構中常見的可擴展性和效率挑戰。利用 CloudMatrix384,我們提出了 CloudMatrix-Infer,這是一個全面的服務解決方案,它採用點對點服務架構,將推理工作流分解為不同的預填充、解碼和快取子系統。該架構通過在所有 NPU 之間實現對共享的分解式記憶體池的統一訪問,顯著簡化了調度,增強了負載平衡,並最佳化了資源利用率。我們進一步設計並實現了先進的硬體感知技術,包括大規模專家平行 (LEP)、最佳化的通訊和 MLA 算子、基於微批的流水線和 INT8 量化。這些技術共同提升了 MoE 和 MLA 的計算吞吐量,提高了快取效率,並顯著提升了整體推理性能。我們對 DeepSeek-R1 模型進行了廣泛的評估,結果表明 CloudMatrix-Infer 實現了卓越的吞吐量,在預填充階段每個 NPU 每秒處理 6,688 個tokens,在解碼階段每個 NPU 每秒處理 1,943 個tokens,同時始終保持每個輸出tokens低於 50 毫秒的低延遲。這些結果對應的計算效率為預填充階段 4.45 個tokens/秒/TFLOPS,解碼階段 1.29 個tokens/秒/TFLOPS,均超過了 NVIDIA H100 上的 SGLang 和 H800 上的 DeepSeek 等領先框架的已公佈效率。此外,CloudMatrix Infer 有效地平衡了吞吐量和延遲,即使在更嚴格的 15 毫秒以下 TPOT 限制下也能保持 538 個tokens/秒的吞吐量。INT8 量化策略在各種基準測試中進一步保持了與 DeepSeek 官方 API 相當的精準率。展望未來,CloudMatrix384 的進一步增強呈現出幾個令人振奮的方向。未來的工作包括整合和統一 VPC 和 RDMA 網路平面,以實現更精簡的互聯互通,擴展到更大的超級節點配置,以及追求更深層次的 CPU 資源分解和池化。此外,更細粒度的元件級分解和自適應部署策略,為在 AI 資料中心基礎設施中實現更高的靈活性、效率和可擴展性提供了有希望的途徑。總而言之,我們的研究結果表明,華為 CloudMatrix 是一個高效、可擴展且性能最佳化的平台,可用於部署大規模 AI 工作負載,為未來 AI 資料中心基礎設施樹立了標竿。 (半導體行業觀察)