華為全面揭秘超大規模MoE模型昇騰推理部署技術,國產晶片推理性能再創新高

“華為不只是「官宣」一下而已,後面更會是全面開源。”

推理部署,成為大模型落地重中之重

從2017年Google提出Transformer——這一人工智慧中最常用的神經網路架構,到DeepSeek V3/R1在2025年春節一夜爆火,超大規模MoE架構大模型的重點逐漸從訓練開發轉向推理支撐的應用落地。

推理場景是大模型認知能力的"試金石",是大模型商業化落地的核心能力,從搶先上線DeepSeek模型到API服務價格戰,在推理為王的時代,誰能最極致的提升推理部署計算效率,誰才能真正獲得大模型商業成功。

數學補物理,極致提升計算效率

“數學補物理” ,通常指通過數學理論、演算法和建模方法,彌補傳統物理裝置開發在複雜系統分析、大規模計算或多場耦合問題中的侷限性。華為輪值董事長孟晚舟曾在2025年新年致詞中提到:

華為十多個實驗室與夥伴們的工程師組成“大雜燴”團隊,面對天成AI叢集系統和單晶片性能的嚴峻工程挑戰,他們創造性應用數學補物理、非摩爾補摩爾、系統補單點等思想,在散熱、供電、高速、高密及大晶片在板可靠性等工程領域突破極限。

華為技術團隊面向超大規模MoE模型的推理技術最佳化也是圍繞著數學補物理這一思路,充分發揮等價數學變換,也就是在保持數學對象本質屬性不變的前提下,通過代數變形、邏輯轉換或結構重構等方式提升計算效率的方法,極致的提升了硬體叢集的計算效率,包括從點到面的推理框架側最佳化技術,把數學最優實現變為物理最優的FlashComm通算最佳化技術,把序列計算變成四流並行的通算極致掩蓋技術,以加法代乘法昇騰MLA最優實現,硬體感知親和的大量創新算子等一系列核心技術孕育而生,並將通過一連串的技術報告首次全面披露這些寶貴的技術細節。

開源共享,打造持久的開放協作生態

昇騰生態的建設不是一次性的工作,而這次昇騰超大規模MoE模型推理部署技術的揭秘,除了通過技術報告分享昇騰在超大規模MoE模型的推理部署技術之外,在不到一個月的時間之後,實現這些核心技術的相關程式碼也都會陸續開源出來, 歡迎關注https://gitcode.com/ascend-tribe/ascend-inference-cluster中的持續更新

在與業界分享技術思路的同時,也通過開放原始碼的方式共同打造長期持續的開放協作生態環境,讓昇騰親和的技術能力通過這些開放原始碼專案真正的活躍起來,這體現出華為堅定建設開放生態的決心,讓所有願意嘗試使用昇騰能力的專家有信心長期投入,也讓所有積極參與貢獻的開發者有信心持續耕耘,一起努力讓昇騰生態在中國茁壯成長。

超大MoE類模型推理的挑戰

擁有6710億參數,採用混合專家架構,在各種榜單表現出色的DeepSeek V3某種程度上代表了大模型發展的一個新趨勢,即基於軟硬體協同最佳化的模型架構,能夠最大性能的發揮硬體平台的能力,在多種任務中表現出色,包括自然語言理解、程式碼生成和數學推理。我們暫且把DeepSeek V3為代表的大模型統稱為超大MoE類模型。

儘管在性能上表現出色,並且有著大量開放原始碼的模型權重以及很多的包括DeepEP等在內的工具類項目,但對於想使用這類大模型的企業來說,能夠部署完整版本的超大MoE類模型目前依舊面臨多重挑戰:

首先,硬體部署規模要求更高。現在我們在和大模型進行互動聊天的時候,無時無刻不在使用大模型的推理。而由於其自身的尺寸規模,這不再是此前小尺寸模型在單機多卡甚至單機單卡就可以運行能夠相比的。硬體叢集逐漸成為“滿血版”超大MoE類模型的標配。

其次,模型規模龐大對推理效率提出了高要求。龐大的專家數量給硬體記憶體使用效率提出了很大挑戰,需要合理的分佈式平行和通訊策略設計,才能將如此大量的專家有效的跑在硬體叢集上。

再次,超大MoE類模型的諸多架構創新,也帶來了很多實際部署上的困難。比如其多頭隱式注意力機制(MLA - Multi Head Latent Attention),雖然可以通過將原有的注意力機制的鍵值對通過一個投影矩陣壓縮到一個較小的隱式向量空間中,但這種創新也為算子最佳化帶來了新的挑戰,比如其帶來了中間變數膨脹且向量計算佔比顯著增加,這樣給硬體對計算的加速提出了新的要求。

昇騰使能技術對大模型叢集推理的極致創新

為瞭解決如上提到的實際部署中遇到的問題,從模型和算子兩個方面入手,我們基於昇騰硬體和組網方式,提出了多個親和的最佳化策略,開發出了一整套面向叢集的大規模專家平行的解決方案。

昇騰伺服器有多種配置和型號,我們針對近期發佈的CloudMatrix 384 超節點和Atlas 800I A2 推理伺服器兩種典型機型進行部署。為瞭解耦prefill 階段的首token 時延約束和decode 階段的解碼時延約束,我們採用PD 分離部署的方式。

在框架側,我們基於vLLM框架,為了適配昇騰伺服器,針對DP和EP 平行策略做了相應適配,在調度和KV 傳輸方面分別採用了Prefill調度分桶和靈衢互聯與分層傳輸的技術來降低調度開銷,在請求下發、調度策略、系統建鏈和框架前後處理方面做了性能最佳化,以實現整個系統的最優性能。

模型方面,我們採用A8W8C16 的量化策略,其中A8W8 採用INT8 的資料類型,C16 採用BF16 的資料類型進行量化。詳細的部署方面,由於兩種機型的定位和配置,特別是網路配置相差巨大,所以具體部署方案也不盡相同。

針對CloudMatrix 384 超節點,其特殊的組網方式為其提供了非常強大的優勢。按照DeepSeek的論文所述,Decode 部分是嚴重的通訊主導,在MicroBatch技術的加持下,幾乎可以做到通訊掩蓋其他所有計算類操作。而CloudMatrix 384 的組網非常強大,使得通訊耗時大幅降低,可以更進一步釋放昇騰晶片的算力。

因此,針對超節點我們採用大規模EP 平行的方式來部署,針對Prefill 使用16 卡,針對Decode 使用144 卡,其中128 卡部署路由專家,16 卡通過DP 的方式部署共享專家,MLA 部分使用DP 的方式進行部署。超節點可以獲得非常高的吞吐,當然由於各種情況的影響,包括時延約束的影響使得各部分耗時未能達到理想的線性度,頻寬搶佔和啟動開銷等帶來一部分性能劣化,框架的耗時和調度開銷帶來了額外的時延增加,MLA 部分的序列負載平衡和MoE部分的專家負載帶來進一步的性能惡化;最後多種原因綜合在一起,使得當前吞吐實現在保證50ms 時延下單卡decode 吞吐達到1920 token/s。

針對Atlas 800I A2 伺服器,由於其是8 卡的伺服器,我們需要採用多機互聯的方式來進行。綜合考慮模型吞吐和部署靈活性,我們選定使用2 機16 卡作為一個prefill 示例,使用4 機32 卡作為一個decode 示例。為了部署時儘可能的靈活,這裡選用的卡數都比較少,這使得我們採用較小規模的EP 平行策略:每張卡上部署8 個路由專家和1 個共享專家。MLA 部分採用DP 平行策略,通訊方式採用AllGather方案。這種部署方式可以在卡數較少情況下依然達到相當可觀的吞吐。這裡值得一提的是,我們的通訊方案採用的是AllGather而不是Dispatch/Combine 的通訊方案,該方案在真實負載下具有更好的性能表現。採用各種最佳化策略的情況下,實現了在100ms 時延下達到單卡吞吐速度808tokens/S。

1.推理框架側最佳化技術

1) API Server 擴展技術

團隊提出了API Server 擴展技術,通過支援API Server 水平擴容策略,可以有效提升框架請求處理能力,降低使用者請求延遲,提高系統吞吐量(QPS)。結合包括組網方案最佳化和全平行、全非同步前後處理,可進一步實現最佳TTFT,提升推理服務的可用性與處理效率。

2)MoE模型負載平衡

團隊提出了一種高效的負載平衡策略,通過動態負載平衡,熱專家冗餘部署,即時調度和動態監控等核心技術,顯著提升MoE 模型推理性能。

2. FusionSpec推理投機加速技術

在實際應用中,投機推理技術更多聚焦於小批次(batch)低時延場景,如何將其高效應用於高吞吐量場景並實現性能收益最大化,成為當前亟待攻克的技術難題。

投機推理提升了模型解碼階段的計算密度,天然匹配昇騰高計算頻寬比的特點。為了能夠充分發揮昇騰算力大的優勢,在低時延大並行場景下實現高吞吐,我們提出了投機推理引擎FusionSpec深度最佳化MTP 在昇騰上的推理性能:

在推理流程上,將投機模型置於主體模型之後,直接使用主體模型的輸出,並復用主體的控制參數,大幅減少了框架耗時,並親和PD 分離的部署場景。

  • 為了在投機推理開啟時進一步發揮Ascend 的計算能力,減少NPU 的空閒時間,我們對投機推理的框架、採樣(sampler)操作、多頭潛在注意力(MLA)計算進行了最佳化。

3.FlashComm通訊最佳化技術

FlashComm :主流張量平行(TP)中使用AllReduce進行通訊的方案存在通訊次數多,通訊資料量大,通訊資料格式位元數高等問題,且AllReduce之後的如殘差連接和歸一化計算存在計算冗餘,沒有充分利用多卡平行能力。為此,我們提出FlashComm網路通訊方案:我們針對Deepseek網路前三層稠密MLP 層,基於相同的集合通訊邏輯將張量平行中的AllReduce通訊算子進行替換,並對通訊算子在網路中位置進行編排,實現了低位元和低維度資料通訊,從而有效降低了通訊資料量和通訊時延,並消除了網路中存在的冗餘計算。

層內平行轉換技術:在FlashComm的基礎上,為進一步最佳化通訊算子的時延,我們提出層內平行轉換的最佳化方案:我們針對Prefill 階段網路MLA 層重新設計了單層內使用的平行策略,靈活做到張量平行(TP)與資料平行(DP)的轉化,消除節點內卡間求和的需求,且充分利用網路低資料維度和量化特性實現節點間通訊量的大幅降低,從而顯著最佳化了通訊時延。

計算通訊並行:昇騰晶片提供了計算和通訊的並行機制。MoE層的計算過程中需要使用AllGather匯聚各張卡上的Token 的特徵進行啟動專家的篩選和計算。我們的方案中,對於Gate 函數使用先計算後通訊匯聚的方法,對共享專家使用DP 的方式,從而保證了Gate 函數的計算和通訊、共享專家的計算,以及特徵匯聚的AllGather函數之前沒有依賴關係。我們利用昇騰的多流機制,將這三部分進行並行處理,從而最大化推理模型的性能。特別的,模型部署方面可以根據不同的需要進行更細緻的設計,比如為了能更好的節省記憶體,共享專家可以採用機內TP 機間DP 的方式,共享專家的計算仍然可以和機間AllGather通訊或者其他機器傳輸來特徵的機內通訊進行並行掩蓋。

通訊通訊並行:昇騰晶片也提供了通訊和通訊並行的機制。當通訊頻寬利用率比較低的時候,可以把兩個通訊算子並行起來以掩蓋通訊算子的啟動開銷,同時提高通訊頻寬的利用率。DeepSeek模型在進行AllGather等通訊時,可以將Norm 算子和量化算子移到AllGather通訊的前面,從而降低通訊的資料量,進而提高通訊的效率。但是由於量化算子的前移,需分別通訊量化後的啟動值和scale,進而增大了通訊算子啟動開銷。由於scale 的資料量較小,對頻寬的佔用極低,因此我們採用通訊通訊並行的機制,將通訊啟動值和通訊scale 並行起來,在不增加啟動值通訊開銷的前提下,掩蓋掉scale 的通訊代價。

通訊和權重預取的並行:昇騰晶片提供了快取機制,算子在進行計算時,會優先從快取中尋找資料,如果存在,則直接從快取中讀取資料,否則從HBM 中讀取資料,而快取的頻寬是HBM 頻寬的幾倍。由於通訊算子進行過程中HBM 頻寬佔用率較低,我們在通訊算子進行過程中可以將後續算子需要的權重提前預取到快取中,從而降低後續算子計算過程中的權重搬運開銷。同時昇騰晶片支援靈活限定預取頻寬,因此在通訊過程中預取對通訊性能影響很小。對於DeepSeek模型我們在MoE結束的ReduceScatter預取MLA 中權重矩陣和KV cache,可以提升MLA 部分的計算性能。

4.昇騰親和的創新算子

1) MLA 算子最佳化:

Attention 算子:MLA 相較於傳統的Attention 算子(如MHA, GQA 類顯著頻寬瓶頸的算子),由於其中間變數膨脹且計算量顯著增加,為算子最佳化帶來了新的挑戰。針對昇騰處理器的架構特性,我們對MLA 場景的FA 算子進行了演算法重構以及硬體親和的性能最佳化。

提出AMLA(Ascend MLA)演算法,通過浮點二進制編碼解析及原子累加操作實現乘性計算的加性等價轉換,從而實現直接在Global Memory 上更新O 的步驟,無須進入Vector core,大幅降低中間變數的重複搬運。

  • 對L1 快取進行了細緻規劃,儘可能地減少資料重複搬入搬出的過程。
  • 在工程實現方面,通過最佳化計算流程提高L2 cache 命中率,並且利用K-buffer 流水排布等策略,實現Cube 計算和Vector 計算互相掩蓋,提高了算子整體性能。

同時,雖然當前版本的模型實現中並未採用KVCache的量化演算法,但我們也對MLA 的Attention 計算,針對僅KV cache 的INT8 量化和Q/K/V 全INT8 量化場景均進行了深度的算子重構與極致流水最佳化。

MLA 前序算子:針對複雜的MLA 前序算子,我們分別在Prefill 階段和Decode 階段採取了不同的最佳化策略:

在Prefill 階段,我們通過雙流並行等技術實現了流水掩蓋,同時增加了FA 算子對多種輸入輸出模式的支援以消除純訪存類冗餘算子。

在Decode 階段,我們採用權重吸收,同時將前序算子深度融合為MLAProlog算子,並且針對昇騰硬體架構進行了全方位的深度最佳化。

具體最佳化措施包括:採用權重預取減少流水線空泡;基於最小化搬運以及最大化頻寬的tiling 策略;通過計算解耦降低指令依賴與等待;利用局部計算融合消除全核同步開銷;運用昇騰定製指令集實現ICache壓縮,規避issue queue 阻塞風險等。

2) MOE 算子最佳化

Dispatch/Combine 通算融合算子:在EP 部署模式中,MoE中的專家分佈在較大的通訊域的各個卡上,每個Token 需要分發到對應的卡上進行計算,原始的實現方式使用InitialRouting根據專家排序對所有Token 進行重排,再用AllToAll以及AllToAllv通訊算子進行交換token。該實現方式在通訊域比較大的場景下,存在通訊次數多,卡間同步開銷嚴重等問題,阻礙了整網端到端時延的提升。

因此,我們提出MoeDistributeDispatch和MoeDistributeCombine兩個通算融合算子技術:將計算和傳輸拆解為Token 粒度的計算單位,通過流水排布實現通訊和計算的平行執行;同時利用記憶體語義的通訊技術直接向不同卡上的共用記憶體傳輸資料,從而減少了本地複製和等待資料的開銷;我們通過本地記憶體篩選和複製的機制,減少了資料傳輸次數和卡間同步開銷。

SMTurbo-CPP 算子:針對MOE 層大通訊域場景下,小資料量傳輸效率低的問題,我們提出SMTurbo-Concurrent Push and Pull (SMTurbo-CPP)技術:在記憶體語義等級對通訊算子AllToAll(v) 進行最佳化,充分利用硬體並行能力,使用讀寫混合、聚合流水、批次檢測等技術,提升了執行緒的訪存效率與吞吐,顯著降低Dispatch 和Combine 場景通訊算子的時延。

細粒度分級流水演算法:基於Atlas A2 系列產品,HCCL 支援細粒度的分級流水演算法,可大幅提升叢集中Allgather、ReduceScatter、AlltoAll等集合通訊算子的執行效率。該演算法利用A2 組網的特性,實現了Server 內/Server 間的並行執行,以提高頻寬利用率。

性能表現

在2025 年4 月,矽基流動聯合華為雲基於CloudMatrix 384 超節點昇騰雲服務和高性能推理框架SiliconLLM,用大規模專家平行最佳實踐正式上線DeepSeek-R1。該服務在保證單使用者20 TPS 水平前提下,單卡Decode 吞吐突破1920 Tokens/s,可比肩H100 部署性能。同時,經過主流測試集驗證及大規模線上盲測,在昇騰算力部署DeepSeek-R1 的模型精度與DeepSeek官方保持一致。

結 語

在人工智慧大模型技術蓬勃發展的浪潮中,華為憑藉其卓越的算力支撐和創新架構設計,正在為行業創新注入澎湃動力。華為發佈昇騰推理系列關鍵技術,並將於近期開放技術程式碼,建構開放共贏的開發者生態,推動大模型技術的創新發展,為中國自主的人工智慧生態體系貢獻核心力量。 (雷峰網)