華為:讓DeepSeek的“專家們”動起來,推理延遲降10%!

昨天的文章已經提到,昇騰超大規模MoE模型推理部署技術在本周會有持續的技術披露,果然第二天的技術報告又如期而至了。

要問最近那個模型最火,混合專家模型(MoE,Mixture of Experts)絕對是榜上提名的那一個。

它的巧妙之處,就在於把不同的任務分配給擅長處理的專家網路,讓整個系統性能得以提升。

但你知道嗎?

正是這個關鍵的專家網路,也是嚴重影響系統推理性能的因素之一。

因為在大量任務來臨之際(尤其是超大規模時),MoE並不是以“雨露均霑”的方式去分配——專家網路們的負載平衡問題,就會顯得尤為突出。

這個問題的根源,是因為某些專家網路總是被頻繁呼叫(熱專家),而另一些專家網路則鮮有機會派上用場(冷專家)。

沒錯,MoE裡的“專家們”也是有冷熱之分的,而且被呼叫頻率的差距甚至可以達到一個數量級以上!

如此負載不均衡的現象,就會導致整個系統推理的時間被延長,以及還有資源利用率、系統性能受限等問題。

那麼此局又該如何破解?

別急,華為團隊已經給出了一種有效解法,直接讓DeepSeek-V3在理論上的推理延遲可降低約10%、吞吐量可提升約10%

值得一提的是,團隊還將在近期準備把這個解法全面開源了;那麼接下來,我們就來深入瞭解一下。

華為的刀法:OmniPlacement

針對專家們冷熱不均的問題,華為最佳化的刀法,叫做OmniPlacement

簡單來說,它的工作原理是這樣的:

通過專家重排、層間冗餘部署和近即時動態調度,顯著提升MoE模型的推理性能。

具體可以分為三步走:

第一刀:基於計算均衡的聯合最佳化

在這一步中,華為團隊通過分析專家的活躍度(啟動資料),先是識別出了忙碌的熱專家和清閒的冷專家。

然後將提出的一種基於計算均衡的聯合最佳化演算法OmniPlacement用了上去。

這個演算法會根據專家呼叫頻率和計算需求來最佳化部署的順序,這樣就會顯著降低負載不均的現象。

具體來說,OmniPlacement演算法的特點如下:

  • 動態優先順序調整:通過即時統計專家呼叫頻率,動態調整專家的優先順序和節點分配,確保高頻專家優先部署在計算能力較強的節點上。
  • 通訊域最佳化:演算法分析批次內啟動卡數,最佳化跨節點通訊域的範圍,減少通訊延遲。相比傳統的靜態分配方法,本演算法顯著降低了通訊開銷。
  • 層間差異化部署:允許不同層根據負載特性設定不同的專家部署策略,支援非均勻冗餘次數配置,從而更好地適應層間負載差異。
相同資料條件下,EPLB與OmniPlacement演算法,每層裝置最大啟動數理論對比

第二刀:層間高頻專家冗餘部署

剛才的步驟是面向冷熱專家整體,那麼這一步則是劍指熱專家。

為了緩解熱專家的壓力,華為團隊還提出了一種層間冗餘部署的策略——

通過為高頻呼叫專家分配額外的冗餘實例,降低跨節點通訊開銷,從而提升系統吞吐量。

這個策略的創新點在於:

  • 動態資源分配:根據即時計算資源佔用情況和專家呼叫頻率,動態調整冗餘實例的分配比例。系統通過預測模型提前分配資源,減少冷熱專家間的性能差距。
  • 層間差異化配置:不同層根據負載需求設定不同的冗餘次數,增強對層間負載差異的適應能力。例如,高負載層可分配更多的冗餘實例,而低負載層則減少冗餘以節省視訊記憶體。
  • 預測性分配:結合歷史啟動資料和負載預測模型,系統能夠提前最佳化資源分配,降低突發負載對系統性能的影響。
冗餘不同層數排布的理論熱力圖

第三刀:近即時調度與動態監控機制

為了讓系統能更靈活地應對各種變化,在實際運行中快速做出反應,研究團隊設計了一套類似 “智能管家” 的方案——

近即時調度與動態監控機制。

其具體包含的子模組如下:

  • 近即時調度:通過即時統計資料流特性,動態調整專家分配以適應輸入資料的變化。調度演算法能夠在毫秒級時間內收斂到最佳化的靜態專家部署模式,確保推理過程的高效性和一致性。該機制通過迭代最佳化專家分配,顯著降低了動態調整的計算開銷。
  • 動態監控:即時跟蹤專家啟動資料和系統資源佔用情況,為調度決策提供精準依據。監控任務在獨立的計算流中運行,避免對推理主流程的干擾,保障系統整體效率。
  • 動態專家權重訪問與擺放:通過層間流水線設計,實現專家權重和分配的動態調整。系統在推理過程中平行處理權重更新和資料流分配,支援高效的專家動態擺放。流水線設計允許在不中斷推理流程的情況下完成權重調整,顯著降低高負載場景下的推理延遲。

這套機制通過兩個關鍵設計大幅提升了系統性能:

首先採用多工平行處理技術,讓系統反應更快、調整更靈活;其次獨創性地將監控和調度功能分開運行。

這樣既保證了即時監控的精準性,又避免了監控程序拖慢系統速度,使整個系統運行更加穩定可靠。

近即時調度理論效果與收斂性

為了支援上述技術的穩定運行,團隊還開發了適用於vLLM的推理最佳化框架OmniPlacement,其核心特點如下:

  • 高相容性:框架支援多種MoE模型架構,能夠無縫整合到現有的推理系統中。
  • 低時延開銷:通過最佳化資料處理和調度流程,框架顯著減少了額外計算開銷,確保推理性能不受影響。
  • 模組化設計:框架包含資料統計、演算法運行和專家調度三大模組,各模組功能解耦,支援功能擴展和維護。模組化設計便於快速迭代和定製化開發。
  • 可擴展性:框架支援動態加入新的負載平衡演算法和調度策略,適應未來MoE模型的複雜需求。

OmniPlacement採用模組化設計,把核心演算法和推理流程分開處理,就像把汽車的發動機和控制系統分開最佳化一樣。

這樣設計有兩個突出優勢:

一是專門負責任務調度的模組可以獨立工作,不會干擾主系統的運行效率;二是整個框架可以根據不同需求靈活調整,為大型AI模型的穩定運行提供了堅實的底層支援。

DeepSeek V3系統延遲理論可直降10%

在瞭解完華為的“刀法”之後,我們再來看下“療效”

華為團隊把這套最佳化方法在DeepSeek-V3上進行了全面驗證,實驗環境包括多節點GPU叢集和高並行推理場景。

得到了如下的測試結果:

  • 推理延遲:相比基線方法(未最佳化負載平衡的MoE模型),推理延遲平均降低約10%。延遲的減少主要得益於動態專家分配和通訊域最佳化,顯著改善了使用者體驗。
  • 吞吐量:系統吞吐量提升約10%,反映了資源利用率的顯著提高。特別是在高並行場景下,冗餘部署和動態調度有效緩解了負載瓶頸。
  • 系統穩定性:在動態輸入和高負載場景下,系統保持高效運行,未出現性能波動或服務中斷。動態監控機制確保了系統對突發負載的快速響應。
OmniPlacement與基線和BestEP的性能對比

進一步的分析表明,OmniPlacement在不同規模的MoE模型和輸入資料分佈下均表現出良好的適應性。

並且從實際測試證明來看,它不僅能大幅提升運算效率,還能更合理地利用計算資源,同時保持系統穩定運行。

這為今後在實際應用中部署大型MoE模型提供了堅實的技術保障。

最後值得一提的是,華為團隊不僅是發佈最佳化方案這麼一個動作,更是要將這個方法在近期全面開源。 (量子位)