華為：讓DeepSeek的“專家們”動起來，推理延遲降10%！

2025/05/21

•

昨天的文章已經提到，昇騰超大規模MoE模型推理部署技術在本周會有持續的技術披露，果然第二天的技術報告又如期而至了。

要問最近那個模型最火，混合專家模型（MoE，Mixture of Experts）絕對是榜上提名的那一個。

它的巧妙之處，就在於把不同的任務分配給擅長處理的專家網路，讓整個系統性能得以提升。

但你知道嗎？

正是這個關鍵的專家網路，也是嚴重影響系統推理性能的因素之一。

因為在大量任務來臨之際（尤其是超大規模時），MoE並不是以“雨露均霑”的方式去分配——專家網路們的負載平衡問題，就會顯得尤為突出。

這個問題的根源，是因為某些專家網路總是被頻繁呼叫（熱專家），而另一些專家網路則鮮有機會派上用場（冷專家）。

沒錯，MoE裡的“專家們”也是有冷熱之分的，而且被呼叫頻率的差距甚至可以達到一個數量級以上！

如此負載不均衡的現象，就會導致整個系統推理的時間被延長，以及還有資源利用率、系統性能受限等問題。

那麼此局又該如何破解？

別急，華為團隊已經給出了一種有效解法，直接讓DeepSeek-V3在理論上的推理延遲可降低約10%、吞吐量可提升約10%。

值得一提的是，團隊還將在近期準備把這個解法全面開源了；那麼接下來，我們就來深入瞭解一下。

華為的刀法：OmniPlacement

針對專家們冷熱不均的問題，華為最佳化的刀法，叫做OmniPlacement。

簡單來說，它的工作原理是這樣的：

通過專家重排、層間冗餘部署和近即時動態調度，顯著提升MoE模型的推理性能。

具體可以分為三步走：

第一刀：基於計算均衡的聯合最佳化

在這一步中，華為團隊通過分析專家的活躍度（啟動資料），先是識別出了忙碌的熱專家和清閒的冷專家。

然後將提出的一種基於計算均衡的聯合最佳化演算法OmniPlacement用了上去。

這個演算法會根據專家呼叫頻率和計算需求來最佳化部署的順序，這樣就會顯著降低負載不均的現象。

具體來說，OmniPlacement演算法的特點如下：

動態優先順序調整：通過即時統計專家呼叫頻率，動態調整專家的優先順序和節點分配，確保高頻專家優先部署在計算能力較強的節點上。
通訊域最佳化：演算法分析批次內啟動卡數，最佳化跨節點通訊域的範圍，減少通訊延遲。相比傳統的靜態分配方法，本演算法顯著降低了通訊開銷。
層間差異化部署：允許不同層根據負載特性設定不同的專家部署策略，支援非均勻冗餘次數配置，從而更好地適應層間負載差異。

△相同資料條件下，EPLB與OmniPlacement演算法，每層裝置最大啟動數理論對比

第二刀：層間高頻專家冗餘部署

剛才的步驟是面向冷熱專家整體，那麼這一步則是劍指熱專家。

為了緩解熱專家的壓力，華為團隊還提出了一種層間冗餘部署的策略——

通過為高頻呼叫專家分配額外的冗餘實例，降低跨節點通訊開銷，從而提升系統吞吐量。

這個策略的創新點在於：

動態資源分配：根據即時計算資源佔用情況和專家呼叫頻率，動態調整冗餘實例的分配比例。系統通過預測模型提前分配資源，減少冷熱專家間的性能差距。
層間差異化配置：不同層根據負載需求設定不同的冗餘次數，增強對層間負載差異的適應能力。例如，高負載層可分配更多的冗餘實例，而低負載層則減少冗餘以節省視訊記憶體。
預測性分配：結合歷史啟動資料和負載預測模型，系統能夠提前最佳化資源分配，降低突發負載對系統性能的影響。

第三刀：近即時調度與動態監控機制

為了讓系統能更靈活地應對各種變化，在實際運行中快速做出反應，研究團隊設計了一套類似 “智能管家” 的方案——

近即時調度與動態監控機制。

其具體包含的子模組如下：

近即時調度：通過即時統計資料流特性，動態調整專家分配以適應輸入資料的變化。調度演算法能夠在毫秒級時間內收斂到最佳化的靜態專家部署模式，確保推理過程的高效性和一致性。該機制通過迭代最佳化專家分配，顯著降低了動態調整的計算開銷。
動態監控：即時跟蹤專家啟動資料和系統資源佔用情況，為調度決策提供精準依據。監控任務在獨立的計算流中運行，避免對推理主流程的干擾，保障系統整體效率。
動態專家權重訪問與擺放：通過層間流水線設計，實現專家權重和分配的動態調整。系統在推理過程中平行處理權重更新和資料流分配，支援高效的專家動態擺放。流水線設計允許在不中斷推理流程的情況下完成權重調整，顯著降低高負載場景下的推理延遲。

這套機制通過兩個關鍵設計大幅提升了系統性能：

首先採用多工平行處理技術，讓系統反應更快、調整更靈活；其次獨創性地將監控和調度功能分開運行。

這樣既保證了即時監控的精準性，又避免了監控程序拖慢系統速度，使整個系統運行更加穩定可靠。

為了支援上述技術的穩定運行，團隊還開發了適用於vLLM的推理最佳化框架OmniPlacement，其核心特點如下：

高相容性：框架支援多種MoE模型架構，能夠無縫整合到現有的推理系統中。
低時延開銷：通過最佳化資料處理和調度流程，框架顯著減少了額外計算開銷，確保推理性能不受影響。
模組化設計：框架包含資料統計、演算法運行和專家調度三大模組，各模組功能解耦，支援功能擴展和維護。模組化設計便於快速迭代和定製化開發。
可擴展性：框架支援動態加入新的負載平衡演算法和調度策略，適應未來MoE模型的複雜需求。

OmniPlacement採用模組化設計，把核心演算法和推理流程分開處理，就像把汽車的發動機和控制系統分開最佳化一樣。

這樣設計有兩個突出優勢：

一是專門負責任務調度的模組可以獨立工作，不會干擾主系統的運行效率；二是整個框架可以根據不同需求靈活調整，為大型AI模型的穩定運行提供了堅實的底層支援。

DeepSeek V3系統延遲理論可直降10%

在瞭解完華為的“刀法”之後，我們再來看下“療效”。

華為團隊把這套最佳化方法在DeepSeek-V3上進行了全面驗證，實驗環境包括多節點GPU叢集和高並行推理場景。

得到了如下的測試結果：

推理延遲：相比基線方法（未最佳化負載平衡的MoE模型），推理延遲平均降低約10%。延遲的減少主要得益於動態專家分配和通訊域最佳化，顯著改善了使用者體驗。
吞吐量：系統吞吐量提升約10%，反映了資源利用率的顯著提高。特別是在高並行場景下，冗餘部署和動態調度有效緩解了負載瓶頸。
系統穩定性：在動態輸入和高負載場景下，系統保持高效運行，未出現性能波動或服務中斷。動態監控機制確保了系統對突發負載的快速響應。

進一步的分析表明，OmniPlacement在不同規模的MoE模型和輸入資料分佈下均表現出良好的適應性。

並且從實際測試證明來看，它不僅能大幅提升運算效率，還能更合理地利用計算資源，同時保持系統穩定運行。

這為今後在實際應用中部署大型MoE模型提供了堅實的技術保障。

最後值得一提的是，華為團隊不僅是發佈最佳化方案這麼一個動作，更是要將這個方法在近期全面開源。 (量子位)