昨天的文章已經提到,昇騰超大規模MoE模型推理部署技術在本周會有持續的技術披露,果然第二天的技術報告又如期而至了。
要問最近那個模型最火,混合專家模型(MoE,Mixture of Experts)絕對是榜上提名的那一個。
它的巧妙之處,就在於把不同的任務分配給擅長處理的專家網路,讓整個系統性能得以提升。
但你知道嗎?
正是這個關鍵的專家網路,也是嚴重影響系統推理性能的因素之一。
因為在大量任務來臨之際(尤其是超大規模時),MoE並不是以“雨露均霑”的方式去分配——專家網路們的負載平衡問題,就會顯得尤為突出。
這個問題的根源,是因為某些專家網路總是被頻繁呼叫(熱專家),而另一些專家網路則鮮有機會派上用場(冷專家)。
沒錯,MoE裡的“專家們”也是有冷熱之分的,而且被呼叫頻率的差距甚至可以達到一個數量級以上!
如此負載不均衡的現象,就會導致整個系統推理的時間被延長,以及還有資源利用率、系統性能受限等問題。
那麼此局又該如何破解?
別急,華為團隊已經給出了一種有效解法,直接讓DeepSeek-V3在理論上的推理延遲可降低約10%、吞吐量可提升約10%。
值得一提的是,團隊還將在近期準備把這個解法全面開源了;那麼接下來,我們就來深入瞭解一下。
針對專家們冷熱不均的問題,華為最佳化的刀法,叫做OmniPlacement。
簡單來說,它的工作原理是這樣的:
通過專家重排、層間冗餘部署和近即時動態調度,顯著提升MoE模型的推理性能。
具體可以分為三步走:
在這一步中,華為團隊通過分析專家的活躍度(啟動資料),先是識別出了忙碌的熱專家和清閒的冷專家。
然後將提出的一種基於計算均衡的聯合最佳化演算法OmniPlacement用了上去。
這個演算法會根據專家呼叫頻率和計算需求來最佳化部署的順序,這樣就會顯著降低負載不均的現象。
具體來說,OmniPlacement演算法的特點如下:
剛才的步驟是面向冷熱專家整體,那麼這一步則是劍指熱專家。
為了緩解熱專家的壓力,華為團隊還提出了一種層間冗餘部署的策略——
通過為高頻呼叫專家分配額外的冗餘實例,降低跨節點通訊開銷,從而提升系統吞吐量。
這個策略的創新點在於:
為了讓系統能更靈活地應對各種變化,在實際運行中快速做出反應,研究團隊設計了一套類似 “智能管家” 的方案——
近即時調度與動態監控機制。
其具體包含的子模組如下:
這套機制通過兩個關鍵設計大幅提升了系統性能:
首先採用多工平行處理技術,讓系統反應更快、調整更靈活;其次獨創性地將監控和調度功能分開運行。
這樣既保證了即時監控的精準性,又避免了監控程序拖慢系統速度,使整個系統運行更加穩定可靠。
為了支援上述技術的穩定運行,團隊還開發了適用於vLLM的推理最佳化框架OmniPlacement,其核心特點如下:
OmniPlacement採用模組化設計,把核心演算法和推理流程分開處理,就像把汽車的發動機和控制系統分開最佳化一樣。
這樣設計有兩個突出優勢:
一是專門負責任務調度的模組可以獨立工作,不會干擾主系統的運行效率;二是整個框架可以根據不同需求靈活調整,為大型AI模型的穩定運行提供了堅實的底層支援。
在瞭解完華為的“刀法”之後,我們再來看下“療效”。
華為團隊把這套最佳化方法在DeepSeek-V3上進行了全面驗證,實驗環境包括多節點GPU叢集和高並行推理場景。
得到了如下的測試結果:
進一步的分析表明,OmniPlacement在不同規模的MoE模型和輸入資料分佈下均表現出良好的適應性。
並且從實際測試證明來看,它不僅能大幅提升運算效率,還能更合理地利用計算資源,同時保持系統穩定運行。
這為今後在實際應用中部署大型MoE模型提供了堅實的技術保障。
最後值得一提的是,華為團隊不僅是發佈最佳化方案這麼一個動作,更是要將這個方法在近期全面開源。 (量子位)