近日,華為在MoE模型訓練領域再進一步,重磅推出參數規模高達7180億的全新模型——盤古Ultra MoE,這是一個全流程在昇騰AI計算平台上訓練的準兆MoE模型。華為同時發佈盤古Ultra MoE模型架構與訓練方法的技術報告,揭露眾多技術細節,充分體現了昇騰在超大規模MoE訓練表現上的跨越。
訓練超大規模且極高稀疏性的 MoE 模型極具挑戰,訓練過程中的穩定性往往難以保障。針對這一難題,盤古團隊在模型架構和訓練方法上進行了創新性設計,成功地在昇騰平台上實現了準兆 MoE 模型的全流程訓練。
在模型架構上,盤古團隊提出Depth-Scaled Sandwich-Norm(DSSN)穩定架構和TinyInit小初始化的方法,在昇騰平台上實現了超過18TB資料的長期穩定訓練。此外,他們還提出了 EP loss負載優化方法,這項設計不僅保證了各專家之間的能保持較好的負載平衡,也提升了專家的領域特化能力。同時,盤古Ultra MoE使用了業界先進的MLA和MTP架構,在預訓練和後訓練階段都使用了Dropless訓練策略,實現了超大規模MoE架構在模型效果與效率之間的最佳平衡。
在訓練方法上,華為團隊首次揭露在昇騰CloudMatrix 384超節點上,高效打通大稀疏比MoE強化學習(RL)後訓練框架的關鍵技術,使RL後訓練進入超節點叢集時代。同時,在5月初發布的預訓練系統加速技術基礎上,在不到一個月的時間內,華為團隊又完成了一輪迭代升級,包括:適配昇騰硬體的自適應流水掩蓋策略,進一步優化算子執行序,進一步降低Host-Bou nd以及提升EP通訊的掩蓋;自適應管理內存優化策略的開發;數據重排實現DP間Attention負載平衡;以及昇騰親和的算子優化,這些技術實現萬卡叢集預訓練MFU由30%大幅提升至41%。
此外,近期發表的盤古Pro MoE大模型,在參數量僅為720億,啟動160億參數量的情況下,透過動態啟動專家網絡的創新設計,實現了以小打大的優異性能,甚至可以媲美千億級模型的性能表現。在業界權威大模型榜單SuperCLUE最新公佈的2025年5月排行榜上,位居千億參數量以內大模型排行並列國內第一。
華為盤古Ultra MoE和盤古Pro MoE系列模型的發布,證明華為不僅完成了國產算力+國產模型的全流程自主可控的訓練實踐,同時在叢集訓練系統的性能上也實現了行業領先。這意味著國產AI基礎設施的自主創新能力得到了進一步驗證,為中國人工智慧產業的發展提供了一顆「定心丸」。 (觀察者網)