DeepSeek-V3技術報告解讀
✍概要
介紹了一個強大的混合專家(MoE)語言模型DeepSeek-V3,它具有總計671億個參數和每個tokens啟動的37億個。為了實現高效的推理和成本效益的訓練,DeepSeek-V3採用了Multi-head Latent Attention (MLA) 和 DeepSeekMoE 架構,這些架構在DeepSeek-V2中得到了徹底驗證。此外,DeepSeek-V3開創了一種無輔助損失的負載平衡策略,並為更強性能設定了多tokens預測訓練目標。我們在14.8兆個多樣且高品質的tokens上預訓練了DeepSeek-V3,然後進行監督微調和強化學習階段以充分挖掘其能力。全面評估表明,DeepSeek-V3優於其他開源模型,並達到與領先閉源模型相當的性能。儘管表現出色,但DeepSeek-V3僅需2.788M H800 GPU小時即可完成全量訓練。此外,它的訓練過程非常穩定。在整個訓練過程中,我們沒有遇到任何不可恢復的損失峰值或回滾操作。
📌 研究內容