UE8M0 FP8 是一種專為下一代國產 AI 晶片設計的 8 位浮點格式(FP8) 的特定組態,由 DeepSeek-V3.1 模型首次採用,旨在顯著降低大模型推理階段的視訊記憶體佔用和計算成本,提升推理速度。
1. 技術細節
- UE8M0 的含義:
- U:表示無符號(Unsigned),即不佔用符號位,適用於啟動值通常非負的場景。
- E8M0:8 位全部用於指數(Exponent),尾數(Mantissa)位為 0。這並不是字面意義上的“0 位尾數”,而是指通過隱式歸一化或動態調整尾數精度實現靈活性。
- 動態尾數策略:實際實現中,可能採用動態尾數分配(如根據指數範圍動態調整尾數有效位),或默認尾數為 1,值的範圍為 \(2^{-128}\) 至 \(2^{127}\)。
- FP8 Scale:
- 指在量化過程中用於縮放數值的因子(Scale),確保數值在 FP8 的表示範圍內。
- 塊級縮放:將張量劃分為固定大小的塊(如 128×128 的 tile),每個塊共用一個縮放因子。這種塊級縮放(而非整個張量級)在保留 8 位位寬的同時,將可用動態範圍擴展數十倍。
2. 優勢與應用
- 硬體效率提升:
- 視訊記憶體節省:權重視訊記憶體佔用降低約 50%,例如 680B 模型權重檔案從 1.3-1.5TB 降至約 680GB。
- 計算加速:由於 UE8M0 不含尾數與符號位,處理器在根據縮放因子對資料復原時,僅需乘以對應的 2 的冪(即指數位移操作),無需浮點乘法、規格化或舍入邏輯,縮短了時鐘關鍵路徑。
- 國產晶片適配:
- 寒武紀:思元 590 晶片明確支援 FP8 精度,算力密度較前代提升 40%。
- 摩爾執行緒:首個支援原生 FP8 的國產 GPU 廠商,基於 MUSA Compute Capability 3.1 計算架構。
- 海光資訊:DCU(深算系列)通過 FP8 最佳化技術降低 30% 視訊記憶體佔用並提升 20% 運算效率。
3. 行業影響
- 技術突破:DeepSeek-V3.1 是國內首個成功使用 FP8 完成大模型訓練的案例,證明了FP8 在超大規模模型訓練中的可行性。
- 生態閉環:UE8M0 FP8 助力國產 AI 晶片-國產開源模型-下游應用形成完整生態閉環,推動國產 AI 晶片加速追趕國際先進水平。
UE8M0 FP8 是 DeepSeek-V3.1 採用的一種創新 8 位浮點格式組態,通過無符號設計、全指數位分配和塊級縮放策略,顯著提升國產 AI 晶片在推理和訓練中的效率與性能,標誌著國產 AI 晶片技術的重要突破。 壹號講獅)