8個字引爆中國國產晶片!UE8M0 FP8到底是個啥?

DeepSeek V3.1發佈後,一則官方留言讓整個AI圈都轟動了:

新的架構、下一代國產晶片,總共短短不到20個字,卻蘊含了巨大資訊量。

國產晶片企業股價也跟風上漲,比如寒武紀22日早盤盤中大漲近14%,午後漲停,總市值躍居科創板頭名。

半導體ETF,同樣也是在半天的時間裡大漲5.89%。(不知道作為放出消息的DeepSeek背後公司幻方量化,有沒有趁機炒一波)

這個UE8M0 FP8到底是個啥?下一代國產晶片,又是指什麼?

接踵而來的疑問,擠爆了人們的大腦。

在知乎上,也有不少大神開始邊科普邊分析自己對這件事的理解。

咱抱著學習心態,不妨就從UE8M0 FP8的概念開始說起。

什麼是UE8M0 FP8?

“UE8M0 FP8”這個概念,可以拆分成前後兩個部分來解釋,前面的UE8M0,是MXFP8路徑裡的“縮放因子”

MXFP8是Open Compute Project在2023年發佈的《Microscaling (MX) Formats Specification v1.0》裡定義的8 bit微縮塊格式

Open Compute Project是2011年由Facebook(現Meta)聯合英特爾、Rackspace等發起的開源硬體協作計畫,目的是通過共享資料中心及伺服器設計推動行業效率提升。

其成員陣容相當強大,國外還有微軟、Google、亞馬遜、AMD、輝達等,而國內的阿里、騰訊、百度等也參與其中。

說回MXFP8,它以FP8為基礎建立,FP8是把常規浮點格式壓縮到8 bit的一種編碼方式。

MXFP8的核心思想是先把張量切成固定長度的“塊”,然後為每個塊單獨指定一個2的整數次冪作為“縮放因子”,把塊內所有數一起除以這個係數後再寫成FP8。

這種塊級(而不是全張量級)的縮放,讓MXFP8既保留了8 bit位寬,又把可用動態範圍擴展了幾十倍。

△來源:輝達技術部落格

而這裡的“縮放因子”也是包含8個bit,其中包含符號位、指數位和尾數位,開發者可以自行將這8個bit分配給這三種不同的位。

其中符號位只區分有無,若有則佔一個bit,無則不佔用,而UE8M0中的U表示的就是無符號(有符號可表示為S或省略不寫)。

E和M則分別表示指數位和尾數位分配到的bit數,E8M0指的就是8個bit全都分配給了指數位。

其他常用的格式還有E4M3、E5M2(縮放引子外的本體部分也常採用這兩種)等,它們均包含符號位,其餘7個bit在指數和尾數位之間分配。

DeepSeek之前開放原始碼的5.6k星標項目FP8 GEMM核心DeepGEMM就已經支援UE8M0,不過這個項目主要是適配輝達晶片和CUDA生態。

那麼,採用這種全指數表示縮放因子的方式,有什麼好處呢?

首先,由於UE8M0不含尾數與符號位,處理器在根據縮放因子對資料進行復原時,只需要乘以對應的2的冪,也就是移動一下指數位,而不需要浮點乘法、規格化或舍入邏輯,縮短了時鐘關鍵路徑。

並且UE8M0的動態範圍覆蓋2^(−127)到2^128,其指數表可輕鬆容納這一跨度,為後續塊縮放提供充足空間。

另外UE8M0還能解決單尺度FP8無法同時顧及大/小值,導致溢出或被壓成0的問題,將UE8M0作為分塊的尺度後,錯誤率曲線從整張曲線下降到一條遠低水平的橫線,在保持8 bit張量精度的同時大幅減少資訊損失

△來源:輝達技術部落格

UE8M0 FP8的好處我們瞭解了,現在可以解釋為什麼它更適配“下一代國產晶片”了。

大部分已量產的國產AI加速器仍沿用FP16/BF16 + INT8的計算通路,並未整合E4M3/E5M2這類完整的FP8乘加單元。

不過,摩爾執行緒MUSA 3.1 GPU、芯原VIP9000 NPU等2025 H2首發的新款國產晶片已經在宣傳資料裡列出“原生 FP8”或“Block FP8”支援,並與 DeepSeek、華為等15家廠商聯合驗證UE8M0格式。

雖然下一代國產晶片雖然已經在為FP8做出準備,但HBM/LPPDDR頻寬仍然與頂尖晶片存在較大差距。

而UE8M0讓一組32個FP8資料只追加8bit縮放引子,相比傳統的4B(32bit) FP32縮放直接節省75%的流量,這種空間節約措施被視作下一代架構的重要最佳化方向。

DeepSeek為那個國產晶片做了最佳化?

在搞清楚啥是UE8M0 FP8之後,回過神來的網友們又開始紛紛猜測:

DeepSeek這是在說那一家的國產晶片呢?

在官方有意賣關子的情況下,人們只好首先把目光放在了首批通過“DeepSeek大模型適配”的8家廠商。

△來源:中國信通院官微

這當中大家看好的“頭號種子選手”當屬寒武紀,市場反應相當直觀——

截至22日收盤,寒武紀盤中大漲20%,總市值超5200億元,超過中芯國際躍居科創板頭名(實際以最新為準)。

理由也很簡單,該公司旗下的MLU370-S4、思元590及最新690系列晶片均支援FP8計算,在架構設計和低精度計算最佳化上一直相對比較領先。

而基於類似理由,海光、沐曦,中昊芯英甚至包括名單之外的摩爾執行緒等也都被網友們挨個點名

  • 海光:其深算三號DCU支援FP8計算,存在進一步最佳化的空間;
  • 沐曦:今年7月發佈的曦雲C600,也支援FP8精度計算;
  • 中昊芯英: 其“剎那”TPU AI晶片支援FP8精度;
  • 摩爾執行緒:作為國內極少數原生支援FP8的GPU廠商,旗艦產品MTT S5000支援FP8精度計算。

與此同時,一些很有可能“即將上車FP8”的廠商也出現在了一眾盤點名單中。

例如華為昇騰,雖然昇騰910B和910C暫不支援原生FP8,但官方路線圖已經寫明“2025Q4原生FP8”,所以眾人預計或將在2026年推出的910D(可能的命名)很有可能是所謂的“下一代晶片”。

除了以上這些,還有一大串晶片廠商的名字出現在了討論當中,堪稱盛況空前。

雖然猜來猜去沒有最終定論,但不妨礙市場給予熱烈回應。根據最新消息,22日國產晶片概念集體高開,科創50大漲8.5%創近三年半新高,晶片產業鏈集體走強。

所以,大家為什麼集體狂歡?這些國產晶片一旦支援UE8M0 FP8究竟意味著什麼?

綜合當前國內外各方說法來看,一切都可以用一句話來概括:

這代表了國產AI正走向軟硬協同階段,能夠實質性減少對輝達、AMD等國外算力的依賴。

這裡頭的邏輯也很簡單清晰,正是由於UE8M0 FP8精度格式所具備的上述優勢(更小的頻寬、更低的功耗、更高的吞吐),這意味著同樣的硬體今後能跑更大的模型,所以國產晶片的“性價比”被大幅拉高了

換句話說,這些國產晶片廠商將在競爭中更具優勢,因此也就屬於利多了。

從另一方面來看,DeepSeek通過改動精度格式,相當於主動貼合國產晶片的最佳性能點,這種軟硬協同的模式無疑是把國產晶片們拉進了一個統一的生態坐標系。

這就像當年的“Wintel聯盟”一樣——微軟和英特爾通過深度技術繫結,築起了個人電腦領域的生態護城河,只不過如今換成了DeepSeek和國產晶片廠商們。

One More Thing

事實上,官方在正文部分提到UE8M0 FP8的只有一句話:

需要注意的是,DeepSeek-V3.1使用了UE8M0 FP8 Scale的參數精度。

而且位置相當“隱蔽”,藏在了一大段洋洋灑灑的功能更新介紹之後。

要不是官方特意在評論區補了一句,估計大家還沒啥感覺。

所以你說它這個動作吧,不知道算無意還是刻意為之,總之是相當微妙了(手動狗頭)。 (華爾街見聞)