【DeepSeek】DeepSeek的最新論文成果,或導致輝達的股價再暴跌一次?

我的天!DeepSeek 剛用 FP8 沒多久,這 FP4 訓練要來了???🤯

一篇 1 月 28 號的預印論文直接砸場!引入了兩項關鍵創新,簡直是要把 FP4 訓練玩出新高度!

論文地址:arxiv.org/abs/2501.17116

在大語言模型(LLM)中,FP8和FP4主要是數值精度的不同,分別指4位和8位的浮點數格式。FP4使用4位二進制位來表示浮點數,而FP8使用8位二進制位。

FP4等較低位數的浮點數格式在減少模型大小和提高推理速度方面具有顯著優勢,那麼根據論文,DeepSeek能再次把模型速度和大小推向了極限。

✨ 劃重點:FP4 竟然能達到與 FP8 和 BF16 相當的精度!這也太離譜了!

✨ 劃重點 2:還能擴展到 13B 的大小!這波操作簡直要把 NVIDIA嚇得不敢睡覺啊!



具體來看上圖的紅線,也就是論文裡面的 FP4 訓練方法,重合度跟 BF16(藍線)高得離譜!而傳統方法 FP4(綠線)在達到 2.4B 後就開始崩了,這也太刺激了!

這要是真的 FP4 訓練出來模型了,NVIDIA 是不是又要來個暴跌了我的媽!🤯 老黃還能睡得安穩嗎?

(順便說一句,論文的作者應該是微軟亞洲研究院的,神仙團隊啊!)

我是真的醉了,這技術發展速度也太快了吧!你敢信?FP4 訓練都能這麼牛了,未來是不是要直接用 FP2 訓練了?! (AI大舞台)