輝達祭出NVFP4核彈:大模型訓練根本性轉變,GB300效率狂飆7倍

最近這幾天因為DeepSeek這句話徹底了引爆了國產晶片和股市:DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的參數精度,UE8M0 FP8是針對即將發佈的下一代國產晶片設計

沒想到輝達今天直接放出王炸,推出了一種新的格式NVFP4,這個NVFP4能以 4-Bit 的速度與效率,實現 16-Bit 的生產件級訓練精度,毫不誇張的說使用 NVFP4 進行模型預訓練,標誌著 LLM 開發的重大飛躍,這是對如何大規模訓練大型模型的一次根本性轉變

NVFP4 訓練目前仍處於研究階段,正在探索和驗證 4-bit 精度在大型模型預訓練中的潛力。NVIDIA 正在與亞馬遜雲科技(AWS)、Cohere、Google雲、Kimi AI、微軟 AI、Mistral、OpenAI、Perplexity、Reflection 和 Runway 等領先組織積極合作,持續圍繞 NVFP4 進行協同攻關

什麼是 4-bit 量化?

4-bit 量化是指將模型權重和啟動值的精度降低到僅 4 位元的過程——這與典型的 16-bit 或 32-bit 浮點格式相比是顯著的下降

使用 4-bit 進行預訓練極具挑戰性,因為必須非常小心地處理梯度和更新,以在提高整體訓練速度的同時保持精準性。這需要專門的技術和方法,在將高精度張量對應到更小的一組量化值的同時保持其有效性

更少的位元如何為 AI 工廠解鎖更強能力

訓練後量化(PTQ)已證明 NVFP4 在提升推理吞吐量方面是一個力量倍增器,同時保持了準確性。但一個挑戰仍然存在於上游的預訓練階段——在這裡,基礎模型仍然依賴 BF16 或 FP8 來保證穩定性和收斂性。

訓練是 AI 工廠消耗大部分計算、電力和時間的地方。電力預算是固定的,GPU 周期是稀缺資源,因此開發者必須充分利用每一個位元、每一個令牌和每一個訓練周期(epoch)。在這裡,吞吐量不是一個抽象的指標——它直接決定了可以建構的模型規模、可以運行的實驗數量以及取得突破的速度。

這正是 4-bit 精度變得具有變革性的地方。通過削減記憶體需求、提升算術吞吐量和最佳化通訊,4-bit 預訓練使 AI 工廠能夠用相同的硬體處理更多的令牌。通過正確的量化方法,它可以提供與 FP8/BF16 相媲美的精準性,同時顯著提高吞吐量——從而解鎖更快的收斂周期、單位算力下更多的實驗次數,以及擴展到前所未有的前沿模型。換句話說,更少的位元不僅節省了成本——它們還擴展了 AI 所能達到的前沿

核心方法解讀:用於預訓練的 NVFP4 量化方法

為了實現 4-bit 精度的預訓練,輝達開發了一套專用的 NVFP4 預訓練方法,旨在解決大規模訓練中的核心挑戰:動態範圍、梯度波動性和數值穩定性

Blackwell 是 輝達 首款原生支援 FP4 格式的架構。GB200 和 GB300 提供的海量 FP4 FLOPs 吞吐量通過加速低精度矩陣運算,同時保持大型模型收斂所需的規模和平行性,實現了高效的 4-bit 訓練

下圖展示了 Blackwell Ultra 的實測 GEMM(通用矩陣乘法)性能,其速度比 Hopper 架構提升了 7 倍。現代 LLM 從根本上依賴矩陣乘法作為其核心計算元素,尤其是在其全連接層或線性層中。這使得這些運算的效率至關重要。由於 FP4 精度能夠實現更快、更高效的運算執行,所觀察到的 GEMM 加速意味著整個預訓練過程——從前向傳播到梯度更新——都運行得更快,從而縮短了訓練時間,同時支援了更大規模模型的快速開發

為了實現高效的低精度訓練,輝達的 NVFP4 預訓練方法利用了若干基於其性能和精準性而挑選的關鍵技術。這些技術包括:

通過 NVFP4 的微塊縮放增強數值表示: Blackwell 引入了對 NVFP4 的原生 Tensor Core 支援。NVFP4 是一種用於權重和啟動值的 4-bit 數字格式,它使用微塊縮放技術——即每組 16 個 4-bit 元素共享一個共同的縮放因子。與 MXFP4 相比,NVFP4 將塊大小從 32 個元素減少到 16 個,從而最大限度地減少了異常值的影響,並實現了更精確的縮放。這種更精細的粒度降低了量化誤差,並提高了整體模型精準性

使用 E4M3 縮放因子進行 NVFP4 高精度塊編碼: 縮放因子的精度對量化質量和精準性起著至關重要的作用。與 MXFP4 不同,MXFP4 僅限於 2 的冪次方的縮放因子(E8M0),容易產生較高的舍入誤差。而 NVFP4 使用更高精度的 E4M3 縮放因子,並帶有額外的尾數位。這允許更細粒度的縮放、更好地利用有限的量化區間,以及更準確地表示塊內的數值

重塑張量分佈以適應低精度格式: LLM 預訓練期間的梯度和啟動值往往帶有較大的異常值,這會影響低精度量化。對 GEMM 的輸入應用哈達瑪變換(Hadamard transforms)有助於將其分佈重塑為更接近高斯分佈的形態,從而平滑異常值,使張量更容易被精準表示。這些變換對模型架構是透明的,可以應用於前向和後向傳播中的線性層。

通過量化技術保持保真度: 為了確保穩定高效的訓練,輝達採用的量化方法能夠保持前向傳播和後向傳播之間的一致性。諸如選擇性二維塊式量化等技術有助於在整個訓練周期中維持張量表示的對齊。這種一致性對於最大限度地減少訊號失真、改善收斂行為和增強整體魯棒性至關重要——尤其是在使用像 NVFP4 這樣的低精度格式時。

通過隨機舍入減少偏差: 與傳統的(確定性)舍入總是將梯度舍入到最接近的可表示數值不同,隨機舍入確保梯度是隨機向上或向下舍入的,其機率與一個數離兩個可表示值之間的距離成正比。這一步驟對於減少舍入偏差、在訓練期間維持梯度流,並最終提高模型精準性至關重要

實驗驗證:兆級令牌規模下的精準性與穩定性

為了進行模型訓練,輝達在一個基於 Mamba-Transformer 混合架構的 120 億參數模型(12B Hybrid Mamba-Transformer model)上,使用 FP8 和 NVFP4 進行了實驗——該模型類似於 NVIDIA Nemotron Nano 2。這個模型在一個包含 10 兆令牌的大規模資料集上進行訓練,採用了分階段資料混合方法,在訓練的 70% 切換到不同的資料集組合,在 90% 時再次切換。

該 12B 混合 Mamba-Transformer 模型的一個版本最初使用 8-bit 精度(FP8)進行訓練,此前的研究已證明 FP8 能與 16-bit 精度高度匹配,因此輝達將其作為比較的基準。隨後,研究人員成功地使用 NVFP4 從頭開始訓練了同一個 12B 模型,證明了這種新的低精度格式能夠支援兆級令牌規模的完整預訓練。NVFP4 的運行展現了穩定的收斂性,沒有出現通常困擾超低精度訓練的訓練不穩定或發散問題

下圖顯示,在整個訓練期間,NVFP4 的驗證損失曲線與更高精度的基準(即 FP8)的損失曲線高度吻合。上文概述的量化技術確保了即使在激進的位寬縮減下,4-bit 預訓練的動態過程也與高精度運行非常相似

接著,輝達將使用 NVFP4 預訓練的 12B 混合 Mamba-Transformer 模型與更高精度的 FP8 基準模型在一系列下游任務和智能領域進行了比較。

下圖表明,在所有領域中,NVFP4 的性能都與 FP8 相當,突顯了其有效性。這一發現強化了最初的假設:NVFP4 是一個強大的選擇,即使在兆級令牌規模下預訓練 LLM 也能勝任——突顯了其在高效大規模前沿模型訓練中的潛力

寫在最後

很明顯國內以DeepSeek為代表正在推動國產晶片推理和訓練,UE8M0 FP8還僅僅是國產晶片推理側的設計,訓練側任重道遠,國際上輝達作為壟斷性的存在也沒躺在王座上啥都不干,這個NVFP4作為一個標準估計很快就會顯示出強大威力 (AI寒武紀)