MoE模型的稀疏啟動本是優勢,卻常陷通訊瓶頸。NVIDIA以軟體為利劍,通過程序化依賴啟動和全對全通訊革新,在三個月內將GB200的單GPU吞吐提升2.8倍,真正釋放Blackwell硬體潛力。
2026年1月8日,NVIDIA再次用硬核資料刷新AI推理的性能上限。
輝達官網披露:基於Blackwell架構的推理軟體棧升級,讓混合專家模型(MoE)的推理效率迎來「階躍式」突破——
單GPU吞吐飆升2.8倍,顯著降低了推理成本。
GB200 NVL72:為MoE而生
輝達為何這次能只使用軟體升級就實現如此顯著的性能提升,這歸因於MoE模型的特殊性。
以DeepSeek-R1為例,這個6710億參數的稀疏MoE模型,每次推理僅啟動370億參數(「稀疏啟動」),看似「輕量」,實則暗藏算力挑戰:專家模組間的動態路由需要高頻資料交換,預填充(prefill)與解碼(decode)階段的計算負載差異大,傳統架構極易因通訊瓶頸或精度損失陷入「性能牆」。同時MoE架構中的多個模型需要頻繁通訊。
輝達給出的應對之法,是在本身的硬體基礎上,通過軟體針對性升級,從而發揮出硬體的潛力。
GB200 NVL72機架級平台是本次突破的「物理基石」。
它通過第五代NVLink互連72塊Blackwell GPU,GPU之間具有1800GB/s雙向頻寬高速連接——這一設計是基於稀疏 MoE 架構模型專門進行的最佳化,相當於給72個「專家大腦」裝上了「超高速神經突觸」,讓專家間的資料交換告別「擁堵」。
軟體層面的更新,首先是NVFP4四位元浮點格式。
相比傳統FP4,NVFP4通過NVIDIA自研的數值分佈最佳化,在壓縮資料量的同時,最大限度保留了模型精度(這對MoE的稀疏啟動至關重要,避免因精度損失導致路由錯誤)。
配合硬體級NVFP4加速單元,Blackwell讓模型使用低精度計算,但卻能夠相比其他 FP4 格式,具有更高的精準性。
此外,「分解服務」(disaggregated serving)策略進一步釋放了GB200的潛力:將預填充(計算密集型)與解碼(記憶體密集型)分配到不同GPU組,利用NVLink Switch的靈活拓撲實現「計算-記憶體」解耦,避免單一資源成為瓶頸。
軟體引擎 TensorRT-LLM三個月狂飆2.8倍吞吐
如果說硬體是「基礎」,軟體則是「引擎調校」。NVIDIA TensorRT-LLM開源庫的近期最佳化,讓GB200 NVL72在DeepSeek-R1上的單GPU吞吐,過去三個月直接飆升2.8倍。
具體來看,三大最佳化堪稱「性能催化劑」:
1、程序化依賴啟動(PDL)
通過減少核心啟動延遲,讓GPU「時刻待命」,尤其在低互動性(高吞吐)場景下,顯著降低「空轉」損耗;
2、底層核心最佳化
針對Blackwell Tensor Core的微架構特性,重構計算流水線,讓每一份算力都用在「刀刃」上;
3、全對全通訊原語革新
消除接收端中間緩衝區,直接減少資料傳輸的「繞路成本」——這對MoE的專家間高頻通訊而言,相當於減少了延遲。
上述三項創新,使得GB200在運行DeepSeek R1時,相比2025年10月的軟體版本,獲得更高的吞吐量。
隨著AI從「能用」走向「好用」,使用者對互動性的要求激增——聊天機器人要「秒回」,程式碼助手要「即時補全」,而吞吐量的上升,意味著更低的延遲。
小機櫃也適用,HGX B200也能跑滿足DeepSeek
並非所有場景都需要GB200 NVL72這樣的包含72塊顯示卡的「巨無霸」。
對於風冷部署的企業或雲服務商,NVIDIA HGX B200(8卡Blackwell)同樣交出了驚豔答卷——其核心武器是多token預測(MTP)與NVFP4的組合拳。
傳統推理中,模型逐token生成,每一步都要等待前一步完成;而MTP通過預測多個候選token(而非單個),讓GPU在一次計算中覆蓋更多生成步驟,相當於在解碼任務時批次處理,「一次思考,多步輸出」。
實測顯示,在1K/1K、8K/1K、1K/8K等多種輸入輸出序列組合下,MTP均顯著提升了吞吐量,且互動性越高(延遲要求越嚴),收益越明顯。
當MTP遇上NVFP4,性能增益被進一步放大。NVFP4不僅通過四位元壓縮降低記憶體頻寬壓力,更依託Blackwell的張量核心實現高效計算。
結合TensorRT-LLM與TensorRT Model Optimizer的全端支援,HGX B200在保持精度的前提下,吞吐曲線隨MTP+NVFP4的啟用持續右移——意味著在相同互動性下能服務更多使用者,或在相同使用者數下提供更流暢的體驗。
對企業與雲服務商而言,現有Blackwell GPU通過軟體升級即可獲得2.8倍吞吐提升,相當於「免費擴容」,大幅延長硬體生命周期;對模型開發者,TensorRT-LLM 提供了一個高級的API。
原生PyTorch架構給開發者提供了兼具易用性與擴展性的結果,這降低了最佳化門檻,讓更多人能聚焦模型創新而非底層調優
這種「不依賴換硬體就能升級性能」的能力,讓輝達在專業顯示卡領域的護城河相比AMD,英特爾等競爭者更深。
Blackwell架構+TensorRT-LLM的組合,在MoE推理問題上,做到了在「高精度、低延遲、高吞吐、低成本」間的既要又要。輝達的護城河不止是晶片,更是那套能「從石頭裡榨出血來」的軟體生態。 (新智元)
