Grok-4-fast最近在降本增效上的表現堪稱一騎絕塵,連有「路由器」傍身的GPT5都給干趴下了。
面對如此驚豔的推理效率,很多人第一反應就是:堆卡式的算力scaling又一次大顯神威了。
實際上,Grok的背後確實有輝達的影子。
但這次立功的,或許不是老黃的顯示卡,而是演算法。
沒錯,Grok-4-fast的秘密武器,被和一篇輝達的演算法論文關聯在了一起。
讓LLM快53倍的火箭發動機
正如Grok-4-fast所表現出來的一樣,這篇論文解決了困擾行業已久的推理成本問題。
一味的硬體Scaling只會讓模型廠商帳單上的數字越來越長,使用者耐心也在漫長的推理時間中逐漸被消耗殆盡。
為此,輝達研究團隊推出了一種全新「混合結構」模型——Jet-Nemotron。
經過一系列全面的基準測試,發現Jet-Nemotron-2B的表現與Qwen3、Qwen2.5、Gemma3和Llama3.2等頂尖開源模型不相上下,還能實現約53倍的速度提升。
例如在MMLU-Pro上,Jet-Nemotron-2B不僅精準率比Qwen3-1.7B-Base更高,就連生成速度也要快上47倍。
此外,Jet-Nemotron-2B即便遇上參數更大的模型也絲毫不虛,它在MMLU和MMLU-Pro上的精準率甚至可以超過DeepSeek-V3-Small和Moonlight(總參數量15B,啟動參數量2.2B)。
改變這一切的關鍵,在於一個叫PortNAS的新框架。
不同於以往的方法,PostNAS不是從零開始訓練,而是以一個預訓練的全注意力模型為起點,並凍結其MLP權重,只探索注意力機制的改進。
這樣一來,不僅能讓訓練成本直接降低幾個數量級,還能有更多精力用於全面探索模型結構。
其流程包括四個核心部分:全注意力層放置、選擇最優的線性注意力模組、設計更優的線性注意力模組、硬體感知架構搜尋。
大多數團隊會在模型的所有層裡統一使用全注意力,但這會浪費算力資源。
因此,輝達團隊希望保留少量關鍵的全注意力層,以維持複雜任務的精準性,同時剔除冗餘層以提升效率。
PostNAS的做法是:先建構一個同時包含兩種注意力機制的超級網路,再通過特徵蒸餾來訓練子網路,最後用beam search找到最優的注意力層放置方案。
事實證明,的確並非所有注意力層都重要,不同任務依賴不同層,少量關鍵層即可覆蓋大部分任務需求。
實驗結果顯示,PostNAS優於均勻放置策略——在只使用2層全注意力的情況下,PostNAS的精準率約49%,而均勻放置的精準率約40%。
在確定了全注意力層後,輝達團隊開始進行注意力模組搜尋,旨在找到目前最優的線性注意力模組。
論文評估了六種當前最先進的線性注意力模組,包括RWKV7、RetNet、Mamba2、GLA、DeltaNet和Gated DeltaNet。
這六個之中,Gated DeltaNet的精準率最高,這主要歸功於兩個因素:
1、資料依賴門控機制(Data-Dependent Gating Mechanism):可以理解成一個路由器。模型會根據輸入的內容,決定是更重視新資訊,還是之前的歷史狀態,從而在不同任務裡找到平衡。
2、Delta規則(Delta Rule):不是每次都把記憶裡的東西全部覆蓋,而是只更新新變化的部分。這樣能減少不必要的重複儲存,節省記憶體,同時保持資訊的連續性。
不過,輝達並不打算止步於Gated DeltaNet,而是設計了一款比它更強的線性注意力模組——JetBlock。
摺積對線性注意力模組的精準率至關重要,然而,以往方法大多使用的是靜態摺積核,它們無法根據輸入自動調整特徵提取方式。
相比之下,JetBlock使用動態摺積,通過線上性注意力中引入一個摺積核生成器模組,JetBlock能根據輸入特徵動態地產生摺積核。
結果顯示,JetBlock在數學推理和檢索任務上的精準率優於Gated DeltaNet,而且仍然保持了不錯的生成效率。
要是跟表現最差的Mamba2比起來,JetBlock的優勢就更明顯了。
在確定了宏觀架構以及選擇了線性注意力模組之後,輝達團隊進一步進行了硬體感知架構搜尋,用於最佳化核心超參數(key/value的維度、注意力頭的數量…)。
過去,參數規模通常被作為衡量模型效率的主要指標,用來指導架構設計。
但輝達團隊認為這種方法並不理想,因為參數量並不能直接反映真實硬體上的效率。
對此,他們改進的方法是:以生成吞吐量作為直接目標來選擇超參數。
輝達團隊發現,相比起參數量,KV快取大小才是影響長上下文和長文字生成吞吐量的最關鍵因素。而當KV快取大小固定時,不同參數規模的模型,其生成吞吐量表現相似。
基於此,輝達團隊選擇保持KV快取大小與原始設計一致,然後在key維度、value維度和注意力頭數上進行小規模網格搜尋。
實驗證明,最佳化後的版本在保持吞吐量不變的情況下,參數量增加(1.84億 vs 1.7億),同時數學精準率得到提升(34.8% vs 32.8%)(藍色行代表實驗組,灰色行代表對照組。)
綜上,PortNAS有望為目前的AI行業帶來三點影響。
1、推理階段GPU使用時長減少47倍,這讓LLM能夠以更快的速度完成高品質任務。
2、更小的記憶體需求,這使得更廉價的硬體部署成為可能。
3、更高吞吐量,意味著模型廠商可在現有基礎設施規模下服務更多使用者。
而且,PostNAS提供低成本、高效率的架構探索方式,適用於任何預訓練Transformer。
所以基本上,任何廠商都可以在不重新訓練模型的情況下嵌入PortNAS,模型的成本可以大幅降低,同時精準率幾乎不會受到影響。
此外,Jet-Nemotron居然還是開放原始碼的。
通訊作者Han Cai在Github上表示Jet-Nemotron的程式碼和預訓練模型將在法律審查完成後發佈。
感興趣的朋友可以查看文末的連結~
Grok-4-fast的背後是輝達?
同時看到Grok-4-fast和Jet-Nemotron二者同樣驚豔且高度相似的表現,很難不讓人懷疑老馬和老黃這一次是不是聯手了。
在Reddit上,有網友推測Grok-4-Fast應該就是基於Jet-Nemotron創造的。
Jet-Nemotron可以在不犧牲模型性能的情況下,大幅減少推理所需的計算量,這與Grok-4-fast所展現出來的能力高度相似。
這一觀點能從資料上得到支撐——從Grok-4-fast的定價來看,其價格下降水平與NVIDIA對這種架構模型的預測相符(論文預計會便宜20倍到50倍)。
更重要的是,如果Jet-Nemotron能夠應用於Grok,那它同樣能被OpenAI、Anthropic、Google等公司部署。
也有網友不同意這種說法,認為Grok此次的降價也許只是一種行銷手段,並不能從中推斷出xAI是否採用了什麼新技術。
他們可能只是在燒錢獲取市場份額,我不認為你可以從中推斷出是採用了某種特定架構。
但是,即便Grok-4-fast沒有採用輝達的技術,這篇論文也是極有價值的,因為Jet-Nemotron同樣可以被用來進一步降低成本。而且,xAI也不太可能在這麼短時間研究出來了另一種和Jet-Nemotron一樣效果顯著的技術。
當然,也可能是其他演算法上的突破。如果真是這樣,那仍然是極具突破性的,因為Jet-Nemotron也可以被用來進一步降低成本。但說實話,XAI真的又發現了一個能讓價格再下降20倍以上的演算法改進的可能性有多大呢?
不過,上述觀點都只是猜測,目前這些說法都未得到xAI驗證… (量子位)