馬斯克新模型背後演算法來自輝達？？？

2025/09/26

•

Grok-4-fast最近在降本增效上的表現堪稱一騎絕塵，連有「路由器」傍身的GPT5都給干趴下了。

面對如此驚豔的推理效率，很多人第一反應就是：堆卡式的算力scaling又一次大顯神威了。

實際上，Grok的背後確實有輝達的影子。

但這次立功的，或許不是老黃的顯示卡，而是演算法。

沒錯，Grok-4-fast的秘密武器，被和一篇輝達的演算法論文關聯在了一起。

讓LLM快53倍的火箭發動機

正如Grok-4-fast所表現出來的一樣，這篇論文解決了困擾行業已久的推理成本問題。

一味的硬體Scaling只會讓模型廠商帳單上的數字越來越長，使用者耐心也在漫長的推理時間中逐漸被消耗殆盡。

為此，輝達研究團隊推出了一種全新「混合結構」模型——Jet-Nemotron。

經過一系列全面的基準測試，發現Jet-Nemotron-2B的表現與Qwen3、Qwen2.5、Gemma3和Llama3.2等頂尖開源模型不相上下，還能實現約53倍的速度提升。

例如在MMLU-Pro上，Jet-Nemotron-2B不僅精準率比Qwen3-1.7B-Base更高，就連生成速度也要快上47倍。

此外，Jet-Nemotron-2B即便遇上參數更大的模型也絲毫不虛，它在MMLU和MMLU-Pro上的精準率甚至可以超過DeepSeek-V3-Small和Moonlight（總參數量15B，啟動參數量2.2B）。

改變這一切的關鍵，在於一個叫PortNAS的新框架。

不同於以往的方法，PostNAS不是從零開始訓練，而是以一個預訓練的全注意力模型為起點，並凍結其MLP權重，只探索注意力機制的改進。

這樣一來，不僅能讓訓練成本直接降低幾個數量級，還能有更多精力用於全面探索模型結構。

其流程包括四個核心部分：全注意力層放置、選擇最優的線性注意力模組、設計更優的線性注意力模組、硬體感知架構搜尋。

全注意力層放置

大多數團隊會在模型的所有層裡統一使用全注意力，但這會浪費算力資源。

因此，輝達團隊希望保留少量關鍵的全注意力層，以維持複雜任務的精準性，同時剔除冗餘層以提升效率。

PostNAS的做法是：先建構一個同時包含兩種注意力機制的超級網路，再通過特徵蒸餾來訓練子網路，最後用beam search找到最優的注意力層放置方案。

事實證明，的確並非所有注意力層都重要，不同任務依賴不同層，少量關鍵層即可覆蓋大部分任務需求。

實驗結果顯示，PostNAS優於均勻放置策略——在只使用2層全注意力的情況下，PostNAS的精準率約49%，而均勻放置的精準率約40%。

選擇最優的線性注意力模組

在確定了全注意力層後，輝達團隊開始進行注意力模組搜尋，旨在找到目前最優的線性注意力模組。

論文評估了六種當前最先進的線性注意力模組，包括RWKV7、RetNet、Mamba2、GLA、DeltaNet和Gated DeltaNet。

這六個之中，Gated DeltaNet的精準率最高，這主要歸功於兩個因素：

1、資料依賴門控機制（Data-Dependent Gating Mechanism）：可以理解成一個路由器。模型會根據輸入的內容，決定是更重視新資訊，還是之前的歷史狀態，從而在不同任務裡找到平衡。

2、Delta規則（Delta Rule）：不是每次都把記憶裡的東西全部覆蓋，而是只更新新變化的部分。這樣能減少不必要的重複儲存，節省記憶體，同時保持資訊的連續性。

更優解：JetBlock

不過，輝達並不打算止步於Gated DeltaNet，而是設計了一款比它更強的線性注意力模組——JetBlock。

摺積對線性注意力模組的精準率至關重要，然而，以往方法大多使用的是靜態摺積核，它們無法根據輸入自動調整特徵提取方式。

相比之下，JetBlock使用動態摺積，通過線上性注意力中引入一個摺積核生成器模組，JetBlock能根據輸入特徵動態地產生摺積核。

結果顯示，JetBlock在數學推理和檢索任務上的精準率優於Gated DeltaNet，而且仍然保持了不錯的生成效率。

要是跟表現最差的Mamba2比起來，JetBlock的優勢就更明顯了。

硬體感知架構搜尋

在確定了宏觀架構以及選擇了線性注意力模組之後，輝達團隊進一步進行了硬體感知架構搜尋，用於最佳化核心超參數（key/value的維度、注意力頭的數量…）。

過去，參數規模通常被作為衡量模型效率的主要指標，用來指導架構設計。

但輝達團隊認為這種方法並不理想，因為參數量並不能直接反映真實硬體上的效率。

對此，他們改進的方法是：以生成吞吐量作為直接目標來選擇超參數。

輝達團隊發現，相比起參數量，KV快取大小才是影響長上下文和長文字生成吞吐量的最關鍵因素。而當KV快取大小固定時，不同參數規模的模型，其生成吞吐量表現相似。

基於此，輝達團隊選擇保持KV快取大小與原始設計一致，然後在key維度、value維度和注意力頭數上進行小規模網格搜尋。

實驗證明，最佳化後的版本在保持吞吐量不變的情況下，參數量增加（1.84億 vs 1.7億），同時數學精準率得到提升（34.8% vs 32.8%）（藍色行代表實驗組，灰色行代表對照組。）

綜上，PortNAS有望為目前的AI行業帶來三點影響。

1、推理階段GPU使用時長減少47倍，這讓LLM能夠以更快的速度完成高品質任務。

2、更小的記憶體需求，這使得更廉價的硬體部署成為可能。

3、更高吞吐量，意味著模型廠商可在現有基礎設施規模下服務更多使用者。

而且，PostNAS提供低成本、高效率的架構探索方式，適用於任何預訓練Transformer。

所以基本上，任何廠商都可以在不重新訓練模型的情況下嵌入PortNAS，模型的成本可以大幅降低，同時精準率幾乎不會受到影響。

此外，Jet-Nemotron居然還是開放原始碼的。

通訊作者Han Cai在Github上表示Jet-Nemotron的程式碼和預訓練模型將在法律審查完成後發佈。

感興趣的朋友可以查看文末的連結～

Grok-4-fast的背後是輝達？

同時看到Grok-4-fast和Jet-Nemotron二者同樣驚豔且高度相似的表現，很難不讓人懷疑老馬和老黃這一次是不是聯手了。

在Reddit上，有網友推測Grok-4-Fast應該就是基於Jet-Nemotron創造的。

Jet-Nemotron可以在不犧牲模型性能的情況下，大幅減少推理所需的計算量，這與Grok-4-fast所展現出來的能力高度相似。

這一觀點能從資料上得到支撐——從Grok-4-fast的定價來看，其價格下降水平與NVIDIA對這種架構模型的預測相符（論文預計會便宜20倍到50倍）。

更重要的是，如果Jet-Nemotron能夠應用於Grok，那它同樣能被OpenAI、Anthropic、Google等公司部署。

也有網友不同意這種說法，認為Grok此次的降價也許只是一種行銷手段，並不能從中推斷出xAI是否採用了什麼新技術。

他們可能只是在燒錢獲取市場份額，我不認為你可以從中推斷出是採用了某種特定架構。

但是，即便Grok-4-fast沒有採用輝達的技術，這篇論文也是極有價值的，因為Jet-Nemotron同樣可以被用來進一步降低成本。而且，xAI也不太可能在這麼短時間研究出來了另一種和Jet-Nemotron一樣效果顯著的技術。

當然，也可能是其他演算法上的突破。如果真是這樣，那仍然是極具突破性的，因為Jet-Nemotron也可以被用來進一步降低成本。但說實話，XAI真的又發現了一個能讓價格再下降20倍以上的演算法改進的可能性有多大呢？

不過，上述觀點都只是猜測，目前這些說法都未得到xAI驗證… (量子位)