Kimi又開源了！ KV快取暴砍75%，解碼速度飆6倍

2025/10/31

•

Kimi開源全新線性注意力架構！

智東西10月31日訊息，今天凌晨，大模型獨角獸月之暗面開源混合線性注意力架構Kimi Linear，該架構首次在短上下文、長上下文、強化學習擴展機制等各種場景中超越了Transformer架構的全注意力機制（Full Attention）。

Kimi Linear的核心是線性注意力模組Kimi Delta Attention（KDA），透過更細粒度的門控機制擴展了Gated DeltaNet，從而能夠更有效地利用有限狀態RNN記憶體。論文中指出，Kimi Linear既可以滿足Agent對效率和測試時擴展的需求，同時也不會犧牲模型品質。Kimi在社群平台X發布貼文稱，Kimi Linear隨時可以作為全注意力的直接替代品。

研究人員基於KDA和多頭潛在註意力（MLA）的逐層混合，預先訓練了具有30億個活化參數和480億個總參數的Kimi Linear模型。

其實驗表明，在相同的訓練方案下，Kimi Linear在所有評估任務中均顯著優於全注意力機制，同時將KV快取使用率降低75%，並在100萬個Token的上下文中解碼吞吐量提升6倍。

論文提到，這些結果表明，Kimi Linear可以作為全注意力架構的直接替代方案，並且具有更優異的效能和效率。

Kimi開源了KDA內核和vLLM的實現，並發布了預先訓練和指令調優的模型檢查點。

GitHub：

https://github.com/fla-org/flash-linear-attention/tree/main/fla/ops/kda

Hugging

Face：https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

01.

劍指標準注意力機制兩大瓶頸

解碼吞吐量最高提升6倍

隨著Agent熱潮湧起，尤其是在長時域和強化學習情境下的推理運算需求正成為核心瓶頸。這種向強化學習測驗時擴展的轉變，使得模型必須在推理時處理擴展軌跡、工具使用交互作用以及複雜的決策空間，從而暴露了標準注意力機制的根本性缺陷。

傳統Transformer架構的softmax注意力機制，存在運算複雜度高、KV快取佔用大兩大瓶頸。

在此基礎上，Kimi提出了混合線性注意力架構Kimi Linear，可以滿足Agent的效率需求和測試時間擴展性，同時又不犧牲模型品質。

其核心是Kimi Delta Attention（KDA），這是一個硬體高效的線性注意力模組，它在Gated DeltaNet的基礎上擴展了一種更細粒度的門控機制。與GDN採用粗粒度的頭部遺忘門控不同，KDA引入通道級對角門控，其中每個特徵維度都保持著獨立的遺忘率。

這種細粒度設計能夠更精確地控制有限狀態RNN的記憶，進而釋放混合架構中RNN類模型的潛力。

至關重要的是，KDA使用Diagonal-Plus-LowRank（DPLR）矩陣的特殊變體對其轉移動態進行參數化，從而實現定制的分塊並行演算法，該演算法相對於一般的DPLR公式大幅減少了計算量，同時保持與經典delta規則的一致性。

Kimi Linear將KDA與周期性的全注意力層以3:1的均勻比例交錯排列。這種混合結構在產生長序列時，透過全注意力層保持全域資訊流，同時將記憶體和鍵值快取的使用量降低高達75%。

透過符合規模的預訓練和評估，Kimi Linear在短上下文、長上下文和強化學習風格的後訓練任務中，始終能夠達到或超越強大的全注意力基線模型的性能，同時在100萬上下文長度下，解碼吞吐量最高可提升到完整MLA的6倍。

Kimi研究團隊的主要貢獻包括：

1.線性注意力機制KDA，改進了門控delta規則，提高了循環記憶體管理和硬體效率；

2.Kimi線性架構採用3:1 KDA與全域注意力比率的混合設計，在減少記憶體佔用的同時超越了完全注意力品質；

3.大規模的公平經驗驗證：透過1.4T個token的訓練運行，Kimi Linear在短、長上下文和RL風格的評估中優於完整的注意力機制和其他基線，並完全開源了內核、vLLM整合和檢查點。

02.

透過細粒度門控改進Delta規則

多個組件提升表達能力

論文中介紹了KDA的分塊並行化，展示瞭如何在對角門控下保持穩定性的同時，將一系列秩為1的矩陣變換壓縮成稠密表示，在輸出階段，研究人員採用塊間遞歸和塊內並行策略來最大化矩陣矩陣，從而充分利用張乘法核心的計算潛力。

▲輸出階段

在表達能力方面，KDA與廣義DPLR公式一致，兩者都表現出細粒度的衰減行為，然而這種細粒度的衰減會在除法運算期間引入數值精度問題。

透過將變數a和b都綁定到k，KDA有效地緩解了這一瓶頸，將二級分塊矩陣計算的次數從四次減少到兩次，並進一步消除了三次額外的矩陣乘法。因此，與DPLR公式相比，KDA的算子效率提高了約100%。

▲KDA算子效率狀況

此外，KDA模型架構主要基於Moonlight，除了細粒度的門控之外，研究人員還利用了多個元件來進一步提升Kimi Linear的表達能力。

神經參數化：輸出閘採用類似遺忘閘的低秩參數化方法，以確保參數比較的公平性，同時維持與全秩門控相當的效能，並緩解注意力陷阱問題；

▲Kimi Linear模型架構示意圖

混合模型架構：研究人員將KDA與少量全域注意力層混合。經驗表明，3:1的統一比例，即3個KDA層對應1個全MLA層，能夠提供最佳的質量-吞吐量平衡。

MLA層不採用位置編碼（NoPE）：研究者對所有MLA層都應用了NoPE。其發現與先前的研究結果一致，以專門的位置感知機制來補充全局NoPE注意力機制，可以獲得具有競爭力的長上下文表現。

▲Kimi Linear合成任務的結果

03.

效能評估整體優於MLA

通用知識、推理、中文任務得分第一

研究人員評估了Kimi Linear模型與全注意力MLA基線、混合閘控DeltaNet（GDN-H）基線的效能，所有基線均採用相同的架構、參數數量和訓練設定。

研究人員使用1.4T預訓練語料庫將Kimi Linear模型與兩個基線模型（MLA和混合GDN-H）進行了比較，評估主要集中在三個方面：通用知識、推理（數學和編程）以及中文任務，Kimi Linear在幾乎所有類別中都始終優於兩個基線模型。

在常識方面：Kimi Linear在BBH、MMLU和HellaSwag等所有關鍵基準測試中得分最高；推理能力方面：Kimi Linear在數學和大多數編程任務方面領先，與GDN-H相比，其在EvalPlus上的得分略低；中文任務上：Kimi Linear在CEval和CMMLU上取得了最高分。

▲Kimi Linear與全注意力MLA基線、混合GDN基線的表現比較

研究人員稱，Kimi Linear可以成為短上下文預訓練中全注意力架構的有力替代方案。

在經過相同的監督式微調流程後，研究人員測試發現，Kimi Linear在通用任務和數學與程式碼任務中均表現出色，始終優於MLA和GDN-H。

在通用任務中，Kimi Linear在各種MMLU基準測試、BBH和GPQA-Diamond上均取得了最高分。

在數學與程式設計任務中，它在AIME 2025、HMMT 2025、PolyMath-en和LiveCodeBench等高難度基準測試中超越了所有基準模型。

▲Kimi Linear與MLA、GDN-H在長上下文基準測試中的比較

整體結果：在預訓練和SFT階段，Kimi Linear優於GDN-H，GDN-H又優於MLA；在長上下文評估中，這一層級發生了變化，Kimi Linear保持領先地位，GDN-H的表現下降落後於MLA；在強化學習階段，Kimi Linear表現優於MLA。

效率方面，隨著序列長度的增加，混合Kimi Linear模型在較短的序列長度（4k–16k）下，表現與MLA相當，從128k開始速度顯著提升。對於512k個序列，Kimi Linear的表現是MLA的2.3倍；對於1M個序列，其表現是MLA的2.9倍。在100萬個Token上下文長度的解碼效率方面，Kimi Linear的速度是全注意力機制的6倍。

▲Kimi Linear與MLA、GDN-H在效率上的比較

04.

結語：攻克全注意力機製瓶頸

Kimi Linear實現性能、效率雙超越

Kimi Linear透過KDA的細粒度門控與高效分塊演算法、3:1混合注意力架構，首次實現性能超越全注意力以及效率大幅提升的突破，且在100萬個token長上下文、解碼強化大模型中表現突出，使得其可以兼顧效率和可擴展性，為下一代Agent發展、解碼強化大模型提供了高效解決方案。

同時，Kimi Linear可以作為全注意力架構的直接替代品，這意味著在實際應用中，開發者可以直接採用Kimi Linear架構來改進現有模型，而無需進行大規模的重新設計和訓練，有效降低開發成本和計算資源成本。(智東西)