Kimi又開源了! KV快取暴砍75%,解碼速度飆6倍

Kimi開源全新線性注意力架構!



智東西10月31日訊息,今天凌晨,大模型獨角獸月之暗面開源混合線性注意力架構Kimi Linear,該架構首次在短上下文、長上下文、強化學習擴展機制等各種場景中超越了Transformer架構的全注意力機制(Full Attention)

Kimi Linear的核心是線性注意力模組Kimi Delta Attention(KDA),透過更細粒度的門控機制擴展了Gated DeltaNet,從而能夠更有效地利用有限狀態RNN記憶體。論文中指出,Kimi Linear既可以滿足Agent對效率和測試時擴展的需求,同時也不會犧牲模型品質。Kimi在社群平台X發布貼文稱,Kimi Linear隨時可以作為全注意力的直接替代品。

研究人員基於KDA和多頭潛在註意力(MLA)的逐層混合,預先訓練了具有30億個活化參數和480億個總參數的Kimi Linear模型。

其實驗表明,在相同的訓練方案下,Kimi Linear在所有評估任務中均顯著優於全注意力機制,同時將KV快取使用率降低75%,並在100萬個Token的上下文中解碼吞吐量提升6倍

論文提到,這些結果表明,Kimi Linear可以作為全注意力架構的直接替代方案,並且具有更優異的效能和效率

Kimi開源了KDA內核和vLLM的實現,並發布了預先訓練和指令調優的模型檢查點。

▲Kimi Linear的Hugging Face開源主頁

GitHub:

https://github.com/fla-org/flash-linear-attention/tree/main/fla/ops/kda

Hugging

Face:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct



01.

劍指標準注意力機制兩大瓶頸

解碼吞吐量最高提升6倍

隨著Agent熱潮湧起,尤其是在長時域和強化學習情境下的推理運算需求正成為核心瓶頸。這種向強化學習測驗時擴展的轉變,使得模型必須在推理時處理擴展軌跡、工具使用交互作用以及複雜的決策空間,從而暴露了標準注意力機制的根本性缺陷。

傳統Transformer架構的softmax注意力機制,存在運算複雜度高、KV快取佔用大兩大瓶頸。

在此基礎上,Kimi提出了混合線性注意力架構Kimi Linear,可以滿足Agent的效率需求和測試時間擴展性,同時又不犧牲模型品質。

其核心是Kimi Delta Attention(KDA),這是一個硬體高效的線性注意力模組,它在Gated DeltaNet的基礎上擴展了一種更細粒度的門控機制。與GDN採用粗粒度的頭部遺忘門控不同,KDA引入通道級對角門控,其中每個特徵維度都保持著獨立的遺忘率。

這種細粒度設計能夠更精確地控制有限狀態RNN的記憶,進而釋放混合架構中RNN類模型的潛力。

至關重要的是,KDA使用Diagonal-Plus-LowRank(DPLR)矩陣的特殊變體對其轉移動態進行參數化,從而實現定制的分塊並行演算法,該演算法相對於一般的DPLR公式大幅減少了計算量,同時保持與經典delta規則的一致性。

Kimi Linear將KDA與周期性的全注意力層以3:1的均勻比例交錯排列。這種混合結構在產生長序列時,透過全注意力層保持全域資訊流,同時將記憶體和鍵值快取的使用量降低高達75%

透過符合規模的預訓練和評估,Kimi Linear在短上下文、長上下文和強化學習風格的後訓練任務中,始終能夠達到或超越強大的全注意力基線模型的性能,同時在100萬上下文長度下,解碼吞吐量最高可提升到完整MLA的6倍

Kimi研究團隊的主要貢獻包括:

1.線性注意力機制KDA,改進了門控delta規則,提高了循環記憶體管理和硬體效率;

2.Kimi線性架構採用3:1 KDA與全域注意力比率的混合設計,在減少記憶體佔用的同時超越了完全注意力品質;

3.大規模的公平經驗驗證:透過1.4T個token的訓練運行,Kimi Linear在短、長上下文和RL風格的評估中優於完整的注意力機制和其他基線,並完全開源了內核、vLLM整合和檢查點。



02.

透過細粒度門控改進Delta規則

多個組件提升表達能力

論文中介紹了KDA的分塊並行化,展示瞭如何在對角門控下保持穩定性的同時,將一系列秩為1的矩陣變換壓縮成稠密表示,在輸出階段,研究人員採用塊間遞歸和塊內並行策略來最大化矩陣矩陣,從而充分利用張乘法核心的計算潛力。

▲輸出階段

在表達能力方面,KDA與廣義DPLR公式一致,兩者都表現出細粒度的衰減行為,然而這種細粒度的衰減會在除法運算期間引入數值精度問題。

透過將變數a和b都綁定到k,KDA有效地緩解了這一瓶頸,將二級分塊矩陣計算的次數從四次減少到兩次,並進一步消除了三次額外的矩陣乘法。因此,與DPLR公式相比,KDA的算子效率提高了約100%

▲KDA算子效率狀況

此外,KDA模型架構主要基於Moonlight,除了細粒度的門控之外,研究人員還利用了多個元件來進一步提升Kimi Linear的表達能力

神經參數化:輸出閘採用類似遺忘閘的低秩參數化方法,以確保參數比較的公平性,同時維持與全秩門控相當的效能,並緩解注意力陷阱問題;

▲Kimi Linear模型架構示意圖

混合模型架構:研究人員將KDA與少量全域注意力層混合。經驗表明,3:1的統一比例,即3個KDA層對應1個全MLA層,能夠提供最佳的質量-吞吐量平衡。

MLA層不採用位置編碼(NoPE):研究者對所有MLA層都應用了NoPE。其發現與先前的研究結果一致,以專門的位置感知機制來補充全局NoPE注意力機制,可以獲得具有競爭力的長上下文表現。

▲Kimi Linear合成任務的結果



03.

效能評估整體優於MLA

通用知識、推理、中文任務得分第一

研究人員評估了Kimi Linear模型與全注意力MLA基線、混合閘控DeltaNet(GDN-H)基線的效能,所有基線均採用相同的架構、參數數量和訓練設定。

研究人員使用1.4T預訓練語料庫將Kimi Linear模型與兩個基線模型(MLA和混合GDN-H)進行了比較,評估主要集中在三個方面:通用知識、推理(數學和編程)以及中文任務,Kimi Linear在幾乎所有類別中都始終優於兩個基線模型

在常識方面:Kimi Linear在BBH、MMLU和HellaSwag等所有關鍵基準測試中得分最高;推理能力方面:Kimi Linear在數學和大多數編程任務方面領先,與GDN-H相比,其在EvalPlus上的得分略低;中文任務上:Kimi Linear在CEval和CMMLU上取得了最高分。

▲Kimi Linear與全注意力MLA基線、混合GDN基線的表現比較

研究人員稱,Kimi Linear可以成為短上下文預訓練中全注意力架構的有力替代方案

在經過相同的監督式微調流程後,研究人員測試發現,Kimi Linear在通用任務和數學與程式碼任務中均表現出色,始終優於MLA和GDN-H。

在通用任務中,Kimi Linear在各種MMLU基準測試、BBH和GPQA-Diamond上均取得了最高分。

在數學與程式設計任務中,它在AIME 2025、HMMT 2025、PolyMath-en和LiveCodeBench等高難度基準測試中超越了所有基準模型。

▲Kimi Linear與MLA、GDN-H在長上下文基準測試中的比較

整體結果:在預訓練和SFT階段,Kimi Linear優於GDN-H,GDN-H又優於MLA;在長上下文評估中,這一層級發生了變化,Kimi Linear保持領先地位,GDN-H的表現下降落後於MLA;在強化學習階段,Kimi Linear表現優於MLA

效率方面,隨著序列長度的增加,混合Kimi Linear模型在較短的序列長度(4k–16k)下,表現與MLA相當,從128k開始速度顯著提升。對於512k個序列,Kimi Linear的表現是MLA的2.3倍;對於1M個序列,其表現是MLA的2.9倍。在100萬個Token上下文長度的解碼效率方面,Kimi Linear的速度是全注意力機制的6倍

▲Kimi Linear與MLA、GDN-H在效率上的比較



04.

結語:攻克全注意力機製瓶頸

Kimi Linear實現性能、效率雙超越

Kimi Linear透過KDA的細粒度門控與高效分塊演算法、3:1混合注意力架構,首次實現性能超越全注意力以及效率大幅提升的突破,且在100萬個token長上下文、解碼強化大模型中表現突出,使得其可以兼顧效率和可擴展性,為下一代Agent發展、解碼強化大模型提供了高效解決方案。

同時,Kimi Linear可以作為全注意力架構的直接替代品,這意味著在實際應用中,開發者可以直接採用Kimi Linear架構來改進現有模型,而無需進行大規模的重新設計和訓練,有效降低開發成本和計算資源成本。(智東西)