馬斯克點贊！17 歲高中生參與研究！Kimi 讓 AI 學會“翻舊帳”

2026/03/18

•

2026 年 3 月 16 日，Kimi 團隊最新公開的論文《Attention Residuals》提出了一種針對大模型底層結構的改法。

同時 MoonshotAI 也在 GitHub 開源了相關技術報告與實現。

該論文獲馬斯克誇讚：“Kimi 的工作令人印象深刻。”

論文瞄準的不是訓練資料、參數規模或推理技巧，而是 Transformer 裡一個用了很多年的基礎設計「殘差連接」。

用通俗的話說，現在的大模型內部像一條很長的流水線。每一層都會把自己的結果直接加到後面，優點是訓練穩定、網路能堆得很深，但問題是層數一多，前面真正重要的資訊容易被後面的新資訊不斷沖淡。論文把這個問題概括為 PreNorm 下的“稀釋”現象，也就是隱藏狀態會隨著深度持續變大，早期層的貢獻越來越不顯眼。上傳的論文正文對這一點有直接說明。

這篇論文的核心思路，是把過去這種“所有層結果默認一股腦往後加”的方式，改成“後面的層按需去前面挑資訊”。

作者把這套方法叫做 Attention Residuals，簡稱 AttnRes。

簡單理解，它相當於給模型加了一個會翻舊帳的機制，後面的層不再機械接收前面所有層的累計結果，而是像注意力機制那樣，根據當前需要，從更早的層裡找出更有用的資訊再融合進來。過去注意力機制改變了 token 與 token 之間的資訊傳遞，現在 AttnRes 想進一步改變層與層之間的資訊傳遞。

這件事之所以被業內關注，不只是因為想法新，還因為它動的是大模型最底層、最通用的一塊積木。

Transformer 這些年有很多改進，大家經常改的是 attention、MoE、長上下文、KV cache 或訓練配方，但很少直接去碰 residual connection 這類默認配置。

AttnRes 的價值就在於，它試圖回答一個更底層的問題，模型變深以後，資訊到底該怎麼在不同層之間流動，才不會越傳越亂。

當然，理想很豐滿，工程通常很殘酷。因為如果每一層都去“看”所有更早的層，記憶體和通訊成本會迅速上升。為瞭解決這個問題，論文又提出了 Block AttnRes，也就是“塊注意力殘差”。它的做法不是逐層精細回看，而是先把很多層壓成若幹個塊，只在塊之間做這種選擇性檢索。可以把它理解成，不是翻整本書的每一頁，而是先把內容整理成幾個章節目錄，再按章節去查。這樣一來，記憶體和通訊開銷從 O(Ld) 降到 O(Nd)，更適合真正的大模型訓練和推理場景。

論文還配套設計了跨 stage 快取和兩階段計算策略，報告稱典型推理負載下額外延遲低於 2%，啟用 pipeline parallelism 時訓練端到端額外開銷低於 4%。

從實驗結果看，這不是那種“只在某個小模型上偶然有效”的工作。

論文做了 scaling law 實驗，比較了 baseline、Full AttnRes 和 Block AttnRes 三種方案。

結果顯示，AttnRes 在不同計算預算下都持續優於基線，而 Block AttnRes 在最大規模上已經能夠追回大部分 Full AttnRes 的收益。

按論文給出的擬合結果，在 5.6 PFLOP/s-days 這一點上，Block AttnRes 達到的損失水平，相當於基線多用 1.25 倍計算量才能達到。

GitHub 倉庫首頁也把這一點作為核心結果之一展示出來。

論文還把這套方法接入了 Kimi Linear 架構中，使用的是一個 48B 總參數、3B 啟動參數的模型，並在 1.4 T tokens 上進行了預訓練。

按照上傳論文中的結果，採用 Block AttnRes 後，模型在通用、數學、程式碼和中文評測上都沒有輸給 baseline，很多項目還有明顯提升。

比如 MMLU 從 73.5 提升到 74.6，GPQA-Diamond 從 36.9 提升到 44.4，Math 從 53.5 提升到 57.1，HumanEval 從 59.1 提升到 62.2，C-Eval 從 79.6 提升到 82.5。尤其是多步推理、數學和程式碼這類更依賴組合能力的任務，提升更明顯。

如果把這篇論文再說得更白一點，它不是在教大模型“多背一點知識”，而是在幫大模型“更準確地調出自己已經學到的東西”。

傳統殘差更像是把所有舊資料不斷堆進一個大箱子，箱子越堆越滿，找重點越來越難；AttnRes 更像是給這個箱子加了索引系統，後面的層可以按需要去翻前面真正有用的資料。

這也是為什麼這項工作雖然看起來不像新模型發佈那樣熱鬧，卻可能對下一代大模型底層結構設計產生實際影響。

它最大的意義，在於證明“層與層之間的資訊傳遞”也可以像 token 之間那樣被重新設計，而且這種重寫在大模型規模上仍然能跑得動、能帶來穩定收益。至於它會不會像標準殘差連接那樣成為行業新默認配置，還要看後續更多模型、更多團隊和更長時間的復現與驗證。

該論文更引人注意的是其中作者之一：

陳廣宇是一位 17 歲的高中生，參與了技術研究。 (雲頭條)

科技