炸場 AI 圈！Kimi 掀翻 Transformer 十年根基，馬斯克點贊，一作竟是 17 歲高中生

2026/03/18

•

就在3月16日，月之暗面Kimi正式發佈了《Attention Residuals: Rethinking depth-wise aggregation》技術報告，搞出了個顛覆性的注意力殘差（Attention Residuals，簡稱AttnRes）架構，直接動了Transformer沿用了十年的底層根基。

這事有多炸？報告發出去不到24小時，矽谷那群最挑嘴的頂流大佬，全下場了。

埃隆·馬斯克親自轉發點贊，直白誇了句"Impressive work from Kimi"；前OpenAI聯合創始人、AI圈公認的大神Andrej Karpathy更是直接感慨：

"看來我們到現在，都沒把'Attention is All You Need'這句話按字面意思吃透"

但說實話，比起技術本身，最讓我和全網網友一起驚掉下巴的，是這篇論文的作者列表——三位共同一作裡，赫然有一位年僅17歲的在讀高中實習生。

🤔 先給小白嘮明白：這次的突破，到底戳中了AI的什麼命門？

能讓全球AI圈集體破防，絕不是小修小補的最佳化，而是直接解決了大模型藏了十年的老頑疾。

咱先掰扯個最基礎的常識：現在市面上幾乎所有主流大模型，根子上都離不開Transformer架構，而殘差連接，就是Transformer最核心的地基之一。

從2015年ResNet誕生到現在，這套”固定累加”的殘差機制，行業用了整整十年，幾乎沒人能撼動它的地位。

但這套老架構，早就帶著天生的毛病。

我給大家打個最糙的比方，你瞬間就懂了：

傳統殘差連接，就像你跟10個人玩傳話遊戲。

第一個人說：”我今天想吃樓下的黃燜雞米飯，要微辣加土豆”
傳到第二個人變成：”我想吃樓下的黃燜雞，微辣”
再傳到第五個人，就成了：”我想吃樓下的雞米飯”
等傳到最後一個人，直接變成了：”我想把樓下的店盤了”

資訊越傳越偏，最開始的核心內容，早就被中間層的內容稀釋、帶歪了。

對應到模型裡就是：

模型層數越深，前面層提取的關鍵資訊越容易在層層傳遞中丟失
訓練起來越來越難、效率越來越低
甚至會出現”梯度飢餓”——深層的模型根本學不到有用的資訊，白瞎了那麼多算力

而Kimi這次搞出來的注意力殘差，直接把這套用了十年的”死規則”，給徹底掀了。

💡 大白話講透注意力殘差：把Attention轉90度，到底天才在那？

圈內很多人說，這項研究最絕的洞察，是把Transformer的注意力機制”旋轉了90度”。別急，我給你掰開揉碎了說，沒學過AI也能聽明白。

原來的注意力機制是幹嘛的？

它是用在一句話的內容維度裡的。比如大模型處理”我今天去公園遛狗，遇到了一隻超可愛的橘貓”這句話：

它能讓每個詞自主去關注句子裡其他所有詞的資訊
“遛狗”能關聯到”我”
“橘貓”能關聯到”可愛”

解決了長文字看著看著就忘前面內容的問題。

Kimi團隊的”降維打擊”式洞察

既然詞和詞之間能按需關注，那模型的層和層之間，為什麼不能？

這就是注意力殘差的核心邏輯：

❌ 徹底扔掉傳統殘差”只能用上一層的輸出”的死規矩
✅ 給每一層配個可學習的”智能搜尋框”
✅ 每一層計算時，都能自主查詢前面所有層的輸出，只挑最有用的資訊，沒用的直接忽略

再來個親民的比方：

傳統殘差：你寫畢業論文，導師改了8版，你每次只能拿到上一版修改稿，看不到初稿，也看不到第3版、第5版裡被刪的關鍵思路。只能順著上一版改，很容易越改越偏。

注意力殘差：直接給你開全量權限。寫當前這一版時，初稿、第1版到最新版的所有內容全在你眼前，想引用那段就引用那段，完全不會被中間版本帶偏。

講真，看到這的時候我雞皮疙瘩都起來了，這個思路真的太妙了。

視訊記憶體爆炸？Kimi早有準備

肯定有人會問：每一層都要存所有層的內容，視訊記憶體不就炸了嗎？

放心，Kimi團隊不光提了理論，連落地的坑都填好了。

他們搞了個Block AttnRes（分塊注意力殘差）方案：

把模型的所有層分成幾個塊，比如8個塊
塊內還是用傳統殘差保證穩定
塊和塊之間用注意力機製做選擇性聚合

就這一招，直接把視訊記憶體開銷從”和層數成正比”，降到了”和塊數成正比”。

只用8個塊，就能找回全量版絕大多數的性能增益，完美平衡了效果和落地成本。不是那種只能看不能用的實驗室花架子。

📈 別光聽概念，實打實的效果才是真的狠

所有不看落地效果的創新，都是耍流氓。

Kimi這篇論文放出來的實驗資料，直接讓行業看到了下一代大模型架構的影子。

1️⃣ 訓練效率直接起飛

在48B規模的大模型訓練裡，用了注意力殘差的架構，訓練效率直接提了25%。

啥概念？

同等算力下，訓練時間直接縮短四分之一
大模型的訓練成本，直接能砍一大截

2️⃣ 模型是真的變聰明了

不光基礎任務全面提升，在真正考驗大模型硬實力的高難度場景裡，直接實現了跨越式突破：

研究生等級的專業考試
高等數學推理
程式碼生成
超長文字理解

這些硬骨頭任務，性能直接漲了3到7.5個百分點。

懂行的都知道，大模型到了這個量級：

能漲1個點都算大突破
更別說這麼大的漲幅了

3️⃣ 模型越大，優勢越明顯

這就意味著，它不是只能用在小模型上的玩具，而是完全能適配未來更大規模的大模型研發。

是真的能支撐AGI發展的底層架構創新。

4️⃣ 順便解決了傳統架構的老毛病

因為Softmax自帶的歸一化特性：

✅ 解決了傳統PreNorm架構的數值隱患
✅ 讓梯度在各層之間分佈得更均勻
✅ 徹底緩解了深層模型的”梯度飢餓”問題

深層大模型的訓練更穩，也更容易收斂。

🌟 全網刷屏的17歲一作，到底是什麼來頭？

聊完技術，咱再回頭說說這次全網討論度最高的人——論文的共同一作，17歲的高中生陳廣宇（Nathan Chen）。

我當時看到作者列表的時候，真的反覆確認了三遍，不敢相信自己的眼睛。

給大家說下另外兩位共同一作是誰，你就知道這個事有多離譜：

🏆 蘇劍林

搞大模型的沒人不叫一聲”蘇神”。

RoPE旋轉位置編碼就是他提出來的，現在全世界的主流大模型，基本都在用他發明的這項技術。

🔬 張宇

之前爆火的Kimi Linear技術的第一作者，大模型底層最佳化領域的頂尖專家。

而17歲的陳廣宇，和這兩位行業大神並列，成為了這篇重磅論文的共同一作。

📊 陳廣宇的背景

根據公開資訊：

今年17歲，目前還是在讀高中生
以實習研究員身份加入Kimi團隊
全程深度參與了注意力殘差項目的完整研發
憑藉實打實的貢獻，拿到了共同一作署名

從他公開的社交資訊能看到，他此前就已經在AI領域有相關的研究和實習經歷，年紀輕輕，就已經站在了全球大模型底層創新的最前沿。

網友的評論真的說出了我的心聲：

“我17歲還在為高考數學的最後一道大題頭疼，人家17歲已經把Transformer用了十年的地基給掀了”

真・英雄出少年 🌟

🌍 最後說點我的心裡話

其實我看完這篇論文的完整內容，最感慨的，還不是技術本身有多牛。

過去十年，深度學習領域的創新，大多都集中在：

注意力機制的小修小補
資料規模的放大
訓練策略的升級

唯獨殘差連接這個最核心的底層元件，幾乎沒人能真正推翻”固定累加”的核心邏輯。

而Kimi的注意力殘差，第一次用成熟的、可落地的方案，證明了深度維度的注意力聚合，完全可以替代沿用十年的殘差遞迴。

這不止是一次架構最佳化，更是直接打開了下一代大模型架構的全新想像空間。

🇨🇳 更讓我驕傲的是

這次的底層架構突破，來自中國本土的AI團隊。

從RoPE位置編碼，到Kimi Linear，再到如今的注意力殘差，中國的AI團隊，早就不再是應用層的跟隨者，而是真正走到了大模型底層基礎研究的最前排。

當17歲的少年天才，遇上敢於顛覆十年規則的創新團隊，我們或許真的在見證，AI領域下一個時代的開啟。🚀 (提拉米蘇的AI驛站)