炸場 AI 圈!Kimi 掀翻 Transformer 十年根基,馬斯克點贊,一作竟是 17 歲高中生

就在3月16日,月之暗面Kimi正式發佈了《Attention Residuals: Rethinking depth-wise aggregation》技術報告,搞出了個顛覆性的注意力殘差(Attention Residuals,簡稱AttnRes)架構,直接動了Transformer沿用了十年的底層根基。

這事有多炸?報告發出去不到24小時,矽谷那群最挑嘴的頂流大佬,全下場了。

埃隆·馬斯克親自轉發點贊,直白誇了句"Impressive work from Kimi";前OpenAI聯合創始人、AI圈公認的大神Andrej Karpathy更是直接感慨:

"看來我們到現在,都沒把'Attention is All You Need'這句話按字面意思吃透"

但說實話,比起技術本身,最讓我和全網網友一起驚掉下巴的,是這篇論文的作者列表——三位共同一作裡,赫然有一位年僅17歲的在讀高中實習生。

🤔 先給小白嘮明白:這次的突破,到底戳中了AI的什麼命門?

能讓全球AI圈集體破防,絕不是小修小補的最佳化,而是直接解決了大模型藏了十年的老頑疾。

咱先掰扯個最基礎的常識:現在市面上幾乎所有主流大模型,根子上都離不開Transformer架構,而殘差連接,就是Transformer最核心的地基之一。

從2015年ResNet誕生到現在,這套”固定累加”的殘差機制,行業用了整整十年,幾乎沒人能撼動它的地位。

但這套老架構,早就帶著天生的毛病。

我給大家打個最糙的比方,你瞬間就懂了:

傳統殘差連接,就像你跟10個人玩傳話遊戲。

  • 第一個人說:”我今天想吃樓下的黃燜雞米飯,要微辣加土豆”
  • 傳到第二個人變成:”我想吃樓下的黃燜雞,微辣”
  • 再傳到第五個人,就成了:”我想吃樓下的雞米飯”
  • 等傳到最後一個人,直接變成了:”我想把樓下的店盤了”

資訊越傳越偏,最開始的核心內容,早就被中間層的內容稀釋、帶歪了。

對應到模型裡就是:

  • 模型層數越深,前面層提取的關鍵資訊越容易在層層傳遞中丟失
  • 訓練起來越來越難、效率越來越低
  • 甚至會出現”梯度飢餓”——深層的模型根本學不到有用的資訊,白瞎了那麼多算力

而Kimi這次搞出來的注意力殘差,直接把這套用了十年的”死規則”,給徹底掀了。

💡 大白話講透注意力殘差:把Attention轉90度,到底天才在那?

圈內很多人說,這項研究最絕的洞察,是把Transformer的注意力機制”旋轉了90度”。別急,我給你掰開揉碎了說,沒學過AI也能聽明白。

原來的注意力機制是幹嘛的?

它是用在一句話的內容維度裡的。比如大模型處理”我今天去公園遛狗,遇到了一隻超可愛的橘貓”這句話:

  • 它能讓每個詞自主去關注句子裡其他所有詞的資訊
  • “遛狗”能關聯到”我”
  • “橘貓”能關聯到”可愛”

解決了長文字看著看著就忘前面內容的問題。

Kimi團隊的”降維打擊”式洞察

既然詞和詞之間能按需關注,那模型的層和層之間,為什麼不能?

這就是注意力殘差的核心邏輯:

  • ❌ 徹底扔掉傳統殘差”只能用上一層的輸出”的死規矩
  • ✅ 給每一層配個可學習的”智能搜尋框”
  • ✅ 每一層計算時,都能自主查詢前面所有層的輸出,只挑最有用的資訊,沒用的直接忽略

再來個親民的比方:

傳統殘差:你寫畢業論文,導師改了8版,你每次只能拿到上一版修改稿,看不到初稿,也看不到第3版、第5版裡被刪的關鍵思路。只能順著上一版改,很容易越改越偏。

注意力殘差:直接給你開全量權限。寫當前這一版時,初稿、第1版到最新版的所有內容全在你眼前,想引用那段就引用那段,完全不會被中間版本帶偏。

講真,看到這的時候我雞皮疙瘩都起來了,這個思路真的太妙了。

視訊記憶體爆炸?Kimi早有準備

肯定有人會問:每一層都要存所有層的內容,視訊記憶體不就炸了嗎?

放心,Kimi團隊不光提了理論,連落地的坑都填好了。

他們搞了個Block AttnRes(分塊注意力殘差)方案:

  • 把模型的所有層分成幾個塊,比如8個塊
  • 塊內還是用傳統殘差保證穩定
  • 塊和塊之間用注意力機製做選擇性聚合

就這一招,直接把視訊記憶體開銷從”和層數成正比”,降到了”和塊數成正比”

只用8個塊,就能找回全量版絕大多數的性能增益,完美平衡了效果和落地成本。不是那種只能看不能用的實驗室花架子。

📈 別光聽概念,實打實的效果才是真的狠

所有不看落地效果的創新,都是耍流氓。

Kimi這篇論文放出來的實驗資料,直接讓行業看到了下一代大模型架構的影子

1️⃣ 訓練效率直接起飛

在48B規模的大模型訓練裡,用了注意力殘差的架構,訓練效率直接提了25%

啥概念?

  • 同等算力下,訓練時間直接縮短四分之一
  • 大模型的訓練成本,直接能砍一大截

2️⃣ 模型是真的變聰明了

不光基礎任務全面提升,在真正考驗大模型硬實力的高難度場景裡,直接實現了跨越式突破:

  • 研究生等級的專業考試
  • 高等數學推理
  • 程式碼生成
  • 超長文字理解

這些硬骨頭任務,性能直接漲了3到7.5個百分點

懂行的都知道,大模型到了這個量級:

  • 能漲1個點都算大突破
  • 更別說這麼大的漲幅了

3️⃣ 模型越大,優勢越明顯

這就意味著,它不是只能用在小模型上的玩具,而是完全能適配未來更大規模的大模型研發。

是真的能支撐AGI發展的底層架構創新。

4️⃣ 順便解決了傳統架構的老毛病

因為Softmax自帶的歸一化特性:

  • ✅ 解決了傳統PreNorm架構的數值隱患
  • ✅ 讓梯度在各層之間分佈得更均勻
  • ✅ 徹底緩解了深層模型的”梯度飢餓”問題

深層大模型的訓練更穩,也更容易收斂。

🌟 全網刷屏的17歲一作,到底是什麼來頭?

聊完技術,咱再回頭說說這次全網討論度最高的人——論文的共同一作,17歲的高中生陳廣宇(Nathan Chen)

我當時看到作者列表的時候,真的反覆確認了三遍,不敢相信自己的眼睛。

給大家說下另外兩位共同一作是誰,你就知道這個事有多離譜:

🏆 蘇劍林

搞大模型的沒人不叫一聲”蘇神”。

RoPE旋轉位置編碼就是他提出來的,現在全世界的主流大模型,基本都在用他發明的這項技術。

🔬 張宇

之前爆火的Kimi Linear技術的第一作者,大模型底層最佳化領域的頂尖專家。

而17歲的陳廣宇,和這兩位行業大神並列,成為了這篇重磅論文的共同一作

📊 陳廣宇的背景

根據公開資訊:

  • 今年17歲,目前還是在讀高中生
  • 以實習研究員身份加入Kimi團隊
  • 全程深度參與了注意力殘差項目的完整研發
  • 憑藉實打實的貢獻,拿到了共同一作署名

從他公開的社交資訊能看到,他此前就已經在AI領域有相關的研究和實習經歷,年紀輕輕,就已經站在了全球大模型底層創新的最前沿

網友的評論真的說出了我的心聲:

“我17歲還在為高考數學的最後一道大題頭疼,人家17歲已經把Transformer用了十年的地基給掀了”

真・英雄出少年 🌟

🌍 最後說點我的心裡話

其實我看完這篇論文的完整內容,最感慨的,還不是技術本身有多牛。

過去十年,深度學習領域的創新,大多都集中在:

  • 注意力機制的小修小補
  • 資料規模的放大
  • 訓練策略的升級

唯獨殘差連接這個最核心的底層元件,幾乎沒人能真正推翻”固定累加”的核心邏輯。

而Kimi的注意力殘差,第一次用成熟的、可落地的方案,證明了深度維度的注意力聚合,完全可以替代沿用十年的殘差遞迴。

這不止是一次架構最佳化,更是直接打開了下一代大模型架構的全新想像空間

🇨🇳 更讓我驕傲的是

這次的底層架構突破,來自中國本土的AI團隊

RoPE位置編碼,到Kimi Linear,再到如今的注意力殘差,中國的AI團隊,早就不再是應用層的跟隨者,而是真正走到了大模型底層基礎研究的最前排

當17歲的少年天才,遇上敢於顛覆十年規則的創新團隊,我們或許真的在見證,AI領域下一個時代的開啟。🚀 (提拉米蘇的AI驛站)