炸場 AI 圈!Kimi 掀翻 Transformer 十年根基,馬斯克點贊,一作竟是 17 歲高中生
就在3月16日,月之暗面Kimi正式發佈了《Attention Residuals: Rethinking depth-wise aggregation》技術報告,搞出了個顛覆性的注意力殘差(Attention Residuals,簡稱AttnRes)架構,直接動了Transformer沿用了十年的底層根基。
這事有多炸?報告發出去不到24小時,矽谷那群最挑嘴的頂流大佬,全下場了。
埃隆·馬斯克親自轉發點贊,直白誇了句"Impressive work from Kimi";前OpenAI聯合創始人、AI圈公認的大神Andrej Karpathy更是直接感慨:
"看來我們到現在,都沒把'Attention is All You Need'這句話按字面意思吃透"
但說實話,比起技術本身,最讓我和全網網友一起驚掉下巴的,是這篇論文的作者列表——三位共同一作裡,赫然有一位年僅17歲的在讀高中實習生。
🤔 先給小白嘮明白:這次的突破,到底戳中了AI的什麼命門?
能讓全球AI圈集體破防,絕不是小修小補的最佳化,而是直接解決了大模型藏了十年的老頑疾。
咱先掰扯個最基礎的常識:現在市面上幾乎所有主流大模型,根子上都離不開Transformer架構,而殘差連接,就是Transformer最核心的地基之一。
從2015年ResNet誕生到現在,這套”固定累加”的殘差機制,行業用了整整十年,幾乎沒人能撼動它的地位。
但這套老架構,早就帶著天生的毛病。
我給大家打個最糙的比方,你瞬間就懂了:
傳統殘差連接,就像你跟10個人玩傳話遊戲。
- 第一個人說:”我今天想吃樓下的黃燜雞米飯,要微辣加土豆”
- 傳到第二個人變成:”我想吃樓下的黃燜雞,微辣”
- 再傳到第五個人,就成了:”我想吃樓下的雞米飯”
- 等傳到最後一個人,直接變成了:”我想把樓下的店盤了”
資訊越傳越偏,最開始的核心內容,早就被中間層的內容稀釋、帶歪了。
對應到模型裡就是:
- 模型層數越深,前面層提取的關鍵資訊越容易在層層傳遞中丟失
- 訓練起來越來越難、效率越來越低
- 甚至會出現”梯度飢餓”——深層的模型根本學不到有用的資訊,白瞎了那麼多算力
而Kimi這次搞出來的注意力殘差,直接把這套用了十年的”死規則”,給徹底掀了。
💡 大白話講透注意力殘差:把Attention轉90度,到底天才在那?
圈內很多人說,這項研究最絕的洞察,是把Transformer的注意力機制”旋轉了90度”。別急,我給你掰開揉碎了說,沒學過AI也能聽明白。
原來的注意力機制是幹嘛的?
它是用在一句話的內容維度裡的。比如大模型處理”我今天去公園遛狗,遇到了一隻超可愛的橘貓”這句話:
- 它能讓每個詞自主去關注句子裡其他所有詞的資訊
- “遛狗”能關聯到”我”
- “橘貓”能關聯到”可愛”
解決了長文字看著看著就忘前面內容的問題。
Kimi團隊的”降維打擊”式洞察
既然詞和詞之間能按需關注,那模型的層和層之間,為什麼不能?
這就是注意力殘差的核心邏輯:
- ❌ 徹底扔掉傳統殘差”只能用上一層的輸出”的死規矩
- ✅ 給每一層配個可學習的”智能搜尋框”
- ✅ 每一層計算時,都能自主查詢前面所有層的輸出,只挑最有用的資訊,沒用的直接忽略
再來個親民的比方:
傳統殘差:你寫畢業論文,導師改了8版,你每次只能拿到上一版修改稿,看不到初稿,也看不到第3版、第5版裡被刪的關鍵思路。只能順著上一版改,很容易越改越偏。
注意力殘差:直接給你開全量權限。寫當前這一版時,初稿、第1版到最新版的所有內容全在你眼前,想引用那段就引用那段,完全不會被中間版本帶偏。
講真,看到這的時候我雞皮疙瘩都起來了,這個思路真的太妙了。
視訊記憶體爆炸?Kimi早有準備
肯定有人會問:每一層都要存所有層的內容,視訊記憶體不就炸了嗎?
放心,Kimi團隊不光提了理論,連落地的坑都填好了。
他們搞了個Block AttnRes(分塊注意力殘差)方案:
- 把模型的所有層分成幾個塊,比如8個塊
- 塊內還是用傳統殘差保證穩定
- 塊和塊之間用注意力機製做選擇性聚合
就這一招,直接把視訊記憶體開銷從”和層數成正比”,降到了”和塊數成正比”。
只用8個塊,就能找回全量版絕大多數的性能增益,完美平衡了效果和落地成本。不是那種只能看不能用的實驗室花架子。
📈 別光聽概念,實打實的效果才是真的狠
所有不看落地效果的創新,都是耍流氓。
Kimi這篇論文放出來的實驗資料,直接讓行業看到了下一代大模型架構的影子。
1️⃣ 訓練效率直接起飛
在48B規模的大模型訓練裡,用了注意力殘差的架構,訓練效率直接提了25%。
啥概念?
- 同等算力下,訓練時間直接縮短四分之一
- 大模型的訓練成本,直接能砍一大截
2️⃣ 模型是真的變聰明了
不光基礎任務全面提升,在真正考驗大模型硬實力的高難度場景裡,直接實現了跨越式突破:
- 研究生等級的專業考試
- 高等數學推理
- 程式碼生成
- 超長文字理解
這些硬骨頭任務,性能直接漲了3到7.5個百分點。
懂行的都知道,大模型到了這個量級:
- 能漲1個點都算大突破
- 更別說這麼大的漲幅了
3️⃣ 模型越大,優勢越明顯
這就意味著,它不是只能用在小模型上的玩具,而是完全能適配未來更大規模的大模型研發。
是真的能支撐AGI發展的底層架構創新。
4️⃣ 順便解決了傳統架構的老毛病
因為Softmax自帶的歸一化特性:
- ✅ 解決了傳統PreNorm架構的數值隱患
- ✅ 讓梯度在各層之間分佈得更均勻
- ✅ 徹底緩解了深層模型的”梯度飢餓”問題
深層大模型的訓練更穩,也更容易收斂。
🌟 全網刷屏的17歲一作,到底是什麼來頭?
聊完技術,咱再回頭說說這次全網討論度最高的人——論文的共同一作,17歲的高中生陳廣宇(Nathan Chen)。
我當時看到作者列表的時候,真的反覆確認了三遍,不敢相信自己的眼睛。
給大家說下另外兩位共同一作是誰,你就知道這個事有多離譜:
🏆 蘇劍林
搞大模型的沒人不叫一聲”蘇神”。
RoPE旋轉位置編碼就是他提出來的,現在全世界的主流大模型,基本都在用他發明的這項技術。
🔬 張宇
之前爆火的Kimi Linear技術的第一作者,大模型底層最佳化領域的頂尖專家。
而17歲的陳廣宇,和這兩位行業大神並列,成為了這篇重磅論文的共同一作。
📊 陳廣宇的背景
根據公開資訊:
- 今年17歲,目前還是在讀高中生
- 以實習研究員身份加入Kimi團隊
- 全程深度參與了注意力殘差項目的完整研發
- 憑藉實打實的貢獻,拿到了共同一作署名
從他公開的社交資訊能看到,他此前就已經在AI領域有相關的研究和實習經歷,年紀輕輕,就已經站在了全球大模型底層創新的最前沿。
網友的評論真的說出了我的心聲:
“我17歲還在為高考數學的最後一道大題頭疼,人家17歲已經把Transformer用了十年的地基給掀了”
真・英雄出少年 🌟
🌍 最後說點我的心裡話
其實我看完這篇論文的完整內容,最感慨的,還不是技術本身有多牛。
過去十年,深度學習領域的創新,大多都集中在:
- 注意力機制的小修小補
- 資料規模的放大
- 訓練策略的升級
唯獨殘差連接這個最核心的底層元件,幾乎沒人能真正推翻”固定累加”的核心邏輯。
而Kimi的注意力殘差,第一次用成熟的、可落地的方案,證明了深度維度的注意力聚合,完全可以替代沿用十年的殘差遞迴。
這不止是一次架構最佳化,更是直接打開了下一代大模型架構的全新想像空間。
🇨🇳 更讓我驕傲的是
這次的底層架構突破,來自中國本土的AI團隊。
從RoPE位置編碼,到Kimi Linear,再到如今的注意力殘差,中國的AI團隊,早就不再是應用層的跟隨者,而是真正走到了大模型底層基礎研究的最前排。
當17歲的少年天才,遇上敢於顛覆十年規則的創新團隊,我們或許真的在見證,AI領域下一個時代的開啟。🚀 (提拉米蘇的AI驛站)