就在3月16日,月之暗面Kimi正式發佈了《Attention Residuals: Rethinking depth-wise aggregation》技術報告,搞出了個顛覆性的注意力殘差(Attention Residuals,簡稱AttnRes)架構,直接動了Transformer沿用了十年的底層根基。這事有多炸?報告發出去不到24小時,矽谷那群最挑嘴的頂流大佬,全下場了。埃隆·馬斯克親自轉發點贊,直白誇了句"Impressive work from Kimi";前OpenAI聯合創始人、AI圈公認的大神Andrej Karpathy更是直接感慨:"看來我們到現在,都沒把'Attention is All You Need'這句話按字面意思吃透"但說實話,比起技術本身,最讓我和全網網友一起驚掉下巴的,是這篇論文的作者列表——三位共同一作裡,赫然有一位年僅17歲的在讀高中實習生。🤔 先給小白嘮明白:這次的突破,到底戳中了AI的什麼命門?能讓全球AI圈集體破防,絕不是小修小補的最佳化,而是直接解決了大模型藏了十年的老頑疾。咱先掰扯個最基礎的常識:現在市面上幾乎所有主流大模型,根子上都離不開Transformer架構,而殘差連接,就是Transformer最核心的地基之一。從2015年ResNet誕生到現在,這套”固定累加”的殘差機制,行業用了整整十年,幾乎沒人能撼動它的地位。但這套老架構,早就帶著天生的毛病。我給大家打個最糙的比方,你瞬間就懂了:傳統殘差連接,就像你跟10個人玩傳話遊戲。第一個人說:”我今天想吃樓下的黃燜雞米飯,要微辣加土豆”傳到第二個人變成:”我想吃樓下的黃燜雞,微辣”再傳到第五個人,就成了:”我想吃樓下的雞米飯”等傳到最後一個人,直接變成了:”我想把樓下的店盤了”資訊越傳越偏,最開始的核心內容,早就被中間層的內容稀釋、帶歪了。對應到模型裡就是:模型層數越深,前面層提取的關鍵資訊越容易在層層傳遞中丟失訓練起來越來越難、效率越來越低甚至會出現”梯度飢餓”——深層的模型根本學不到有用的資訊,白瞎了那麼多算力而Kimi這次搞出來的注意力殘差,直接把這套用了十年的”死規則”,給徹底掀了。💡 大白話講透注意力殘差:把Attention轉90度,到底天才在那?圈內很多人說,這項研究最絕的洞察,是把Transformer的注意力機制”旋轉了90度”。別急,我給你掰開揉碎了說,沒學過AI也能聽明白。原來的注意力機制是幹嘛的?它是用在一句話的內容維度裡的。比如大模型處理”我今天去公園遛狗,遇到了一隻超可愛的橘貓”這句話:它能讓每個詞自主去關注句子裡其他所有詞的資訊“遛狗”能關聯到”我”“橘貓”能關聯到”可愛”解決了長文字看著看著就忘前面內容的問題。Kimi團隊的”降維打擊”式洞察既然詞和詞之間能按需關注,那模型的層和層之間,為什麼不能?這就是注意力殘差的核心邏輯:❌ 徹底扔掉傳統殘差”只能用上一層的輸出”的死規矩✅ 給每一層配個可學習的”智能搜尋框”✅ 每一層計算時,都能自主查詢前面所有層的輸出,只挑最有用的資訊,沒用的直接忽略再來個親民的比方:傳統殘差:你寫畢業論文,導師改了8版,你每次只能拿到上一版修改稿,看不到初稿,也看不到第3版、第5版裡被刪的關鍵思路。只能順著上一版改,很容易越改越偏。注意力殘差:直接給你開全量權限。寫當前這一版時,初稿、第1版到最新版的所有內容全在你眼前,想引用那段就引用那段,完全不會被中間版本帶偏。講真,看到這的時候我雞皮疙瘩都起來了,這個思路真的太妙了。視訊記憶體爆炸?Kimi早有準備肯定有人會問:每一層都要存所有層的內容,視訊記憶體不就炸了嗎?放心,Kimi團隊不光提了理論,連落地的坑都填好了。他們搞了個Block AttnRes(分塊注意力殘差)方案:把模型的所有層分成幾個塊,比如8個塊塊內還是用傳統殘差保證穩定塊和塊之間用注意力機製做選擇性聚合就這一招,直接把視訊記憶體開銷從”和層數成正比”,降到了”和塊數成正比”。只用8個塊,就能找回全量版絕大多數的性能增益,完美平衡了效果和落地成本。不是那種只能看不能用的實驗室花架子。📈 別光聽概念,實打實的效果才是真的狠所有不看落地效果的創新,都是耍流氓。Kimi這篇論文放出來的實驗資料,直接讓行業看到了下一代大模型架構的影子。1️⃣ 訓練效率直接起飛在48B規模的大模型訓練裡,用了注意力殘差的架構,訓練效率直接提了25%。啥概念?同等算力下,訓練時間直接縮短四分之一大模型的訓練成本,直接能砍一大截2️⃣ 模型是真的變聰明了不光基礎任務全面提升,在真正考驗大模型硬實力的高難度場景裡,直接實現了跨越式突破:研究生等級的專業考試高等數學推理程式碼生成超長文字理解這些硬骨頭任務,性能直接漲了3到7.5個百分點。懂行的都知道,大模型到了這個量級:能漲1個點都算大突破更別說這麼大的漲幅了3️⃣ 模型越大,優勢越明顯這就意味著,它不是只能用在小模型上的玩具,而是完全能適配未來更大規模的大模型研發。是真的能支撐AGI發展的底層架構創新。4️⃣ 順便解決了傳統架構的老毛病因為Softmax自帶的歸一化特性:✅ 解決了傳統PreNorm架構的數值隱患✅ 讓梯度在各層之間分佈得更均勻✅ 徹底緩解了深層模型的”梯度飢餓”問題深層大模型的訓練更穩,也更容易收斂。🌟 全網刷屏的17歲一作,到底是什麼來頭?聊完技術,咱再回頭說說這次全網討論度最高的人——論文的共同一作,17歲的高中生陳廣宇(Nathan Chen)。我當時看到作者列表的時候,真的反覆確認了三遍,不敢相信自己的眼睛。給大家說下另外兩位共同一作是誰,你就知道這個事有多離譜:🏆 蘇劍林搞大模型的沒人不叫一聲”蘇神”。RoPE旋轉位置編碼就是他提出來的,現在全世界的主流大模型,基本都在用他發明的這項技術。🔬 張宇之前爆火的Kimi Linear技術的第一作者,大模型底層最佳化領域的頂尖專家。而17歲的陳廣宇,和這兩位行業大神並列,成為了這篇重磅論文的共同一作。📊 陳廣宇的背景根據公開資訊:今年17歲,目前還是在讀高中生以實習研究員身份加入Kimi團隊全程深度參與了注意力殘差項目的完整研發憑藉實打實的貢獻,拿到了共同一作署名從他公開的社交資訊能看到,他此前就已經在AI領域有相關的研究和實習經歷,年紀輕輕,就已經站在了全球大模型底層創新的最前沿。網友的評論真的說出了我的心聲:“我17歲還在為高考數學的最後一道大題頭疼,人家17歲已經把Transformer用了十年的地基給掀了”真・英雄出少年 🌟🌍 最後說點我的心裡話其實我看完這篇論文的完整內容,最感慨的,還不是技術本身有多牛。過去十年,深度學習領域的創新,大多都集中在:注意力機制的小修小補資料規模的放大訓練策略的升級唯獨殘差連接這個最核心的底層元件,幾乎沒人能真正推翻”固定累加”的核心邏輯。而Kimi的注意力殘差,第一次用成熟的、可落地的方案,證明了深度維度的注意力聚合,完全可以替代沿用十年的殘差遞迴。這不止是一次架構最佳化,更是直接打開了下一代大模型架構的全新想像空間。🇨🇳 更讓我驕傲的是這次的底層架構突破,來自中國本土的AI團隊。從RoPE位置編碼,到Kimi Linear,再到如今的注意力殘差,中國的AI團隊,早就不再是應用層的跟隨者,而是真正走到了大模型底層基礎研究的最前排。當17歲的少年天才,遇上敢於顛覆十年規則的創新團隊,我們或許真的在見證,AI領域下一個時代的開啟。🚀 (提拉米蘇的AI驛站)