#馬斯克
炸場 AI 圈!Kimi 掀翻 Transformer 十年根基,馬斯克點贊,一作竟是 17 歲高中生
就在3月16日,月之暗面Kimi正式發佈了《Attention Residuals: Rethinking depth-wise aggregation》技術報告,搞出了個顛覆性的注意力殘差(Attention Residuals,簡稱AttnRes)架構,直接動了Transformer沿用了十年的底層根基。這事有多炸?報告發出去不到24小時,矽谷那群最挑嘴的頂流大佬,全下場了。埃隆·馬斯克親自轉發點贊,直白誇了句"Impressive work from Kimi";前OpenAI聯合創始人、AI圈公認的大神Andrej Karpathy更是直接感慨:"看來我們到現在,都沒把'Attention is All You Need'這句話按字面意思吃透"但說實話,比起技術本身,最讓我和全網網友一起驚掉下巴的,是這篇論文的作者列表——三位共同一作裡,赫然有一位年僅17歲的在讀高中實習生。🤔 先給小白嘮明白:這次的突破,到底戳中了AI的什麼命門?能讓全球AI圈集體破防,絕不是小修小補的最佳化,而是直接解決了大模型藏了十年的老頑疾。咱先掰扯個最基礎的常識:現在市面上幾乎所有主流大模型,根子上都離不開Transformer架構,而殘差連接,就是Transformer最核心的地基之一。從2015年ResNet誕生到現在,這套”固定累加”的殘差機制,行業用了整整十年,幾乎沒人能撼動它的地位。但這套老架構,早就帶著天生的毛病。我給大家打個最糙的比方,你瞬間就懂了:傳統殘差連接,就像你跟10個人玩傳話遊戲。第一個人說:”我今天想吃樓下的黃燜雞米飯,要微辣加土豆”傳到第二個人變成:”我想吃樓下的黃燜雞,微辣”再傳到第五個人,就成了:”我想吃樓下的雞米飯”等傳到最後一個人,直接變成了:”我想把樓下的店盤了”資訊越傳越偏,最開始的核心內容,早就被中間層的內容稀釋、帶歪了。對應到模型裡就是:模型層數越深,前面層提取的關鍵資訊越容易在層層傳遞中丟失訓練起來越來越難、效率越來越低甚至會出現”梯度飢餓”——深層的模型根本學不到有用的資訊,白瞎了那麼多算力而Kimi這次搞出來的注意力殘差,直接把這套用了十年的”死規則”,給徹底掀了。💡 大白話講透注意力殘差:把Attention轉90度,到底天才在那?圈內很多人說,這項研究最絕的洞察,是把Transformer的注意力機制”旋轉了90度”。別急,我給你掰開揉碎了說,沒學過AI也能聽明白。原來的注意力機制是幹嘛的?它是用在一句話的內容維度裡的。比如大模型處理”我今天去公園遛狗,遇到了一隻超可愛的橘貓”這句話:它能讓每個詞自主去關注句子裡其他所有詞的資訊“遛狗”能關聯到”我”“橘貓”能關聯到”可愛”解決了長文字看著看著就忘前面內容的問題。Kimi團隊的”降維打擊”式洞察既然詞和詞之間能按需關注,那模型的層和層之間,為什麼不能?這就是注意力殘差的核心邏輯:❌ 徹底扔掉傳統殘差”只能用上一層的輸出”的死規矩✅ 給每一層配個可學習的”智能搜尋框”✅ 每一層計算時,都能自主查詢前面所有層的輸出,只挑最有用的資訊,沒用的直接忽略再來個親民的比方:傳統殘差:你寫畢業論文,導師改了8版,你每次只能拿到上一版修改稿,看不到初稿,也看不到第3版、第5版裡被刪的關鍵思路。只能順著上一版改,很容易越改越偏。注意力殘差:直接給你開全量權限。寫當前這一版時,初稿、第1版到最新版的所有內容全在你眼前,想引用那段就引用那段,完全不會被中間版本帶偏。講真,看到這的時候我雞皮疙瘩都起來了,這個思路真的太妙了。視訊記憶體爆炸?Kimi早有準備肯定有人會問:每一層都要存所有層的內容,視訊記憶體不就炸了嗎?放心,Kimi團隊不光提了理論,連落地的坑都填好了。他們搞了個Block AttnRes(分塊注意力殘差)方案:把模型的所有層分成幾個塊,比如8個塊塊內還是用傳統殘差保證穩定塊和塊之間用注意力機製做選擇性聚合就這一招,直接把視訊記憶體開銷從”和層數成正比”,降到了”和塊數成正比”。只用8個塊,就能找回全量版絕大多數的性能增益,完美平衡了效果和落地成本。不是那種只能看不能用的實驗室花架子。📈 別光聽概念,實打實的效果才是真的狠所有不看落地效果的創新,都是耍流氓。Kimi這篇論文放出來的實驗資料,直接讓行業看到了下一代大模型架構的影子。1️⃣ 訓練效率直接起飛在48B規模的大模型訓練裡,用了注意力殘差的架構,訓練效率直接提了25%。啥概念?同等算力下,訓練時間直接縮短四分之一大模型的訓練成本,直接能砍一大截2️⃣ 模型是真的變聰明了不光基礎任務全面提升,在真正考驗大模型硬實力的高難度場景裡,直接實現了跨越式突破:研究生等級的專業考試高等數學推理程式碼生成超長文字理解這些硬骨頭任務,性能直接漲了3到7.5個百分點。懂行的都知道,大模型到了這個量級:能漲1個點都算大突破更別說這麼大的漲幅了3️⃣ 模型越大,優勢越明顯這就意味著,它不是只能用在小模型上的玩具,而是完全能適配未來更大規模的大模型研發。是真的能支撐AGI發展的底層架構創新。4️⃣ 順便解決了傳統架構的老毛病因為Softmax自帶的歸一化特性:✅ 解決了傳統PreNorm架構的數值隱患✅ 讓梯度在各層之間分佈得更均勻✅ 徹底緩解了深層模型的”梯度飢餓”問題深層大模型的訓練更穩,也更容易收斂。🌟 全網刷屏的17歲一作,到底是什麼來頭?聊完技術,咱再回頭說說這次全網討論度最高的人——論文的共同一作,17歲的高中生陳廣宇(Nathan Chen)。我當時看到作者列表的時候,真的反覆確認了三遍,不敢相信自己的眼睛。給大家說下另外兩位共同一作是誰,你就知道這個事有多離譜:🏆 蘇劍林搞大模型的沒人不叫一聲”蘇神”。RoPE旋轉位置編碼就是他提出來的,現在全世界的主流大模型,基本都在用他發明的這項技術。🔬 張宇之前爆火的Kimi Linear技術的第一作者,大模型底層最佳化領域的頂尖專家。而17歲的陳廣宇,和這兩位行業大神並列,成為了這篇重磅論文的共同一作。📊 陳廣宇的背景根據公開資訊:今年17歲,目前還是在讀高中生以實習研究員身份加入Kimi團隊全程深度參與了注意力殘差項目的完整研發憑藉實打實的貢獻,拿到了共同一作署名從他公開的社交資訊能看到,他此前就已經在AI領域有相關的研究和實習經歷,年紀輕輕,就已經站在了全球大模型底層創新的最前沿。網友的評論真的說出了我的心聲:“我17歲還在為高考數學的最後一道大題頭疼,人家17歲已經把Transformer用了十年的地基給掀了”真・英雄出少年 🌟🌍 最後說點我的心裡話其實我看完這篇論文的完整內容,最感慨的,還不是技術本身有多牛。過去十年,深度學習領域的創新,大多都集中在:注意力機制的小修小補資料規模的放大訓練策略的升級唯獨殘差連接這個最核心的底層元件,幾乎沒人能真正推翻”固定累加”的核心邏輯。而Kimi的注意力殘差,第一次用成熟的、可落地的方案,證明了深度維度的注意力聚合,完全可以替代沿用十年的殘差遞迴。這不止是一次架構最佳化,更是直接打開了下一代大模型架構的全新想像空間。🇨🇳 更讓我驕傲的是這次的底層架構突破,來自中國本土的AI團隊。從RoPE位置編碼,到Kimi Linear,再到如今的注意力殘差,中國的AI團隊,早就不再是應用層的跟隨者,而是真正走到了大模型底層基礎研究的最前排。當17歲的少年天才,遇上敢於顛覆十年規則的創新團隊,我們或許真的在見證,AI領域下一個時代的開啟。🚀 (提拉米蘇的AI驛站)
馬斯克點贊!17 歲高中生參與研究!Kimi 讓 AI 學會“翻舊帳”
2026 年 3 月 16 日,Kimi 團隊最新公開的論文《Attention Residuals》提出了一種針對大模型底層結構的改法。同時 MoonshotAI 也在 GitHub 開源了相關技術報告與實現。該論文獲馬斯克誇讚:“Kimi 的工作令人印象深刻。”論文瞄準的不是訓練資料、參數規模或推理技巧,而是 Transformer 裡一個用了很多年的基礎設計「殘差連接」。用通俗的話說,現在的大模型內部像一條很長的流水線。每一層都會把自己的結果直接加到後面,優點是訓練穩定、網路能堆得很深,但問題是層數一多,前面真正重要的資訊容易被後面的新資訊不斷沖淡。論文把這個問題概括為 PreNorm 下的“稀釋”現象,也就是隱藏狀態會隨著深度持續變大,早期層的貢獻越來越不顯眼。上傳的論文正文對這一點有直接說明。這篇論文的核心思路,是把過去這種“所有層結果默認一股腦往後加”的方式,改成“後面的層按需去前面挑資訊”。作者把這套方法叫做 Attention Residuals,簡稱 AttnRes。簡單理解,它相當於給模型加了一個會翻舊帳的機制,後面的層不再機械接收前面所有層的累計結果,而是像注意力機制那樣,根據當前需要,從更早的層裡找出更有用的資訊再融合進來。過去注意力機制改變了 token 與 token 之間的資訊傳遞,現在 AttnRes 想進一步改變層與層之間的資訊傳遞。這件事之所以被業內關注,不只是因為想法新,還因為它動的是大模型最底層、最通用的一塊積木。Transformer 這些年有很多改進,大家經常改的是 attention、MoE、長上下文、KV cache 或訓練配方,但很少直接去碰 residual connection 這類默認配置。AttnRes 的價值就在於,它試圖回答一個更底層的問題,模型變深以後,資訊到底該怎麼在不同層之間流動,才不會越傳越亂。當然,理想很豐滿,工程通常很殘酷。因為如果每一層都去“看”所有更早的層,記憶體和通訊成本會迅速上升。為瞭解決這個問題,論文又提出了 Block AttnRes,也就是“塊注意力殘差”。它的做法不是逐層精細回看,而是先把很多層壓成若幹個塊,只在塊之間做這種選擇性檢索。可以把它理解成,不是翻整本書的每一頁,而是先把內容整理成幾個章節目錄,再按章節去查。這樣一來,記憶體和通訊開銷從 O(Ld) 降到 O(Nd),更適合真正的大模型訓練和推理場景。論文還配套設計了跨 stage 快取和兩階段計算策略,報告稱典型推理負載下額外延遲低於 2%,啟用 pipeline parallelism 時訓練端到端額外開銷低於 4%。從實驗結果看,這不是那種“只在某個小模型上偶然有效”的工作。論文做了 scaling law 實驗,比較了 baseline、Full AttnRes 和 Block AttnRes 三種方案。結果顯示,AttnRes 在不同計算預算下都持續優於基線,而 Block AttnRes 在最大規模上已經能夠追回大部分 Full AttnRes 的收益。按論文給出的擬合結果,在 5.6 PFLOP/s-days 這一點上,Block AttnRes 達到的損失水平,相當於基線多用 1.25 倍計算量才能達到。GitHub 倉庫首頁也把這一點作為核心結果之一展示出來。論文還把這套方法接入了 Kimi Linear 架構中,使用的是一個 48B 總參數、3B 啟動參數的模型,並在 1.4 T tokens 上進行了預訓練。按照上傳論文中的結果,採用 Block AttnRes 後,模型在通用、數學、程式碼和中文評測上都沒有輸給 baseline,很多項目還有明顯提升。比如 MMLU 從 73.5 提升到 74.6,GPQA-Diamond 從 36.9 提升到 44.4,Math 從 53.5 提升到 57.1,HumanEval 從 59.1 提升到 62.2,C-Eval 從 79.6 提升到 82.5。尤其是多步推理、數學和程式碼這類更依賴組合能力的任務,提升更明顯。如果把這篇論文再說得更白一點,它不是在教大模型“多背一點知識”,而是在幫大模型“更準確地調出自己已經學到的東西”。傳統殘差更像是把所有舊資料不斷堆進一個大箱子,箱子越堆越滿,找重點越來越難;AttnRes 更像是給這個箱子加了索引系統,後面的層可以按需要去翻前面真正有用的資料。這也是為什麼這項工作雖然看起來不像新模型發佈那樣熱鬧,卻可能對下一代大模型底層結構設計產生實際影響。它最大的意義,在於證明“層與層之間的資訊傳遞”也可以像 token 之間那樣被重新設計,而且這種重寫在大模型規模上仍然能跑得動、能帶來穩定收益。至於它會不會像標準殘差連接那樣成為行業新默認配置,還要看後續更多模型、更多團隊和更長時間的復現與驗證。該論文更引人注意的是其中作者之一:陳廣宇是一位 17 歲的高中生,參與了技術研究。 (雲頭條)
摩根士丹利發出警告:AI 突破即將到來,90% 的人還沒準備好
摩根士丹利發出警告:AI 突破即將到來,90% 的人還沒準備好去年,一個只有 3 個人的 AI 創業公司,擊敗了擁有 500 人團隊的行業巨頭——而他們的秘密武器,只是一個 AI 模型。這不是科幻小說,而是正在發生的現實。近日,摩根士丹利發佈了一份震撼報告:2026 年上半年,AI 將迎來一次"讓所有人震驚"的突破。而大多數人,對即將到來的變化毫無準備。10 倍算力 = 2 倍智能,這個公式正在改變一切馬斯克在最近的採訪中透露了一個驚人的規律:給大語言模型增加 10 倍的算力,就能讓它的"智能"翻倍。聽起來很抽象?看看資料就知道了。OpenAI 剛發佈的 GPT-5.4 "Thinking" 模型,在 GDPVal 基準測試中得分 82%——在專業任務上匹配或超過人類專家的比例達到 82%。而這只是開始。摩根士丹利的報告指出,美國頂級 AI 實驗室正在以前所未有的速度積累算力。這些實驗室的高管們私下告訴投資者:接下來的進展會"震驚"所有人。更可怕的是,這個增長曲線還在加速。電力危機:智能爆炸的代價但天下沒有免費的午餐。摩根士丹利的"智能工廠"模型預測,到 2028 年,美國將面臨9 到 18 吉瓦的電力缺口——這相當於需要的電力中有 12% 到 25% 無法滿足。AI 公司們等不及電網升級了。他們正在:把位元幣礦場改造成高性能計算中心啟動天然氣渦輪機部署燃料電池經濟學家們發現了一個驚人的"15-15-15"動態:15 年資料中心租約,15% 的收益率,每瓦特創造 15 美元的淨價值。這是一場算力軍備競賽,而電力就是彈藥。工作崗位正在消失,但不是你想的那樣AI 帶來的衝擊,已經不是"未來會怎樣",而是"現在正在發生"。摩根士丹利的報告直言不諱:"變革性 AI"將成為強大的通縮力量,因為 AI 工具能以極低的成本複製人類工作。報告指出,許多公司高管已經因為 AI 效率提升而執行大規模裁員。但這裡有個反常識的現象:不是所有人都會失業,而是那些不會用 AI 的人會被淘汰。OpenAI CEO Sam Altman 描繪了一個更極端的未來:只有 1 到 5 個人的全新公司,能夠擊敗大型傳統企業。xAI 前聯合創始人 Jimmy Ba 甚至預測,到 2027 年上半年,可能會出現"遞迴自我改進循環"——AI 能夠自主升級自己的能力。你該怎麼辦?3 個立即行動的方向面對這場智能革命,普通人不是沒有機會,而是要抓住窗口期。1. 把 AI 當工具,不是威脅那些月入 10 萬的 00 後,不是因為他們比你聰明,而是因為他們更早學會了用 AI 放大自己的能力。寫作、設計、程式設計、資料分析——幾乎所有知識工作,都可以用 AI 提速 3-10 倍。關鍵不是 AI 會不會取代你,而是會用 AI 的人會不會取代你。2. 關注"AI + 你的領域"AI 不會直接取代醫生、律師、設計師,但會讓 1 個會用 AI 的醫生頂 10 個不會用的。找到你所在行業最前沿的 AI 工具,花一個周末學會它。這可能是你未來 5 年最重要的投資。3. 小而美的時代來了如果 1-5 個人的公司能擊敗 500 人的巨頭,那麼個人創業的門檻正在史無前例地降低。你不需要融資、不需要大團隊,只需要一個好想法 + AI 工具 + 執行力。寫在最後摩根士丹利的報告用了一個詞來形容未來:"純粹的智能,由算力和電力鍛造而成,正在成為這個時代的硬通貨"。這場爆炸來得比幾乎所有人預想的都要快。2026 年上半年,就是現在。你準備好了嗎? (略知一二派大星)
馬斯克致歉
麾下人工智慧公司xAI出現大面積人才出走後,一向桀驁不馴的世界首富馬斯克難得展現出自我反省的一面。作為背景,上個月xAI與SpaceX合併後,與馬斯克共同創辦這家人工智慧公司的“11羅漢”密集出走。本周四,負責圖像生成產品的張國棟宣佈離開公司,另一名創始成員劉浩天也發文確認離職並直言“燃盡了”(burn out)。周五又有消息稱,戴子航也已經離開xAI。截至目前,2023 年與馬斯克共同創立 xAI 的11名創始成員(不包括馬斯克本人)中,只剩曼努埃爾·克羅伊斯(Manuel Kroiss)和羅斯·諾丁(Ross Nordeen)兩人還留在公司。面對這一混亂局面,馬斯克公開回應稱,xAI一開始並沒有被正確地建構,因此現在正在從基礎層面重新打造。馬斯克也找補稱,特斯拉當年也發生過類似的事情。似乎是因為人才密集出走,馬斯克也難得展示了一把自省的面貌。他寫道,過去幾年裡,許多有才華的人在申請加入xAI時被拒絕錄用,甚至連面試機會都沒有獲得。對此他深表歉意。馬斯克也表示,正與招聘負責人一起重新梳理公司的面試記錄,將重新聯絡那些當時表現出潛力的候選人。即便馬斯克以對員工嚴苛出名,但願意為世界首富效力的人才依然不少。本周四,馬斯克宣佈挖來了兩名AI程式設計工具初創公司Cursor的高管。馬斯克本周早些時候也承認,xAI在程式設計業務方面處於落後,而這正是OpenAI、Anthropic等競爭對手著重發力的領域。此前相關報導:據去年10月一項對12名特斯拉前任和現任員工的採訪調查,員工們對馬斯克過度的工作要求感到疲憊。馬斯克的一名顧問透露:“董事會開玩笑說有‘特斯拉時間’這種東西。”這暗示了員工承受的巨大工作壓力。另一名接近馬斯克的知情人士表示:“埃隆的行為對士氣、人才保留和招聘產生了廣泛影響。過去他受到所有人的喜愛,但現在他只受到特定群體的喜愛。”有分析稱,雖然離職高管們沒有詳細說明離職原因,但繁重的工作量和內部衝突被廣泛認為是關鍵因素。面對高管離職潮,今年1月,馬斯克在自己的社交媒體平台上評論說,很少出現令人感到後悔的人員離職。 (中國新聞周刊)