#Attention
馬斯克轉發Kimi論文引起矽谷大討論,Attention下一個戰場是什麼?
2026 年 3 月 16 日,Kimi 團隊把一篇叫 Attention Residuals 的論文掛上了 arXiv,然後事情迅速失控。馬斯克轉發了,Karpathy 評了一句"我們還沒有真正把 Attention is All You Need 的標題當回事",前 OpenAI 聯合創始人 Jerry Tworek 直接給了四個字,deep learning 2.0。一篇來自中國團隊的架構論文能在矽谷引起這種等級的討論,上一次可能要追溯到 DeepSeek-V3。但熱鬧歸熱鬧,大多數討論停留在"Kimi 搞了個新東西,大佬們很興奮"的層面。被忽略的是,同一天,字節跳動 Seed 團隊和華中科技大學聯合發了另一篇論文,叫 Mixture-of-Depths Attention(MoDA),解決的是完全相同的問題,用的是完全不同的路線。同一周內,南京大學 Dilxat Muhtar、MPI Shiwei Liu 等人的第三篇論文"When Does Sparsity Mitigate the Curse of Depth in LLMs"從理論側給出了最精確的病理報告。三篇論文密集出現,對準的是同一個靶子。這不是巧合。一個被忽視了近十年的結構性問題,終於到了不得不解決的臨界點。問題不在注意力的序列維度上。注意力在過去幾年已經進化了很多代,從多頭注意力到分組查詢注意力,到 DeepSeek 的 MLA,到各種稀疏變體,每一代都在最佳化 token 與 token 之間怎麼互相看。這場軍備競賽足夠精彩,但它遮蔽了一個事實——層與層之間的資訊傳遞方式,從 2017 年 Transformer 論文發表至今,答案一直是同一個。殘差連接,h = h + f(h),一個不帶任何學習參數的加法操作。所有歷史層的輸出等權求和。沒有選擇,沒有遺忘,沒有學習。每一層的貢獻被一視同仁地堆進殘差流裡,不管它學到的是關鍵特徵還是噪音。殘差連接是深度學習歷史上最成功的"臨時方案"。01. 最成功的臨時方案殘差連接是 2015 年何愷明在 ResNet 裡提出的。思路極其樸素,網路堆到二十幾層就訓不動了,梯度消失讓深層參數幾乎不更新,那就給每一層加一條"高速公路",讓輸入直接跳過這一層接到輸出上。即使這一層什麼都沒學到,資訊和梯度至少能通過這條捷徑傳下去。效果立竿見影,ResNet 把網路從二十幾層推到了一百多層。兩年後 Transformer 問世,殘差連接被原封不動地搬過來。從那以後,這個設計就沒人動過。不是沒人試過。ReZero、FixUp、Highway Network 都做過變體,讓殘差權重可學習。但沒有一個進入主流大模型的架構選型,因為殘差連接太好用了。簡單、穩定、幾乎不增加計算開銷,在當時的模型規模下,副作用還沒有暴露。02. 44% 的層在空轉副作用是什麼?2025 年初,西湖大學、Emory 和 MPI 的 Shiwei Liu 團隊發表了"The Curse of Depth",今年 3 月南京大學 Dilxat Muhtar 等人的"When Does Sparsity Mitigate the Curse of Depth in LLMs"進一步給出了定量診斷,在當前主流大模型的架構下,深層的變換越來越接近恆等對應。輸入什麼就輸出什麼,這一層等於沒有。數字很難看。研究者用"有用性分數"來衡量每一層是否在做有意義的變換。12 層的模型,所有層都在幹活。16 層,三層廢了。24 層,九層廢了。32 層,14 層廢了,44% 的層幾乎什麼都沒學到。參數量從 9 億增加到 23 億,多花了 156% 的預算,有效層只從 12 增加到 18。深度詛咒的定量診斷——有效層數隨模型規模增長的效率遞減原因和殘差連接的工作方式直接相關。每一層的輸出通過殘差連接加到一條"主幹道"上。隨著層數增加,主幹道上累積的訊號越來越大(可以理解為"背景音量"不斷升高),但每一層新產生的訊號幅度是有限的。到了深層,新訊號就淹沒在背景噪音裡了,輸入和輸出幾乎一樣,這一層形同虛設。殘差連接解決了"讓梯度傳過去"的問題,但製造了"讓深層有意義"的問題。在大模型時代,這個代價是真金白銀。一層就是幾十億次浮點運算。一個 128 層的模型如果有 44% 的層在空轉,將近六十層的算力在做無用功。社區捲了幾年的推理效率最佳化,量化、蒸餾、剪枝、稀疏注意力、KV cache 壓縮,全都在最佳化那些"有用的計算"。最大的效率黑洞不在注意力的二次方複雜度上,而在一個從 2015 年就沒變過的加法操作上。03. 給注意力加上深度維度字節 Seed 團隊的 MoDA 選了一條不同的路。它沒有動殘差連接,而是給注意力機制本身加了第二個維度。標準 Transformer 的注意力只在序列維度上操作,即,當前層的每個 token 去看同層其他 token 的 KV。MoDA 的改動很直覺,把歷史層的 KV 也放進注意力的候選集。一個 token 在第 L 層做注意力計算時,不僅能看到同層的其他 token,還能直接回看第 1 層到第 L-1 層的 KV。序列維度和深度維度在同一個 Softmax 下聯合歸一化。想法不難理解,難的是怎麼在不拖垮速度的情況下把它做出來。MoDA 的雙維注意力機制——序列維度與深度維度在同一個 Softmax 下聯合歸一化把所有歷史層的 KV 全塞進注意力,計算量會爆炸。一個 32 層的模型,第 32 層要看前 31 層的所有 KV,等效序列長度直接擴大 32 倍。MoDA 的工程核心是一套"分組重排"策略,只選一部分歷史層的 KV,按組重新排列到連續視訊記憶體上,讓 GPU 的矩陣乘法能高效執行。具體來說,MoDA 引入了"深度流"機制。不是每一層都去看所有歷史層,而是通過一個可學習的路由選出最相關的幾層。這和 Mixture-of-Experts 的思路類似——不是把所有專家都啟動,而是動態地選擇需要的專家。區別在於這裡的"專家"是不同深度的歷史層。在 64K 序列長度下,MoDA 的算子效率達到了 FlashAttention-2 的 97.3%。加了整個深度注意力機制,速度只慢了不到 3%。分組重排策略——把散落在視訊記憶體各處的歷史層 KV 搬運到連續記憶體區域在 1.5B 參數的模型上(基於 OLMo2 的訓練配方),MoDA 在 10 個下游任務上的平均性能提升了 2.11%,額外計算開銷僅 3.7%。初看不大,但這是架構層面的改進,不是靠更多資料或更長訓練換來的。而且 MoDA 的效果隨模型規模增大而增強——在更大的模型上,深度退化更嚴重,MoDA 的修復作用更明顯。MoDA 在 10 個下游任務上的性能對比更有意思的是 MoDA 和 Post-Norm 的化學反應。主流大模型幾乎全用 Pre-Norm(先歸一化再做注意力),因為 Post-Norm(先做注意力再歸一化)雖然理論上更優,但訓練不穩定。MoDA 的深度 KV 機制恰好給 Post-Norm 提供了額外的梯度通道,Post-Norm 本來的不穩定問題就不再是致命傷了。MoDA+Post-Norm 的組合打開的可能性是,過去為了訓練穩定而做出的妥協(用 Pre-Norm),也許可以被收回了。Pre-Norm vs Post-Norm 在加入深度 KV 後的驗證損失差異04. 不開新路,翻修舊路MoDA 沒動殘差連接,它選擇在殘差之外另開一條路。同一天,Kimi 團隊發的 Attention Residuals(AttnRes)走了一條更直接的路線,直接對殘差連接本身動手。標準殘差連接做的事很簡單,把前面所有層的輸出等權相加,堆進主幹道。沒有選擇,沒有遺忘。AttnRes 把這個固定的等權加法替換成一個注意力操作,每一層用自己的狀態作為查詢,前面所有層的輸出作為候選,用注意力來決定,前面那些層的特徵對當前層有用,權重各是多少。殘差連接從一個固定公式變成了一個可學習的動態路由。AttnRes 的核心思路——用注意力替代等權殘差加法代價是每一層都要額外跑一次深度注意力計算,開銷不低。Kimi 團隊用分塊策略(Block AttnRes)控製成本,把層分成若幹個塊,塊內做完整的深度注意力,塊與塊之間只關注塊等級的聚合表徵。AttnRes 已經被整合進了 Kimi Linear(480 億總參數 / 30 億啟動參數),在 1.4 兆 token 上做了預訓練,效果確認在不同模型規模下一致。這篇論文已經被廣泛報導過,技術細節不再展開。值得放在這裡講的原因是它和 MoDA 的路線對比。AttnRes 的訓練曲線與消融實驗兩條路線診斷的病因完全一致,即,深層拿到的淺層資訊被殘差更新反覆稀釋了。但下刀的地方不同。MoDA 沒碰殘差連接,而是給注意力加了一個深度維度,讓深層能繞過殘差流直接取淺層的原始特徵。AttnRes 直接對殘差連接開刀,把等權加法換成了注意力加權。一個是"另修一條路",一個是"把原來那條路翻新"。兩篇論文同一天出現,路線不同,靶子相同。這不是巧合。注意力的深度問題已經是研究社區的共識,區別只在於從那個方向切入。AttnRes 在不同模型規模下的效果一致性05. 忘了拆的腳手架回到最開始的問題,為什麼深層空轉這個問題到 2026 年才被認真對待?因為殘差連接太好用了。它解決了一個當時最緊迫的問題(梯度消失),代價可控(深層退化在小模型上不明顯),替代方案不成熟(ReZero、Highway Network 都沒有經受過大規模驗證)。沒有人有動力去動它。它不是被有意保留的設計選擇,而是被遺忘的臨時方案。當初搭的腳手架,蓋完樓忘了拆,時間一長大家以為它是承重牆。殘差連接的訊號稀釋效應——層數越深,新訊號越難被聽見但真正讓這個問題難以被發現的,不是殘差連接本身,而是注意力機制長期以來只在一個維度上運作。過去八年,注意力的所有進化——多頭、分組查詢、稀疏、線性——都是在序列維度上做文章。token 和 token 之間怎麼互相看,這件事被最佳化了無數遍。但層和層之間怎麼互相看?這個問題根本沒人問過。深度維度是注意力的盲區。MoDA 和 AttnRes 從不同方向把這個盲區打開了。MoDA 給注意力加了第二個維度,讓它能同時在序列和深度方向上運作。AttnRes 把層間資訊傳遞本身變成了一個注意力操作。路線不同,但共同指向同一個結論,即,注意力不該只看水平方向,它也應該看垂直方向。這個結論的延伸比兩篇論文字身更大。Transformer 裡還有很多隻在單一維度上運作的固定機制。每一層必須按順序執行,不能跳過。每個注意力頭獨立計算後簡單拼接,沒有頭與頭之間的動態協調。每個 token 無論難易都走完全相同的計算路徑。這些設計當初都是為了讓模型能訓起來、能收斂的工程妥協。深度學習過去十年的演進方向,如果抽象到最高層,就是一件事,把越來越多的結構性決策從人類設計者手中交還給模型自己。手工設計的摺積核被可學習的注意力替代了。固定的位置編碼被可學習的旋轉編碼替代了。固定的專家分配被可學習的路由替代了。現在,深度維度上的資訊流動方式,也開始由注意力自己來決定了。Karpathy 說我們還沒有把"Attention is All You Need"的字面意思當真。他可能說對了。但不是"注意力就夠了"這個意思,而是"注意力還沒有被用夠"。它在序列維度上已經進化了很多代,但在深度維度上才剛剛開始。深度是注意力的下一個戰場。 (騰訊科技)
Kimi 新架構讓馬斯克歎服!17歲高中生作者一戰成名
17歲高中生,以一作身份,在Kimi團隊把Ilya提出的設想,變成了現實。Ilya之前有個預言,把按時間先後順序處理資料的LSTM網路“旋轉90度”,也就是把時間軸換成模型深度軸,就變成了現在的殘差網路。Kimi團隊認為,既然時間上的LSTM能對應深度上的殘差,那後來淘汰了LSTM的“注意力機制”自然也可以照做。他們新搞出的Attention Residuals技術,就相當於把注意力機制也“旋轉了90度”。用了這套新方法後,模型在計算當前層時可以聰明地“回頭看”,根據需要自由決定去提取前面那一層的資訊。這篇論文讓馬斯克也來圍觀,表示令人印象深刻。除了馬斯克,這篇論文也引發了大神Karpathy的思考,直言我們對Attention is All You Need這篇Transformer開山之作的理解還是不夠。這種新機制放到Kimi自家的Kimi Linear 48B大模型(3B啟動參數)上驗證,訓練效率提升25%,推理延遲增加不到2%。殘差連接的“記憶負擔”先回顧一下殘差連接的工作原理。傳統做法是:第N層的輸出 = 第N層的計算結果 + 第N-1層的輸出。這樣一路累加下去,每一層都能“記住”前面所有層的資訊。問題來了,在大模型PreNorm主流範式下,殘差連接中所有層的貢獻都是等權累加。就像一個“記憶力太好的人”,把所有經歷都以相同權重存進大腦。貢獻被逐步稀釋,早期資訊難以檢索,且大量層可被剪枝而損失微小,稱之為“PreNorm dilution problem”。更麻煩的是,隱藏狀態的范數會隨著深度不斷增長。研究人員發現,在深層網路中,這種unbounded growth會導致訓練不穩定。月之暗麵糰隊換了個思路:既然問題出在“無差別累加”,那就讓網路自己決定該回憶什麼。用注意力“選擇性回憶”團隊觀察到一個有趣的對偶性:網路的深度維度和序列的時間維度,本質上是同構的。在Transformer處理序列時,用注意力機制讓當前位置“選擇性關注”之前的位置。那麼在深度維度上,為什麼不能讓當前層“選擇性關注”之前的層?Attention Residuals就這麼來的:當前層的可學習偽查詢向量作為query(learnable pseudo-query)所有前層的輸出作為key和value用注意力機制加權聚合這樣一來,網路可以學會那些層的資訊對當前計算最重要,就多關注一點;不相關的層,權重自然降低。但這帶來一個新問題:計算量爆炸。如果一個100層的網路,每一層都要對前面99層做full attention residual,複雜度是O(L²),根本跑不動。Block AttnRes:分塊壓縮論文中的解決方案是Block AttnRes。核心思想是把連續的若干層打包成一個block,對block內部的輸出做壓縮,只保留一個“摘要向量”。具體操作如下:把L層網路分成B個block,每個block包含若干層每個block結束時,把block內的資訊壓縮成單個向量後續層做attention時,只需要關注塊間表徵+塊內即時層輸出,而非全部L個層這樣一來,attention的複雜度從O(L²)降到了O(L·B),在實踐中B可以設得很小(論文用的是8-16)。此外,團隊還做了數個工程最佳化:快取式流水線通訊、序列分片預填充、KV 快取粒度最佳化等等。Kimi Linear驗證:1.25倍效率提升理論說得通,但真正讓人信服的是大規模驗證。團隊在自家的Kimi Linear架構上做了測試。這是一個採用線性注意力的大模型,總參數48B,啟動參數3B(MoE架構)。同等計算預算下,Attention Residuals能獲得更好的下游性能;反過來說,達到相同性能需要的訓練計算量減少了約20%,相當於獲得了1.25倍的效率優勢。在具體任務上,數學推理(MATH、GSM8K)、程式碼生成(HumanEval、MBPP)均持平或略優,多語言理解的一致性也有所改善。更重要的是,Attention Residuals是一個drop-in replacement,不需要修改網路其他部分,直接替換殘差連接即可。論文裡還講到一個有意思的視角。團隊把這項工作稱為“時間-深度對偶性”(time-depth duality)的應用。在他們看來,深度神經網路的“層”和循環神經網路的“時間步”,本質上是都是對資訊的迭代處理。Transformer之所以成功,是因為用attention替代了RNN中固定的recurrence。那麼在深度維度上,是不是也該用attention替代固定的residual?17歲高中生入列共同一作更有意思的是,這篇讓馬斯克、Karpathy等人都為之一震的論文,共同一作之一是一名年僅17歲的高中生——陳廣宇(Nathan)。另外兩名共同一作,分別是Kimi的關鍵人物之一、RoPE(旋轉位置編碼)的提出者蘇神(蘇劍林),以及Kimi Linear的第一作者張宇。誠然Attention Residuals是團隊協作取得的成果,但一名高中生出現在這樣的團隊之中,還與兩位大神共列一作,已經足夠震撼。a16z創始人Marc Andreessen、Thinking Machines的聯創等人都關注了他的X帳號。一年前才剛剛開始瞭解大模型的陳廣宇,是從北京的一場駭客鬆開始,一路走向矽谷的。後來回國時,他選擇加入了Kimi。經手過月之暗面投資的奇績創壇(原YC中國)創始成員董科含,也曾在其個人公眾號上刊載過陳廣宇的一份自傳。去年二月,北京的一場中學生駭客松上,陳廣宇展示了一個關於“人類第三隻機械輔助手”的創新構想——ThirdArm。也正是這個項目,讓他結識了駭客松評委董科含,後者也成為了他的創業導師。當時,董科含追問他,未來是否會深耕這項技術,這促使他開始重新審視自己的職業方向。隨後他入選了董科含發起的只有極少數人入選的青年計畫,開始接觸IOI(國際資訊學奧林匹克)金牌得主及資深科研人員。此前他曾嘗試經營Shopify跨境電商店舖、營運短影片帳號,但經過董科含的建議,他決定轉向理解時代的底層技術。當時還不知道Transformer是什麼的他,在DeepSeek研究員袁境陽的指導下,利用Gemini作為輔助工具,通過研讀經典論文、追蹤GitHub開放原始碼專案等方式逐步建立認知。有一次他在推特上分享了對一篇部落格的反思後,獲得了作者的回覆,這篇帖子也因此引起了一家矽谷AI初創公司CEO的關注。該公司於2024年底成立,2025年初完成了800萬美元種子輪融資,資方背景涉及OpenAI與Anthropic。在通過一項限時通宵完成的實驗測試後,他拿到了對方的錄用通知。暑假期間,他前往舊金山開啟了為期七周的實習。其中前兩周,他負責定義並推進一個涉及144張H100顯示卡的探索性項目。在CEO直接指導下,他的工作延伸至營運層面,參與了招聘系統搭建、技術內容輸出及融資策略討論,並獲得與早期投資者Vinod Khosla交流的機會。在矽谷期間,他維持著高強度工作節奏,通過咖啡社交與輝達工程師及初創創始人建立聯絡。這次經歷讓他將科研視為一種支撐創造的底層能力。實習結束後,陳廣宇回到國內,並於去年11月加入月之暗面。把他吸引進去的,正是Kimi一直做的Flash Linear Attention這一類高效attention工作。實際上,正是GitHub上的FLA項目,吸引了他對機器學習的興趣並被邀請加入Kimi團隊。也正是順著這條線,他開始一路往更底層鑽,從讀論文、看實現,到研究 Triton kernel、理解attention為什麼能被這樣重寫、這樣加速。到了月之暗面,這條路也算是繞了一圈又落回原點——他最初是被底層技術吸引,最後做的也正是最底層、最核心的那部分事。相比於講一個“少年天才一路開掛”的故事,陳廣宇的經歷更像是另一種成長路徑——先被時代最前沿的技術擊中,再一步步把興趣磨成能力,把能力帶到真正的大模型研發現場裡。 (Python開發者)
馬斯克點贊!17 歲高中生參與研究!Kimi 讓 AI 學會“翻舊帳”
2026 年 3 月 16 日,Kimi 團隊最新公開的論文《Attention Residuals》提出了一種針對大模型底層結構的改法。同時 MoonshotAI 也在 GitHub 開源了相關技術報告與實現。該論文獲馬斯克誇讚:“Kimi 的工作令人印象深刻。”論文瞄準的不是訓練資料、參數規模或推理技巧,而是 Transformer 裡一個用了很多年的基礎設計「殘差連接」。用通俗的話說,現在的大模型內部像一條很長的流水線。每一層都會把自己的結果直接加到後面,優點是訓練穩定、網路能堆得很深,但問題是層數一多,前面真正重要的資訊容易被後面的新資訊不斷沖淡。論文把這個問題概括為 PreNorm 下的“稀釋”現象,也就是隱藏狀態會隨著深度持續變大,早期層的貢獻越來越不顯眼。上傳的論文正文對這一點有直接說明。這篇論文的核心思路,是把過去這種“所有層結果默認一股腦往後加”的方式,改成“後面的層按需去前面挑資訊”。作者把這套方法叫做 Attention Residuals,簡稱 AttnRes。簡單理解,它相當於給模型加了一個會翻舊帳的機制,後面的層不再機械接收前面所有層的累計結果,而是像注意力機制那樣,根據當前需要,從更早的層裡找出更有用的資訊再融合進來。過去注意力機制改變了 token 與 token 之間的資訊傳遞,現在 AttnRes 想進一步改變層與層之間的資訊傳遞。這件事之所以被業內關注,不只是因為想法新,還因為它動的是大模型最底層、最通用的一塊積木。Transformer 這些年有很多改進,大家經常改的是 attention、MoE、長上下文、KV cache 或訓練配方,但很少直接去碰 residual connection 這類默認配置。AttnRes 的價值就在於,它試圖回答一個更底層的問題,模型變深以後,資訊到底該怎麼在不同層之間流動,才不會越傳越亂。當然,理想很豐滿,工程通常很殘酷。因為如果每一層都去“看”所有更早的層,記憶體和通訊成本會迅速上升。為瞭解決這個問題,論文又提出了 Block AttnRes,也就是“塊注意力殘差”。它的做法不是逐層精細回看,而是先把很多層壓成若幹個塊,只在塊之間做這種選擇性檢索。可以把它理解成,不是翻整本書的每一頁,而是先把內容整理成幾個章節目錄,再按章節去查。這樣一來,記憶體和通訊開銷從 O(Ld) 降到 O(Nd),更適合真正的大模型訓練和推理場景。論文還配套設計了跨 stage 快取和兩階段計算策略,報告稱典型推理負載下額外延遲低於 2%,啟用 pipeline parallelism 時訓練端到端額外開銷低於 4%。從實驗結果看,這不是那種“只在某個小模型上偶然有效”的工作。論文做了 scaling law 實驗,比較了 baseline、Full AttnRes 和 Block AttnRes 三種方案。結果顯示,AttnRes 在不同計算預算下都持續優於基線,而 Block AttnRes 在最大規模上已經能夠追回大部分 Full AttnRes 的收益。按論文給出的擬合結果,在 5.6 PFLOP/s-days 這一點上,Block AttnRes 達到的損失水平,相當於基線多用 1.25 倍計算量才能達到。GitHub 倉庫首頁也把這一點作為核心結果之一展示出來。論文還把這套方法接入了 Kimi Linear 架構中,使用的是一個 48B 總參數、3B 啟動參數的模型,並在 1.4 T tokens 上進行了預訓練。按照上傳論文中的結果,採用 Block AttnRes 後,模型在通用、數學、程式碼和中文評測上都沒有輸給 baseline,很多項目還有明顯提升。比如 MMLU 從 73.5 提升到 74.6,GPQA-Diamond 從 36.9 提升到 44.4,Math 從 53.5 提升到 57.1,HumanEval 從 59.1 提升到 62.2,C-Eval 從 79.6 提升到 82.5。尤其是多步推理、數學和程式碼這類更依賴組合能力的任務,提升更明顯。如果把這篇論文再說得更白一點,它不是在教大模型“多背一點知識”,而是在幫大模型“更準確地調出自己已經學到的東西”。傳統殘差更像是把所有舊資料不斷堆進一個大箱子,箱子越堆越滿,找重點越來越難;AttnRes 更像是給這個箱子加了索引系統,後面的層可以按需要去翻前面真正有用的資料。這也是為什麼這項工作雖然看起來不像新模型發佈那樣熱鬧,卻可能對下一代大模型底層結構設計產生實際影響。它最大的意義,在於證明“層與層之間的資訊傳遞”也可以像 token 之間那樣被重新設計,而且這種重寫在大模型規模上仍然能跑得動、能帶來穩定收益。至於它會不會像標準殘差連接那樣成為行業新默認配置,還要看後續更多模型、更多團隊和更長時間的復現與驗證。該論文更引人注意的是其中作者之一:陳廣宇是一位 17 歲的高中生,參與了技術研究。 (雲頭條)
比Transformer更強的架構來了?浙大新作Translution,一統卷積和自注意力
融合Self-attention和Convolution兩大核心機制,Translution以統一的框架重新審視深度神經網路的本質,為下一代神經網路提供了新的可能。自2017年Transformer模型提出以來,Self-attention機制憑藉其強大的建模能力,逐漸成為深度學習領域的核心操作。然而,隨著人工智慧模型的規模不斷擴張,單純依靠簡單直接「堆參數、堆資料」提升性能的模式正逐漸遇到瓶頸。面對大模型訓練代價高昂、性能增長趨緩等挑戰,學術界和產業界亟需新的網路架構創新。近日,范鶴鶴(浙江大學)、楊易(浙江大學)、Mohan Kankanhalli(新加坡國立大學)和吳飛(浙江大學)四位老師提出了一種具有劃時代意義的神經網路基礎操作——Translution。該研究認為,神經網路對某種類型資料建模的本質是:1)為某一資料元素(如卷積核裡的中心元素或自注意力機制裡的query)尋找相關元素或區域;2)對相關元素形成的區域進行有效編碼,獲取該區域真正的、獨立於其他外部因素無關的內在結構的表徵。據此,在理論框架與實現機制上,Translution實現了Self-Attention(自注意力)與Convolution(卷積)的有機融合與統一,建構出一種更具普適性的神經電腦制。論文:Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling論文連結:https://arxiv.org/pdf/2510.10060程式碼連結:https://github.com/hehefan/Translution突破瓶頸 重新思考深度學習兩大機制自注意力機制(Self-Attention)自Transformer模型提出以來,已成為自然語言處理和多模態大模型的核心結構;而卷積神經網路(CNN)則長期主導電腦視覺領域。圖1:Convolution在捕獲關聯區域時較為「死板」,可以視為固定大小的attention;Self-attention可以自適應地捕捉關聯區域二者的成功揭示了深度神經網路的兩條關鍵路徑:Self-Attention能夠在全域範圍內自適應地捕捉特徵關聯,但依賴絕對位置編碼(absolute positional embedding),導致模型在處理位置變化時缺乏穩定性;Convolution則通過固定的局部卷積核捕獲相對結構資訊,具備強大的平移不變性,但無法像注意力那樣靈活地選擇相關區域。圖2:在對相關區域進行編碼時,Convolution為每個方向和距離都賦予一個可學習參數矩陣,使其可以捕捉與絕對位置無關的真實結構;而Self-attention通常將絕對位置融入到特徵中,當位置發生變化,可能無法識別原先結構。兩種機制各有所長,卻始終割裂。Translution的出現,正是為了彌合這一理論與應用的鴻溝。Translution Self-Attention和Convolution的大一統Translution的核心思想,是將Self-Attention的自適應區域選擇能力與Convolution的相對結建構模能力進行統一。在傳統的自注意力計算中,Query、Key、Value的投影矩陣在所有位置上共享,無法感知元素之間的方向和距離關係。Translution則創新性地為每一種相對偏移(offset)分配獨立的參數矩陣,從而在計算Query、Key、Value時引入方向性和相對位置資訊,實現了真正意義上的相對編碼(relative encoding)。表1:Translution對Self-Attention與Convolution的統一。Self-Attention與Convolution可以分別看作是Translution的兩種特例:Self-Attention簡化了相對位置編碼,Convolution簡化了注意力求解(用感受野代替)這意味著,Translution不僅能像自注意力那樣動態聚焦於最相關的區域,還能像卷積一樣感知局部結構關係,實現了「自適應識別+相對建模」的融合。這一特性使模型在處理圖像、文字乃至三維空間資料時,能夠對形狀、位置、順序等結構變化保持更強的穩定性和泛化性。α-Translution 在高性能與可訓練性之間找到平衡由於Translution在每個方向上引入了獨立參數矩陣,其參數量呈指數級增長,遠超當前GPU視訊記憶體所能承載。為解決這一問題,提出了輕量化版本——α-Translution。通過在特徵維度上引入分解式低秩編碼,α-Translution將大規模矩陣壓縮為多層可組合子空間對應,從而在保證性能的同時,將參數量與視訊記憶體佔用降低至原版的數十分之一。實驗表明,α-Translution在性能上顯著優於傳統Self-Attention,而計算成本可控,是當前硬體條件下最具潛力的過渡方案。在視覺與語言任務上,全面超越Self-Attention技術報告在電腦視覺和自然語言建模兩個領域開展了系統性實驗。結果顯示,在多個benchmark上,Translution及其輕量化版本α-Translution均顯著優於基於Self-attention的Transformer架構:•在基於ViT架構的動態MNIST分類實驗中,Translution對位置變化表現出極強的魯棒性,識別精度顯著優於Self-Attention。•在基於ViT架構的ImageNet分類任務上,Translution的Top-1精準率較Self-Attention最高提升超過6%。•在基於GPT架構的OpenWebText語言建模中,Translution的困惑度(Perplexity)相比Self-Attention有效降低,展現出更強的語言建模能力。表2:當在靜態MNIST資料集上進行訓練、動態資料集上進行測試,Translution(包括α-Translution)取得了明顯高於Self-attention的精準率,展現出其對位置變化的強大適應能力。表3:基於Translution建構的ViT在ImageNet資料集上取得明顯優於Self-attention的精準率表4:在自然語言建模的任務上,基於Translution建構的GPT也取得了超過Self-attention的性能這些結果表明,Translution不僅在視覺任務中能夠準確捕獲空間結構關係,也能在文字序列中理解詞語之間的相對依賴,展現出跨模態的普適性。靈魂拷問 Translution性能提升源自參數量增多?為了驗證Translution的性能提升究竟源於參數規模的增加,還是源於所提出的相對建模機制,作者們設計了更具「挑戰性」的對照實驗:他們將Translution中的相對矩陣取代為絕對矩陣。這一替換會導致參數量顯著增加。如果「絕對Translution」的表現優於「相對Translution」,則說明性能提升主要來自參數增多;反之,則證明提升源於相對建模機制本身。實驗結果如表所示,「相對Translution」在精準率上遠超「絕對Translution」,充分證明了性能提升確實源自所提出的相對建模方法。表5:具有更少參數的「相對Translution」取得了更高的精準率,證明了Translution帶來的性能提升正是由所提出的相對建模引起的。結束語:Translution不僅是一項技術創新,更是一次對深度神經網路本質的重新思考。儘管其大規模應用有賴於未來更強大的算力支撐,但它為新一代神經網路的發展開闢了新的方向,也為人工智慧的未來注入了新的活力。 (新智元)
【輝達GTC大會】黃仁勳集齊Transformer論文七大作者,對話一小時! 中文實錄全網首發
2017年,一篇具有里程碑意義的論文——《Attention is All You Need》橫空出世,它首次引入了基於自注意力機制的Transformer模型,這一創新架構擺脫了傳統的RNN和CNN的束縛,透過平行處理的注意力機制,有效克服了長距離依賴的難題,並顯著提升了序列資料處理的速度。 Transformer的編碼器-解碼器結構和多頭注意力機制在人工智慧領域掀起了一場風暴,大熱的ChatGPT正是基於這一架構構建的。 想像一下,Transformer模型就像是你的大腦在和朋友交談時,能夠同時關注對方說的每個詞,並理解這些詞之間的聯繫。它賦予了電腦類似人類的語言理解能力。在此之前,RNN是處理語言的主流方法,但其資訊處理速度緩慢,就像老式的磁帶播放器,必須逐字逐句地播放。而Transformer模型則像是高效能的DJ,能夠同時操控多個音軌,迅速捕捉關鍵訊息。 Transformer模型的出現極大地提升了電腦處理語言的能力,使得機器翻譯、語音識別和文字摘要等任務變得更加高效和精確,這對整個行業來說是一個巨大的飛躍。 這項創新成果源自於八位曾在Google工作的AI科學家的共同努力。他們最初的目標非常簡單:改進Google的機器翻譯服務。他們希望機器能夠完整地理解並通讀整個句子,而不是孤立地逐詞翻譯。這個理念成為了「Transformer」架構的起點—「自我注意力」機制。在此基礎上,這八位作者發揮各自的專長,於2017年12月發表了論文《Attention Is All You Need》,詳細描述了Transformer架構,開啟了生成式AI的新篇章。