#Translution
比Transformer更強的架構來了?浙大新作Translution,一統卷積和自注意力
融合Self-attention和Convolution兩大核心機制,Translution以統一的框架重新審視深度神經網路的本質,為下一代神經網路提供了新的可能。自2017年Transformer模型提出以來,Self-attention機制憑藉其強大的建模能力,逐漸成為深度學習領域的核心操作。然而,隨著人工智慧模型的規模不斷擴張,單純依靠簡單直接「堆參數、堆資料」提升性能的模式正逐漸遇到瓶頸。面對大模型訓練代價高昂、性能增長趨緩等挑戰,學術界和產業界亟需新的網路架構創新。近日,范鶴鶴(浙江大學)、楊易(浙江大學)、Mohan Kankanhalli(新加坡國立大學)和吳飛(浙江大學)四位老師提出了一種具有劃時代意義的神經網路基礎操作——Translution。該研究認為,神經網路對某種類型資料建模的本質是:1)為某一資料元素(如卷積核裡的中心元素或自注意力機制裡的query)尋找相關元素或區域;2)對相關元素形成的區域進行有效編碼,獲取該區域真正的、獨立於其他外部因素無關的內在結構的表徵。據此,在理論框架與實現機制上,Translution實現了Self-Attention(自注意力)與Convolution(卷積)的有機融合與統一,建構出一種更具普適性的神經電腦制。論文:Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling論文連結:https://arxiv.org/pdf/2510.10060程式碼連結:https://github.com/hehefan/Translution突破瓶頸 重新思考深度學習兩大機制自注意力機制(Self-Attention)自Transformer模型提出以來,已成為自然語言處理和多模態大模型的核心結構;而卷積神經網路(CNN)則長期主導電腦視覺領域。圖1:Convolution在捕獲關聯區域時較為「死板」,可以視為固定大小的attention;Self-attention可以自適應地捕捉關聯區域二者的成功揭示了深度神經網路的兩條關鍵路徑:Self-Attention能夠在全域範圍內自適應地捕捉特徵關聯,但依賴絕對位置編碼(absolute positional embedding),導致模型在處理位置變化時缺乏穩定性;Convolution則通過固定的局部卷積核捕獲相對結構資訊,具備強大的平移不變性,但無法像注意力那樣靈活地選擇相關區域。圖2:在對相關區域進行編碼時,Convolution為每個方向和距離都賦予一個可學習參數矩陣,使其可以捕捉與絕對位置無關的真實結構;而Self-attention通常將絕對位置融入到特徵中,當位置發生變化,可能無法識別原先結構。兩種機制各有所長,卻始終割裂。Translution的出現,正是為了彌合這一理論與應用的鴻溝。Translution Self-Attention和Convolution的大一統Translution的核心思想,是將Self-Attention的自適應區域選擇能力與Convolution的相對結建構模能力進行統一。在傳統的自注意力計算中,Query、Key、Value的投影矩陣在所有位置上共享,無法感知元素之間的方向和距離關係。Translution則創新性地為每一種相對偏移(offset)分配獨立的參數矩陣,從而在計算Query、Key、Value時引入方向性和相對位置資訊,實現了真正意義上的相對編碼(relative encoding)。表1:Translution對Self-Attention與Convolution的統一。Self-Attention與Convolution可以分別看作是Translution的兩種特例:Self-Attention簡化了相對位置編碼,Convolution簡化了注意力求解(用感受野代替)這意味著,Translution不僅能像自注意力那樣動態聚焦於最相關的區域,還能像卷積一樣感知局部結構關係,實現了「自適應識別+相對建模」的融合。這一特性使模型在處理圖像、文字乃至三維空間資料時,能夠對形狀、位置、順序等結構變化保持更強的穩定性和泛化性。α-Translution 在高性能與可訓練性之間找到平衡由於Translution在每個方向上引入了獨立參數矩陣,其參數量呈指數級增長,遠超當前GPU視訊記憶體所能承載。為解決這一問題,提出了輕量化版本——α-Translution。通過在特徵維度上引入分解式低秩編碼,α-Translution將大規模矩陣壓縮為多層可組合子空間對應,從而在保證性能的同時,將參數量與視訊記憶體佔用降低至原版的數十分之一。實驗表明,α-Translution在性能上顯著優於傳統Self-Attention,而計算成本可控,是當前硬體條件下最具潛力的過渡方案。在視覺與語言任務上,全面超越Self-Attention技術報告在電腦視覺和自然語言建模兩個領域開展了系統性實驗。結果顯示,在多個benchmark上,Translution及其輕量化版本α-Translution均顯著優於基於Self-attention的Transformer架構:•在基於ViT架構的動態MNIST分類實驗中,Translution對位置變化表現出極強的魯棒性,識別精度顯著優於Self-Attention。•在基於ViT架構的ImageNet分類任務上,Translution的Top-1精準率較Self-Attention最高提升超過6%。•在基於GPT架構的OpenWebText語言建模中,Translution的困惑度(Perplexity)相比Self-Attention有效降低,展現出更強的語言建模能力。表2:當在靜態MNIST資料集上進行訓練、動態資料集上進行測試,Translution(包括α-Translution)取得了明顯高於Self-attention的精準率,展現出其對位置變化的強大適應能力。表3:基於Translution建構的ViT在ImageNet資料集上取得明顯優於Self-attention的精準率表4:在自然語言建模的任務上,基於Translution建構的GPT也取得了超過Self-attention的性能這些結果表明,Translution不僅在視覺任務中能夠準確捕獲空間結構關係,也能在文字序列中理解詞語之間的相對依賴,展現出跨模態的普適性。靈魂拷問 Translution性能提升源自參數量增多?為了驗證Translution的性能提升究竟源於參數規模的增加,還是源於所提出的相對建模機制,作者們設計了更具「挑戰性」的對照實驗:他們將Translution中的相對矩陣取代為絕對矩陣。這一替換會導致參數量顯著增加。如果「絕對Translution」的表現優於「相對Translution」,則說明性能提升主要來自參數增多;反之,則證明提升源於相對建模機制本身。實驗結果如表所示,「相對Translution」在精準率上遠超「絕對Translution」,充分證明了性能提升確實源自所提出的相對建模方法。表5:具有更少參數的「相對Translution」取得了更高的精準率,證明了Translution帶來的性能提升正是由所提出的相對建模引起的。結束語:Translution不僅是一項技術創新,更是一次對深度神經網路本質的重新思考。儘管其大規模應用有賴於未來更強大的算力支撐,但它為新一代神經網路的發展開闢了新的方向,也為人工智慧的未來注入了新的活力。 (新智元)