融合Self-attention和Convolution兩大核心機制,Translution以統一的框架重新審視深度神經網路的本質,為下一代神經網路提供了新的可能。
自2017年Transformer模型提出以來,Self-attention機制憑藉其強大的建模能力,逐漸成為深度學習領域的核心操作。
然而,隨著人工智慧模型的規模不斷擴張,單純依靠簡單直接「堆參數、堆資料」提升性能的模式正逐漸遇到瓶頸。面對大模型訓練代價高昂、性能增長趨緩等挑戰,學術界和產業界亟需新的網路架構創新。
近日,范鶴鶴(浙江大學)、楊易(浙江大學)、Mohan Kankanhalli(新加坡國立大學)和吳飛(浙江大學)四位老師提出了一種具有劃時代意義的神經網路基礎操作——Translution。
該研究認為,神經網路對某種類型資料建模的本質是:
1)為某一資料元素(如卷積核裡的中心元素或自注意力機制裡的query)尋找相關元素或區域;
2)對相關元素形成的區域進行有效編碼,獲取該區域真正的、獨立於其他外部因素無關的內在結構的表徵。
據此,在理論框架與實現機制上,Translution實現了Self-Attention(自注意力)與Convolution(卷積)的有機融合與統一,建構出一種更具普適性的神經電腦制。
自注意力機制(Self-Attention)自Transformer模型提出以來,已成為自然語言處理和多模態大模型的核心結構;而卷積神經網路(CNN)則長期主導電腦視覺領域。
二者的成功揭示了深度神經網路的兩條關鍵路徑:
兩種機制各有所長,卻始終割裂。Translution的出現,正是為了彌合這一理論與應用的鴻溝。
Translution的核心思想,是將Self-Attention的自適應區域選擇能力與Convolution的相對結建構模能力進行統一。
在傳統的自注意力計算中,Query、Key、Value的投影矩陣在所有位置上共享,無法感知元素之間的方向和距離關係。
Translution則創新性地為每一種相對偏移(offset)分配獨立的參數矩陣,從而在計算Query、Key、Value時引入方向性和相對位置資訊,實現了真正意義上的相對編碼(relative encoding)。
這意味著,Translution不僅能像自注意力那樣動態聚焦於最相關的區域,還能像卷積一樣感知局部結構關係,實現了「自適應識別+相對建模」的融合。這一特性使模型在處理圖像、文字乃至三維空間資料時,能夠對形狀、位置、順序等結構變化保持更強的穩定性和泛化性。
由於Translution在每個方向上引入了獨立參數矩陣,其參數量呈指數級增長,遠超當前GPU視訊記憶體所能承載。為解決這一問題,提出了輕量化版本——α-Translution。
通過在特徵維度上引入分解式低秩編碼,α-Translution將大規模矩陣壓縮為多層可組合子空間對應,從而在保證性能的同時,將參數量與視訊記憶體佔用降低至原版的數十分之一。
實驗表明,α-Translution在性能上顯著優於傳統Self-Attention,而計算成本可控,是當前硬體條件下最具潛力的過渡方案。
技術報告在電腦視覺和自然語言建模兩個領域開展了系統性實驗。
結果顯示,在多個benchmark上,Translution及其輕量化版本α-Translution均顯著優於基於Self-attention的Transformer架構:
•在基於ViT架構的動態MNIST分類實驗中,Translution對位置變化表現出極強的魯棒性,識別精度顯著優於Self-Attention。
•在基於ViT架構的ImageNet分類任務上,Translution的Top-1精準率較Self-Attention最高提升超過6%。
•在基於GPT架構的OpenWebText語言建模中,Translution的困惑度(Perplexity)相比Self-Attention有效降低,展現出更強的語言建模能力。
這些結果表明,Translution不僅在視覺任務中能夠準確捕獲空間結構關係,也能在文字序列中理解詞語之間的相對依賴,展現出跨模態的普適性。
為了驗證Translution的性能提升究竟源於參數規模的增加,還是源於所提出的相對建模機制,作者們設計了更具「挑戰性」的對照實驗:他們將Translution中的相對矩陣取代為絕對矩陣。
這一替換會導致參數量顯著增加。如果「絕對Translution」的表現優於「相對Translution」,則說明性能提升主要來自參數增多;反之,則證明提升源於相對建模機制本身。
實驗結果如表所示,「相對Translution」在精準率上遠超「絕對Translution」,充分證明了性能提升確實源自所提出的相對建模方法。
結束語:Translution不僅是一項技術創新,更是一次對深度神經網路本質的重新思考。
儘管其大規模應用有賴於未來更強大的算力支撐,但它為新一代神經網路的發展開闢了新的方向,也為人工智慧的未來注入了新的活力。 (新智元)