今天給大家帶來華為諾亞方舟實驗室在AAAI2025上最新的大模型論文。
【論文標題】
Eve: Efficient Multimodal Vision Language Models with Elastic Visual Experts
1 摘要
多模態視覺語言模型(VLMs)在模型規模和資料量不斷增加的支援下取得了顯著進展。
在邊緣裝置上運行 VLMs 對其廣泛應用構成了挑戰。
已有一些高效 VLM 的研究,但它們往往為增強多模態能力而犧牲語言能力,或需要大量訓練。
為解決這一困境,本文引入了具有彈性視覺專家的高效視覺語言模型(Eve)這一創新框架。
通過在訓練的多個階段巧妙整合適應性視覺專業知識,Eve 在保持語言能力和增強多模態能力之間取得了平衡。
這種平衡的方法產生了一個僅含 18 億參數的通用模型,在多模態和語言任務中都有顯著改進。
值得注意的是,在 30 億參數以下的組態中,Eve 在語言基準測試中表現突出,並在 VLM 基準測試中達到了 68.87% 的最先進結果。
此外,其多模態精準性超過了更大的 70 億參數的 LLaVA-1.5 模型。
2 背景
隨著人工智慧的迅速發展,視覺和語言的理解備受關注,成為重要的研究焦點。多模態模型如視覺語言模型(VLMs)旨在結合視覺資訊和文字描述,以增強語義理解。
現有的大多數 VLMs 主要通過擴巨量資料量或增加模型尺寸來增強多模態能力,這使得模型規模龐大,難以在裝置上部署和高效推理,阻礙了其實際應用。
為開發高效的 VLMs,雖有方法提出,但這些方法常以犧牲語言能力為代價增強多模態能力,或大幅增加訓練成本。
3 貢獻
- 本文提出了彈性視覺專家(Eve)框架,精心設計了三個訓練階段,並在每個階段巧妙融入動態自適應視覺專家,使每個專家專注於特定領域任務,在訓練過程中整合專家的最佳性能以增強多模態能力,同時保持固有的語言能力。
- 彈性視覺專家,包括彈性視覺編碼器(EVE)和彈性視覺前饋網路(EVF),具有出色的適應性。在前兩個訓練階段,視覺編碼器保持凍結,便於與各種視覺編碼器無縫整合,同時保持語言模型的性能。在第三階段,引入 EVF,與模型的語言能力相結合,產生強大的協同作用,顯著提高了模型處理和融合視覺和文字資料的能力,從而大幅增強其多模態性能。
- Eve 在參數少於 30 億的多模態任務中表現出色,在 VLM 和語言基準測試中達到頂尖性能,在多模態精準性方面與 70 億參數的 LLaVA - 1.5 模型相當。
4 技術方案
4.1 概述
Eve 採用了複雜的三階段框架,在每個階段都戰略性地整合了彈性視覺專家。
在訓練過程中,前兩個階段視覺編碼器的預訓練資料變化不會影響模型的語言能力。
在後期訓練中,在第三階段引入新的彈性視覺前饋網路(FFN)來增強模型處理多模態資料的能力,同時保持語言任務的熟練度。
4.2 彈性視覺編碼器
基於現有的基礎視覺模型如 ResNet 和 ViT 提出彈性視覺編碼器。
在訓練的前兩個階段,視覺編碼器從 RGB 圖像中提取特徵並轉換為視覺嵌入序列,視覺介面卡被持續訓練以將視覺特徵與語言模型的特徵空間對齊
而語言模型在第二階段僅進行輕微的基於 LoRA 的微調,且視覺編碼器保持凍結以支援不同的視覺骨幹模型。
本文使用 ResNet-50 作為視覺編碼器,並在 ImageNet-1K、ImageNet-22K 和 LAION400M 資料集上進行訓練
結果表明在 ImageNet-22K 上訓練的模型在 VLM 基準測試中精度最高,且不同資料集訓練的視覺編碼器對模型語言能力影響較小。
4.3 彈性視覺 FFN
在第三階段受 MoE-LLaVA 啟發引入彈性視覺前饋網路(EVF)。
EVF 層包含路由機制、令牌分配策略以及兩個分別用於語言處理和視覺資訊的前饋網路(FFNs)。
在LLM前向傳播中,圖像和文字tokens經處理後共同輸入 LLM,路由層首先為每個token推薦一個 FFN,token分配機制再綜合考慮路由層建議和 FFN 容量決定tokens分配。
路由機制使用線性層計算將每個token分配到相應 FFN 的機率
公式為:,
其中,為輕量級可訓練參數,對應語言 FFN,對應視覺 FFN。
在第三階段初始化時,將第二階段的 FFN 參數複製到語言和視覺 FFNs 中,訓練時凍結視覺編碼器、視覺介面卡和語言模型的大部分參數,僅訓練視覺 FFN 和語言模型中的路由層。
在多模態任務推理階段,EVF 層的兩個 FFNs 都被啟動,而在語言任務中,僅保留語言 FFN。
Token分配。對確定每個token分配到那個 FFN 至關重要。
在 EVF 層中,每個 FFN 有預定義容量,傳統分配機制若推薦令牌數超容量會隨機丟棄部分令牌
本文引入 GBPR 策略,根據路由分數優先分配重要令牌,進一步提出 Img-GBPR 機制區分管理視覺和文字token,為每種token類型指定默認推薦 FFN,並根據模態最佳化token分配,最終優先順序分數計算公式為
,
當分配給 FFN 的令牌數超容量時,優先選擇基於的最重要個token分配,剩餘令牌重新分配,一定比例隨機分配到另一個 FFN 以減少token損失。
平衡損失:借鑑 MoE-LLaVA,整體損失函數由回歸損失和輔助損失組成,,
本文調整輔助損失係數為 0.001,並在每個 EVF 層整合可微負載平衡損失,
其中和分別表示視覺和語言 FFN 處理的令牌比例,和表示視覺和語言 FFN 的平均路由機率,以促進 FFN 間令牌處理的公平分配。
5 實驗結果
模型細節與訓練設定
Eve 由視覺介面卡、視覺編碼器和語言模型三個核心元件構成。
視覺介面卡基於輕量化下採樣投影儀(LDP),視覺編碼器採用 SigLip-L,語言模型為 PanGu-π-1.5B-Pro。
在訓練階段
第一階段凍結視覺編碼器和 LLM 僅訓練視覺介面卡
第二階段使用 LoRA 技術微調視覺介面卡和 LLM
第三階段僅訓練視覺 FFN 並為每個 FFN 設定容量,訓練資料集在前兩階段使用 CC-595K 和 LLaVA - mixed - 665
第三階段精心挑選了涵蓋多領域的超過 320 萬個樣本的資料集。
消融研究
彈性視覺 FFN 層的影響:在第三階段,比較 EVF 和 MoE 層在多模態和語言任務上的性能差異,結果顯示 MoE 層雖使多模態任務精度提高 0.55%
但語言任務精度顯著降低 3%,而 EVF 層架構在提高多模態任務精度 0.47% 的同時完全保留了語言任務精度。
Token分配的影響:對比了隨機、GBPR 和 Img-GBPR 三種token分配方法對訓練的影響,可視化結果表明 Img-GBPR 在各層的令牌成功率提升最顯著
實驗結果顯示 GBPR 比隨機分配方法平均精度提高 0.4 個百分點,Img-GBPR 進一步提高 0.5%。
最佳結果的消融研究:通過在方法、模型和訓練資料集三個維度進行消融實驗,結果表明用 PanGu-π-1.5B 替換語言模型、引入 EVF 層和 Img-GBPR、將視覺編碼器升級為 SigLIP-L、用 PanGu-π-1.5B-Pro 替換語言模型以及使用第三階段資料集分別都能提高模型精度,最終達到 68.87% 的峰值精度。
與 SOTA 方法比較
在少於 30 億啟動參數的模型中,Eve 達到了 68.87% 的最佳精度。與相似參數規模的模型相比,Eve 比 DeepSeek-VL 性能高 1.9% 且訓練效率更高,僅需 15 GPU 天
甚至超過了一些 70 億參數的模型如 LLaVA-1.5,在保持語言任務能力方面也明顯優於現有參數少於 30 億的 VLM。
6 結論
本文引入了高效的 VLM 框架 Eve,其在各個階段嵌入彈性視覺專家,並且自適應令牌分配機制增強了模型有效處理多模態資訊的能力。
因此,該模型不僅保留了語言能力,還顯著提高了多模態性能。 (AcademicDaily)
