【DeepSeek】華為多模態Eve模型，超越DeepSeek和LLaVA-1.5-7B

2025/02/06

•

今天給大家帶來華為諾亞方舟實驗室在AAAI2025上最新的大模型論文。

【論文標題】

Eve: Efficient Multimodal Vision Language Models with Elastic Visual Experts

1 摘要

多模態視覺語言模型（VLMs）在模型規模和資料量不斷增加的支援下取得了顯著進展。

在邊緣裝置上運行 VLMs 對其廣泛應用構成了挑戰。

已有一些高效 VLM 的研究，但它們往往為增強多模態能力而犧牲語言能力，或需要大量訓練。

為解決這一困境，本文引入了具有彈性視覺專家的高效視覺語言模型（Eve）這一創新框架。

通過在訓練的多個階段巧妙整合適應性視覺專業知識，Eve 在保持語言能力和增強多模態能力之間取得了平衡。

這種平衡的方法產生了一個僅含 18 億參數的通用模型，在多模態和語言任務中都有顯著改進。

值得注意的是，在 30 億參數以下的組態中，Eve 在語言基準測試中表現突出，並在 VLM 基準測試中達到了 68.87% 的最先進結果。

此外，其多模態精準性超過了更大的 70 億參數的 LLaVA-1.5 模型。

2 背景

隨著人工智慧的迅速發展，視覺和語言的理解備受關注，成為重要的研究焦點。多模態模型如視覺語言模型（VLMs）旨在結合視覺資訊和文字描述，以增強語義理解。

現有的大多數 VLMs 主要通過擴巨量資料量或增加模型尺寸來增強多模態能力，這使得模型規模龐大，難以在裝置上部署和高效推理，阻礙了其實際應用。

為開發高效的 VLMs，雖有方法提出，但這些方法常以犧牲語言能力為代價增強多模態能力，或大幅增加訓練成本。

3 貢獻

本文提出了彈性視覺專家（Eve）框架，精心設計了三個訓練階段，並在每個階段巧妙融入動態自適應視覺專家，使每個專家專注於特定領域任務，在訓練過程中整合專家的最佳性能以增強多模態能力，同時保持固有的語言能力。
彈性視覺專家，包括彈性視覺編碼器（EVE）和彈性視覺前饋網路（EVF），具有出色的適應性。在前兩個訓練階段，視覺編碼器保持凍結，便於與各種視覺編碼器無縫整合，同時保持語言模型的性能。在第三階段，引入 EVF，與模型的語言能力相結合，產生強大的協同作用，顯著提高了模型處理和融合視覺和文字資料的能力，從而大幅增強其多模態性能。
Eve 在參數少於 30 億的多模態任務中表現出色，在 VLM 和語言基準測試中達到頂尖性能，在多模態精準性方面與 70 億參數的 LLaVA - 1.5 模型相當。

4 技術方案

4.1 概述

Eve 採用了複雜的三階段框架，在每個階段都戰略性地整合了彈性視覺專家。

在訓練過程中，前兩個階段視覺編碼器的預訓練資料變化不會影響模型的語言能力。

在後期訓練中，在第三階段引入新的彈性視覺前饋網路（FFN）來增強模型處理多模態資料的能力，同時保持語言任務的熟練度。

4.2 彈性視覺編碼器

基於現有的基礎視覺模型如 ResNet 和 ViT 提出彈性視覺編碼器。

在訓練的前兩個階段，視覺編碼器從 RGB 圖像中提取特徵並轉換為視覺嵌入序列，視覺介面卡被持續訓練以將視覺特徵與語言模型的特徵空間對齊

而語言模型在第二階段僅進行輕微的基於 LoRA 的微調，且視覺編碼器保持凍結以支援不同的視覺骨幹模型。

本文使用 ResNet-50 作為視覺編碼器，並在 ImageNet-1K、ImageNet-22K 和 LAION400M 資料集上進行訓練

結果表明在 ImageNet-22K 上訓練的模型在 VLM 基準測試中精度最高，且不同資料集訓練的視覺編碼器對模型語言能力影響較小。

4.3 彈性視覺 FFN

在第三階段受 MoE-LLaVA 啟發引入彈性視覺前饋網路（EVF）。

EVF 層包含路由機制、令牌分配策略以及兩個分別用於語言處理和視覺資訊的前饋網路（FFNs）。

在LLM前向傳播中，圖像和文字tokens經處理後共同輸入 LLM，路由層首先為每個token推薦一個 FFN，token分配機制再綜合考慮路由層建議和 FFN 容量決定tokens分配。

路由機制使用線性層計算將每個token分配到相應 FFN 的機率

公式為：，

其中，為輕量級可訓練參數，對應語言 FFN，對應視覺 FFN。

在第三階段初始化時，將第二階段的 FFN 參數複製到語言和視覺 FFNs 中，訓練時凍結視覺編碼器、視覺介面卡和語言模型的大部分參數，僅訓練視覺 FFN 和語言模型中的路由層。

在多模態任務推理階段，EVF 層的兩個 FFNs 都被啟動，而在語言任務中，僅保留語言 FFN。

Token分配。對確定每個token分配到那個 FFN 至關重要。

在 EVF 層中，每個 FFN 有預定義容量，傳統分配機制若推薦令牌數超容量會隨機丟棄部分令牌

本文引入 GBPR 策略，根據路由分數優先分配重要令牌，進一步提出 Img-GBPR 機制區分管理視覺和文字token，為每種token類型指定默認推薦 FFN，並根據模態最佳化token分配，最終優先順序分數計算公式為

，

當分配給 FFN 的令牌數超容量時，優先選擇基於的最重要個token分配，剩餘令牌重新分配，一定比例隨機分配到另一個 FFN 以減少token損失。

平衡損失：借鑑 MoE-LLaVA，整體損失函數由回歸損失和輔助損失組成，，

本文調整輔助損失係數為 0.001，並在每個 EVF 層整合可微負載平衡損失，

其中和分別表示視覺和語言 FFN 處理的令牌比例，和表示視覺和語言 FFN 的平均路由機率，以促進 FFN 間令牌處理的公平分配。

5 實驗結果

模型細節與訓練設定

Eve 由視覺介面卡、視覺編碼器和語言模型三個核心元件構成。

視覺介面卡基於輕量化下採樣投影儀（LDP），視覺編碼器採用 SigLip-L，語言模型為 PanGu-π-1.5B-Pro。

在訓練階段

第一階段凍結視覺編碼器和 LLM 僅訓練視覺介面卡

第二階段使用 LoRA 技術微調視覺介面卡和 LLM

第三階段僅訓練視覺 FFN 並為每個 FFN 設定容量，訓練資料集在前兩階段使用 CC-595K 和 LLaVA - mixed - 665

第三階段精心挑選了涵蓋多領域的超過 320 萬個樣本的資料集。

消融研究

彈性視覺 FFN 層的影響：在第三階段，比較 EVF 和 MoE 層在多模態和語言任務上的性能差異，結果顯示 MoE 層雖使多模態任務精度提高 0.55%

但語言任務精度顯著降低 3%，而 EVF 層架構在提高多模態任務精度 0.47% 的同時完全保留了語言任務精度。

Token分配的影響：對比了隨機、GBPR 和 Img-GBPR 三種token分配方法對訓練的影響，可視化結果表明 Img-GBPR 在各層的令牌成功率提升最顯著

實驗結果顯示 GBPR 比隨機分配方法平均精度提高 0.4 個百分點，Img-GBPR 進一步提高 0.5%。

最佳結果的消融研究：通過在方法、模型和訓練資料集三個維度進行消融實驗，結果表明用 PanGu-π-1.5B 替換語言模型、引入 EVF 層和 Img-GBPR、將視覺編碼器升級為 SigLIP-L、用 PanGu-π-1.5B-Pro 替換語言模型以及使用第三階段資料集分別都能提高模型精度，最終達到 68.87% 的峰值精度。

與 SOTA 方法比較

在少於 30 億啟動參數的模型中，Eve 達到了 68.87% 的最佳精度。與相似參數規模的模型相比，Eve 比 DeepSeek-VL 性能高 1.9% 且訓練效率更高，僅需 15 GPU 天

甚至超過了一些 70 億參數的模型如 LLaVA-1.5，在保持語言任務能力方面也明顯優於現有參數少於 30 億的 VLM。

6 結論

本文引入了高效的 VLM 框架 Eve，其在各個階段嵌入彈性視覺專家，並且自適應令牌分配機制增強了模型有效處理多模態資訊的能力。

因此，該模型不僅保留了語言能力，還顯著提高了多模態性能。 (AcademicDaily)