重磅開源!輝達團隊推出Eagle 2.5,8B參數性能叫板GPT-4o,附帶全新資料集

今天,輝達、南京大學、香港理工大學、羅格斯大學團隊合作推出一項最新成果:Eagle 2.5,簡單來說這是一種用於長上下文多模態學習的視覺語言模型(VLM),為現有VLM打破侷限性提供了一個創新解決方案。

為了應對行業中長視訊理解和高解析度圖像理解方面的挑戰,輝達團隊引入了適用於這兩項任務的一種通用框架,該框架還在長上下文資料訓練的流程中納入了多項效率最佳化措施。



從測試結果來看,Eagle 2.5在長上下文多模態基準測試中展現了顯著的性能,測試版本Eagle 2.5-8B在512個輸入幀的Video-MME上實現了72.4%的成績,與GPT-4o等頂級商業模型媲美,現已在開源社區上線。

3點創新提升性能戰績

關於Eagle 2.5,輝達團隊總結了三點關鍵創新:

1、資訊優先採樣。圖像區域保留(IAP):最佳化圖像平鋪以保留大部分原始圖像區域和縱橫比,保留細粒度的細節;自動降級採樣(ADS):動態平衡視覺和文字輸入,確保完整的文字保留,同時在上下文長度限制內最大化視覺內容。

2、漸進式混合後訓練:在訓練期間逐漸增加上下文長度,增強模型處理不同輸入大小的能力,並提高靜態採樣的資訊密度。

3、多樣性驅動的資料配方:將開源資料(人工註釋和合成)與自行策劃的Eagle-Video-110K資料集相結合,該資料集通過多樣性驅動策略收集,使用故事級和剪輯級QA對進行註釋。


在Video-MME 基準測試中,Eagle 2.5與領先的視覺語言模型GPT-4o、Qwen2.5-VL-72B和InternVL2.5-78B等進行了性能對比,結果顯示,隨著輸入幀數的增加,Eagle 2.5展現出了持續的性能提升和競爭力水準,而且參數規模也小得多。

目前,業內開發者們在多模態學習領域已經取得了重大進展,但許多視覺語言模型(VLM)仍然專注於短上下文任務,對長上下文理解的探索還不夠深入,對擴展視覺上下文的處理仍然是一個有待解決的挑戰,這種擴展上下文涵蓋了多幅圖像、較長的視訊序列、高解析度媒體,或者是它們的組合。



雖然這些方法有效地避免了擴展視覺語言模型上下文長度的需求,但常常會增加額外的計算開銷或能力限制,可能會制約模型的性能。

與那些僅僅為了處理長多模態序列而進行最佳化卻未提升性能的模型不同,Eagle 2.5受益於更長的輸入長度,除了能夠處理更長的輸入之外,還能帶來持續的性能提升。

Eagle2.5-8B在多個視訊基準測試中展現出卓越的性能,在MVBench上達到74.8分,在Perception_test上達到82.0分,在EgoSchema上達到72.2分,超越了InternVL2.5-8B(72.0)分和Qwen2.5-VL-8B(69.6分、70.5分、65.0分)等類似規模的模型。


此外,它在長視訊理解方面尤其出色,在MLVU上達到77.6分,在 LongVideobench上達到66.4分,甚至超越了InternVL2.5-78B(75.7分、63.6分),在VideoMME(無字幕)測試中,Eagle 2.5達到了72.4分,非常接近72B參數規模的模型。


同時,Eagle2.5-8B也展現出全面的圖像理解能力,涵蓋文件理解(DocVQA 94.1,ChartQA 87.5)、資訊提取(InfoVQA 80.4,TextVQA 83.7)和光學字元識別(OCRBench 869),該模型在一般感知和推理任務、領域特定知識、視覺幻覺評估以及數學推理方面也展現出均衡的能力。

具體的訓練方法一覽

研究人員表示,在整理訓練資料集時採用了“先求多樣,再求質量”的原則,資料集用了雙重標註方法,包括:

1、自上而下的故事層面標註方法。這種方法利用人工標註的章節作為有意義的片段,而非傳統的鏡頭層面分割方式。它會生成密集的字幕,這些字幕構成了全面的長篇問答對的基礎,能夠捕捉到整個視訊的敘事結構;


2、自下而上的互補式片段層面標註方法。該方法使用GPT-4o針對短影片片段生成聚焦的問答對,且問題類型豐富多樣。為了應對將局部片段標註擴展到完整長度視訊標註的挑戰,他們設定了錨點,這些錨點納入了時間參考資訊和上下文元素,同時不會透露答案,從而使模型既能理解視訊的總體敘事內容,又能理解視訊中精確的時空細節。

在模型架構方面,研究人員建立了一個功能多樣的多模態系統,它能夠高效地處理長上下文資訊,而不是一個僅僅為處理擴展的多模態輸入而專門最佳化的模型,為了確保該模型在各種不同任務中都具有適應性和泛化能力,他們特意避免加入那些可能會限制模型靈活性的定製壓縮模組。


遵循LLaVA的架構,輝達團隊採用一個多層感知機(MLP)投影層,將來自SigLIP的視覺嵌入與大型語言模型(LLM)的表示空間對齊,為了有效地處理任意解析度的圖像,他們採用了圖像分塊策略,這一策略受到了業內模型LLaVA-1.5和InternVL的啟發。

關於訓練策略,包含兩個實現有效長上下文訓練的關鍵要素:其一,是一種資訊優先的採樣策略,它確立了最優的採樣標準;其二,是基於這一策略制定的漸進式訓練計畫,該計畫指導著整個模型的訓練過程。


此外,還有一個全面的後訓練框架,由兩種互補的策略組成:

混合後訓練:ADS方法自適應地將每個訓練樣本調整到最大序列長度,從而提供與幀無關的訓練範式。研究人員實施了一種長度平衡打包的混合訓練策略,以在整個上下文長度範圍內均勻地最佳化性能。

漸進式混合後訓練:對於最大序列長度值較大的場景,他們提出了一種漸進式混合訓練方法,該方法逐漸將模型暴露於越來越大的序列長度,系統地增強其處理擴展上下文的能力。

創新改進的資料集

關於全新的資料集Eagle-Video-110K,主要解決了行業現有資料集中視訊長度不足的問題。


Eagle-Video-110K通過從Vidchapters、MiraData、InternVid-10M、Panda-70M、Vript、Shot2story、ViTT和WebVid-10M等多個來源精選出多樣化的長視訊,解決了這一限制,採用基於CLIP嵌入和相似度閾值的多樣性驅動策略,識別並篩選出能夠顯著延長訓練和評估平均時長的新穎視訊。


Eagle-Video-110K顯著提升了模型在主流長視訊和短影片基準測試中的表現,它通過為訓練資料提供此前開源訓練集中缺失的長視訊,顯著提升了模型處理高幀數(≥128幀)的能力。

研究人員表示,憑藉先進的訓練策略和多樣化的資料,Eagle 2.5和Eagle-Video-110K有望為未來行業創新突破奠定基礎,為在複雜的現實場景中開發高效且功能多樣的視覺語言模型鋪平了道路。 (頭部科技)