突破AI視覺“選擇性失明”,哈工大首次實現指令驅動的全景式感知

對於AI視覺多模態大模型只關注顯著資訊這一根本性缺陷,哈工大GiVE實現突破!

當今的多模態大模型(如BLIP-2、LLaVA)看似可以理解圖像,實則存在一個根本性的缺陷:它們像戴著“眼罩”的觀察者,只能關注圖片中最顯眼的主體,卻對使用者關心的細節視而不見。

例如,當被問及“圖中左側的自行車”或“背景廣告牌上的文字”時,模型常因視覺編碼器的“視野侷限”而答非所問——要麼誤判對象位置,要麼完全忽略非顯著資訊。

這種“選擇性失明”,嚴重制約了AI在醫療診斷、自動駕駛、智能安防等場景的深度應用。

哈工大(深圳)博士生李俊劼最新研究成果《GiVE: Guiding Visual Encoder to Perceive Overlooked Information》,為AI視覺裝上“動態變焦鏡頭,首次實現“指令驅動的全景式感知”!

與傳統模型的“固定視角”不同,GIVE能根據使用者需求靈活調整注意力焦點:無論是被遮擋的物體(如鞋盒中的鞋子)、分散的同類目標(如人群中的特定行人),還是隱藏在複雜背景中的特定目標(如路邊草地),都能精準捕捉並關聯語義資訊。

實驗表明,GiVE在圖像分類、圖文檢索等任務中,關鍵指標有顯著提升,解決了傳統模型“見木不見林”的痛點。

GiVE通過引入一系列創新設計,重新定義了視覺編碼的效率和精度。

它採用了AG-Adapter模組,讓模型在解析圖像時能靈活關注到各類隱性細節,不僅捕捉到顯著特徵,還能兼顧那些平時容易忽略的部分

同時,GiVE設計了三個專門的loss,從不同角度最佳化圖像與文字、圖像之間以及圖像內目標的關聯,使得視覺資訊的提取更加全面精準。

這一綜合方案不僅提升了多模態任務的表現,也為建構更智能、更統一的多模態系統鋪平了道路,這不僅是技術的革新,更是AI從“粗看”到“細察”的認知躍遷——機器的眼睛,終於學會了“按需聚焦”。

GiVE效果:強大的性能

1、讓視覺編碼器能夠聽到文字指令提示

研究團隊設計了一個“注意力引導介面卡”(AG-Adapter)模組,作為外掛嵌入現有視覺編碼器的層與層之間。

這個 AG-Adapter可以被理解為在視覺網路中加入了一雙“耳朵”,使得視覺編碼器在看到圖像的同時還能聽到文字指令的提示。

即便是和InstructBLIP這樣具有指示跟隨編碼能力的模型比較,GiVE也可以用5%的可訓練參數達到更好的性能。

2.視覺感知的靈活性、有效性和完備性

從可視化注意力可以看出, GiVE可以讓傳統視覺編碼器靈活聚焦。

3.在多模態大模型中的應用

正確的聚焦為語言模型提供了充分的上下文資訊,有助於生成真實可信的響應。

這裡並沒有重新訓練LLaVA模型,而是簡單地將GiVE應用到其使用的CLIP編碼器上。

這也體現了GiVE的易用性。

GiVE出手:讓視覺模型聽懂指令,不放過任何細節

GiVE旨在突破傳統視覺編碼器對圖像關鍵資訊捕捉的侷限,通過全新設計的模組與訓練策略,實現更全面、精準的視覺理解。

1、核心元件——AG-Adapter模組

靈巧:精確的視覺指導

GiVE引入了Attention-Guided Adapter(AG-Adapter)模組,能夠根據文字提示動態調整視覺編碼器的關注區域。

不同於傳統編碼器只聚焦於圖像中顯著的部分,AG-Adapter使得模型在解析圖像時能關注到容易被忽略的細節,從而提高了有效視覺資訊的提取效果。

輕便:無縫整合與輕量設計

該模組以相對較低的額外參數成本嵌入到現有視覺編碼網路中,保證了高效的推理速度和大規模訓練的可擴展性。

同時,它作為一個獨立的元件,也方便開發者在不同任務中進行靈活偵錯和替換。

2、創新訓練目標——三大Loss函數

為了使模型能夠更好地理解並傳遞豐富的視覺語義資訊,GiVE設計了三項專門的訓練目標:

對象級圖像-文字對比(Object-focused Image-Text Contrast,OITC)Loss:這一損失函數促使模型在視覺和文字之間建立更緊密的語義聯絡,通過對比學習有效區分不同對象的特徵,使得圖像編碼結果能夠準確反映文字中描述的對象資訊。

對象級圖像-圖像對比(Object-focused Image-Image Contrast,OIIC)Loss:OIIC Loss側重於提高同一圖像內部多個目標之間的關聯一致性,確保模型能夠在複雜場景中提取到各個目標的共性和細微差別,從而大幅提升對象檢索的精準性。

對象級圖像辨識(Object-focused Image Discrimination,OID)Loss:通過對圖像中目標存在性的二分類判別,OID Loss幫助模型更全面地捕捉到圖像中可能被遺漏的細節,為後續多模態任務提供更加豐富和精準的視覺特徵表示。

3、資料基礎——多目標指令資料集(MOInst)

為了更好地訓練上述模組和Loss函數,GiVE團隊建構了專門的Multi-Object Instruction(MOInst)資料集

該資料集不僅覆蓋了多種對象類別,還為每個圖像提供了成對的精細文字指令與對象描述,從資料層面確保模型在訓練過程中能夠學習到更細粒度的對象關係和語義表達。

組成:資料集包含8萬張圖像、24萬條文字標註及對應的指示對象,覆蓋264類物體關聯場景,為後續研究提供持續助力。

建構:資料集是在現有大語言模型的幫助下,以半自動的方式建立的,輔以少量人工協助。
這種人工稽核和自動化工具相結合的方式,確保了資料集的精準性和一致性,並剔除可能存在的噪聲和錯誤標註。

未來方向

GIVE的願景,是讓AI的“眼睛”不僅“看得見”,更能“看得細”“看得懂”——從靜態圖像到動態視訊的時序解析,從2D畫面到3D點雲的空間建模,從單一視覺模態到跨文字、語音、感測器的多維融合。

未來,這項技術將滲透至醫療影像的早期病灶定位、自動駕駛的複雜環境感知、工業質檢的微觀缺陷識別,甚至機器人對非結構化場景的自主互動。

精細化視覺感知,正成為打通AI“感官”與“認知”的關鍵橋樑,推動通用智能從實驗室邁向真實世界的每一個角落。

更多細節歡迎查閱。

程式碼:
https://github.com/AlephZr/GiVE/tree/main
資料集:
https://huggingface.co/datasets/DF1024/MOInst (量子位)