港大字節提出多模態大模型新範式,模擬人類先感知後認知,精確定位圖中物體

目前,多模態大模型 (MLLM)在多項視覺任務上展現了強大的認知理解能力。

然而大部分多模態大模型侷限於單向的影像理解,難以將理解的內容映射回影像上。

例如,模型能輕易說出圖中有哪些物體,但無法將物體在圖中精確標示出來。

定位能力的缺失直接限制了多模態大模型在影像編輯,自動駕駛,機器人控制等下游領域的應用。

針對這個問題,港大和字節跳動商業化團隊的研究人員提出了一種新範式Groma ——

透過區域性影像編碼來提升多模態大模型的感知定位能力。

在融入定位後,Groma可以將文字內容和圖像區域直接關聯起來,從而顯著提升對話的互動性和指向性。


核心思路

如何賦予多模態大模型定位物體的能力,乃至於將文字內容和圖像區域關聯起來,做到“言之有物”,是當前一大研究熱點。

常見的做法是微調大語言模型使其直接輸出物件座標。然而這種方法卻有著許多限制:

1.在文本上預先訓練的大語言模型本身不具備空間理解能力,僅依靠少量資料微調很難精準定位物件。

2.定位任務對輸入影像的解析度有較高要求,但提高解析度會顯著增加多模態大模型的計算量。

3.大語言模型的輸出形式不適合處理精細的定位任務,例如分割。

基於這些考慮,Groma提出將定位轉移到多模態大模型的vision tokenizer中,由vision tokenizer發現並定位潛在的物體,再交給大語言模型識別。


同時,這樣的設計也充分利用了vision tokenizer本身的空間理解能力,而無需外接專家模型(如SAM)來輔助定位,從而避免了外接模型的冗餘。

具體而言,Groma在全域影像編碼的基礎上,引入了區域編碼來實現定位功能-如下圖所示,Groma先利用Region Proposer定位潛在的物體,再透過Region Encoder將定位到的區域逐一編碼成region token。

而大語言模型則可以根據region token的語意判斷其對應的區域,並透過在輸出中插入region token來達成類似超連結的效果,實現visually grounded conversation。

同樣地,使用者指定的區域也可以透過Region Encoder編碼成對應的region token,並插入到使用者指令中,讓多模態模型能專注於指定的區域並產生指向性的回答。


為了提升定位的穩健性和準確性,Groma採用了超過8M的資料(包括SA1B)來預訓練Region Proposer。因此其產生的proposal不僅包括常見的物體,也涵蓋了物體的組成部分以及更廣泛的背景等要素。

此外,由於分離式的設計,Groma可以採用高解析度特徵圖用於Region Proposer/Encoder的輸入,並採用低解析度的特徵圖用於大模型輸入,從而在降低計算量的同時又不損失定位性能。

實驗結果

Groma在傳統的Grounding Benchmarks上表現出了超越MiniGPT-v2和Qwen-VL的性能。


同時,Groma在多模態大模型通用的VQA Benchmark (LLaVA-COCO)驗證了其對話和推理能力。


在可視化的對比中,Groma也表現出了更高的recall和更少的幻覺。


此外,Groma也支持融合對話能力和定位能力的referential dialogue以及grounded chat。


得益於大語言模型強大的認知推理能力,多模態大模型在視覺理解任務上表現優異。

然而一些傳統的視覺任務,如檢測分割、深度估計等,更依賴視覺感知能力,這正是大語言模型所缺乏的。

Groma在這個問題上提供了一種新的解決思路,即把感知和認知解耦開來,由vision tokenizer負責感知,大語言模型負責認知。

這種先感知後認知的形式除了更符合人類的視覺過程,也避免了重新訓練大語言模型的計算開銷。

5月15日,字節跳動剛剛公佈了自研的豆包大模型,提供多模態能力,下游支援豆包APP、釦子、即夢等50+業務,並透過火山引擎開放給企業客戶,助力企業提升效率、加速智慧化創新。目前,豆包APP已成為中國市場用戶量最大的AIGC應用程式。字節跳動正持續加強對頂尖人才和尖端技術的投入力度,參與業界頂尖的技術挑戰與攻堅。(量子位元)

專案網站:
https://groma-mllm.github.io
論文連結:
https://arxiv.org/abs/2404.13013
開源程式碼:
https://github.com/FoundationVision/Groma