【新智元導讀】視覺AI終極突破來了!輝達等機構推出超強多模態模型DAM,僅3B參數,就能精準描述圖像和視訊中的任何細節。
有了AI,誰還願意用手配「字幕」?
剛剛,輝達聯手UC伯克利、UCSF團隊祭出首個神級多模態模型——Describe Anything Model(DAM),僅3B參數。
論文地址:https://arxiv.org/pdf/2504.16072
正如其名Describe Anything,上傳一張圖,圈那點那,它即可生成一段豐富的文字描述。
即便是一段視訊,DAM也能精準捕捉到白色SUV,給出詳細的描述。
DAM是一個專為詳細局部標註(DLC)而設計的模型,即為特定區域生成詳細且精確的描述。
通過兩大創新,研究人員在細節與上下文之間找到平衡:
· 焦點提示:對目標區域進行高解析度編碼,就像給模型配備了一副「放大鏡」,清晰捕捉到局部區域細微特徵
· 局部視覺骨幹網路:將精確定位的特定區域,與上下文無縫整合
換句話說,DAM不僅能放大細節看,還能放眼全域看,無論是靜態圖,還是動態視訊,都能做到遊刃有餘。
網友驚嘆道,「終極視覺AI突破」!
上傳一張柯基在草地上歡快奔跑的圖,選中柯基,讓DAM去描述:
一隻中等體型的狗,擁有濃密的紅棕色毛髮,腹部和腿部為白色。這隻狗尾巴蓬鬆,耳朵尖立,戴著帶有銀色吊牌的紅色項圈。它張著嘴露出牙齒,舌頭伸在外面。狗呈奔跑姿勢,前腿向前伸展,後腿向後伸直。
一隻被擠到犄角旮旯的貓星人,DAM是這樣配文的,「一隻白貓,耳朵呈淺橙色,鼻子是粉色的。貓咪表情放鬆,眼睛微微閉著,全身覆蓋著柔軟的白毛」。
再比如,隨手塗鴉一棟高樓,DAM可以不斷放大細節,給出這幢樓更細緻的描述:
一座現代風格的摩天大樓,採用流線型矩形設計,外立面排列著間距均勻的豎向條形窗。建築呈階梯式結構,每一層段都比下層略微內縮,形成錯落有致的退台造型。建築幕牆主要由反光玻璃面板構成,整體呈現出極具現代感的拋光效果。
甚至,DAM看著視訊中的一頭牛,就能直出一篇經典「小作文」:
一幅描繪棕褐色奶牛的動態序列圖:這頭毛色濃密的奶牛臀部帶有淺色斑塊,初始畫面中它微微低頭,透著安詳的神態。隨著動作展開,奶牛開始穩步前行,四肢舒展著節奏分明的步態,尾梢的簇毛隨每一步輕擺,為行進增添流暢韻律。它始終保持挺拔的站姿,略微弓起的背部線條透出放鬆狀態,肌肉結實的腿部穩健地向前邁進。整個運動過程中,奶牛保持著均勻從容的步調,每一個動作都流暢而不迫,展現出寧靜自若的生命姿態。
DAM如此厲害,是如何做到的?
想像一張照片中一隻貓,你不僅需要描述「一隻貓在窗檯上」,還要深入些幾「貓的毛髮呈現柔軟和灰色條紋,耳朵微微傾斜,眼睛在陽光下閃著琥珀色的光芒」。
可以看出,DLC的目標是捕捉區域的紋理、顏色、形狀、顯著部件等特徵,同時也要保持與整體場景關聯。
而在視訊領域中,DLC挑戰更大。
模型需要追目標區域在多個幀中的變化,描述其外觀、互動、和細微動態的演變。
為了應對DLC複雜需求,Describe Anything Model引入了兩大核心創新,讓局部細節與全域上下文完美平衡。
焦點提示(Focal Prompt)
通過「焦點提示」機制,DAM能夠同時處理全圖和目標區域的放大檢視。
這確保它在捕捉細微特徵同時,不丟失整體場景的背景資訊。
局部視覺骨幹網路(Localized Vision Backbone)
DAM的視覺骨幹網路通過空間對齊的圖像和掩碼,融合全域與局部特徵。
利用門控交叉注意力層,模型將詳細的局部線索與全域上下文無縫整合。
新參數初始化為0,保留了預訓練能力,從而生成更豐富、更具上下文關聯的描述。
這種架構讓DAM在生成關鍵詞、短語,甚至是多句式的複雜描述時,都能保持高精度和連貫性。
階段一,是從分割資料集擴展。利用現有分割資料集短標籤(貓),通過視覺-語言模型生成豐富的描述(灰色短毛貓,耳朵直立。
階段二,自訓練未標記的圖像,通過半監督學習,DAM對未標記的網路圖像生成初始描述,並迭代精煉,形成高品質的DLC資料。
傳統方法主要依賴文字重疊,但這無法全面反映描述的精準性和細節。
為此,研究團隊提出了全新基準DLC-Bench。通過LLM判斷,檢查描述的正確細節和錯誤缺失,而非簡單對比文字。
DAM僅能生成詳細描述,還具備強大的靈活性和互動性。
指令控制描述
你可以根據需求調整描述的詳細程度和風格。
零樣本區域問答
而且,無需額外訓練,DAM就能回答關於特定區域的問題。
如下表2所示,DAM在具有挑戰性的 PACO 基準測試中表現出色,創下了89高分。
而在零樣本評估在短語級資料集Flickr30k Entities上,新模型相比之前的最佳結果平均相對提升了7.34%。
此外,零樣本評估在詳細描述資料Ref-L4 上,DAM在基於短/長語言的描述指標上分別實現了39.5%和13.1%的平均相對提升。
在研究人員提出的DLC-Bench測試中,DAM在詳細局部描述方面優於之前的僅API模型、開源模型和特定區域VLM。
下表6所示,DAM在詳細局部視訊字幕方面刷新SOTA。
總而言之,DAM的優勢主要有三大點:更詳細、更準確;更少幻覺;多場景適用。
它的強大能力為眾多應用場景打開了大門,未來諸如資料標註、醫療影像、內容創作等領域,都可以加速落地。 (新智元)