輝達華人硬核AI神器，「描述一切」秒變細節狂魔！僅3B逆襲GPT-4o

2025/04/27

•

【新智元導讀】視覺AI終極突破來了！輝達等機構推出超強多模態模型DAM，僅3B參數，就能精準描述圖像和視訊中的任何細節。

有了AI，誰還願意用手配「字幕」？

剛剛，輝達聯手UC伯克利、UCSF團隊祭出首個神級多模態模型——Describe Anything Model（DAM），僅3B參數。

論文地址：https://arxiv.org/pdf/2504.16072

正如其名Describe Anything，上傳一張圖，圈那點那，它即可生成一段豐富的文字描述。

即便是一段視訊，DAM也能精準捕捉到白色SUV，給出詳細的描述。

DAM是一個專為詳細局部標註（DLC）而設計的模型，即為特定區域生成詳細且精確的描述。

通過兩大創新，研究人員在細節與上下文之間找到平衡：

· 焦點提示：對目標區域進行高解析度編碼，就像給模型配備了一副「放大鏡」，清晰捕捉到局部區域細微特徵

· 局部視覺骨幹網路：將精確定位的特定區域，與上下文無縫整合

換句話說，DAM不僅能放大細節看，還能放眼全域看，無論是靜態圖，還是動態視訊，都能做到遊刃有餘。

網友驚嘆道，「終極視覺AI突破」！

AI用「放大鏡」看世界

在項目首頁中，輝達等研究團隊放出了更多精彩demo。任何人通過點、框、塗鴉或掩碼的互動，即可一鍵生成描述。

上傳一張柯基在草地上歡快奔跑的圖，選中柯基，讓DAM去描述：

一隻中等體型的狗，擁有濃密的紅棕色毛髮，腹部和腿部為白色。這隻狗尾巴蓬鬆，耳朵尖立，戴著帶有銀色吊牌的紅色項圈。它張著嘴露出牙齒，舌頭伸在外面。狗呈奔跑姿勢，前腿向前伸展，後腿向後伸直。

一隻被擠到犄角旮旯的貓星人，DAM是這樣配文的，「一隻白貓，耳朵呈淺橙色，鼻子是粉色的。貓咪表情放鬆，眼睛微微閉著，全身覆蓋著柔軟的白毛」。

再比如，隨手塗鴉一棟高樓，DAM可以不斷放大細節，給出這幢樓更細緻的描述：

一座現代風格的摩天大樓，採用流線型矩形設計，外立面排列著間距均勻的豎向條形窗。建築呈階梯式結構，每一層段都比下層略微內縮，形成錯落有致的退台造型。建築幕牆主要由反光玻璃面板構成，整體呈現出極具現代感的拋光效果。

甚至，DAM看著視訊中的一頭牛，就能直出一篇經典「小作文」：

一幅描繪棕褐色奶牛的動態序列圖：這頭毛色濃密的奶牛臀部帶有淺色斑塊，初始畫面中它微微低頭，透著安詳的神態。隨著動作展開，奶牛開始穩步前行，四肢舒展著節奏分明的步態，尾梢的簇毛隨每一步輕擺，為行進增添流暢韻律。它始終保持挺拔的站姿，略微弓起的背部線條透出放鬆狀態，肌肉結實的腿部穩健地向前邁進。整個運動過程中，奶牛保持著均勻從容的步調，每一個動作都流暢而不迫，展現出寧靜自若的生命姿態。

DAM如此厲害，是如何做到的？

DAM技術架構，精準捕捉細節

與傳統圖像描述（概括整個場景）不同，DLC聚焦於使用者指定的局部區域，來生成細緻入微的描述。

想像一張照片中一隻貓，你不僅需要描述「一隻貓在窗檯上」，還要深入些幾「貓的毛髮呈現柔軟和灰色條紋，耳朵微微傾斜，眼睛在陽光下閃著琥珀色的光芒」。

可以看出，DLC的目標是捕捉區域的紋理、顏色、形狀、顯著部件等特徵，同時也要保持與整體場景關聯。

而在視訊領域中，DLC挑戰更大。

模型需要追目標區域在多個幀中的變化，描述其外觀、互動、和細微動態的演變。

為了應對DLC複雜需求，Describe Anything Model引入了兩大核心創新，讓局部細節與全域上下文完美平衡。

焦點提示（Focal Prompt）

通過「焦點提示」機制，DAM能夠同時處理全圖和目標區域的放大檢視。

這確保它在捕捉細微特徵同時，不丟失整體場景的背景資訊。

局部視覺骨幹網路（Localized Vision Backbone）

DAM的視覺骨幹網路通過空間對齊的圖像和掩碼，融合全域與局部特徵。

利用門控交叉注意力層，模型將詳細的局部線索與全域上下文無縫整合。

新參數初始化為0，保留了預訓練能力，從而生成更豐富、更具上下文關聯的描述。

這種架構讓DAM在生成關鍵詞、短語，甚至是多句式的複雜描述時，都能保持高精度和連貫性。

DLC-SDP：破解資料瓶頸

要知道，高品質的DLC資料集極為稀缺，限制了模型的訓練。為此，研究團隊設計了基於半監督學習的流水線（DLC-SDP），通過兩階段策略建構大規模訓練資料。

階段一，是從分割資料集擴展。利用現有分割資料集短標籤（貓），通過視覺-語言模型生成豐富的描述（灰色短毛貓，耳朵直立。

階段二，自訓練未標記的圖像，通過半監督學習，DAM對未標記的網路圖像生成初始描述，並迭代精煉，形成高品質的DLC資料。

DLC-Bench：重定義評估標準

那麼，如何公平地評估DLC模型。

傳統方法主要依賴文字重疊，但這無法全面反映描述的精準性和細節。

為此，研究團隊提出了全新基準DLC-Bench。通過LLM判斷，檢查描述的正確細節和錯誤缺失，而非簡單對比文字。

DAM僅能生成詳細描述，還具備強大的靈活性和互動性。

指令控制描述

你可以根據需求調整描述的詳細程度和風格。

零樣本區域問答

而且，無需額外訓練，DAM就能回答關於特定區域的問題。

碾壓GPT-4o，刷新SOTA

在DLC-Bench和其他7個涵蓋圖像與視訊的基準測試中，DAM全面超越現有模型，樹立了新的標竿。

如下表2所示，DAM在具有挑戰性的 PACO 基準測試中表現出色，創下了89高分。

而在零樣本評估在短語級資料集Flickr30k Entities上，新模型相比之前的最佳結果平均相對提升了7.34%。

此外，零樣本評估在詳細描述資料Ref-L4 上，DAM在基於短/長語言的描述指標上分別實現了39.5%和13.1%的平均相對提升。

在研究人員提出的DLC-Bench測試中，DAM在詳細局部描述方面優於之前的僅API模型、開源模型和特定區域VLM。

下表6所示，DAM在詳細局部視訊字幕方面刷新SOTA。

總而言之，DAM的優勢主要有三大點：更詳細、更準確；更少幻覺；多場景適用。

它的強大能力為眾多應用場景打開了大門，未來諸如資料標註、醫療影像、內容創作等領域，都可以加速落地。 (新智元)