GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA



【新智元導讀】 Google團隊推出「通用視覺編碼器」VideoPrism,在3600萬高品質視訊字幕對和5.82億個視訊剪輯的資料集上完成了訓練,效能刷新30項SOTA。

AI視訊模型Sora爆紅之後,Meta、Google等大廠紛紛下場做研究,追趕OpenAI的步伐。

最近,來自Google團隊的研究人員提出了一種通用視訊編碼器——VideoPrism。

它能夠透過單一凍結模型,處理各種視訊理解任務。


論文網址:https://arxiv.org/pdf/2402.13217.pdf

例如,VideoPrism能夠將下面影片中吹蠟燭的人分類、定位出來。


視訊-文字檢索,根據文字內容,可以檢索出影片中對應的內容。


再例如,描述下面影片——一個小女孩在玩積木。

還可以進行QA問答。

- 她放在綠色積木塊上方積木的是什麼顏色?

-紫色。


研究人員在一個異構語料庫對VideoPrism進行了預訓練,包含3600萬高質量視頻字幕對和5.82億個視頻剪輯,並帶有噪聲並行文本(如ASR轉錄文本)。

值得一提的是,VideoPrism在33項視訊理解基準測試中,刷新了30項SOTA。


通用視覺編碼器VideoPrism

目前,視訊基礎模型(ViFM)具有巨大的潛力,可以在龐大的語料庫中解鎖新的能力。

雖然先前的研究在一般視訊理解方面取得了很大進展,但建立真正的「基礎視訊模型」仍然是一個難以實現的目標。

對此,Google推出了一種通用視覺編碼器——VideoPrism,旨在解決廣泛的視訊理解任務,包括分類、在地化、檢索、字幕和問答(QA)。

VideoPrism對CV資料集,以及神經科學和生態學等科學領域的CV任務進行了廣泛評估。

透過使用單一凍結模型,以最小的適應度實現了最先進的性能。

另外,Google研究人員稱,這種凍結編碼器設定同時遵循先前研究,並考慮了其實際實用性,以及高計算和微調視訊模型的成本。


設計架構,兩階段訓練法

VideoPrism背後的設計理念如下。

預訓練數據是基礎模型(FM)的基礎,ViFM的理想預訓練數據,是世界上所有影片的代表性樣本。

在這個樣本中,大多數影片都沒有描述內容的平行文字。

然而,如果訓在這樣的文本,它就能提供有關視頻空間的無價語義線索。

因此,Google的預訓練策略應主要關注視訊模式,同時充分利用任何可用的視訊文字對。

在資料方面,Google研究人員透過匯集3,600萬高品質視訊字幕對,以及5.82億視訊剪輯與雜訊並行文字(如ASR轉錄、生成的字幕和檢索到的文字)來近似建立所需的預訓練語料庫。


在建模方面,作者首先從所有不同品質的影片-文字對中對比學習語義影片嵌入。

隨後,利用廣泛的純視訊數據,對語義嵌入進行全局和標記提煉,改進了下文所述的遮罩視訊建模。

儘管在自然語言方面取得了成功,但由於原始視覺訊號缺乏語義,掩碼資料建模對於CV來說仍然具有挑戰性。

現有研究透過借用間接語義(如使用CLIP引導模型或分詞器,或隱含語義來應對這一挑戰)或隱性推廣它們(例如標記視覺patches),將高掩碼率和輕量級解碼器結合。

在上述想法的基礎上,Google團隊根據預訓練資料採用了兩階段方法。


在第一階段,進行對比學習,使用所有視訊文字對,將視訊編碼器與文字編碼器對齊。

根據先前的研究,Google團隊最小化批中所有視訊文字對的相似性得分,進行對稱交叉熵損失最小化。

並使用CoCa 的影像模型初始化空間編碼模組,並將WebLI納入預訓練中。

在計算損失之前,視訊編碼器的特徵會透過多頭注意力匯集池(MAP)進行聚合。

這一階段允許視訊編碼器從語言監督中學習豐富的視覺語義,由此產生的模型為第二階段訓練提供語義視訊嵌入。


第二階段,繼續訓練編碼器,並進行了兩項改進:

- 模型需要根據未遮罩的輸入視訊patches,來預測第一階段的視訊級全域嵌入和token式嵌入

- 編碼器的輸出token在傳給解碼器之前,要進行隨機洗牌,以避免學習捷徑。

值得注意的是,研究人員的預訓練利用了兩個監督訊號:影片的文字描述,以及上下文自我監督,使VideoPrism能夠在以外觀和動作為中心的任務上表現出色。

事實上,先前的研究表明,視訊字幕主要揭示外觀線索,而上下文我監督有助於學習動作。



實驗結果

接下來,研究人員在廣泛的以視訊為中心的理解任務上評估VideoPrism,展現其能力和通用性。

主要分為以下四類:

(1) 一般僅影片理解,包括分類和時空定位

(2) 零樣本影片文字檢索

(3) 零樣本視訊字幕和品質檢查

(4) 科學領域的CV任務

分類和時空定位

表2顯示了VideoGLUE上的凍結骨幹的結果。

在所有資料集上,VideoPrism都大幅優於基線。此外,將VideoPrism的底層模型大小從ViT-B增加到ViT-g可以顯著提高效能。

值得注意的是,沒有基線方法能在所有基準測試中取得第二好的成績,這表明先前的方法可能是針對視訊理解的某些方面而開發的。

而VideoPrism在這一廣泛的任務上持續改進。

這一結果表明,VideoPrism將各種視訊訊號整合到了一個編碼器中:多種粒度的語義、外觀與運動線索、時空資訊以及對不同視訊來源(如網路視訊與腳本表演)的穩健性。


零樣本影片文字檢索和分類

表3和表4分別總結了視訊文字檢索和視訊分類的結果。

VideoPrism的效能刷新多項基準,而且在具有挑戰性的資料集上,VideoPrism 與先前的技術相比取得了非常顯著的進步。


基礎模型VideoPrism-B 的大多數結果,實際上優於現有的更大規模模型。

此外,VideoPrism與表4中使用域內資料和額外模態(例如音訊)預訓練的模型相當,甚至更好。這些在零樣本檢索和分類任務中的改進體現了VideoPrism強大的泛化能力。


零樣本視訊字幕和品質檢查

表5和表6分別顯示了,零樣本視訊字幕和QA的結果。

儘管模型架構簡單且適配器參數數量較少,但最新模型仍具有競爭力,除VATEX外,在凍結視覺和語言模型的方法中名列前茅。

結果表明,VideoPrism編碼器能夠很好地推廣到視訊到語言的生成任務。


科學領域的CV任務

通用ViFM在所有評估中使用共享的凍結編碼器,其性能與專門用於單一任務的特定領域模型相媲美。

尤其是,VideoPrism通常表現最好,並超越了具有基本規模模型的領域專家模型。

擴展到大規模模型可以進一步提高所有資料集的效能。這些結果顯示ViFM有潛力顯著加速不同領域的影片分析。


消融研究

圖4顯示了消融結果。值得注意的是,VideoPrism在SSv2上的持續改進表明,資料管理和模型設計工作在促進影片中的運動理解方面的有效性。

儘管對比基線已經在K400上取得了有競爭力的結果,但所提出的全局蒸餾和token洗牌進一步提高了準確性。(新智元)


參考資料:

https://arxiv.org/p df/2402.13217.pdf

https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html