可產生無限長視頻，Google最新視頻生成模型VideoPoet 究竟有多強

2023/12/21

•

最近一波視訊生成模型突然出現，在許多情況下展示了令人驚嘆的如畫質量，例如Runway、Pika。然而目前影片產生的瓶頸之一是產生連貫大運動的能力。在許多情況下，即使是目前領先的大模型也會產生較小的運動，或者當產生較大的運動時，會表現出明顯的偽影。

谷歌剛剛發布了零鏡頭視訊生成大模型VideoPoet。

它能夠執行各種視訊生成任務，包括文字到視訊、圖像到視訊、視訊風格化、視訊修復和修復，以及視訊轉音訊。該工具被感嘆是一個突破性文生視訊工具。

目前市場上一些領先的視訊生成模型都是基於擴散的，然而，VideoPoet 不是。

VideoPoet 的重要特點之一是，它將許多視訊生成功能無縫整合在單一大模型中，而不是依賴專門針對每個任務的單獨訓練的組件。

白皮書：https://storage.googleapis.com/videopoet/paper.pdf

研究論文：https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

VideoPoet 概述

VideoPoet 是一種簡單的建模方法，可以將任何自回歸語言模型或大型語言模型（LLM）轉換為高品質的視訊產生器。它包含一些簡單的組件：

預先訓練的MAGVIT V2 視訊分詞器和SoundStream 音訊分詞器將可變長度的影像、視訊和音訊剪輯轉換為統一詞彙表中的離散程式碼序列。這些程式碼與基於文字的語言模型相容，有助於與文字等其他模式的整合。
自回歸語言模型跨視訊、圖像、音訊和文字模態學習，以自回歸預測序列中的下一個視訊或音訊Token。
大模型訓練框架引入了多模態生成學習目標的混合，包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續、視頻修復和修復、視頻風格化和視頻到視頻-聲音的。此外，這些任務可以組合在一起以獲得額外的零樣本功能（例如文字到音訊）。

這個簡單的秘訣表明，語言模型可以合成和編輯具有高度時間一致性的影片。VideoPoet 展示了最先進的視訊生成功能，特別是在產生各種大型、有趣且高保真度的動作方面。VideoPoet 模型支援生成方形或縱向視頻，以針對短格式內容自訂生成視頻，並支援從視頻輸入生成音頻。

下圖說明了VideoPoet 的功能。輸入圖像可以被動畫化以產生運動，並且（可以選擇裁剪或遮罩）影片可以被編輯以進行修復或修復。對於風格化，該模型接收代表深度和光流（代表運動）的視頻，並在頂部繪製內容以產生文字引導的風格。

VideoPoet 概述，能夠在各種以視訊為中心的輸入和輸出上執行多工作業。這個大模型可以選擇將文字作為輸入來指導文字到影片、圖像到影片、影片到音訊、風格化和繪畫任務的生成。

VideoPoet 的特徵

1. 能產生更長的視頻，或說任意時長的視頻

目前市場上的視頻生成模型一般僅能生成很短的視頻，1秒、2 秒......默認情況下，VideoPoet 輸出2 秒的視頻，但該模型還能夠通過給定1 秒視頻剪輯的輸入來預測1 秒的視訊輸出來產生長視訊。這個過程可以無限地重複，以產生任意時長的影片。儘管輸入上下文很短，但模型顯示出先前作品中未見的強大的物件身份保留，如這些較長持續時間的剪輯所示。

VideoPoet 任務設計詳細圖，顯示各種任務的訓練和推理輸入和輸出。使用Tokenizer 編碼器和解碼器將模態與標記進行轉換。每個模態都被邊界Token 包圍，任務Token 指示要執行的任務類型。

2. 可控影片編輯

VideoPoet 模型可以編輯主題以遵循不同的動作，例如舞蹈風格。在下面的範例中，模型使用不同的提示處理相同的輸入剪輯。

3. 互動式影片編輯

還可以進行互動式編輯，將輸入影片延長較短的持續時間並從範例清單中進行選擇。透過從候選清單中選擇最佳視頻，可以從較大的生成視頻中精細地控制所需運動的類型。

4.影像到影片生成

VideoPoet 可以取得任何輸入影像並產生與給定文字提示相符的影片。

5.零鏡頭風格化

VideoPoet 還能夠根據文字提示對輸入影片進行風格化，並展示風格上令人愉悅的提示遵守情況。

6. 應用視覺樣式和效果

可以在文字到影片的生成中輕鬆組合樣式和效果。我們從一個基本提示開始，並向其附加一個樣式。

7.零鏡頭可控制相機運鏡

VideoPoet 預先訓練的一個新興特性是，透過在文字提示中指定攝影機鏡頭的類型，可以實現很大程度上高品質的攝影機運動客製化。

VideoPoet 產生的範例

我們的模型生成的一些示例如下所示：

VideoPoet 根據各種文字提示產生的視頻，參考來源：https://sites.research.google/videopoet/

對於文字到視頻，視頻輸出的長度是可變的，並且可以根據文字內容應用一系列動作和样式。為了確保負責任的做法，我們參考公共領域的藝術品和風格，例如梵谷的「星夜」。

按照以下文字輸入：

1. “浣熊在時代廣場跳舞” A Raccoon dancing in Times Square

2. “一匹馬在梵谷的《星夜》中馳騁”A horse galloping through Van-Gogh's 'Starry Night'

3. “兩隻熊貓打牌”Two pandas playing cards

4. 「一大團爆炸飛濺的彩虹油漆，出現一個蘋果，8k」 A large blob of exploding splashing rainbow paint, with an apple emerging, 8k

對於圖像到視頻，VideoPoet 可以獲取輸入圖像並透過提示將其動畫化。

帶有文字提示來引導動作的圖像到影片的範例。每個影片都與其左側的圖像配對。

左：“一艘在波濤洶湧的大海、雷暴和閃電中航行的船，畫布上的動畫油畫。”

中：“飛過有許多閃爍星星的星雲。”

右：“大風天，一個拄著拐杖站在懸崖上的流浪者，俯視著下面旋轉的海霧。”

對於視訊風格化，我們在將一些額外的輸入文字輸入VideoPoet 之前預測光流和深度資訊。

在VideoPoet 文字到影片產生的影片之上進行影片風格化的範例，其中使用文字提示、深度和光流作為調節。每對中的左側視頻是輸入視頻，右側是風格化輸出。

左：“戴著墨鏡的袋熊在陽光明媚的海灘上拿著沙灘球。”

中：“泰迪熊在清澈的冰凍湖面上滑冰。”

右：“一隻金屬獅子在熔爐的光芒下咆哮。”

VideoPoet 也能夠產生音訊。在這裡，我們首先從模型生成2 秒的剪輯，然後嘗試在沒有任何文字指導的情況下預測音訊。這使得能夠從單一模型生成視訊和音訊。

預設情況下，VideoPoet 模型會產生縱向視頻，以根據短格式內容自訂其輸出。為了展示其功能，我們製作了一部由VideoPoet 產生的許多短片組成的短片。對於劇本，我們要求巴德寫一個關於一隻旅行浣熊的短篇故事，並附有逐個場景的分解和附帶的提示列表。然後，我們為每個提示生成視訊剪輯，並將所有生成的剪輯拼接在一起以產生下面的最終視訊。

“一名宇航員開始在火星上跳舞，然後五彩繽紛的煙火在背景中爆炸。”

“叢林中非常鋒利的精靈石城的FPV 鏡頭，有明亮的藍色河流、瀑布和大而陡峭的垂直懸崖面。”

也可以互動地編輯VideoPoet 產生的現有影片剪輯。如果我們提供輸入視頻，我們可以改變物件的運動來執行不同的動作。物件操作可以集中在第一幀或中間幀，這允許被高度編輯控制。

例如，我們可以從輸入影片中隨機產生一些剪輯，並選擇所需的下一個剪輯。

左側的輸入影片被用作條件，根據初始提示生成四個選擇：「一個可愛的、生鏽的、損壞的蒸汽朋克機器人的特寫，上面覆蓋著潮濕的苔蘚和發芽的植被，周圍環繞著高高的草叢。」對於前三個輸出，我們展示了無提示運動會發生什麼。對於下面列表中的最後一個視頻，我們添加了提示“在背景中冒煙通電”來指導操作。

影像到視訊控制

類似地，我們可以將運動應用於輸入影像，以根據文字提示將其內容編輯為所需的狀態。

使用不同的提示對繪畫進行動畫處理。左：“一位女士轉身看著鏡頭。”右：“一個打哈欠的女人。”

相機運動

我們還可以透過將所需的相機運動類型附加到文字提示來精確控制相機運動。例如，我們透過模型產生了一個圖像，提示為「雪山日出、清澈河流的冒險遊戲概念藝術」。下面的範例附加給定的文字後綴以應用所需的動作。

從左到右提示：「縮小」、「移動變焦」、「向左平移」、「弧線拍攝」、「雲台拍攝」、「FPV 無人機拍攝」。

評價結果

我們使用各種基準來評估VideoPoet 在文字到視訊生成方面的表現，以將結果與其他方法進行比較。為了確保中立的評估，我們在各種不同的提示下運行了所有模型，沒有挑選範例，並要求人們對他們的偏好進行評分。下圖以綠色突出顯示了VideoPoet 被選為以下問題的首選選項的時間百分比。

文字保真度

使用者對文字保真度的偏好評級，即在準確遵循提示方面首選影片的百分比。

運動趣味性

使用者對動作興趣度的偏好評級，即在產生有趣的動作方面首選影片的百分比。

基於上述情況，平均而言，人們選擇VideoPoet 中24-35% 的範例作為比競爭模型更好的跟隨提示，而競爭模型的比例為8-11%。評分者也喜歡VideoPoet 中41-54% 的範例，因為它們的動作更有趣，而其他模型的比例為11-21%。

結論

VideoPoet 展示了大模型在各種任務中具有高度競爭力的視訊生成質量，特別是在影片中產生有趣且高品質的動作方面。結果顯示大模型在影片生成領域的巨大潛力。對於未來的方向，谷歌希望這個框架能夠支援「任意到任意」的生成，例如，擴展到文字到音訊、音訊到視訊和視訊字幕等。（AIGC新智界）

參考資料：

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

https://storage.googleapis.com/videopoet/paper.pdf

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html