谷歌10秒影片生成模型破世界紀錄！LLM終結擴散模型，效果碾壓頂流Gen-2

2023/12/20

•

【導讀】 Google全新視訊生成模型VideoPoet再次引領世界！十秒超長影片生成效果碾壓Gen-2，還可進行音訊生成，風格轉換。

AI影片生成，或許就是2024年下一個最前沿（juan）的領域。

回看過去幾個月，RunWay的Gen-2、Pika Lab的Pika 1.0，國內大廠等大波視訊生成模型紛紛湧現，不斷迭代升級。

不，RunWay一大早就宣布Gen-2支援文字轉語音的功能了，可以為影片創建畫外音。

當然，Google在影片產生上也不甘落後，先是與史丹佛李飛飛團隊共同發表了WALT，用Transformer產生的逼真影片引來大波關注。

今天，Google團隊又發布了一個全新的影片生成模型VideoPoet，而且無需特定資料即可產生影片。

論文地址：https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

最令人驚嘆的是，VideoPoet一次能夠生成10秒超長，且連貫大動作視頻，完全碾壓Gen-2僅有小幅動作的視頻生成。

另外，與領先模型不同的是，VideoPoet並非基於擴散模型，而是多模態大模型，便可擁有T2V、V2A等能力，或將成為未來視訊生成的主流。

網友看後紛紛「震驚」刷屏。

不如，接下來可以先看一波體驗。

文字轉視頻

在文字到影片的轉換中，生成的影片長度是可變的，並且能夠根據文字內容展現出多種動作和風格。

比如，熊貓打牌：

Two pandas playing cards

南瓜爆炸：

A pumpkin exploding, slow motion

太空人策馬賓士：

An astronaut riding a galloping horse

影像轉視頻

VideoPoet還可以根據給定的提示，將輸入的圖像轉換成動畫。

左：一艘船在波濤洶湧的海面上航行，周圍是雷電交加的景象，以動態油畫風格呈現

中：飛過充滿閃爍星星的星雲

右：一位拄著手杖的旅人站在懸崖邊，凝視著風中翻騰的海霧

影片風格化

對於視訊風格化，VideoPoet先預測光流和深度訊息，然後再將額外的文字輸入到模型中。

左：袋熊戴著墨鏡，在陽光明媚的海灘上拿著沙灘球

中：泰迪熊在清澈的冰面上滑冰

右：一隻金屬獅子在熔爐的光芒下咆哮

從左到右：逼真，數位藝術，鉛筆藝術，水墨，雙重曝光，360度全景

視訊轉音訊

VideoPoet還能產生音訊。

如下，首先從模型中產生2秒鐘的動畫片段，然後在沒有任何文字引導的情況下嘗試預測音訊。這樣就能從一個模型中產生視訊和音訊。

通常情況下，VideoPoet以縱向的方式產生視頻，以便與短片視頻的輸出一致。

谷歌也專門做了一部由VideoPoet產生的許多短片組成的簡短電影。

具體文字比編排上，研究人員要求Bard先寫一個關於一隻旅行浣熊的短篇故事，並附帶場景分解和提示清單。然後，為每個提示產生影片片段，並將所有產生的片段拼接在一起，製作出下面的最終影片。

影片說故事

透過隨時間變化的提示，可以創造視覺上的故事敘述。

輸入：由水構成的行走的人

擴展：一個由水構成的行走的人。背景中有閃電，同時從這個人身上散發出紫色的煙霧

輸入：兩隻浣熊騎著摩托車在松樹環繞的山路上行駛，8 k

擴展：兩隻浣熊騎著摩托車。流星雨從浣熊身後墜落，撞擊地面並引發爆炸

LLM秒變視訊產生器

目前，Gen-2、Pika 1.0視屏生成的表現足以驚人，但是遺憾的是，無法在連貫大幅動作的視頻生成上表現驚艷。

通常，它們在產生較大動作時，影片會出現明顯的偽影。

對此，Google研究人員提出了VideoPoet，能夠執行包括文字到視訊、圖像到視訊、視訊風格化、視訊修復/擴展和視訊到音訊等多樣化的視訊生成任務。

相較於其他模型，Google的方法是將多種視訊生成功能無縫整合到單一的大語言模型中，而不依賴針對各個任務分別訓練的專用組件。

具體來說，VideoPoet主要包含以下幾個元件：

- 預先訓練的MAGVIT V2視訊tokenizer和SoundStream音訊tokenizer，能將不同長度的影像、視訊和音訊剪輯轉換成統一詞彙表中的離散程式碼序列。這些程式碼與文字型語言模型相容，便於與文字等其他模態結合。

- 自回歸語言模型可在視訊、圖像、音訊和文字之間進行跨模態學習，並以自回歸方式預測序列中下一個視訊或音訊token。

- 在大語言模型訓練框架中引入了多種多模態生成學習目標，包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續、視頻修復/擴展、視頻風格化和視頻到音頻等。此外，這些任務可以相互結合，實現額外的零樣本功能（例如，文字到音訊）。

VideoPoet能夠在各種以視訊為中心的輸入和輸出上進行多工處理。其中，LLM可選擇將文字作為輸入，來指導文字到影片、圖像到影片、影片到音訊、風格化和擴圖任務的生成

使用LLM進行訓練的一個關鍵優勢是，可以重複使用現有LLM訓練基礎設施中引入的許多可擴展的效率改進。

不過，LLM是在離散token上運行的，這可能會為視訊生成帶來挑戰。

幸運的是，視訊和音訊tokenizer，可以將視訊和音訊剪輯編碼為離散token序列（即整數索引），並可以將其轉換回原始表示。

VideoPoet訓練一個自回歸語言模型，透過使用多個tokenizer（用於視訊和圖像的MAGVIT V2，用於音訊的SoundStream）來跨視訊、圖像、音訊和文字模態進行學習。

一旦模型根據上下文產生了token，就可以使用tokenizer解碼器將這些token轉換回可查看的表示形式。

VideoPoet任務設計：不同模態透過tokenizer編碼器和解碼器與token相互轉換。每個模態周圍都有邊界token，任務token表示要執行的任務類型

三大優勢

概括來說，VideoPoet比起Gen-2等視訊生成模型，具備以下三大優勢。

更長的視頻

VideoPoet透過對影片的最後1秒進行調節，並預測接下來的1秒，就可以產生更長的影片。

透過反覆循環，VideoPoet通不僅可以很好地擴展視頻，而且即使在多次迭代中，也能忠實地保留所有物件的外觀。

如下是VideoPoet從文字輸入產生長影片的兩個範例：

左：太空人在火星上跳舞，背景是五彩繽紛的煙火

右：無人機拍攝的叢林中非常尖銳的精靈石城，城中有一條湛藍的河流、瀑布和陡峭的垂直懸崖

相較於其他只能產生3-4秒影片的模型，VideoPoet一次就可以產生長達10秒的影片。

無人機拍攝的古堡秋景

精準的控制

影片生成應用一個非常重要的能力在於，對於產生的動態效果，使用者有多大的控制能力。

這將很大程度上決定了模型能否被用來製作複雜連貫的長影片。

VideoPoet不但可以為輸入的圖像透過文字描述來添加動態效果，並透過文字提示來調整內容，來達到預期的效果。

左：轉身看鏡頭；右：打哈欠

除了支援輸入影像的影片編輯，視訊輸入也可以透過文字進行精確控制。

針對最左邊的小浣熊跳舞視頻，用戶可以透過文字描述不同的舞姿來讓它跳不同的舞蹈。

生成「左」：跳機器人舞

生成「中」：跳Griddy舞

產生「右」：來一段Freestyle

同樣，還可以對VideoPoet產生的現有影片片段，進行互動式編輯。

如果我們提供一個輸入視頻，就可以改變物件的運動來執行不同的動作。對物體的操作可以以第一幀或中間幀為中心，從而實現高度的編輯控制。

例如，可以從輸入影片中隨機產生一些片段，然後選擇所需的下一個片段。

如圖中最左邊的影片被用作條件反射，在初始提示下產生四個影片：

「一個可愛的鏽跡斑斑的破舊蒸氣龐克機器人的特寫，機器人身上長滿了青苔和新芽，周圍是高高的草叢」。

對於前3個輸出，沒有提示動作的自主預測產生。最後一個視頻，是在提示中添加了“啟動，背景為煙霧”以引導動作生成。

運鏡的手法

VideoPoet也可以透過在文字提示中，附加所需的運鏡方式，來精確控制畫面的變化。

例如，研究人員透過模型產生了一個圖像，提示為「冒險遊戲概念圖，雪山日出，清澈河流」。下面的範例將給定的文字後綴添加到所需的動作中。

由左至右：拉遠、滑動變焦、向左平移、弧型運動鏡頭、搖臂拍攝、無人機空拍

評估結果

最後，VideoPoet在具體的實驗評測中的表現又如何呢？

為了確保評估的客觀性，Google研究人員在各種提示上運行所有模型，並讓人們對其偏好進行評分。

下圖顯示了在以下問題中，VideoPoet被選為綠色首選項的百分比。

文字保真度：

文字保真度的使用者偏好評級，即在準確遵循提示方面首選影片的百分比

動作趣味性：

使用者對動作趣味性的偏好評級，即在產生有趣的動作方面，首選影片的百分比

綜上可見，平均有24-35%的人認為VideoPoet產生的範例比其他模型更遵循提示，而其他模型的比例僅為8-11%。

此外，41%-54%的評估者認為VideoPoet中的範例動作更有趣，而其他模型只有11%-21%。

對於未來的研究方向，谷歌研究人員表示，VideoPoet框架將會實現“any-to-any”的生成，例如擴展文本到音頻、音頻到視頻，以及視頻字幕等等。

網友不禁發問，Runway和Pika能否抵擋住Google和OpenAI即將推出的文字到影片創新技術？（新智元）

參考資料：

https://sites.research.google/videopoet/

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html