AI影片年大爆發!Gen-2/Pika成時代爆款,2023年AI視訊生成領域的現況全盤點



【導讀】 2023年,也是AI視頻元年。過去一年究竟有哪些爆款應用程式誕生,未來影片生成領域面臨的難題還有哪些?

過去一年,AI影片領域我們見證了,Gen-2、Pika等爆款產品的誕生。

來自a16z的Justine Moore,詳細盤點了人工智慧影片產生領域的現狀、不同模型比較,以及尚未解決的技術挑戰。


接下來,一起看看這篇文章都講了什麼?

AI影片生成大爆發

2023年是AI影片突破的一年。不過,今年過去了一個月,暫未有公開的文字到影片的模型。

短短12個月,數十種視訊生成產品受到了全球數以萬計的用戶的青睞。

不過,這些AI視頻生成工具仍相對有限,多數只能生成3-4秒的視頻,同時質量往往參差不齊,角色一致性等問題尚未解決。

也就是說,我們還遠遠不能製作出一個只有文字提示,甚至多個提示的皮克斯等級的短片。

然而,我們在過去一年中在視訊生成方面取得的進步表明,世界正處於一場大規模變革的早期階段——與我們在圖像生成方面看到的情況類似。

我們看到,文本到視頻的模型不斷改進,圖像到視頻,以及視頻到視頻等分支也在蓬勃發展。

為了幫助了解這項創新的爆炸性成長,a16z追蹤了到目前為止最需要關注的公司,以及該領域仍然存在的潛在問題。


今天,你可以在哪裡產生AI影片?


21個視訊生成產品

今年到目前為止,a16z已經追蹤了21種公開產品。

雖然你可能聽說過Runway、Pika、Genmo和Stable Video Diffusion,但還有許多其他的東西可以探索。


這些產品大多來自新創公司,其中許多都是從Discord bots,有以下幾個優點:

- 不需要建立自己面向消費者的介面,只需專注於模型品質

- 可以利用Discord每月1.5億活躍用戶的基礎進行分發

- 公共管道為新用戶提供了一種簡單的方式,讓他們獲得創作靈感(透過查看他人的創作)

然而,隨著技術成熟,我們開始看到越來越多的AI影片產品建立自己的網站,甚至是App。

隨著Discord提供了一個很好的平台,但在純生成之上添加的工作流程而言,卻是有限的,並且團隊對消費者體驗的控制很少。

值得注意的是,還有很大一部分人不使用Discord,因為覺得介面混亂讓人困惑。


研究和技術

Google、Meta和其他公司在哪裡?

在公開的產品清單中,他們顯然沒有出現--儘管你可能已經看到了他們發布的關於Emu Video、VideoPoet 和Lumiere等模型的貼文。

到目前為止,大型科技公司基本上都不選擇公開自家的AI影片產品。

取而代之的是,他們發表了各種相關的影片生成的論文,而沒有選擇視訊演示。

例如,Google文字生成影片的模型Lumiere



這些公司有著巨大的分銷優勢,其產品擁有數十億用戶。

那麼,他們為什麼不放棄發布視訊模型,而在這個新興類別市場中奪取巨大份額。

最主要的原因還是,法律、安全和版權方面的擔憂,往往使這些大公司很難將研究轉化為產品,並推遲推出。如此一來,讓新來者有機會獲得先發優勢。


AI影片的下一步是什麼?

如果你曾經使用過這些產品,便知道在AI影片進入主流產品之前,仍然有很大的進步空間。

有時會發現,AI視訊工具可以將提示內容生成影片的「神奇時刻」,但這種情況相對較少見。更常見的情況是,你需要點擊幾次重新生成,然後裁剪或編輯輸出,才能獲得專業級的片段。

這一領域的大多數公司都專注於解決一些核心的問題:

- 控制性:你能否同時控制場景中發生的事情,(比如,提示“有人向前走”,動作是否如描述的那樣?)關於後一點,許多產品都增加了一些功能,允許你對鏡頭zoom或pan,甚至添加特效。

- 「動作是否如描述的那樣」一直較難解決:這涉及到底層模型的品質問題(模型是否理解提示的含義並能按要求生成),儘管一些公司正在努力在生成前提供更多的用戶控制。

例如,Runway的motion brush就是一個很好的例子,它允許使用者高粱影像的特定區域並確定其運動方式。


時間一致性:如何讓角色、物件和背景在影格之間保持一致,而不會變形為其他東西或扭曲?

在所有公開提供的模型中,這是一個非常常見的問題。

如果你今天看到一段時間連貫的視頻,時長超過幾秒,很可能是視頻到視頻,通過拍攝一段視頻,然後用AnimateDiff prompt travel之類的工具來改變風格。


- 長度-製作長時間的短片與時間連貫性高度相關。

許多公司會限制生成影片的長度,因為他們不能確保幾分鐘後依然影片保持一致性。

如果當你看到一個超長的AI視頻,要知道它們是由一堆短片段組成的。


尚未解決的問題

影片的ChatGPT時刻什麼時候到來?

其實我們還有很長的路要走,需要回答以下幾個問題:

1 目前的擴散架構是否適用於影片?

今天的視訊模型是基於擴散模型構建的:它們基本原理是生成幀,並試圖在它們之間創建時間一致的動畫(有多種策略可以做到這一點)。

他們對3D空間和物件應該如何互動沒有內在的理解,這解釋了warping / morphing。

2 優質訓練資料從何而來?

與其他模態模型相比,訓練視訊模型更難,這主要是因為視訊模型沒有那麼多高品質的訓練資料可供學習。語言模型通常在公共資料集(如Common Crawl)上進行訓練,而圖像模型則在LAION和ImageNet等標記資料集(文字-圖像對)上進行訓練。

視訊數據更難取得。雖然在YouTube和TikTok等平台上不乏公開可訪問的視頻,但這些視頻沒有標籤,也不夠多樣化。

3 這些用例將如何在平台/模型之間進行細分?

我們在幾乎每一種內容模態中看到的是,一種模型並不是對所有用例都「獲勝」的。例如,MidTrik、Idegraph和Dall-E都有不同的風格,並擅長產生不同類型的影像。

如果你測試一下今天的文字到影片和圖像到影片模式,你會發現它們擅長不同的風格、運動類型和場景構成。

提示:Snow falling on a city street, photorealistic


Genmo


Runway


Stable Video Diffusion


Pika Labs


誰將主導影片製作的工作流程?

而在許多產品之間,來回是沒有意義的。

除了純粹的影片生成,製作好的剪輯或影片通常需要編輯,特別是在當前的範例中,許多創作者正在使用視訊模型來製作在另一個平台上創建的照片的動畫。

從Midjourney的圖像開始,在Runway或Pika上製作動畫,然後在Topz上進行升級的影片並不少見。

然後,創作者將影片帶到CapCut或Kapwing等編輯平台,並添加配樂和畫外音,通常是在Suno和ElevenLabs等其他產品上生成的。(新智元)

參考資料:

https://a16z.com/why-2023-was-ai-videos-breakout-year-and-what-to-expect-in-2024/