今年10月,《時代》雜誌發布了一份「2023最佳發明」名單,為了呼應AI浪潮,《時代》從去年開始就特別設置了「AI單元」。今年入選的十幾個應用中,排在老牌軟體巨頭Adobe和屠龍少年OpenAI之後的就是大火的文生視訊應用——Runway Gen-2。
作為橫掃奧斯卡獎項的電影《瞬息全宇宙》背後的技術公司,Runway聯合創始人兼CEO Cristóbal Valenzuela在聊起自己對AI的期待時,走的也是滿滿的文藝風路線—— “AI是一種新的攝像頭,它將永遠重塑講故事的方式,引領我們走向完全靠生成的電影長片。」
但對中國用戶而言,真正讓Runway等AI視頻公司走入人們視野的關鍵性事件還要數斯坦福華人博士休學創業的項目Pika。
自Pika爆火以來,短時間內,一大波AI影片評測隨之湧來,也出現了明顯的口碑分化。一時間,有人高喊:「AI影片大年來了」。有樂觀者認為,從文生圖到文生視頻,視頻生成模型也迎來了屬於自己的GPT時刻。不久前,「AI女神」李飛飛的史丹佛團隊也和Google合作,推出了產生逼真影片的擴散模型WALT。
但也有人對此表示理性,AI影片的技術能力與商業化還有很長的路要走。Pika聯合創始人兼CTO Chenlin Meng在接受采訪時就坦言:“我覺得目前視頻生成處於類似GPT-2的時刻。”
文生影片一直被視為多模態AIGC“聖杯”,梳理當下的AI視頻賽道,儘管有著酷炫的demo。類似參與製作奧斯卡電影的實戰,許多參與競爭的行業玩家,但業界所面臨的挑戰依舊有很多。
本文我們將主要聊聊關於文生影片的三個關鍵問題:
1.文生影片背後的技術路線是什麼?
2.為什麼說AI影片還沒到真正的GPT時刻?
3.目前的產業競爭中,誰有領先優勢?
說起AI視頻,所有的行業玩家還是要感謝他們的“老大哥”——谷歌。
市面上的文生視訊模型背後其實有兩條技術路線:一條從文字及圖像生成中廣泛應用的,基於Transformer模型的技術路線,另一條則是基於擴散模型(Diffusion model)。
關於第一條路線是如何誕生的,除了要感謝那篇《Attention Is All You Need》論文外,還多虧了OpenAI。
受到OpenAI基於Transformer架構和對文字資料進行大規模預訓練的啟發,在文生影片領域,Google的Phenaki、智鋪AI和清華團隊發布的Cog Video等都沿著這一技術路線,利用Transformer模型編碼,將文字轉換為視訊tokens,進行特徵融合後輸出影片。
谷歌很早之前就已透過Phenaki開始講述AI影片的故事了,當時的網友發出了「AI什麼時候獲奧斯卡」的感嘆。
但基於Transformer架構的文生視訊模型,缺點也非常明顯,從OpenAI先前的「暴力美學」就能看出,無論從訓練成本,還是從配對資料集的需求來說,都對各家提出了非常大的挑戰。例如,Phenaki的研究人員在當時除了用文字和圖像進行訓練外,還使用了1.4秒、幀率8FPS的短視頻文字。
而隨著影像生成領域擴散模型的野蠻生長,研究人員又逐漸嘗試將擴散模型拓展到影片領域。這之中,我們也看到,在這一波基於擴散模型而飛黃騰達的公司,也沒有錯過下一輪的視頻生成浪潮,比如開發出了經典的文生圖模型Stable Diffusion的公司tability.ai,以及和Stability.ai關係密切的Runway。
在這條科技路徑上,科技大廠和創業派可謂是百花齊放。大廠如Meta的Make-A-Video和Emu Video,英偉達的Video LDM、微軟的NUWA-XL,創業派如Stable AI和Runway,都是這樣的邏輯。
兩個技術交替,目前擴散模型佔據主流,但沒有優劣之分,但從技術迭代背後,我們可以觀察到明顯的三大趨勢。
一是,從參與玩家的數量來看,整體是科技大廠居多,並沒有出現如文生圖模型一樣的“百家爭鳴”的現象,背後的原因在於從難度來看,文本>圖像>視頻,文生視頻的門檻較高。
二是,從資料層來看,AI影片訓練資料集的規模越來越大,種類也越來越豐富。以Runway Gen-2為例,其訓練資料包含了2.4億張圖片、640萬個影片剪輯片段以及數億個學習範例。
第三是,大多數的模型廠商,在文生影片上都選擇走了閉源路線。背後的原因在於,文生影片對算力以及模型的工程化能力都很高。香港大學教授、徐圖智能CEO徐東在近期的一次訪談中也提到:「文生影片不是誰都能做的,開源社群可能也不太可行,因為算力要求太高了,開源社群做文生圖像還可以,做文生視頻可能是不實際的。”
Pika聯合創始人兼CTO Chenlin Meng在近期接受采訪時就坦言:“我覺得目前視頻生成處於類似GPT-2的時刻。”
換句話說,在酷炫的demo背後,AI影片真正融入影片生產工作流程,滿足大眾更廣泛的視訊類需求,還有一段距離。
首先,從目前文生視訊模型產出的生成效果來看,有限的時長、較低的解析度與生成內容的不合理依舊掣肘所使用的頻率。
這背後的核心原因,仍逃不開影片場景的複雜性。
一方面,在資料端,對比收集文生圖高品質資料的場景,文字產生視訊模型需要透過大量資料來學習字幕、幀照片寫實感和時間動態。同時,由於影片的長度是不等的,而在訓練過程中將影片切成固定幀數的片段,又會破壞文字和時間之間的「對齊」,影響模型的訓練。
另一方面,在視頻場景中,除了要考慮空間地點信息,還需要考慮時間信息,因此如果想要具備高質量的視頻生成能力,需要極強的計算與推理能力。從當下一些文生視訊模型的生成表現來看,對視訊物件運動連貫性的理解、對日常與非日常場景的變化等維度來看,都亟待提升。
其次,從商業模式來看,文生視訊應用目前的商業模式與圖片生成趨同,開啟商業化的應用如Runway Gen-2也是主要按照生成量來定價。如果對照文生圖應用早期商用化的進程,Runway們也還有很長一段路要走。
最後,在複雜的視訊生產工作流程上,產業玩家knowhow也有待提升。影片製作過程一般分為前期與後期,前期包括了劇本創作、分鏡設計、素材的拍攝與整理;而後期則是包含了粗剪、音樂、特效、調色與字幕等流程。在不同的環節,AI發揮不同的作用,模型廠商也能透過建立相關的工具鏈幫助創作者提質增效。
但不同環節,競爭門檻是不同的。門檻較低的如字幕添加,門檻更高則是一些影片編輯類功能,如鏡頭細調等。不同的影片創作者有著不同的工作流程,因此目前很難做到一家通吃。
這也是為什麼,目前我們在市面上成熟或出圈的AI影片作品背後並不是依靠一個模型或應用就能單獨完成,而是多個模型+多個工具(例如ChatGPT+Midjourney+Runway)組合創作。
從文生圖到文生視頻,多模態能力的升級帶來了新一輪AI視頻的能力。但如上文所說,目前AI影片還未迎來自己的GPT時刻,因此競爭尚在早期。
參考文生圖模式的迭代路徑,儘管出現不少諸如Midjourney類的獨角獸企業透過前期累積用戶規模,快速商業化,實現營收,而建立起一定的壁壘。
因此,視訊領域的競爭也會類似大語言模型的競爭格局。Pika的聯創也提到:“我認為未來在視頻領域也會是一家公司領先一到兩年、在衝鋒,其他公司在追趕。”
而在這樣一個充滿不確定的早期市場,較早出圈的也基本上都是呈現極強PMF(Product-market fit,產品市場契合度)的玩家。
這之中,無論是專注在短視頻內容AI口型匹配和翻譯的HeyGen,抑或是如今爆火的Pika所呈現出的可編輯性和電影級效果,本質上也都是迅速找到與自己產品契合的市場。
僅用7個月時間達到了100萬美元的ARR的HeyGen CEO&聯合創始人徐卓在近期的分享文章中提到:“如果沒有PMF時,技術都無關緊要。”
某種程度上,這其實反映出了一個趨勢:比起文生圖的競爭,在更高門檻的AI視頻,創業公司尋求商業化的意願更強烈。
產生上述焦慮的原因也不難理解。
一是算力的掣肘,視訊領域對算力需求更高。Pika聯創就曾舉過一個例子:「對於Stable Diffusion,有人可能用8張A100就能從頭開始學習,並得到不錯的結果。但對於視頻模型,用8張A100可能不夠了,可能無法訓練出一個好的模型。”
她甚至坦言,開源社群可能沒有足夠的算力來訓練新的影片模型,除了一些大公司開源模型外,普通開源社群很難進行探索性工作。
二是競爭環境的激烈。在AI視訊產品層面,一方面如上文所梳理的,頭部科技巨頭基本上都已入局,只是產品尚未全面公測。另一方面,也包括如Adobe此類面向專業級用戶的老牌軟體巨頭和如已有先發優勢的Runway。
還有一類則是HeyGen、Descript、CapCut類的輕量化影片製作產品。
大型科技公司具備算力優勢,特別在是目前尚未有巨頭明確開源路線(只有Stability AI發布了開源生成式視訊模型Stable Video Diffusion)。而Adobe此類企業的優勢在於AI視訊功能和原有業務形成有力的協同,形成更高頻的使用。Adobe先前也收購了一家AI影片領域的新創公司Rephrase.ai。
而輕量化的影片製作產品本身面向的是非專業人群,這意味著能否以差異化優勢快速圈中人群,佔據心智成為關鍵。
套用一句老生常談,人們對科技的態度永遠是高估短期,低估長期,AI影片也不例外。(矽基研究室)