最近一波視訊生成模型突然出現,在許多情況下展示了令人驚嘆的如畫質量,例如Runway、Pika。然而目前影片產生的瓶頸之一是產生連貫大運動的能力。在許多情況下,即使是目前領先的大模型也會產生較小的運動,或者當產生較大的運動時,會表現出明顯的偽影。
谷歌剛剛發布了零鏡頭視訊生成大模型VideoPoet。
它能夠執行各種視訊生成任務,包括文字到視訊、圖像到視訊、視訊風格化、視訊修復和修復,以及視訊轉音訊。該工具被感嘆是一個突破性文生視訊工具。
目前市場上一些領先的視訊生成模型都是基於擴散的,然而,VideoPoet 不是。