中國國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

智東西4月22日報導,AI視頻生成創企生數科技最新上線的全新Vidu Q1視頻大模型,同時登上多個權威文生視頻、圖生視頻基準測試榜單的第一。

此模型可支援產生1080p解析度5秒視頻,產生效果清晰穩定,已在網頁端(Vidu.cn)、手機端上線。

相較2.0版本,Vidu Q1進一步提升了語意理解、畫質、動作、美學、逼真和絲滑程度,首尾幀銜接更加流暢,上傳兩張圖就能生成一鏡到底的自然運鏡。


性價比也相當高。一個1080p 5秒影片價格最低1.34元,價格低至0.3元/秒,僅為同類產品的1/10

Vidu Q1的動態表現出色,能駕馭特寫、特效、微縮鏡頭,生成即可商用,適用於廣告行銷、短劇、電商、互動娛樂等場景。例如用它來產生耳機、香水的廣告:




有海外網友回饋說,Vidu Q1對提示詞的遵循表現提升很多,能執行一些複雜的提示詞,比Veo2的表現更好。


這位網友曬出了Vidu Q1做的毛氈風動畫。影片中,小狗從虛化到清晰的聚焦轉換處理得非常自然。



Vidu Q1已拿下海外權威視頻生成評測榜單VBench-1.0和VBench-2.0綜合榜單的雙冠,分數超越Runway、Sora、Luma AI等國內外知名視頻生成模型,並在VBench-1.0的視頻質量、視頻語義一致性和VBench-2.0的最識質量、物理水平這幾個維度上達到當前維度模型的綜合維度模型上。


同期,Vidu Q1也在國內權威通用大模型綜合性評量基準SuperCLUE最新的圖生影片榜單中,拿下動漫風格、寫實風格雙榜單的第一。


生數科技也推出了全新AI音效功能,支援一句話產生專屬音效、精細控制每段音訊的出現時間點。


01 .

兩張圖實現電影級運鏡,

影片生成風格多元,多人物遮擋也不會崩

Vidu Q1首尾影格功能升級,基於兩張圖即可實現電影級運鏡。

例如上傳這兩張圖,分別作為首幀和尾幀:


輸入提示詞「女特工手持手槍,射出子彈,子彈穿破玻璃球瞬間爆炸,吉恩·科蘭的漫畫風格,緊張刺激的動畫場景」後,Vidu Q1生成的視頻效果是這樣的:


在生成電影場景方面,Vidu的畫面表現力已經接近以假亂真的水平,而且能夠對複雜語意理解到位。

例如,讓Vidu Q1如下提示字產生影片:

提示詞:深夜古堡的走廊,身穿西裝的男子手持蠟燭轉身走在走廊中,兩旁的燈光忽明忽暗,緊張刺激的氛圍,推進鏡頭拍攝,鏡頭定格在男子的臉。



提示詞:寂靜的車廂裡,老人抽著香煙,煙霧瀰漫,車廂內的燈光忽明忽暗,鏡頭推進拍攝,推進到老人的臉部。



提示詞:鏡頭聚焦在一位身穿皮夾克的男子,他獨自走在白天的城市街道上。陽光在人行道上投射出逼真的陰影,背景中是汽車和行人,而模糊的畫面則以電影般的照片寫實風格呈現。


在主角快速移動且有遮蔽的情境下,Vidu Q1依然能夠產生人物運動自然、穩定的影片。

提示詞:一張黑白照片,一位優雅的黑髮女子穿過人群,動作模糊,從街道拍攝,穿著現代服裝,空靈,穿越時空,電影攝影,對比,顆粒


在Vidu模型已經非常擅長的AI動漫場景,Vidu Q1持續保持業界領先並再度升級動漫風格,支援日漫、3D動漫等多元化動漫風格,風格一致性較好,動態表現自然、穩定流暢,畫面生動。

提示詞:充滿活力的動漫風格水下場景,一個睜大眼睛的女孩,有著飄逸的水藍色雙馬尾和水手風格的校服,輕輕地懸浮在水中,伸手去夠在閃閃發光的氣泡和旋轉的光束中嬉戲遊動的金橙色錦鯉魚,魔幻的氛圍,超細節,吉卜力風格的幻想,16:9 的寬高比


提示詞:一個身穿運動服的超現實動漫風格女孩,被特寫鏡頭捕捉到,她滿臉雀斑,汗流浹背,臉頰緋紅,睜大的眼睛反映出情感和好奇,對著鏡頭眨眼微笑,慢慢地把手伸向屏幕,廣角微距鏡頭拍攝,超現實的紋理與風格化的柔和相結合,慢慢地把手伸向屏幕,廣角微距鏡頭拍攝,超現實的紋理與風格化的柔和相結合,情感的時刻,169 的紋理與風格化的柔和相寬,


由於我們把Vidu Q1生成影片轉換成了gif動圖格式,畫質有所壓縮。原始影片很高清,可以看到皮膚上清晰逼真的紋理和汗跡。

Vidu Q1同時支援文生影片、圖生影片。下方是用圖生影片功能產生的日漫風格影片範例。


02 .

AI音效功能發布:精準控制時間點,

可疊加多段音效,率先支援48KHz高保真

除了上線Vidu Q1外,生數科技也推出了全新AI音效(AI Sound Effects)功能。此功能有三個主要特點:

(1)精準Timing:可精準控制每段音效的長短區間,精準設定每段音訊出現的時間點,如0-2s風聲、3-5s雨聲,是商業領域全球首家支援精細化時間控制的文生音效系統。

(2)音效疊加:支援多段音效疊加,例如暴雨天的場景,涉及雨聲、風聲、打雷聲等多種類型聲音的混合,可以透過「音效疊加」來實現層次分明且動態變化的音效,具備影視級混音表達力。

例如用它來產生鍵盤聲音咖啡機的複合音效。

提示詞:{"提示": "@{敲打鍵盤& <0.00,8.00>}@{印表機雜訊& <2.00,3.00>}@{咖啡機& <4.50,5.50>}","開始秒數": 0,"開始秒數": 8.0}


鍵盤聲音咖啡機複合音效,智東西,10秒

(3)高取樣率音頻,高保真音質:業界大部分為16kHz、32kHz,Vidu做出了商業領域全球首家支援48KHz的文生音效系統,解決音效刺耳、壓縮失真、聲音不自然流暢等問題。

可以感受下用此功能產生的48kHz高保真蟋蟀聲、「世界毀滅」氛圍感音效:

提示詞:蟋蟀聲

蟋蟀聲,智東西,6秒

提示詞:形容世界毀滅的音樂

傳遞「世界毀滅」氛圍感的音效,智東西,10秒


03 .

結論:AI影片生成進步提速,

正重塑影片製作方式

生成式AI正以前所未有的速度重塑影片製作的方式。 AI影片生成工具的迭代升級,可望使動漫、影視、廣告、影片剪輯、UGC創作平台等眾多行業受益。

近年來,AI視訊生成模型的進步日新月異,從只能產生幾秒鐘的簡單視訊畫面,逐漸發展到能夠輸出更加複雜、連貫、自然的高品質視訊內容,不斷為視訊內容創作拓寬邊界和降低門檻。

從Vidu Q1的發布可以看到,精確的語意理解、擬真的表現力、角色穩定一致、強時空連貫性等特性,是目前影片產生模型提升輸出品質的重要最佳化方向。

同時,更好用的AI影片工具也要搭配更豐富、更方便的編輯功能。

生數科技最新推出的AI音效功能可與影片產生功能形成互補,根據影片或場景,用一段文字即可自動產生符合氛圍、精準搭配影片畫面的背景音樂或個人化音效,有助於減少搜尋音效庫的時間,甚至減少對昂貴版權音樂的依賴。(智東西)