三張圖攢一個毫無違和感的視訊!
視訊模型領域又沸騰了!
把Runway、LumaAI等一眾視訊模型都一鍋端了。海外使用者評價,一眾視訊模型都實現不了的能力,它竟然給攻破了,甚至在語義理解甚至比圖像模型王者Midjorney還強。
這背後就是國產視訊模型Vidu——全球最早對標Sora發佈的視訊模型。昨天新上的“殺手級”功能:多主體一致性。(傳送門:www.vidu.studio)
這個功能上周六Vidu就在X上偷偷預熱了,昨天正式上線。簡單講,這個功能支援上傳1~3張參照,來實現對多主體的控制。
以官方發佈的demo為例,丟入“黑人男子、機甲、城市街景”三張圖,Vidu 能提取主體、服裝、場景,將三者無縫融合, 輸出一段“男子穿著機甲走在城市街道”的視訊內容。
想不到啊!要知道,之前的視訊模型理解一段promot都費勁,需要來回抽卡,現在用Vidu生成視訊,已經可以跟寫作文似的,明確地點、人物、行為、形象,就能實現精準控制和編輯。
海外使用者更是直呼“改變了遊戲規則”,未來“只要上傳一張角色圖+一張環境圖”就可以創作連續的視訊故事。
比如有使用者上傳一個女戰士的形象圖+戰場場面,就可以生成堪稱史詩級的戰爭畫面。
更有上難度的,直接上群像圖,一次上傳十個主體(拼圖放一塊),讓Vidu生成一段視訊,但顯然,這都沒有難倒它。
這瞅著感覺以後生成水滸傳108將群像也不是不可能嗷!
前面提到,這是目前Runway、Luma AI等全球一眾高手都不具備的能力,在功能層面,上述幾家都僅僅支援單圖輸入。
我們以Vidu官方案例,拼圖後在這兩家分別測試了下。
國外爆火的Runway,卻無法理解人物,人物直接突變成了機器人。
而Luma AI無法理解場景,各自動各自的。
這背後其實就是“一致性控制”問題。
這是視訊模型的老大難問題,在吐出生成結果的時候,模型往往難以確保主體(無論是人物還是物體)的外觀、特徵、風格保持一致。
你給它清秀小帥哥,秒變可怖伏地魔那是常有的事。
尤其是一上難度,涉及多主體時,模型更是很難對多個主體同時進行控制,更別提主體間還要保持自然連貫的互動。
就,腦殼痛。
不過這一“世紀難題”現在被Vidu 完美解決了!Attention please!上新期間每人3次免費機會,大家且玩且珍惜。
當然,對於“一致性”問題,Vidu領先業界佈局已久。
早在7月底全球上線時,Vidu就推出了“角色一致性”功能,解決人臉一致性問題,對比看,近期可靈1.5剛上線人臉一致性功能。
在9月初,Vidu又全球首發了“主體一致性”功能,允許使用者上傳任意主體的一張圖片,從“人臉一致”拓展到“主體一致”,例如人物的全身一致,不再侷限於人臉,甚至動物、商品的一致性保持也不在話下。
短短兩個月,Vidu又又又升級了,能實現對單主體的多角度一致,也能實現多主體互動控制、主體與場景融合控制。
廢話不多說,上指南寶典。Vidu的打開如下:
首先單主體場景。
通過上傳特定主體的不同角度或不同景別下的圖片,能夠能實現對單主體的100%精準控制。
具體來說,第一點是對複雜主體的精準控制。
那就上傳幾張歐洲古典美女玩玩吧(doge):
難點可不僅是還原少女的美貌,還有她的頭飾、髮型、服飾十分複雜,模型很容易犯脫離圖片“自行腦補”的災難。
但在Vidu生成的中景鏡頭視訊中,美女姐姐轉個圈圈(涉及背後、側面視角),不同視角下,角色形象始終如一,保持得挺好。
不單單真實人物,這一能力對3D動畫形象來說,通過上傳三檢視簡直是手拿把掐。
第二點是人物面部特徵和動態表情的自然一致。
通過上傳多張人物特寫圖,Vidu能夠確保人物面部的特徵細節和表情變化自然流暢,不會出現面部僵硬或失真的現象。
這次的模特,有請這位小朋友。
從笑容轉換到垂眸失落,過度自然,也沒有失真:
這次新功能更妙的是能上傳多個主體,實現多主體的一致性控制(業內獨家)。
多個主體的組合,可以是人物+人物,也可以是人物+場景、人物+道具等,甚至是人物+道具+場景,並在視訊生成中實現這些元素的自然互動。
首先是多主體互動,使用者可以上傳多個自訂角色,讓它們在指定空間內進行互動。何不試試讓AI界奧特曼和光之巨人迪伽奧特曼同框出鏡?
然後奧特曼屆的名場面就此誕生:
這裡還可以是融合不同主體特徵,比如人臉融合,將角色A的正面與角色B的反面無縫融合。
試試穿10號球衣的馬斯克。這簡直是一鍵AI換臉神器!
也可以是人物+道具 ,比如試試給人物換裝,讓馬斯克穿禮服。很好……
終極難度就是,人物+道具+場景,使用者可以上傳主體、客體和環境的圖片,建立定製角色身穿特定服裝、在定製空間內自由動作的場景。
比如丟給它一張馬斯克帥照、一件東北花襖、一輛電動小摩托,輸入prompt:
男人穿著花襖在遊樂園騎電動車。
他立馬就開心得像個五十幾歲的大男孩:
這視訊來看,道具師、服裝師可以雙雙下線了……
如果不走搞笑路線,來個正經的。這特效效果不止一點點震撼。
必須要提的一點是,以上這些能力的實現並不來自業界主流的LoRA(Low-Rank Adaptation)微調方案。
簡單理解,過往的視訊模型如果想實現上述換裝、人臉融合等場景能力,均需要針對每一個場景設計進行微調。
LoRA效果雖不錯,但通常需要20~100段視訊,資料構造繁瑣,且需要數小時甚至更久的訓練時間成本為單次視訊生成的成百上千倍;另外LoRA微調模型容易產生過擬合,導致對於動態的表情或肢體動作的變化,很難有效控制。
但Vidu選擇在自身通用架構上持續迭代升級,通過提升基礎模型帶來更泛化的能力,無需專門的資料採集、資料標註、微調訓練環節。
僅靠三張圖就實現高可控的穩定輸出,直接省去LoRA“煉丹”。好傢伙,LoRA終結器嘛這不是!
Vidu背後的研發團隊生數科技也放出了技術架構的介紹,所謂統一化架構:
細品,這不就是和LLM一致的“設計哲學”:將所有問題統一為簡單輸入輸出,從壓縮中獲取智能,同樣單個網路統一建模變長的輸入和輸出。
一旦接受了這個設定,再細品看,想必我們想到了同樣的一個類似事件:ChatGPT的智能湧現。
相較於GPT-2、GPT-3,初代ChatGPT背後GPT-3.5之所以能夠一炮轟出個AI新時代,正是因為OpenAI在其基礎模型上大花功夫,帶來通用模型能力的提升。
從開始的預訓練+微調的路徑,伴隨不斷的Scaling Up,最終基於一個通用基礎模型實現泛化能力。
Vidu的提出讓我們看到了,視訊模型的訓練範式也從“預訓練+微調”的路徑升級到了通用化的統一架構,並在任務層面實現泛化。
另外還有一點,則是上下文理解能力方面,GPT-3.5能夠更好地處理複雜的指令和問題,理解更長的上下文資訊,通過關聯前後的文字、識別語句之間的關係,生成連貫且符合情境的回答或內容。
有意思的是,在Vidu這兒,我們也看到了“上下文記憶”能力。
此次升級,從單圖輸入到輸入多張參考圖像,Vidu能夠理解多個輸入圖像的精準含義和它們之間的關聯性,以及能夠根據這些資訊生成一致、連貫且有邏輯的輸出。
這與大語言模型的“上下文學習”(In-Context Learning)能力具有顯著相似性,通過上下文學習基於少量的示例或提示快速適應新任務。
至此,Vidu不再僅僅是從文字到視訊的渲染工具,不僅僅具備了理解和想像的能力,還能夠在生成過程中對上下文資訊進行記憶管理。
曾經大語言模型的獨有優勢,現在在視覺模型中也得以體現。
視覺模型也出現了和語言模型一樣的“大跨越”,AGI版圖裡的一塊重要拼圖,正在加速進化中。 (量子位)