Sora的最強競爭對手,來自中國


今年2月發佈的Sora,先是引得業界“哇聲一片”,馬斯克直接表態「人類願賭服輸」;周鴻禕說借助Sora人類實現AGI將縮減至一兩年。

大佬的彩虹屁不是白吹的。利用Diffusion+Transformer架構,Sora借助圖像處理、空間關係、物理規律、因果邏輯等規律與知識,在十幾秒、幾十秒的視訊中完成對現實世界的解構與再造。

但沒過多久人們就發現,再多的“哇聲一片”也改變不了Sora演算法閉源的事實,意味著它無法復現。留給外界的是一道單選題:要麼加入,要麼自研。


1 變局

在Sora發佈後兩個月,大洋彼岸突然有一家初創公司,與清華大學聯手,推出了一款號稱“繼Sora後首個完成突破的視訊大模型”——Vidu。

這是中國首個長時長、高一致性、高動態性的視訊大模型。在官方介紹中,Vidu採用原創U-ViT架構,結合Difusion與Transformer技術,能夠一鍵生成長達16秒、1080P解析度的高畫質視訊。


在對標Sora的性能指標裡,Vidu也只有在時長和圖/視訊生視訊上不敵。按照業內的評價,Vidu性能直接對標國際頂尖水平,並在加速迭代提升中。

從Vidu放出的官方視訊來看,它幾乎展示了視訊大模型需具備的所有核心能力:多鏡頭生成、模擬真實世界、保持時空一致性、豐富的想像力,以及讓老外難以搞懂的中國元素。

作為“鏡頭語言”,多鏡頭生成是視訊大模型的一堂必修課。現有的AI生成視訊,大多都只包含了輕微幅度的推、拉、移等簡單鏡頭,鏡頭語言單調而且也沒什麼敘事感,這是硬傷。

究其原因,是因為現有視訊內容沿用的技術路徑大多通過圖片的插幀和拼接而成,無法完成長時序的連貫預測。


Vidu似乎沒有上述問題,不僅能夠圍繞統一主體在一段畫面裡實現遠、中、近景、特寫等多樣化鏡頭切換,還能直接生成轉場、追焦、長鏡頭等效果,包括能夠生成影視級的鏡頭畫面。

AI視訊生成的另一個難題是,較難突破畫面時空一致性與場景。什麼是畫面時空一致性,翻譯過來就是在沒有任何轉場的情況下不能突變。一個典型的例子就是某些大模型的視訊中,一隻貓走著走著就變成了6隻腳。


Vidu在一定程度上也克服了這個問題,起碼從它生成的一段“帶珍珠耳環的貓”的視訊中可以看到,隨著鏡頭的移動,作為畫面主體的貓在3D空間下能夠一直保持服飾、表情、模態的一致,視訊整體看上去非常的連貫、統一和流暢。

模擬真實物理世界運動同樣是視訊大模型的核心,Vidu在對外放出的展示視訊中,有一段明顯是瞄著Sora打:模擬“一輛老式SUV行駛在山坡上”,Vidu的表現堪稱完美,灰塵、光影、背景等細節與真實世界中人類的感知幾乎無差。


在對不存在的超現實主義畫面解構上,Vidu也能做到“合理的奇幻”。例如,“帆船”、“海浪”能夠合理地出現在畫室裡,而且海浪與帆船的整體互動背景非常恰當自然。


當然,作為本土團隊開發的視訊大模型,Vidu對中國元素的理解遠超那些舶來品,比如貓熊、龍、宮殿場景等。

德邦證券在一份研報中給予了Vidu高度評價:

雖然在視訊時長、視訊效果、支援模態多樣性等方面相比Sora仍有提升空間,但是在以鏡頭語言為代表的動態性,以及對物理世界規律的理解與模擬能力等方面已做到了Sora相近水平。

最後還不忘給Vidu貼上一個鯰魚標籤,意思是它或將激勵國產多模態大模型突破創新。那麼問題來了,憑什麼是Vidu?


2 U-ViT架構

Vidu背後的生數科技,並不是一家名不見經傳的初創企業。

OpenAI曾披露過一份技術報告,顯示Sora的核心技術架構源自一篇名為《Scalable Diffusion Models with Transformers》的論文,論文提出了一個將 Diffusion(擴散模型)和 Transformer融合的架構——DiT,也就是後面被Sora採用的那個。

而在DiT提出前兩個月,清華團隊就提出了用Transformer替代基於CNN的U-Net的網路架構U-ViT,也就是Vidu採用的那個。甚至,據極客公園報導,因為U-ViT更早發佈,電腦視覺頂會CVPR 2023收錄了清華大學的U-ViT論文,卻以「缺乏創新」為由拒稿了Sora底層使用的DiT論文。

生數科技的核心團隊就源於清華大學該論文團隊,CTO鮑凡正是該篇論文的一作。嚴格意義說,Vidu並不是“國產Sora”,而是一棵樹上的兩朵花。

之所Vidu能在兩個月內快速突破16s流暢視訊生成,核心就在於團隊對U-ViT架構的深入理解以及長期積累的工程與資料經驗。而且據透露,3月份內部就實現了8秒的視訊生成,緊接著4月份就突破了16s生成。

簡單來說,在架構上U-ViT也是Diffusion和Transformer融合的架構,路徑以及部分結論都是相似的。


Vidu自研技術架構U-ViT


U-ViT與DiT二者均提出了將Transformer與擴散模型融合的思路,即以Transformer的網路架構替代基於CNN的U-Net架構,並且具體的實驗路徑也是一致的。比如,二者採用了相同的patch embedding、patch size;二者得出了同樣的結論:patch size為2*2是最理想的。

不同於採用插幀等處理長視訊的方法,U-ViT架構在感官上注重“一鏡到底”,視頻質量更為連貫與自然。從底層來看,這是一種“一步到位”的實現方法,基於單一模型完全端到端生成,不涉及中間的插幀和其他多步驟的處理,文字到視訊的轉換是直接且連續的。

有了理論支撐,就要考研團隊的工程化能力了。所謂工程化,抽象點說就是增強產品的架構設計,提升產品模組的復用性和擴展性。

2023年3月,基於U-ViT架構,生數科技團隊開源了全球首個基於U-ViT融合架構的多模態擴散模型UniDiffuser,率先完成了U-ViT架構的大規模可擴展性驗證,比同樣DiT架構的Stable Diffusion 3領先了一年。

UniDiffuser是在大規模圖文資料集LAION-5B上訓練出的近10億參數量模型,支援圖文模態間的任意生成和轉換,具有較強的擴展性。簡單來講,除了單向的文生圖,還能實現圖生文、圖文聯合生成、無條件圖文生成、圖文改寫等多種功能。

視訊本質是圖片的集合,實現圖像在時間維度的擴增,這使得圖文任務取得的成果往往可以在視訊領域復用。

例如,Sora採用了DALL・E 3的重標註技術,通過為視覺訓練資料生成詳細的描述,使模型能夠更加精準地遵循使用者的文字指令生成視訊。Vidu同樣復用了生數科技在圖文領域的眾多經驗,靠的就是紮實的工程化能力。

根據甲子光年,生數科技團隊通過視訊資料壓縮技術降低輸入資料的序列維度,同時採用自研的分佈式訓練框架,在保證計算精度的同時,通訊效率提升1倍,視訊記憶體開銷降低80%,訓練速度累計提升40倍。

目前,Vidu仍在加速迭代,未來將從圖任務的統一到融合視訊能力持續升級,靈活的模型架構也將能夠相容更廣泛的多模態能力。


3 加速嚮應用端延伸

以Open AI與Google為代表的科技巨頭,正在海外掀起一場多模態“軍備競賽”,而最大的目標之一正是視訊領域的加速迭代。

先是OpenAI CEO年初密集“劇透”GPT-5,相比GPT-4實現全面升級,其中將支援文字、圖像、程式碼和視訊功能,或將實現真正的多模態。緊接著就是2月發佈的Sora,能夠根據文字指令或靜態圖像生成1分鐘的視訊。

Google也不遑多讓,推出的原生多模態大模型Gemini可泛化並無縫地理解、操作和組合不同類別的資訊。而2月推出的Gemini 1.5 Pro,則使用MoE架構首破100萬極限上下文紀錄,可單次處理包括1小時的視訊、11小時的音訊、超過3萬行程式碼或超過70萬個單詞的程式碼庫。

國內也不甘人後,除生數科技發佈Vidu外,潞晨科技對其開源文生視訊模型Open-Sora 進行了大更新,現在可生成16秒,解析度720P的視訊。同時具備可以處理任何寬高比的文字到圖像、文字到視訊、圖像到視訊、視訊到視訊和無限長視訊的多模態功能,性能加速向Sora靠齊。

而國內外瘋狂押注的底層邏輯是,多模態提升了大模型的泛化能力,在多元資訊環境下實現了“多專多能”。多模態尤其是視訊大模型的成熟成為奠定AIGC應用普及的基礎,在垂直領域具有廣闊的應用場景和市場價值。

比如上個月Adobe就宣佈,將Sora、Pika、Runway等整合在視訊剪輯軟體Premiere Pro中。在發佈短片中,Premiere Pro展現出了在視訊中新增物體、消除物體以及生成視訊片段等能力。


通過AI驅動的音訊功能已普遍可用,可使音訊的編輯更快、更輕鬆、更直觀。而AI驅動的視訊功能,將是多模態大模型在AIGC應用融合中的重要嘗試,更深層的意義是,它或將催生未來更多現象級應用的開發。

免責聲明:本文基於已公開的資料資訊或受訪人提供的資訊撰寫,但解碼Decode及文章作者不保證該等資訊資料的完整性、精準性。在任何情況下,本文中的資訊或所表述的意見均不構成對任何人的投資建議。 (解碼Decode)