OpenAI的Sora,現在是徹底把AI影片的場子給熱起來了。
不僅Stable Video立刻上線了公測,而且Pika也隨即拿出了給視訊對口型的Lip Sync,以及可以根據內容自動生成聲音的音效生成功能。
LTX Studio則另闢蹊徑,上線了電影製作平台,把影片生成、剪輯、剪輯、旁白一條龍全包了。
而國內的腳步,也緊緊跟隨。
就在3月5日的超訊通信X七火山大會上,一段高清4K文生視頻,讓在場觀眾驚呼連連。
而作為背後工具的Etna,不僅在影片長度上達到了破紀錄的15秒,並且還實現了60 FPS的超高幀率,大大提高了影片的流暢性和觀看體驗。
相較之下,其他的AI影片最高也只有每秒30幀。
無論是水母、鯨魚、章魚、螃蟹、斑馬、火烈鳥,還是衝浪者、劃潛艇的人、滑雪的人,都做到了細節高清、動作連貫,甚至達到了3840x2160的超高分辨率。
這隻美麗優雅的維多利亞冠鴿,頭上羽冠的羽毛花邊精緻可見,眼睛栩栩如生,羽毛的質地和顏色都很細膩地還原出來了
夜色中的女郎,眼神魅惑地看向鏡頭
Etna的問世,意味著現有的國產文生視訊技術的重大突破。現有的短影片創作模式,很有可能會被徹底顛覆!
一大波4K AI影片來了!
維多利亞冠鴿對著鏡頭展示自己的羽毛,頭頂的壯麗彩冠blingbling地閃光。
一個酷酷的女生,戴著墨鏡站在街頭,帶著墨鏡。
穿著比基尼的金色長髮美女,站在海浪中。
黑夜的叢林中,一位女郎穿過,只留下神秘的背影。
兩艘海盜船在一杯咖啡中航行時,忽然狹路相逢。
陽光透過熱帶雨林的斑駁樹影灑下來。
一個精靈在魔幻森林中,週邊環繞著發光的植物。
兩隻哈士奇開心地戴上泳鏡,潛到海底打卡,它們開心地對著鏡頭微笑合影,右邊那位眼神還透著一股得意。
而小熊貓們居然出現在魚缸了上面,整個畫面構成一幅令人眼前一亮的生態奇景。
如何搶先復現Sora?
從上圖可以看出,相較於市場上的現有模型,Etna在長度、高清晰度、豐富生動細節和強烈語義理解上,都保持著較大優勢。
為什麼七火山能成為國內率先復現出Sora的公司?
Sora的關鍵創新,是個可以靈活處理不同維度資料的Diffusion Transformer:
1. 時空壓縮器會把原始視訊轉映射到潛空間。
2. 視覺Transformer(ViT)模型會對已經被分詞的潛表徵進行處理,並輸出去除雜訊後的潛表徵。
3. 一個與CLIP模型類似的系統根據使用者的指令(已經透過大語言模型進行了增強)和潛視覺提示,引導擴散模型產生具有特定風格或主題的影片。經過多次去噪處理之後,會得到產生視訊的潛表徵,然後透過對應的解碼器映射回像素空間。
在相關領域技術累積的基礎上,Etna模型迅速抓住了Sora的精髓,另外還引入了幾項創新。
由於影片的時空特性,在這一領域應用DiT所面臨的主要挑戰是:
(1)如何從空間和時間上將視訊壓縮到潛空間,以實現高效去噪;
(2)如何將壓縮潛空間轉換為patches,並將其輸入到Transformer中;
(3)如何處理長距離的時空依賴性,並確保內容的一致性。
為此,Etna模型在主幹網路上Diffusion架構,同時,在一個更大的資料集上實驗和適配與Sora相似的Diffusion+Transform架構。
因為融合了Diffusion模型和Transformer模型的優勢,透過這種結合,Etna就形成了一種高效且先進的新型模型架構。
這不僅提升了模型的生成效率,也保證了生成內容的高品質和高一致性。
其次,Etna模型在語言模型和影像模型中插入時空卷積和注意力層,能夠處理視訊數據,即考慮影像序列中的時間連續性。
而這也意味著,Etna擁有了一定的時空理解能力,從而能夠理解並產生具有時間維度的影片內容。
Etna模型支援生成影片時長達到8-15秒,且影片流暢度極高,每秒可達60張。
這項特性使得Etna生成的影片不僅內容豐富,而且視覺效果流暢自然,極大提升了用戶觀看體驗。
文字提示對於指導文字到影片模型,製作既具有視覺衝擊力,又能精確滿足用戶創建影片需求至關重要。
以Sora為例,提示中,包含了人物的動作、設定、角色出場,甚至是所期望的情緒,以及場景氛圍。
而這樣一個精心製作的文字提示,也確保了Sora生成的影片與預期的視覺效果非常吻合。
無獨有偶,Etna模型背後的技術架構,也特別強調了對輸入文字的深度理解。
借鑒了Sora模型的成功經驗,Etna能夠更準確地捕捉和轉化文字訊息為影片內容,使得生成的影片不僅忠實於原文意圖,還能豐富展現文本的細微情感和場景。
例如,開頭那隻冠鴿的prompt就是:
這張維多利亞冠鴿的特寫照片展示了它引人注目的藍色羽毛和紅色胸部。它的羽冠是由精緻的花邊羽毛製成的,而它的眼睛是醒目的紅色。鳥的頭微微向一側傾斜,給人一種帝王的威嚴的印象。背景是模糊的,吸引人們注意到這隻鳥引人注目的外表。
可以看到,Etna生成的冠鴿不僅非常忠實於prompt,而且鳥首微頷、帝王般的威嚴感,也都還原得十分到位,表現出了細膩的控制能力。
與早期的視訊生成模型相比,Etna在視訊清晰度和影像細節方面取得了顯著進展。
這意味著Etna能夠產生高品質的視訊內容,每個場景的細節都被精細呈現,為觀眾帶來身臨其境的視覺享受。
最後,Etna模型特別著重訓練資料的質量,採用影片而非靜態圖片作為主要訓練材料,透過高效的處理方法優化了學習效率。
傳統模型主要採用的是靜態影像作為訓練數據,而Etna模型的方法,更符合其生成目標的本質。
透過優化的patch處理方法,Etna模型在訓練過程中能更有效地理解並模擬動態場景,進而提升最終影片的自然度和真實感。
具體來說,Etna模型在一個大型視訊資料集上進行了充分訓練,製程採用了先進的深度學習技術策略,包括LDS大規模訓練、複雜HPO超參數優化和DPO微調,確保了模型的強大性能和生成能力。
對此,手握多年技術累積的七火山,也有了全鏈路的佈局。
現在大家已經切實地感受到,AI多模態大有可為,而七火山已成為頭部平台的AI內容戰略夥伴。
它的產品形態兼具toB和toC模式,整合了AI系統能力,全面進軍AI短劇製作領域。
七座火山的AI多模態佈局,除了有Etna之外,還包括Lava、miniTV和Bromo。
其中,Lava是一個短劇AI翻譯系統,可以完成角色換臉、對白配音、字幕翻譯。
miniTV是一個AI短劇出海分送平台。
它聚合了AI短劇內容,與平台共同探索內容出海新模式。
Bromo是圖片超分工具。它的圖生圖可達最高10K的超高解析度,滿足商業海報的水準。
AI視頻,將顛覆整個產業
目前,七火山已經獲得了來自上市公司超訊通訊的策略性投資,後者因此成為持股30%的單一大股東。
從去年初開始,超訊通訊就開始尋找AIGC垂類新銳企業進行佈局,在跟一系列AI多模態、AI應用落地公司接觸後,確定了投資七火山。因此,七火山在算力上也能得到充分支持。
短劇爆火海內外的這一年,七火山也獲得了幾家大廠的青睞。
首先,七火山已與小米就AI影片達成合作,發揮自己在短影片創作、短劇出海在地化、劇本創作、影片優化等方面的豐富經驗優勢。
此外,七火山和快手海外SnackVideo也有合作,將透過前沿AI技術,實現內容在地化,為海外用戶帶來各種琳瑯滿目的短劇。
隨著TikTok、Instagram Reels和Snapchat等平台的興起,短片近年來人氣迅速飆升,成為當今的數位生態系統中最受歡迎、最重要的內容之一。
無論是在快節奏的現代生活中,輕鬆吸引人們注意力的優勢,或是病毒式傳播的可能性,都讓它的影響力日漸擴大。
許多業內人士公認,短影片就是線上內容的未來。其中短劇這一形態,更是創造了一個又一個爆款奇蹟,今年的市場規模將超過500億。
而在去年,中國的出海短劇就已經在海外“殺瘋了”,成為掘金藍海新賽道。根據國海證券的調查,短劇出海的長期空間可達360億美元。
這麼看,七火山妥妥是潛力股了,前景無限。(新智元)
參考資料:
https://arxiv.org/abs/2402.17177
https://arxiv.org/abs/2212.09748
https://etna.7volcanoes.com/