“改變世界的產品”來了。
鈦媒體AGI獲悉,台北時間12月10日凌晨,美國OpenAI公司推出 AI 文生視訊模型Sora的新版本Sora Turbo,稱其比2月預覽的Sora模型更快,可生成最高1080p解析度、最長20秒視訊,支援使用者輸入文字或上傳圖像,並上線全新UI介面,以便對生成視訊進行修改、建立、擴展、循環、混合,或用文字生成全新的內容。
OpenAI稱,Sora Turbo將免費提供給ChatGPT Plus和Pro使用者,Plus使用者每月最多可以生成50個480p解析度視訊,每月20美元(約合人民幣145元);Pro訂閱者則最多可生成500個視訊,並支援20秒時長、1080p解析度,可下載無水印版視訊,對應每月費用200美元(約合1450元)。
作為OpenAI的重要世界模擬器,你可以看到,上面這組Sora演示畫面能夠實現一致性和動作連貫性,流暢度也比之前Sora預覽版高很多。
OpenAI CEO奧爾特曼(Sam Altman)表示,“視訊對 OpenAI 來說很重要,我想分享三點:首先,我們熱衷於為創作者打造工具。這種創造文化對我們至關重要,也是我們希望人類利用 AI 的方式之一。在早期測試者中,我們觀察到一種新型的協作創作動態,這不僅有趣,而且顯示了 AI 創意工具的潛在使用模式;第二,我們不希望這個世界只是科技。如果 AI 系統主要通過文字來與人互動,我認為我們錯過了一些重要的東西。我們希望我們的 AI 能理解並生成視訊,我認為這將深刻改變我們使用電腦的方式;第三,這對我們的AGI路線圖至關重要。視訊將是一個重要的環境,我們或AI將在這裡學習到很多關於如何實現我們在世界上所需的目標。”
國內對於此次Sora Turbo的發佈看法不一。
多位 AI 行業人士向鈦媒體App表示,這是改變下一個 AI 視訊生成領域的新契機。也有 AI 視訊領域技術專家王海(匿名)對鈦媒體App坦言,“此前先機都已經被OpenAI‘清零’,今天對於國產AI視訊生成行業來說可能是一場‘噩夢’。”
事實上,隨著Sora預覽版公佈,過去300多天引爆了全球 AI 視訊創業熱潮,國外Runway、Pika、HeyGen都曾聲稱可以超越Sora,字節、快手、阿里、騰訊等網際網路科技巨頭也紛紛公佈 AI 視訊產品,使用者超過百萬;智譜、生數、愛詩科技、智象未來等AI 視訊初創公司則已經開始從產品轉向商業化。AI 短劇導演陳坤曾透露,AI使得的製作周期從通常的3-6個月縮短到了2個月,成本達到傳統製作流程的1/4以下。
生數科技聯合創始人、CEO唐家渝早前向鈦媒體App表示,“整體上來講,我們(中國)追趕Sora肯定比追趕GPT-4容易一些。今年一定能達到Sora目前版本的效果,很難說是三個月還是半年(笑),但這件事我們的信心還是非常足的。”
一場與Sora的中美 AI 視訊生成競爭已經爆發。
早前一場私下討論中,有投資人對一位即將做 AI 視訊生成的創業者進行上述質詢。他認為,這輪 AI 視訊生成的機會已經與傳統網際網路視訊領域有很大不同,優酷、愛奇藝、騰訊視訊都不再做 AI 視訊領域,但影視行業卻看到了發展需求。
2024年2月,OpenAI發佈視訊生成模型Sora,首次由 AI 生成了長達1分鐘的多鏡頭長視訊,輸入寥寥數語便能生成效果炸裂視訊,鏡頭感堪比電影,震驚全球。
隨後,全球掀起了一場關於Sora的討論風暴,猶如兩年前的ChatGPT爆火,大量 AI 公司以做“中國版Sora”為目標,眾多企業、教授、網際網路大廠都下場參與其中。
清華大學電腦科學與技術系博世AI教授、生數科技創始人兼首席科學家朱軍,曾任字節跳動AI Lab總監、愛詩科技創始人王長虎,前京東集團副總裁、加拿大工程院外籍院士、智象未來創始人梅濤,新加坡國立大學校長青年教授、潞晨科技創始人尤洋等人都已進入 AI 視訊這一“紅海”賽道當中創業。
事實上,紅杉資本2023年發佈的一篇關於生成式 AI 發展處理程序的預測報告中表明,在歷經文生文、文生圖的升級迭代後,底層大模型技術迭代放緩,因此,視訊方向將是 AI 領域需要重點關注的方向之一,因為視訊雜糅了文字、語音、圖像等多維度內容,有更多的想像空間。
所謂生成式 AI 視訊生成,就是通過電腦視覺、機器學習、ViT架構等多種AI技術手段,可實現視訊內容生成過程的自動化。
無論是文生視訊,還是圖生視訊、視訊生視訊,AI 驅動的視訊生成工具的使用不斷增加,將有助於增強視訊製作工作流程,為影視、遊戲、培訓與教育、行銷與廣告、社交媒體等領域發展提供更多增長空間。
據Fortunebusinessinsights資料,2024年,全球 AI 視訊生成市場規模預計達6.148億美元,預計到2032年,整個市場規模將超過180億元,增至25.629億美元(約合人民幣186.36億元),年複合增長率19.5%,市場前景廣闊。
早在Sora發佈之前,2023年1月起,Runway、Genmo、輝達、Pika等海外公司都迅速公佈 AI 視訊生成和多模態技術產品。而隨著Sora爆火,AI+視訊技術和產品正在迅猛升級迭代,諸如電影、廣告、視訊剪輯、視訊串流媒體平台、UGC 創作平台、短影片綜合平台等眾多行業有望受益。
截至目前,國內 AI 視訊生成參與方主要分為三類:
在這其中,智譜、生數、愛詩科技、智象未來這些初創公司都已經從技術迭代轉向了商業化變現,而快手、騰訊、阿里都已逐步為C端提供服務,像騰訊已表達“不急於商業化”的態度。
商業化層面,AI視訊生成提供To C端、To B端服務兩種。如今,不少AI產品已經開始進軍海外,並且推出了較為完備的會員付費體系,快速進行商業化變現。
C端層面,快手可靈、字節即夢、智譜清影、生數Vidu都提供每月的付費服務,或者是有一定限額免費生成AI視訊;而B端層面,快手可靈、字節即夢(火山引擎)、生數Vidu、愛詩科技、智象未來等都提供API介面和相關解決方案服務。
以愛詩科技為例。
愛詩科技銷售負責人王平(化名)告訴鈦媒體App,其主要售賣長達5秒的PixVerse V3和V2.5版本,V2.5版本價格低至每次呼叫API價格為0.75元/張,一次生成5張左右,也就是3.75元;V3版本提供2倍的價格,即每次呼叫API價格為1.5元/張,也是一次生成5張,也就是7.5元一次,如果有新功能價格則增加一倍。
同時,愛詩科技需要與企業簽訂電子版合作協議,預付費價格包括1.5萬元/3萬元/12萬元幾個檔位,最高可享受8折優惠,如果有新功能價格則增加一倍,當然這也包括一些合同時間限制。
王平強調,愛詩科技這種價格檔位是行業裡面最低的,低於其他競爭對手(生數、可靈)的報價,但性能效果和其他同行差不多。
唐家渝透露,目前生數Vidu To B版本向每位客戶(API)的每月使用費可以從10萬到100萬元,大部分是預付費方式,客戶包括影視、網際網路、行銷廣告等領域;而To C端,Vidu提供免費版和3種收費機制,按月度訂閱,標準版、高級版、尊享版價格依次為19.99美元、59.99美元、199.99美元(約合人民幣145.22元、435.80元、1452.83元),按年訂閱價格95.99美元起,可去水印和商用,並且擁有更多新功能。
同樣是清華系的智譜AI,公佈支援生成6秒時長的 AI 視訊生成產品“清影”,目前也已經公開測試和開源,付費模式層面,如果加速時間,付費5元,解鎖一天(24小時)的高速通道權益;付費199元,解鎖一年的付費高速通道權益。
然而,由於技術尚未足夠成熟,目前市面上的文生視訊模型仍然存在一些缺陷。
例如,生成視訊在畫質、細節、真實感等方面仍與真實視訊存在差距,且使用者對視訊生成過程的控制能力有限,只能通過修改文字提示來間接影響視訊生成效果,而文字與視訊的語義匹配度不足,也會導致生成效果不及使用者預期。
此外,國內 AI 視訊生成產業鏈依然不成熟,面臨算力稀缺、資料需要多輪訓練等情況。而且,AI 視訊成本也很高,整個經濟下行導致市場需求低於預期,很多企業已經把商業化轉向了KA級大客戶和大項目,但這種大型項目回款較難,所以生數、智譜等 AI 企業都在其中尋找“商業化平衡”。
鈦媒體App則瞭解到,有一家國內 AI 視訊生成公司於去年成立,就已經從企業客戶處獲得4000萬元的收入,今年預計該公司銷售收入將超過1億元,原因是他們盯上了一塊更大的蛋糕:AI 短劇市場。
短劇近年來太火,打開App Store應用程式商店,榜首基本被短劇應用霸佔。使用者就愛這種幾分鐘的“快餐”,劇情快,看著過癮。市場規模方面,2023年,短劇就已經到了373.9億元,比前年暴增267.65%,這一數字已經頂得上電影票房的七成了,今年預計還要突破500億,直逼電影市場。
有行業人士私下向鈦媒體AGI解釋稱,越南等東南亞市場擁有大量短影片和短劇市場需求,很多連續劇需要配音翻譯、非事實性視訊輸出,這些都已需要 AI 視訊技術的加持,目前AI短劇單一訂單價格基本在數億元規模。
多位 AI 領域行業人士表示,目前初創企業對於項目的商業“轉化率”要求越來越高,而且對於商業化訴求極為強烈,有一些 AI 視訊生成企業甚至進入到上游算力賽道、下游影視公司賽道進行議價,通過“打包”方式獲得更大的機會點。
“為什麼美國的網際網路大廠,沒有每個人都做一個視訊生成模型,而中國的騰訊、字節卻在做?”最近,一位AI視訊行業人士向鈦媒體App吐槽稱,國內 AI 視訊生成領域也開始“卷”起來了,價格戰、輿論戰、銷售戰都在爆發,但微軟、Google、Meta這些美國科技巨頭卻沒有任何視訊模型產品。
很顯然,從算力、演算法和資料成本角度考量,中國網際網路巨頭進入 AI 視訊大模型領域,加速商業化,尋找落地場景,已經與美國 AI 視訊領域出現不同的“打法”。
智譜AI CEO張鵬則認為,AI生成視訊無法徹底替代影視行業,真正進入電影尚需時日。“AI行業對多模態模型的探索還處於初級階段。”
但 AI 視訊“替代”之路正無限接近成為現實。
12月4日晚,GoogleDeepMind團隊發佈大型基礎世界模型Genie 2,聲稱可以生成各種一致的世界,可玩時間長達一分鐘,無論是視訊生成效果,還是表現形式,都超出了普通AI視訊生成的水平。
事實上,相對於OpenAI、Luma AI這些視訊模型、多模態模型平台,Google、Meta等巨頭都在瞄準一個 AI 未來的賽道:世界模型,而非多模態技術。而Google在今年5月發佈的AI視訊模型Veo如今已經開始內測。
此外,作為AI領域影響力最大的女性華人之一,斯坦福大學教授李飛飛於當地時間12月2日公佈了其首個創業項目World Labs的成果——能用單張靜態圖片生成3D世界的AI產品。
在World Labs網站的演示裡,由AI生成的場景均通過瀏覽器即時渲染而成,使用者可以使用箭頭鍵或鍵盤(WASD)鍵移動,然後點選並拖動滑鼠實現互動,從而自由探索場景。World Labs的AI工具配備了可操控的滑塊來調節模擬景深(DoF)與模擬推拉變焦(dolly zoom),當使用者將景深效果調至越強時,背景中的物體便會越發模糊,為整個視覺體驗增添了更多層次感與真實感。
如今,AI 視訊取代傳統影視製作的潮流已勢不可擋。
今年6月,繼好萊塢編劇在大罷工中要求限制AI撰寫劇本之後,代表好萊塢演員權益的美國演員工會-美國電視和廣播藝人聯合會(SAG-AFTRA)表示,AI 在影視行業確有用武之地,但必須在演員同意並付費的前提下使用,譬如在電腦生成的動作、表情捕捉畫面上,“AI應該是輔助、增強人類,而不是取代人類”。
因此,美國演員工會認為,應該在影視製作中約束 AI 的使用,以便保護好“人類員工”。就在今年12月,好萊塢級AI視訊《Dream Machine》預告片公佈,引發關注。
回到國內,今年12月3日,騰訊混元大模型宣佈上線文生視訊(text-to-video)能力,基於130億參數,成為國內規模最大AI視訊模型,並聲稱模型效果擊敗Runway Gen-3、Luma 1.6等;同日,中國電信公佈文生視訊產品。
如今,隨著 Sora Turbo的發展,AI 視訊生成這一新興市場競爭將更為激烈。
留給“中國版Sora”們趕超的時間真的不多了。 (鈦媒體AGI)