太震撼了！美國Sora新版本發佈，留給“中國Sora”們的時間不多了

2024/12/10

•

“改變世界的產品”來了。

鈦媒體AGI獲悉，台北時間12月10日凌晨，美國OpenAI公司推出 AI 文生視訊模型Sora的新版本Sora Turbo，稱其比2月預覽的Sora模型更快，可生成最高1080p解析度、最長20秒視訊，支援使用者輸入文字或上傳圖像，並上線全新UI介面，以便對生成視訊進行修改、建立、擴展、循環、混合，或用文字生成全新的內容。

OpenAI稱，Sora Turbo將免費提供給ChatGPT Plus和Pro使用者，Plus使用者每月最多可以生成50個480p解析度視訊，每月20美元（約合人民幣145元）；Pro訂閱者則最多可生成500個視訊，並支援20秒時長、1080p解析度，可下載無水印版視訊，對應每月費用200美元（約合1450元）。

作為OpenAI的重要世界模擬器，你可以看到，上面這組Sora演示畫面能夠實現一致性和動作連貫性，流暢度也比之前Sora預覽版高很多。

OpenAI CEO奧爾特曼（Sam Altman）表示，“視訊對 OpenAI 來說很重要，我想分享三點：首先，我們熱衷於為創作者打造工具。這種創造文化對我們至關重要，也是我們希望人類利用 AI 的方式之一。在早期測試者中，我們觀察到一種新型的協作創作動態，這不僅有趣，而且顯示了 AI 創意工具的潛在使用模式；第二，我們不希望這個世界只是科技。如果 AI 系統主要通過文字來與人互動，我認為我們錯過了一些重要的東西。我們希望我們的 AI 能理解並生成視訊，我認為這將深刻改變我們使用電腦的方式；第三，這對我們的AGI路線圖至關重要。視訊將是一個重要的環境，我們或AI將在這裡學習到很多關於如何實現我們在世界上所需的目標。”

國內對於此次Sora Turbo的發佈看法不一。

多位 AI 行業人士向鈦媒體App表示，這是改變下一個 AI 視訊生成領域的新契機。也有 AI 視訊領域技術專家王海（匿名）對鈦媒體App坦言，“此前先機都已經被OpenAI‘清零’，今天對於國產AI視訊生成行業來說可能是一場‘噩夢’。”

事實上，隨著Sora預覽版公佈，過去300多天引爆了全球 AI 視訊創業熱潮，國外Runway、Pika、HeyGen都曾聲稱可以超越Sora，字節、快手、阿里、騰訊等網際網路科技巨頭也紛紛公佈 AI 視訊產品，使用者超過百萬；智譜、生數、愛詩科技、智象未來等AI 視訊初創公司則已經開始從產品轉向商業化。AI 短劇導演陳坤曾透露，AI使得的製作周期從通常的3-6個月縮短到了2個月，成本達到傳統製作流程的1/4以下。

生數科技聯合創始人、CEO唐家渝早前向鈦媒體App表示，“整體上來講，我們（中國）追趕Sora肯定比追趕GPT-4容易一些。今年一定能達到Sora目前版本的效果，很難說是三個月還是半年（笑），但這件事我們的信心還是非常足的。”

一場與Sora的中美 AI 視訊生成競爭已經爆發。

生成一個視訊0.75元、市場規模將超180億，視訊大模型正加速競賽

“為什麼AI視訊生成這種產品，優愛騰（優酷、愛奇藝、騰訊視訊）和B站不做，卻被快手可靈做了出來？”

早前一場私下討論中，有投資人對一位即將做 AI 視訊生成的創業者進行上述質詢。他認為，這輪 AI 視訊生成的機會已經與傳統網際網路視訊領域有很大不同，優酷、愛奇藝、騰訊視訊都不再做 AI 視訊領域，但影視行業卻看到了發展需求。

2024年2月，OpenAI發佈視訊生成模型Sora，首次由 AI 生成了長達1分鐘的多鏡頭長視訊，輸入寥寥數語便能生成效果炸裂視訊，鏡頭感堪比電影，震驚全球。

隨後，全球掀起了一場關於Sora的討論風暴，猶如兩年前的ChatGPT爆火，大量 AI 公司以做“中國版Sora”為目標，眾多企業、教授、網際網路大廠都下場參與其中。

清華大學電腦科學與技術系博世AI教授、生數科技創始人兼首席科學家朱軍，曾任字節跳動AI Lab總監、愛詩科技創始人王長虎，前京東集團副總裁、加拿大工程院外籍院士、智象未來創始人梅濤，新加坡國立大學校長青年教授、潞晨科技創始人尤洋等人都已進入 AI 視訊這一“紅海”賽道當中創業。

事實上，紅杉資本2023年發佈的一篇關於生成式 AI 發展處理程序的預測報告中表明，在歷經文生文、文生圖的升級迭代後，底層大模型技術迭代放緩，因此，視訊方向將是 AI 領域需要重點關注的方向之一，因為視訊雜糅了文字、語音、圖像等多維度內容，有更多的想像空間。

所謂生成式 AI 視訊生成，就是通過電腦視覺、機器學習、ViT架構等多種AI技術手段，可實現視訊內容生成過程的自動化。

無論是文生視訊，還是圖生視訊、視訊生視訊，AI 驅動的視訊生成工具的使用不斷增加，將有助於增強視訊製作工作流程，為影視、遊戲、培訓與教育、行銷與廣告、社交媒體等領域發展提供更多增長空間。

據Fortunebusinessinsights資料，2024年，全球 AI 視訊生成市場規模預計達6.148億美元，預計到2032年，整個市場規模將超過180億元，增至25.629億美元（約合人民幣186.36億元），年複合增長率19.5%，市場前景廣闊。

早在Sora發佈之前，2023年1月起，Runway、Genmo、輝達、Pika等海外公司都迅速公佈 AI 視訊生成和多模態技術產品。而隨著Sora爆火，AI+視訊技術和產品正在迅猛升級迭代，諸如電影、廣告、視訊剪輯、視訊串流媒體平台、UGC 創作平台、短影片綜合平台等眾多行業有望受益。

截至目前，國內 AI 視訊生成參與方主要分為三類：

智譜、生數科技（清華系）、愛詩科技、智象未來HiDream（中科大系）等初創公司和產業鏈上下游企業；
快手、字節跳動、騰訊、阿里等擁有短影片和 AI 技術的網際網路科技龍頭；
TeleAI、智源等央國企搭建的AI研究院和新型研發機構。

在這其中，智譜、生數、愛詩科技、智象未來這些初創公司都已經從技術迭代轉向了商業化變現，而快手、騰訊、阿里都已逐步為C端提供服務，像騰訊已表達“不急於商業化”的態度。

商業化層面，AI視訊生成提供To C端、To B端服務兩種。如今，不少AI產品已經開始進軍海外，並且推出了較為完備的會員付費體系，快速進行商業化變現。

C端層面，快手可靈、字節即夢、智譜清影、生數Vidu都提供每月的付費服務，或者是有一定限額免費生成AI視訊；而B端層面，快手可靈、字節即夢（火山引擎）、生數Vidu、愛詩科技、智象未來等都提供API介面和相關解決方案服務。

以愛詩科技為例。

愛詩科技銷售負責人王平（化名）告訴鈦媒體App，其主要售賣長達5秒的PixVerse V3和V2.5版本，V2.5版本價格低至每次呼叫API價格為0.75元/張，一次生成5張左右，也就是3.75元；V3版本提供2倍的價格，即每次呼叫API價格為1.5元/張，也是一次生成5張，也就是7.5元一次，如果有新功能價格則增加一倍。

同時，愛詩科技需要與企業簽訂電子版合作協議，預付費價格包括1.5萬元/3萬元/12萬元幾個檔位，最高可享受8折優惠，如果有新功能價格則增加一倍，當然這也包括一些合同時間限制。

王平強調，愛詩科技這種價格檔位是行業裡面最低的，低於其他競爭對手（生數、可靈）的報價，但性能效果和其他同行差不多。

唐家渝透露，目前生數Vidu To B版本向每位客戶（API）的每月使用費可以從10萬到100萬元，大部分是預付費方式，客戶包括影視、網際網路、行銷廣告等領域；而To C端，Vidu提供免費版和3種收費機制，按月度訂閱，標準版、高級版、尊享版價格依次為19.99美元、59.99美元、199.99美元（約合人民幣145.22元、435.80元、1452.83元），按年訂閱價格95.99美元起，可去水印和商用，並且擁有更多新功能。

同樣是清華系的智譜AI，公佈支援生成6秒時長的 AI 視訊生成產品“清影”，目前也已經公開測試和開源，付費模式層面，如果加速時間，付費5元，解鎖一天（24小時）的高速通道權益；付費199元，解鎖一年的付費高速通道權益。

然而，由於技術尚未足夠成熟，目前市面上的文生視訊模型仍然存在一些缺陷。

例如，生成視訊在畫質、細節、真實感等方面仍與真實視訊存在差距，且使用者對視訊生成過程的控制能力有限，只能通過修改文字提示來間接影響視訊生成效果，而文字與視訊的語義匹配度不足，也會導致生成效果不及使用者預期。

此外，國內 AI 視訊生成產業鏈依然不成熟，面臨算力稀缺、資料需要多輪訓練等情況。而且，AI 視訊成本也很高，整個經濟下行導致市場需求低於預期，很多企業已經把商業化轉向了KA級大客戶和大項目，但這種大型項目回款較難，所以生數、智譜等 AI 企業都在其中尋找“商業化平衡”。

鈦媒體App則瞭解到，有一家國內 AI 視訊生成公司於去年成立，就已經從企業客戶處獲得4000萬元的收入，今年預計該公司銷售收入將超過1億元，原因是他們盯上了一塊更大的蛋糕：AI 短劇市場。

短劇近年來太火，打開App Store應用程式商店，榜首基本被短劇應用霸佔。使用者就愛這種幾分鐘的“快餐”，劇情快，看著過癮。市場規模方面，2023年，短劇就已經到了373.9億元，比前年暴增267.65%，這一數字已經頂得上電影票房的七成了，今年預計還要突破500億，直逼電影市場。

有行業人士私下向鈦媒體AGI解釋稱，越南等東南亞市場擁有大量短影片和短劇市場需求，很多連續劇需要配音翻譯、非事實性視訊輸出，這些都已需要 AI 視訊技術的加持，目前AI短劇單一訂單價格基本在數億元規模。

多位 AI 領域行業人士表示，目前初創企業對於項目的商業“轉化率”要求越來越高，而且對於商業化訴求極為強烈，有一些 AI 視訊生成企業甚至進入到上游算力賽道、下游影視公司賽道進行議價，通過“打包”方式獲得更大的機會點。

AI生成視訊仍無法徹底替代影視行業

“為什麼美國的網際網路大廠，沒有每個人都做一個視訊生成模型，而中國的騰訊、字節卻在做？”最近，一位AI視訊行業人士向鈦媒體App吐槽稱，國內 AI 視訊生成領域也開始“卷”起來了，價格戰、輿論戰、銷售戰都在爆發，但微軟、Google、Meta這些美國科技巨頭卻沒有任何視訊模型產品。

很顯然，從算力、演算法和資料成本角度考量，中國網際網路巨頭進入 AI 視訊大模型領域，加速商業化，尋找落地場景，已經與美國 AI 視訊領域出現不同的“打法”。

智譜AI CEO張鵬則認為，AI生成視訊無法徹底替代影視行業，真正進入電影尚需時日。“AI行業對多模態模型的探索還處於初級階段。”

但 AI 視訊“替代”之路正無限接近成為現實。

12月4日晚，GoogleDeepMind團隊發佈大型基礎世界模型Genie 2，聲稱可以生成各種一致的世界，可玩時間長達一分鐘，無論是視訊生成效果，還是表現形式，都超出了普通AI視訊生成的水平。

事實上，相對於OpenAI、Luma AI這些視訊模型、多模態模型平台，Google、Meta等巨頭都在瞄準一個 AI 未來的賽道：世界模型，而非多模態技術。而Google在今年5月發佈的AI視訊模型Veo如今已經開始內測。

此外，作為AI領域影響力最大的女性華人之一，斯坦福大學教授李飛飛於當地時間12月2日公佈了其首個創業項目World Labs的成果——能用單張靜態圖片生成3D世界的AI產品。

在World Labs網站的演示裡，由AI生成的場景均通過瀏覽器即時渲染而成，使用者可以使用箭頭鍵或鍵盤（WASD）鍵移動，然後點選並拖動滑鼠實現互動，從而自由探索場景。World Labs的AI工具配備了可操控的滑塊來調節模擬景深（DoF）與模擬推拉變焦（dolly zoom），當使用者將景深效果調至越強時，背景中的物體便會越發模糊，為整個視覺體驗增添了更多層次感與真實感。

如今，AI 視訊取代傳統影視製作的潮流已勢不可擋。

今年6月，繼好萊塢編劇在大罷工中要求限制AI撰寫劇本之後，代表好萊塢演員權益的美國演員工會-美國電視和廣播藝人聯合會（SAG-AFTRA）表示，AI 在影視行業確有用武之地，但必須在演員同意並付費的前提下使用，譬如在電腦生成的動作、表情捕捉畫面上，“AI應該是輔助、增強人類，而不是取代人類”。

因此，美國演員工會認為，應該在影視製作中約束 AI 的使用，以便保護好“人類員工”。就在今年12月，好萊塢級AI視訊《Dream Machine》預告片公佈，引發關注。

回到國內，今年12月3日，騰訊混元大模型宣佈上線文生視訊（text-to-video）能力，基於130億參數，成為國內規模最大AI視訊模型，並聲稱模型效果擊敗Runway Gen-3、Luma 1.6等；同日，中國電信公佈文生視訊產品。

如今，隨著 Sora Turbo的發展，AI 視訊生成這一新興市場競爭將更為激烈。

留給“中國版Sora”們趕超的時間真的不多了。 (鈦媒體AGI)