價格戰開打！AI視訊的“DeepSeek時刻”還遠嗎？

2025/03/24

•

在今年春節期間DeepSeek帶來的狂飆突進之後，全世界都在尋找下一個DeepSeek。

2月底，阿里通義萬相Wanx 2.1模型開源，僅6天後就反超DeepSeek-R1，登頂模型熱榜、模型空間榜兩大榜單。此後，騰訊混元、階躍星辰、崑崙萬維等新的開源視訊生成大模型陸續有來。

“下一個DeepSeek”，會誕生在AI視訊這個領域嗎？

不僅是專業AI影片創作者，也包括傳統影視工業，短劇產業鏈，以及網文平台等IP所有者，都對此高度關注。

所謂“下一個DeepSeek”可以簡單理解為“模型效果位於第一梯隊+開源”。最核心的問題在於，一個足夠優秀的開源視訊大模型，會不會讓現在的視訊生成頭部平台大幅度讓利，讓視訊生成變成“白菜價”？

而果真如此，之後又會有什麼連鎖反應？

開源兇猛

事情首先要從X（推特）上面突然多出來的一大堆AI美女視訊說起。

阿里巴巴於2月25日宣佈開源通義萬相2.1視訊生成模型，不僅鞏固了中國在全球AI開源領域的領先地位，更是引爆了技術愛好者的激情。

據介紹，該模型支援文生視訊、圖生視訊任務，通過低視訊記憶體需求降低技術門檻，並支援無限長1080P視訊編解碼，14B版本在權威評測Vbench中超越Sora、Luma等海外知名模型。

但是更重要的是，Wanx 2.1模型不僅在開源許可方式上極為寬鬆，模型本身也有很多能力是之前的開源，乃至很多閉源模型難以做到的。

它是“全球首個支援中文文字特效生成”的視訊模型，能深度理解“中國風”指令（如生成水墨暈染的“福”字視訊）。它可以精準模擬物理規律（如雨滴濺落的動態效果）。

而經過X的網友實測，它對於一些特定指令，在模型層並沒有遮蔽太多的關鍵詞，所以生成的內容也更為開放和多元，驅動了大量的“自來水”傳播。

萬相2.1開源後6天內即登頂Hugging Face趨勢榜，也就是DeepSeek在爆火出圈之前已經在的那個榜單。它與此後開放原始碼的文字大模型QWQ-32B先後霸榜，阿里也被一些開發者稱為“源神”。

開源鯰魚攪動市場，國內其它一些重要的開源視訊大模型也在這幾個月內密集發佈：

騰訊混元HunyuanVideo-I2V 已開源推理程式碼和權重，有130億參數，支援5秒短影片生成，新增對口型、舞蹈動作驅動功能，支援中英文生成，宣稱在文字一致性、運動質量等維度表現領先。

階躍星辰 Step-Video-T2V 開源模型支援複雜場景生成，實測中在人物動作和物理規律方面，如芭蕾舞動作的生成等表現較優。

崑崙萬維 SkyReels-V1 面向AI短劇創作，基於13B參數微調好萊塢影視資料，支援T2V和I2V，生成電影級光影和表情動作，開源一周內Hugging Face下載量超2.4萬次。其短劇應用DramaWave和FreeReels全球下載量達2309萬次，內購收入流水超780萬美元，如果其中實現實拍和AI短劇混合推送，那麼盈利空間確實不小。

相應地，閉源的視訊大模型也不甘落後。1月底，生數科技公佈Vidu 2.0 版本，生成速度最快不到10秒，單秒視訊成本僅需"4 分錢"；官網同時推出錯峰模式（低峰時段不限量生成，且不扣積分）。

生數近日動作頻頻，先是老總唐家渝挖來原字節火山引擎AI解決方案負責人駱怡航加盟，並出任新的CEO；然後又入住聯想小天，走向PC預裝的拉新之路，還跟兩位好萊塢導演組建的一個新動畫工作室聯手，打算合拍一些AI動畫大片。

字節除了主打即夢品牌之外，去年底開始也在大力地推的“豆包”客戶端試水視訊生成入口，並在今年春節前後全量上線。豆包的視訊生成功能免費，但每天限制10次；跟即夢相比，在清晰度和能力上也有一些限制。

價格戰前夜？

DeepSeek通過技術最佳化，將原本高高在上的推理模型全面普及，且成本大為壓縮，API定價僅為OpenAI同類模型的3%。

這迫使國內外閉源大模型廠商緊急調整。OpenAI緊急將GPT-4.5、深度研究等功能從200美元一個月的最高檔會員下放，o1也釋放了思維鏈供使用者參考。百度原本收費50元一個月的文心一言會員4月1日起全面免費。阿里通義、騰訊混元大模型API價格下調至每百萬tokens 0.1元區間。

目前，作為國內視訊生成領域兩大“扛把子”，可靈和即夢這兩個平台的會員定價非常堅挺，分別是66元/月和69元/月。雖然包年略便宜，有時也會有折扣，但總體上單次生成的費用在約0.6元/秒。

由於缺乏局部修改功能，創作者需依賴隨機生成後“抽卡”完成內容製作，單個鏡頭動不動就要反覆生成幾十次。

由傳統廣告公司轉型AI短劇的夫子AI團隊介紹，他們開通了可靈和即夢的包年會員，兩家年費合計5594元（平均每月約466元）。他們製作的AI短劇《我在陰間送外賣》，單個鏡頭需「抽卡」30次以上，每次花費約3.5元，單鏡頭成本超100元，整部短劇製作成本約5000元，最終播放量超90萬，儘管沒有直接收入，但也吸引了商業客戶詢單。

由廣告人轉型AI科幻短片的希希叔叔，選擇製作非系列化的單集短片如《失敗者宇宙》，降低對畫面一致性的高要求。他每月花費約200元開通可靈+即夢會員，單部短片成本控制在2000元以內。作為個人創作者，他通過會員積分和「閒時折扣」壓縮成本，一部短片的製作周期約7天。

由UI設計師轉型AI短劇的丹尼，主要依賴本職工資支撐創作。他製作的《白骨精前傳》抽卡花費約5000-6000元，平均每月投入超1000元。丹尼嘗試過海外服務，但Runway的價格是可靈的10倍（約1美元/5秒視訊），因此堅持使用國內平台。

對比海外定價，國外平台費用平均約為國內5-6倍（就像是國內1元=國外1美元）。至於Google最新發佈的Veo 2視訊生成模型，每秒0.5美元的定價更為離譜，4秒鐘就15塊錢了。

參照DeepSeek引發的“按釐計價”風潮，一個足夠普及的視訊生成大模型，有望逼迫頭部閉源模型的API價格下降到原本的1/10；企業服務則可能從萬元級的項目制，轉向百元級的訂閱制就能滿足，“大模型施工隊”二次失業在即。

若開源視訊大模型復刻DeepSeek路徑，當前可靈、即夢等，乃至Sora、Veo等海外模型的商業模式就都有可能面臨巨大的挑戰。

視訊的特殊性和普遍性

萬相2.1雖好，但還真的沒到DeepSeek那種連友商都要接入的程度，所以暫時價格戰還沒有打起來。實際上，現在市面上任何一個AI視訊大模型，其效果都還沒到能完全頂替真人實拍的程度，其中“油性”或者說“AI味兒”還是相當重的，就更不用說亂碼和鬼畫符的幻覺問題了。

即使有商業化的心思，人們也不敢貿然給AI短片配上跟人工短片一樣的價格。湖南颱風芒App播出的《興安嶺詭事》的製作成本60萬，全集解鎖只需要5.9元，跟真人微短劇顯然不在一個檔次。該劇最終播放量鎖定在5000萬次的量級。

有人樂觀地將萬相2.1比作DeepSeek的V3或者V2時刻，期待著一個視訊版“R1”會駕著七彩祥雲從天而降，帶來業界期盼已久的衝擊。

不過，實際情況可能無法如此簡單類比。

目前國內AI影片創作者主要使用的平台，實際上各有特色。可靈的核心優勢在於真實的人類動作與高畫質晰度。可口可樂廣告團隊認為可靈生成的人類動作更自然，且畫面清晰度領先於其他工具（如Leonardo、Runway）。

在娛樂資本論此前的報導中，創作者董嘉琦提到可靈對文字的語義理解能力更強，模型迭代快，能快速響應複雜需求；擅長生成符合東方審美的場景和人物，適合廣告、短劇等需要真實感和高完成度的場景。

創作者朱旭評價，即夢對物理世界的運動邏輯（如物體碰撞、光影變化）模擬更精準，適合現實類短片、紀錄片風格內容。即夢也較早推出首尾幀控制功能。

生數Vidu在動漫風格化、多主體參考功能上表現突出（如生成多角色互動鏡頭）。正如它在《毒液：最後一舞》的水墨宣傳片體現的，生成的鏡頭運鏡更具創意，適合抽象或藝術化表達。因此它受到二次元動畫、藝術實驗短片作者的歡迎。

Runway、Luma等國外工具則常被用於歐美風格的創作。

所以，專業視訊團隊的工作流很難完全脫離對定價很貴的“兩巨頭”的慣性使用，正如在作圖領域有豆包的替代，但MidJourney或Recraft的特定風格依然有一定依賴性一樣。

現在開源視訊模型的發展還不到DeepSeek那個程度，但視訊生成領域的一場價格戰，可能已經箭在弦上。

同屬閉源模型的生數科技Vidu，在推出2.0版以後也上線全新的收費套餐，直接將每秒單價成本降至最低4分錢。以各家720P每秒單價計算，Vidu 2.0為 0.258元/秒，是行業平均價格的不到一半；而且官網“錯峰模式”在半夜抽卡，甚至是全免費。

去年底，生數科技投融資負責人樊家睿對娛樂資本論表示，今年Vidu預計在生成速度、多元一致性和多模態真正融合方面會有重大突破。“生成速度方面，Vidu將進一步“逼近極限”。把速度提上來，意味著把性價比提上來，AI視訊生成會更普及、更高效。”

全網都在考慮“你們大模型全開源了，那到底咋掙錢啊”的問題。不過就算沒有開源震撼彈，閉源廠商一樣會卷價格，因為視訊大模型背後沒有秘密。

正如Manus聯合創始人張濤此前所言，光鮮亮麗的Sora背後也是“大算力出奇蹟”的常規路線，是算力、演算法、資料堆疊而成的結果。各家閉源廠商用常規的步伐，已經可以快速走量，壓低價格。

年初震撼業界的Sora最後是“起個大早，趕個晚集”。在國內視訊生成模型的軍備競賽中，效果迅速到達世界領先水平，得到了全球客戶的認可。去年聖誕節可口可樂的廣告使用了可靈作為主力工具。

根據AI產品榜統計的2月份應用（不含網站端，下同）資料，可靈海外版在全球認知更高，佔到出海總榜的第12位，海外版的月活環比增幅也達到90.55%。相比之下，曾經的當紅炸子雞Luma月活下降了31%，是2月份統計中降速最大的應用。

現在的問題顯然是，這個賽道里的參與者還不夠多。

API和本地部署問題

影響定價的另一個變數是，如果雲端運算平台放開了部署一些視訊大模型的API，或者使用者在自己的電腦上裝稍微小一點的模型，使得普通視訊的製作成本降低，會不會牽動頭部模型降價？

DeepSeek官網和官方API在春節期間被突然湧入的流量衝擊到癱瘓，但所謂“一鯨落，萬物生”，雲端運算提供商早一天部署R1，用量早一天暴漲。

微軟、騰訊、百度均一反常態，第一時間在雲服務和C端產品兩方面接入DeepSeek。矽基流動的日均呼叫量突破千億token，較半年前增長十倍，從名不見經傳的小型雲一下變得路人皆知。

現在來看視訊生成模型方面。近期比較出名的開源模型，都已經在HuggingFace和魔搭等地開放使用。如果廠商有自己的雲，也會第一時間上線部署。

作為不自帶雲的小廠，階躍的模型和Vidu等類似，都是優先服務於自家官網平台，目前首要任務還是獲得更多人的接觸和使用。

不過，所有這些服務都沒有出現那種“國運等級”的用量暴漲。

當然，中小型雲服務商很樂意接入儘可能全面的開源模型，以便將使用者鎖定在自己的服務內。去年11月，矽基流動上線了由Lightricks開放原始碼的視訊生成模型LTX-Video，這是一個基於DiT架構的2B參數模型，能夠在832*480解析度下生成24 FPS的視訊。

但另一個現實問題是，對視訊生成模型API的呼叫，目前還缺乏一個普遍的方案。Chatbox、Cherry Studio等網頁UI或客戶端，都只覆蓋了文字對話或者文生圖介面，對視訊生成的介面、參數等尚未統一。

而且，從文字、圖片到視訊，其token的消耗和浪費程度是倍數上升，相對的使用者用量也逐級下降。

視訊還有一個額外問題，只要預覽每次“抽卡”成果，都可能帶來很大的伺服器負擔。娛樂資本論之前探討為什麼國內視訊網站的畫面都是“糊的”，曾經提到了平台出於伺服器成本壓力，不得不降低位元率，用銳化等方法矇混過關的苦衷。

雲服務商自己也需要做一些性能調優，例如矽基流動的OneDiff加速庫，據說可以使Stable Diffusion出圖效率提升3倍。不過如何將類似經驗遷移到視訊上，真正做到給普通使用者省錢，形成對商用模型的競爭態勢，現在還沒個譜。

至於本地部署——在自己的電腦放一個模型，當然是免費不限量的，但之前的問題是要麼笨，要麼慢。

DeepSeek-V3和R1有大量社區使用者結合llama、qwen進行蒸餾，使其有機會運行在PC、Mac甚至手機上面。這是兩年多以來，使用者終於可以斷網運行一個基本可用的模型，本地大模型不再是“樣子貨”。

但是在圖片和視訊生成方面，還沒有迎來這樣的時刻，目前本地小模型依然處於用起來很困難的狀態。使用者可以在本地部署Stable Diffusion已經有很長時間了，但Midjourney一直也沒有因此而降價。

通義萬相2.1小型的1.3B版本可在消費級顯示卡（如RTX4090）運行，生成480P視訊僅需4分鐘——但沒有人向你保證本機生成480P視訊可以解決畫質、一致性、細節和幻覺問題。

總之，視訊和圖片一樣，如果一次生成不可局部修改，必須“抽卡”的局面不改變，那麼現有模型僅憑畫風及連續性上的細微區別，就會一直維持各自的江湖地位。

AI視訊創作徹底下沉

根據AI產品榜2月份應用資料，國內總榜中即夢排行第9，月活環比增加106%；Minimax的海螺第19（不過這是分拆改名之前的資料），環比月活也增加10%，同時海螺以日均使用時長6.63分鐘排在國內時長榜的第2位；可靈獨立客戶端第23，月活環比增加113%。

這意味著過去一個月，一些頭部視訊生成大模型的C端使用都有了大幅度增長。App的增速上升，無疑也意味著視訊製作的下沉，因為專業創作者更喜歡用Web端來生成。

隨著豆包和元寶這兩個通用AI客戶端都加入了視訊創作功能，更多下沉使用者認知到AI視訊，並且在日常生活中嘗試，只是時間問題。

在娛樂資本論 ·視智未來的《對話AI創業者》節目中，閃剪智能的創始人嚴華培提到，由於演算法最佳化和技術更新，數字人的製作定價從最初的一個8000元，降至去年8月時的300多元。通過訂閱制，會員可以付費後多次修改數字人形象。

但如果是以大模型路線，而不是傳統數字人路線來做，那麼數字人可能就會低至幾塊錢甚至免費了，它可能會從大廠和媒體，降到網店老闆之後，進一步下沉到菜市場的攤主。

回想DeepSeek發佈之後，似乎有很多人的“任督二脈”突然被打通。它觸達了以前可能從未接觸過、也從未想像過的圈層。

父母輩使用DeepSeek詢問子女的婚姻解法，年輕人則為自己算命、購買開運寶石，或是通過聯網搜尋充當購物導購。也有越來越多AI網文充斥各大平台，使人類作者和編輯感到痛苦。

在抖音快手等將拍短影片的自由下放給所有人之後，視訊大模型的快速普及將是“技術民主化”的又一次飛躍。

事實證明，一項技術不是要等到發展成熟了才向下推廣。當前的視訊生成還存在清晰度、幻覺等嚴重的問題，但這可能並不是海量普通人在使用時會考慮的問題。

近期一些典型的“AI造謠”案件，不論是地震中小孩子的假圖片，還是娛樂資本論曾經揭露的“江西幫”炮製所謂“西安爆炸”假新聞，無一例外，並沒有嘗試做得特別逼真，只是用了最簡單的，甚至是兩三年前的過期AI技術。

當"抽卡自由"徹底釋放人類的表達欲，視訊內容將會匯入文字和圖片的洪流，它們早已跟AI難解難分。我們和我們的後代所處的世界，將被生成式內容共同塑造和改變。 (娛樂資本論)