#AI視訊
【十五五】重塑“視”界:AI視訊產業的戰略崛起與“十五五”發展藍圖
前   言如果說過去十年是移動網際網路重塑資訊傳播方式的十年,那麼站在“十五五”規劃開局之年的我們,正清晰地見證一場由人工智慧驅動的、更為深刻的視聽產業革命。AI視訊生成已從一個前沿概念,急速演進為驅動文化新質生產力、重構數字經濟版圖的核心引擎。從OpenAI的Sora引發全球驚嘆,到國內快手可靈、美圖等產品的快速商業化落地,再到《北京市促進“人工智慧+視聽”產業高品質發展行動方案(2025-2029年)》的率先出台,一個技術、政策與市場共振的產業發展“奇點”已然來臨。本文將深入剖析AI視訊產業的技術核心、市場動態、競爭格局與政策環境,勾勒其如何與國家“十五五”戰略同頻共振,賦能千行百業。一、頂層戰略與政策領航:為產業注入“確定性”任何顛覆性技術的規模化發展,都離不開清晰的國家戰略與穩健的政策框架護航。AI視訊產業正深度融入國家現代化宏偉藍圖,其發展軌跡獲得了強有力的頂層設計支援。國家層面的戰略定位極為明確。2025年9月發佈的《國務院關於深入實施“人工智慧+”行動的意見》(國發〔2025〕11號)是統領全域的綱領性檔案,不再將人工智慧視為孤立技術,而是定位為與經濟社會各領域深度融合、催生新質生產力的核心驅動力。檔案設定了清晰目標:到2027年,人工智慧將在六大重點領域深度應用,新一代智能終端、智能體等應用普及率超過70%;到2030年,人工智慧將全面賦能高品質發展,智能經濟成為重要增長極。這為AI視訊在各行各業的應用普及提供了明確的時間表和廣闊的想像空間。在“人工智慧+”的宏大敘事中,視聽產業因其巨大的文化影響力、經濟價值和民生關聯度,成為率先落地的關鍵領域。地方政府反應迅速,以北京市2025年11月發佈的“人工智慧+視聽PILOT領航計畫”為代表,堪稱一份前瞻性、系統性的產業發展路線圖。該計畫核心是“五位一體”的系統性推進:Platform(技術平台)攻堅垂類大模型;Innovation(內容創新)推動AI在影視、動畫等內容全鏈條應用;Landscape(場景賦能)覆蓋智慧影棚、文商旅體融合等領域;Optimization(服務最佳化)搭建智能體開發等平台;Trust(安全信任)探索“監管沙盒”,建構安全體系。這一方案標誌著發展思路已從單點技術突破,升級為建構技術、資料、平台、應用、安全協同進化的完整產業生態。圖表:國家及地方AI視訊產業核心政策時間軸資料來源:中投產業研究院整理圖表:北京市“人工智慧+視聽PILOT領航計畫”五維協同體系資料來源:政府機構官網、中投產業研究院二、技術突破與範式革命:從“工具”到“世界模型”的躍遷產業爆發的根源在於技術的代際飛躍。AI視訊生成技術在過去兩年完成了從“可用”到“好用”的關鍵跨越,其演進路徑清晰地指向對物理世界理解和模擬的更高維度。技術架構的演進是這場革命的基石。行業早期依賴生成對抗網路(GAN),隨後擴散模型(Diffusion Model)與Transformer架構的結合成為主流。當前,以OpenAI的Sora為代表的擴散型Transformer(DiT)架構成為前沿,它將Transformer的強大序列建模能力應用於擴散過程的潛在空間,從而能夠處理更複雜的時空關係。例如,Sora模型已能生成長達分鐘級、物理邏輯更一致的高品質視訊,這不僅是時長的延長,更是對場景動態合理性理解的質變。可以說,AI正在從“剪輯師”向“導演”進化。技術進步直接體現在產品性能的躍升和成本的陡降上。目前,頂級模型已能支援生成長達數分鐘的4K解析度視訊。更關鍵的是,成本優勢已成為顛覆傳統行業的“殺手鐧”。根據行業權威分析,目前國內外主流AI視訊生成API的單秒成本已降至0.2至1元人民幣區間。相比之下,傳統視訊製作成本呈幾何級數差異:本土電視廣告(TVC)視訊製作成本約在千元級/秒,而頂級動畫電影的製作成本甚至高達十萬元級/秒。這種千百倍的成本差異,為視訊內容的大規模、個性化生產掃清了經濟障礙。圖表:AI視訊生成技術演進路線圖資料來源:中投產業研究院圖表:AI視訊生成與傳統視訊製作成本對比柱狀圖資料來源:中投產業研究院三、市場爆發與競爭重塑:全球格局下的中國力量在技術與政策的雙輪驅動下,全球AI視訊市場正以驚人速度擴張,中國不僅成為最重要增長極之一,更在技術和商業化層面湧現出具有全球競爭力的參與者。全球市場規模與增長前景廣闊。根據Fortune Business Insights的預測,全球AI視訊生成器市場規模預計將從2025年的7.168億美元增長至2032年的25.629億美元,年複合增長率高達20%。亞太地區是增長最快市場,年複合增長率預計達23.8%,中國是主要驅動力。市場增長的底層動力是視訊在全球數字內容消費中佔據主導地位(據Cisco VNI預測,視訊已佔全球移動網際網路流量的70%以上)以及AI帶來的生產效率革命。競爭格局呈現多元化態勢,中國力量表現亮眼。海外廠商如Runway、OpenAI (Sora)在技術和創意社區影響力方面領先。據報導,Runway在2024年12月的年度經常性收入已達8400萬美元,顯示出強勁的商業化勢頭。與此同時,中國廠商如快手可靈(Kling)、美圖、字節跳動的剪映即夢等產品已躋身全球第一梯隊。在商業化上,中國廠商展現出更快速度和更靈活策略。例如,快手可靈(Kling)在2025年初實現了顯著的商業突破,年化收入運行率迅速攀升,凸顯出國內市場的巨大潛力和強大的商業化能力。此外,國內產品通常具有更優的性價比,降低了使用門檻,加速了技術在中小企業和個人創作者中的普及。圖表:全球AI視訊生成器市場規模預測折線圖(2025-2032)資料來源:Fortune Business Insights、中投產業研究院圖表:全球主要AI視訊模型性能與商業化對比氣泡圖資料來源:麥肯錫、BCG、中投產業研究院四、應用賦能與產業融合:催生“智能原生”新業態AI視訊技術的真正價值在於其作為“基礎能力”與千行百業融合後催生的“化學反應”,正在重塑從內容創作到產業營運的完整價值鏈。首先是內容產業自身的工業化升級。 AI已能深度參與劇本構思、分鏡生成、視訊生成與剪輯的全流程。這催生了如“AI漫劇”等新形態——以漫畫或小說IP為基礎,通過AI快速生成統一風格的動態短影片,極大縮短了IP視覺化周期。對於影視動漫行業,這意味著能夠以更低成本、更高效率進行“大規模個性化內容生產”。其次是賦能實體經濟,創造沉浸式體驗與增長新動能。在電商與零售領域,AI生成的個性化商品展示視訊能顯著提升轉化率。據Adobe Digital Insights報告,採用高品質視訊素材的電商頁面點選率可比圖文高出30%以上。在文旅與教育領域,通過AIGC技術對文物古蹟進行活化宣傳,可以打造沉浸式歷史文化體驗。在工業與科研領域,AI生成的高擬真視訊可用於自動駕駛演算法訓練和科學可視化,加速創新處理程序。最終,所有應用將匯聚於“智能終端”的革新。未來的AI電視、AI手機、AI眼鏡乃至智能汽車,將不再是簡單的播放裝置,而是具備本地化即時生成、理解和互動視訊內容能力的“智能體”。圖表:AI視訊在重點行業應用效果對比圖資料來源:中投產業研究院圖表:AI視訊賦能產業生態全景圖資料來源:中投產業研究院五、未來挑戰與核心關切:在創新與治理中尋求平衡前景雖廣闊,但邁向成熟的產業必須清醒應對挑戰。這些是“十五五”期間政策與產業界需共同攻克的核心議題。技術瓶頸與工程化鴻溝依然存在。當前AI生成視訊在複雜敘事邏輯、長程時序一致性上仍存不足,從生成單段視訊到支撐完整工業化工作流,仍需大量工程化創新。資料、算力與成本約束是產業可持續發展的關鍵。高品質、合規的視聽資料集建設挑戰巨大,同時大模型對智能算力的需求持續攀升。版權、倫理與安全風險是監管與產業發展的核心交匯點。 AI生成內容的智慧財產權歸屬、深度偽造技術濫用等風險亟待規範。北京方案中提出的“監管沙盒”機制正是前瞻性佈局。此外,既懂AI演算法又精通視聽藝術的複合型“智匠”人才短缺,也制約著產業發展。總而言之,AI視訊產業已告別野蠻生長期,步入與國家級戰略深度融合、在規範中加速創新的新階段。中國的獨特優勢在於統一的頂層戰略、豐富的應用場景、快速迭代的工程化能力以及積極審慎的治理框架。抓住這一機遇,不僅能培育兆級智能經濟新增長極,更將在建構數字時代文化軟實力和國際競爭新優勢中,佔據戰略制高點。這場由AI掀起的視覺革命,畫卷剛剛展開,其波瀾壯闊的未來,正待我們共同書寫。 (中投未來產業研究中心)
OpenAI收緊Sora監管!
當地時間周一(10月20日),人工智慧(AI)研究公司OpenAI發佈聯合聲明稱,將與演員布萊恩·克蘭斯頓、美國演員工會(SAG-AFTRA)及其他表演者工會合作,防範其AI視訊生成應用Sora的深度偽造(Deepfake)內容。據美國演員工會在社交媒體平台X上發佈的資訊,在9月底Sora 2上線後,有使用者在平台上生成了未經授權、模仿克蘭斯頓聲音與形象的AI視訊,引發了這位《絕命毒師》主演的擔憂。克蘭斯頓在聲明中表示:“感謝OpenAI制定政策並完善防護機制,並希望他們以及所有從事這一領域的公司,能夠尊重我們管理個人聲音與形象複製權的職業權利。”除了美國演員工會之外,OpenAI還宣佈將與代表克蘭斯頓的聯合人才經紀公司(UTA)、經紀人協會(ATA)及創意藝術家經紀公司(CAA)展開合作,以進一步強化對未經授權AI生成內容的防護。此前,CAA和UTA曾公開批評OpenAI在Sora中使用受版權保護素材的做法,稱其對客戶及其智慧財產權構成威脅。上周,因Sora使用者生成對民權領袖馬丁·路德·金的不敬形象,OpenAI應馬丁·路德·金遺產委員會的要求,在Sora平台封禁了相關視訊。自9月30日Sora 2推出以來,OpenAI在版權與肖像使用政策方面持續調整。10月3日,OpenAI首席執行官薩姆·奧爾特曼更新了Sora的“退出(opt-out)政策”。該政策此前允許使用智慧財產權內容,除非版權方明確要求停用;新政策則賦予權利人“更精細的角色生成控制權”。在Sora推出時,平台就要求對個人聲音與肖像的使用需經授權同意(opt-in)。OpenAI隨後又進一步承諾稱,將迅速回應任何相關投訴。OpenAI還重申支援美國的《禁止偽造法案》,該法案旨在防止未經授權AI生成他人聲音或肖像。 (科創日報)
“百度不做”,僅僅一年,李彥宏反悔了
唯物的中國晶片產業深度觀察中國AI視訊應用從沉寂到火熱、李彥宏的“反悔”都有“打臉”之嫌。這些前後轉變到底隱藏著大廠的那些秘密?百度創始人李彥宏在一次內部講話中說,Sora這種AI視訊大模型投入周期太長,10年、20年都可能拿不到業務收益,無論多火爆,百度都不會去做。那是2024年10月,創造了ChatGPT的公司Open AI推出文生視訊應用Sora已經有7個月。今年大不相同。9月30日,Sora 2正式發佈。僅僅過了14天,百度便高調推廣“百度蒸汽機”AI視訊模型,和急於“秀肌肉”的GoogleVeo 3.1撞個滿懷。Sora問世時一片寂靜,而Sora 2誕生後,各個競爭對手都急著與Sora 2一爭高下,唯恐少出了風頭。一片沉寂雖然李彥宏說“百度不會去做”的幾個月後,百度就開始加大力度投入AI視訊,但李彥宏的說法也確實指出了行業裡的普遍焦慮。這種焦慮直接導致了中國大廠在Sora推出時“一片沉寂”。話要說回2024年2月。Sora一問世就成了Open AI手裡的一張王牌應用。和其他應用“模擬現實”不同,Sora達到了“建構現實”的高度:二者的區別是,前者只能模仿現實世界的表象,而後者在數字世界裡依照現實規則重新建構了“現實”。比如,在現實中,我們咬下一口蘋果,蘋果上會留下牙齒的痕跡。Sora生成的視訊能夠再現這一細節,是因為它遵循了施力、受力這一基本物理規則。細節是真實感的基礎,視訊和圖像最需要細節的真實。那時,其他文生視訊應用都做不到這一點。Sora之前,國內大廠也佈局了文生視訊領域。2023年底,百度發佈過文生視訊工具“度加剪輯”,可以一鍵獲取最新熱點、AI生成文案、一鍵生成視訊。字節跳動推出過同類模型Pixel Dance,阿里也曾上線Animate Anyone模型。然而,Sora一出,中國大廠避之不及,有公司甚至堅決否認自家產品等於“中文版Sora”。當時,國內大廠佈局的重點並不在文生視訊領域,他們的當務之急可不是做出中國版Sora,而是努力趕上GPT-4。圖源:pexels由於當時中國AI大模型和GPT相去甚遠,自然搞“基礎建設”而不是“上層建築”是更緊迫的事情。就像某大廠模型業務負責人曾無奈表示,“ChatGPT之前大家也都有聊天機器人啊……關鍵是能不能達到那個水準。”中國大廠的焦慮,根本原因在於自家大模型與Open AI、Google的世界頂級大模型之間的巨大差距。如果大模型能力有限,談什麼文生視訊模型實在奢侈。不過,中國大廠的焦慮,已經隨著2025年初深度求索推出“物美價廉”的DeepSeek模型而大大減輕。家家都有今年,基礎大模型競爭迭代速度極快,甚至連“價格戰”都打完了。誰家還沒有視訊模型,肯定會被質疑大模型實力不夠。截至2025年10月,中國市場上已經有20多款視訊大模型產品,阿里、騰訊、字節、百度均參與其中。海外市場,除了Open AI,Google、Meta等巨頭以及Runway、Luma AI、Midjourney等創業公司都在同台競技。一位大模型從業者告訴南風窗,大模型基礎資訊處理能力的提升與成本的下降,讓豆包、通義、文心等幾款大模型獲得了快速增長。深度推理能力、視覺推理能力以及Agent相關技術將成為未來幾年基礎大模型競爭的關鍵。因此,依照當下的局面,李彥宏對“不做AI視訊應用”的反悔、積極佈局多模態大模型就不難理解了。從文心大模型4.5到4.5 Turbo,從文心大模型X1到X1 Turbo,百度模型性能提升的同時,多模態能力也在進一步增強,推出“百度蒸汽機”也順理成章。4月25日,百度創始人李彥宏在Create2025百度AI開發者大會上發表了題為《模型的世界 應用的天下》的演講/圖源:新華網從技術的角度看,各家大模型之視訊分模型,比如Sora 2和Veo3.1,正在沿著兩大方向演進,一方面是視訊質量持續提升——畫面更真實、提示詞理解更準確;另一方面是使用者編輯能力的強化——從整體生成到局部修改、對象增刪,操作更加精細,互動感更強。更關鍵的是,音訊即時生成,極大填補了此前AI視訊工具只能做“默片”的短板。對於“頂流”AI視訊生成應用的測試,也已經和考驗聊天機器人的測試差不多了。近幾天,多位網友以“同題考試”的辦法,測試了Sora 2和Veo3.1的能力,最後發現兩家公司的訓練模式和邏輯的不同:Google強調物理世界的規則,而Open AI更注重娛樂性。這也意味著,各家公司依靠自身的特色和稟賦來創造“風格化”的AI應用。AI視訊應用正在從“大幫哄”走向精細化、特色化時代。爭做大平台一旦大模型的能力跟上了,“李彥宏的反悔”就成了更加“現實”的問題:如何降低AI視訊應用的成本,找到商業化前景?而Sora 2的玩法,恰恰讓業界看到了變現的希望。首先是成本降低,可用性增強。Open AI發佈的樣片中,有花樣滑冰運動員頂著貓咪完成轉體三周半動作,有業餘愛好者跌倒在衝浪板上的水花四濺,有宮崎駿動畫風格的男孩和小狗在風中奔跑……Open AI官網發佈的樣片,一名花樣滑冰選手在頭上戴著一隻貓做三軸動作Open AI官網發佈的樣片,業餘愛好者跌倒在衝浪板上的水花四濺Open AI官網發佈的樣片,宮崎駿動畫風格的男孩和小狗在風中奔跑雖然使用者真正生成的視訊和這些精美的樣片之間還是有一定的差距,但是觀眾也從中看到了用AI講出好故事的可能。對於使用者來說,過去辛辛苦苦寫提示詞、生成一段5秒的視訊,最後只有0.5秒能用,現在可以直接生成一個複雜鏡頭構成的電影片段,幾乎不用大改。同時,AI演員也躍躍欲試,準備替代真人演員。9月底蘇黎世電影節爆紅的AI演員蒂利·諾伍德,據悉已經有好萊塢經紀公司邀約在身,氣得一眾影星紛紛發帖保衛自己的飯碗。AI場景與AI演員的結合,可能讓壟斷性的電影“短影片化”,成為大眾田間地頭的隨手創作,擺脫過去的行業壟斷。蒂利·諾伍德。點選圖片可查看相關文章《她一出道就爆紅,好萊塢明星們氣炸了》其次,“創作者成功,則平台成功”,網際網路大廠無不以“平台化”而發家,而近日Sora 2的最大動作,就是讓免費使用者“一鍵創作視訊”,把使用者從網頁端轉移到APP移動端,實現“戰略下沉”。Sora 2的使用者設計非常友好。與Meta忙三火四地推出Vibes相比,OpenAI展現了產品化方面的優勢。這款應用允許使用者建立10秒以內的短影片,還可以把自己或朋友的形象插入其中。這種高度個性化和社交化的設計,被認為是比簡單的社交標籤頁更聰明的策略,也是它迅速引爆社交網路的原因之一。Open AI的CEO山姆·奧特曼在Sora更新資訊之中明確提到“為創作者提供變現機制”。很快,隨著邀請制測試結束,Sora將迅速補齊編輯功能、增加使用者激勵機制,向“大平台”發起衝擊。Open AI的CEO山姆·奧特曼這意味著,只要90%以上的免費使用者找到了變現途徑、看到了變現的希望,Sora就有機會成為TikTok一樣使用者生產、使用者消費的閉環平台巨頭。客觀地看,Sora 2可能會引領AI視訊的生產和傳播方式,也正在引發新一輪的全球生成式AI視訊的競爭大戰。而TikTok的成功表明,同一類型的“平台”數量不會太多,所以,在大模型差距逐漸縮小的時候,所有AI視訊廠商都想早日做成那個最大的平台:最血腥的廝殺才剛剛開始。 (南風窗)
不止於Sora 2!商湯Seko再次定義“成片智能體”,AI視頻生成迎來殺手級應用
讓AI視頻生成拿來即用。AI影片的競爭焦點開始轉移——不再侷限於單一畫面效果的比拚,而是聚焦可用性與開箱即用的突破。9月底Sora 2的橫空出世便清晰傳遞出這一趨勢:其不僅以精彩紛呈的動態生成效果刷新行業認知,更通過能引入現實角色、提升物理模擬逼真度、整合創編傳播工具等的綜合性“成片智能體”,展現了向易用性、實用性發展的趨勢。這一行業趨勢逐漸明晰的當下,國產平台商湯Seko早已率先佈局,以實際行動重新定義AI視頻的應用邊界。下面的影片就直觀展示了Seko的成片能力,這一視頻從劇本、故事板、配音到後期均由Seko完成,並且精細到每一個細節都符合導演和編劇要求,畫面以及動畫效果也都拉到專業級。Seko用戶@聽白AIGC 生成了下面的視頻,將動漫形象與現實環境相結合且毫無違和感,使得整體畫面質感提升。還有下面的恐怖氛圍短片,Seko使用者@liuker、@不會畫畫的美術生生成的視頻中呈現了醫院場景,從陰森的空間佈局到冷冽的燈光風格,所有視覺元素全程線上、精準配合,成功營造出壓抑、驚悚的恐怖氛圍。作為國內首個創編一體的短片創作Agent平台,Seko使用者規模與作品數量的快速爆發增長證明了產品的價值。從工具到智能體、從畫面到成片,AI正從根本上降低內容生產的門檻、提升創作效率、拓展表達邊界。在這場由Sora2引領的變革中,國產平台商湯Seko是亦步亦趨的追隨者,還是另闢蹊徑的破局者?我們試圖拆解Sora 2與Seko,找到其在這場變革中搶佔先機的關鍵要素。01. 「成片智能體」風起:從技術炫技到應用為王回溯AI視頻產業的發展脈絡,早期產品多停留在技術驗證層面,往往會通過生成各類逼真、新奇的視頻內容來滿足用戶好奇心,如今隨著營銷、短劇、自媒體等領域的剛性需求爆發,其定位正逐漸向生產力工具轉移,而能否覆蓋從創意到成片的全流程,也成為衡量產品價值的核心標準。9月底爆火的Sora 2以及OpenAI伴隨其發布的Sora應用就清晰表明了這一趨勢。具體來看,在核心生成能力上,Sora 2實現了全維度的效能提升。物理模擬層面,其優化動力學與材質還原的可信度,能精準呈現對象體積、遮擋關係與光照互動,例如模擬液體潑灑時的流動軌跡、織物飄動的重力反饋均更貼近真實物理邏輯;音頻能力實現了音畫一體化生成,環境音、動作音效可隨性的畫面自動匹配;提示詞:吉卜力工作室動畫風格,畫面中一個男孩和他的狗跑上長滿青草的風景優美的山坡,頭頂是絕美的雲朵,遠處背景中還能眺望到一個村莊(in the style of a studio ghibli anime, a boy and his dog run up arassy scenic mount y接著是產品形態方面,OpenAI伴隨Sora 2推出的獨立Sora App社交平台,透過內置的Cameo(角色引入)功能,用戶可建立高度逼真的個人數字分身,無縫植入任意Sora 2的生成場景,還能授權好友使用自己的形象實現多人同框創作。相較於上一代產品,Sora 2正向著更符合使用者實際創作需求的工具轉型。但值得注意的是,Sora 2的生成本質上仍是「黑盒式」輸出,因為用戶輸入指令後需等待系統完整輸出,無法對中間環節進行干預調整,即便使用千字級的詳細提示詞,也可能出現與預期偏差的生成結果。因此在實際應用場景,這對追求精準表達的商業創作而言,無疑意味著不可預測的時間損耗與修改成本。反觀國內,商湯科技今年8月推出的Seko就在成片智能體的基礎上,實現了「可控式閉環」。Seko可以做到自動劇本拆解、故事板產生、角色一致性控制等,來產生高品質AI視頻,與Sora 2在成片智能體核心能力上實現對標。下面Seko使用者@豆芽AI筆記本產生的視頻中主體角色整體一致,畫面跟隨人物移動時也沒有出現偏差。與Sora 2不同的是,Seko支援即時可編輯,非一次輸入、一次輸出,甚至可對分鏡畫佈局部修改,消除、重繪、元素加入等,讓使用者透過精細化編輯實現「所見即所得」。▲Seko故事板畫佈局部修改功能儘管當下AI視頻發展距離規模化應用還有一定距離,但當下我們可以確定的是,其行業競爭正在從單一效果比拚轉向全鏈路價值競爭,也就是“成片智能體”在AI視頻工具中逐漸成為共識。02. 解碼「成片智能體」概念讓AI視頻開箱即用的關鍵以「成片智能體」應具備的能力為標準,我們看到Sora 2和Seko的部分能力設定高度趨同,都朝著讓AI視頻生成開箱即用視頻、零門檻出成片的目標進階。需要注意的是,即便二者在降低創作難度、覆蓋全流程需求等方向上高度趨同,但實現路徑呈現鮮明差異,Sora 2強調的是端到端直接輸出,Seko則看重生成過程中各環節進行可控性編輯。先來具體看下兩大平台的相似與不同之處。首先,降低使用門檻的前提是,讓AI能聽懂使用者的日常表達,減少對專業工具的依賴。Sora 2和Seko都可以理解使用者的日常用語,不需要更專業的術語即可產生相應的視頻內容,打破AI視頻創作對專業知識的依賴。在實測體驗時,當智東西輸入「小羊介紹新疆伊犁的美麗景色,一隻擬人化的小羊羔,超寫實風格」的提示詞,其就會生成策劃摘要、美術風格、角色主體、場景概念、音樂風格、故事板劇本。另外眾所周知影片的創作需要不同的工具進行音畫比配、實體模擬等,Seko將復雜技術環節全部封裝為後台自動流程,使用者無需手動調試參數,更無需借助剪輯、配音等第三方工具,就可以實現輸入想法就能得到​​視頻的體驗。Seko近日上線的新功能還支援一鍵製作多人對口型視頻,基於SekoTalk這個商湯自研的圖生視頻對口型演算法,在音樂MV、劇情視頻、廣告等領域都可以應用。在下面的影片中,它支援中英文等多種語言、多人對口型,包括輪流說話或同時說話的情況,即使是語速超快的說唱也不會出現偏差。其次是端到端直接輸出與極致的可編輯性,這也是Sora 2和Seko兩大成片智能體最核心的區別。Sora 2和Seko都可以覆蓋創作的全鏈路,其支援多模態輸入,使用者能透過文字描述建構場景、上傳參考圖定義角色外觀,可一次完成從創意拆解、理解複雜指令到成片輸出的端到端貫通。值得一提的是,這次Sora應用程式新增的Cameo與Seko的主體功能類似,都是透過產生統一的角色,保證後續生成內容的主體穩定、一致。▲Sora 2的Cameo功能(左)、Seko的主體功能(右)在此之上,Seko還進一步將生成內容進行了細化拆解,打造了「先靜後動」流程,將創作分為分鏡確認、細節修改、視頻生成幾個階段,具體來說就是,平台先根據用戶創意生成靜態分鏡序列,經用戶逐幀檢查畫面內容後,可以直接通過自然語言指令重繪角色、調整台詞或鏡頭角度,最後都可以確認鏡頭,最後都可以確認視頻。為了進一步確保成片的可控性,Seko還具備故事板靜態預覽、分鏡畫佈局部修改等功能,允許使用者在每個環節,對生成內容進行修改,如直接要求“把圖中的小羊換成牧羊犬”,系統能精準完成修改。Seko也支援一鍵修改背景,如要求「更換背景為咖啡廳」等。▲Seko局部修改功能當使用者確認了故事板的主體、影片內容、文字內容,就可以在右上方點選一鍵轉視頻。相較於Sora 2的一鍵成片,Seko的成片方式給了使用者更大的自由創作空間。最後是成片品質方面,相較於早期的工具,Sora 2、Seko在視頻生成內容的鏡頭穿幫、音畫不同步等問題上,已經基本實現了超長分鏡的穩定輸出。在此基礎上,Seko平台還更進一步,整合了商湯日日新、即夢、可靈、海螺、Veo等多款業界主流生圖模型,使用者基於該平台能精準控制多角色、多場景的複雜劇本輸出,確保角色形象、光線風格、動作邏輯全程穩定。在下面Seko使用者@不會畫畫的美術生生成的影片中,Seko將背景音樂、鏡頭轉換等諸多設定都與劇本內容相呼應。這些技術突破共同指向,AI視頻生成正朝著「成片智能體」進化,其核心是透過極簡互動、全流程貫通與高品質輸出降低創作門檻。商湯科技的Seko在此基礎上基於故事板預覽、可控式流程等關鍵能力,在視頻生成的可控性與商業可行性兩大關鍵維度上率先落地,讓「成片智能體」真正從技術概念變為觸手可及的生產力工具。03. 從不可控到可落地:Seko重構AI視頻商業化價值邏輯Sora 2和Seko的發展讓我們看到了AI視頻商業化落地的潛力,但當我們將視野放大到整個生成式AI行業會發現,想要讓AI視頻生成真正實現拿來即用,遠比圖文生成複雜得多。影片創作需同步處理畫面渲染的時序邏輯、音訊合成的情緒適配、物理模擬的真實回饋等多重難題,任何環節的斷層都會讓產生的影片出現偏差。正因為這種複雜性,Sora 2與商湯Seko在「成片智能體」的定位上,也呈現出了差異化的思路,前者聚焦從輸入到輸出的高品質端到端交付,後者則在保證成片質量的基礎上,強化了全流程創作的自主、可編輯與可控性。在下面Seko使用者@林龍生成的影片中,伴隨著鏡頭的變化將拯救公主的故事進行了完整呈現,還融入了逼真的特效。如同前面所提到的,創作可控性在AI視頻生成中至關重要,這也是Seko相比Sora 2等其他工具的顯著優勢,其核心可概括為創意可控、風格可控、成本可控。創意可控基本貫穿了前期使用者創作的全流程。使用者輸入核心創意後可進入編輯模式,對畫面細節不滿意可直接修改提示詞重繪單幀分鏡,覺得台詞生硬能逐句調整文案並同步更新配音,想優化敘事節奏可直接增減分鏡或調整鏡頭結構。這種先確認靜態效果、再產生動態視訊的設計,可以幫助使用者在早期修正創意偏差。其次是風格可控,Sora 2的模型體系相對單一,Seko採用了多模型整合和智慧匹配策略,整合了全行業主流生成模型,支援使用者自主選擇相應模型。最後是成本,Sora 2雖能產生高品質畫面,但其千卡級算力消耗帶來的隱性成本,讓中小型商家和個人創作者難以負擔。根據實際使用者回饋,Seko已將單分鐘動畫成本從傳統方式的數萬元降至千元等級,降幅超99.5%以上,讓中小企業和個人創作者也能負擔專業級製作。另外還要注意的是,Sora 2目前仍採用邀請制,並沒有免費向大眾開放,導致大量潛在使用者無法直觀體驗。再加上用戶紛紛在社群平台上傳Sora 2產生的短影片,涉及諸多熱門影視節目角色,使得其在版權方面的監管被廣泛質疑。目前,Seko已經全面向用戶開放,其上線1個月就擁有超10萬名創作者,生成視頻內容超50萬條。這些真實的使用者案例和資料,是Seko開箱即用潛力最有力的證明,其讓AI視頻創作變為可預期、可調整、可落地的過程,這也成為其區別於同類產品的核心競爭力。04. 結語:AI視頻競爭回歸實用價值Seko憑可控+普惠領跑當下AI視頻產業的發展意味著,其競爭正在回歸到價值本身,即能否以更低門檻、更可控過程和更低成本為使用者交付可用成果。Sora 2與商湯Seko共同指向的“成片智能體”,正是破解視頻生成普及難題的關鍵。商湯Seko透過創作可控性和商業普惠性,正在將這一藍圖變為觸手可及的商業現實。這條本土超越之路,或許正是AI影片普及的關鍵路徑。此外,Seko還有一大獨特優勢是集合多種大模型,未來或許也會接入Sora 2模型的能力,為使用者提供1+1>2的更優成片效果。 (智東西)
Sora2,AI幫你賺錢的時候到了
真正改變遊戲規則的創新者,往往是在“無人區”中開闢新大陸的人。當OpenAI發佈其新一代AI視訊模型Sora2的演示視訊時,整個科技圈為之震動。視訊10秒出片,並且自帶高度逼真的物理邏輯、如電影運鏡般的多鏡頭切換……其能力已無限逼近人類專業創作者。東莞證券在隨後發佈的研報中稱“Sora2及其配套社交應用的發佈標誌著AI視訊生成與社互動動進入融合階段,有望重塑內容創作和分發生態,或迎來AI視訊生成的ChatGPT時刻。”這個比喻精準地戳中了行業的神經。因為,ChatGPT是人工智慧技術“量變”引發“質變”的代表,標誌了機器學習大模型、大訓練資料和大算力能夠到達的新高度。更令人震撼的是,Sora2不再是一個單純的視訊生成工具,而是一場徹頭徹尾的革命——與視訊緊密相連的影視劇、社交、電商等行業,也將迎來生態重構,甚至許多商業模式也被重塑。對普通人來講,一個更直接的問題是,Sora2將如何改變人們賺錢的方式?Sora App上線第四天,就拿下了蘋果美國應用程式商店App Store的免費應用榜第一名,超越了Gemini和ChatGPT,堪稱“出道即頂流”。據Appfigures估算,Sora iOS版上線僅兩天,總下載量高達16.4萬次,首發下載量達5.6萬次。圖註:App Store截圖Sora APP的爆火,一方面源自其自身提出的兩大顛覆性AIGC社交功能——客串(Cameo)和二次創作(Remix)。客串(Cameo)的核心工作原理源於OpenAI正在建構的世界模擬模型(world simulation models)。使用者只需提供一個簡單的視訊素材,就能將自己或朋友“傳送”到古羅馬鬥獸場、未來賽博朋克都市、遊戲裡的場景等等,或是任何能夠想像到的場景中,並讓他們在其中自然地活動和互動。二次創作(Remix)是Sora App的一個核心互動機制。當使用者看到一個喜歡的視訊時,可以點選Remix按鈕,在其基礎上進行二次創作。例如,看到鋼鐵人和蜘蛛俠的視訊,使用者可以輸入新的提示詞,如“把我的照片融入進去”,Sora就會生成一個全新的、與原作相關聯的視訊,展示出“我與蜘蛛俠互動”的內容。這個功能極大地降低了參與熱門趨勢和故事線的門檻,讓每個人可以輕鬆參與AIGC製作。另一方面,OpenAI首席執行官Sam Altman(山姆·奧特曼)親自下場,開放了個人肖像權,也加速了Sora的火爆。在國外的社交平台上,Sam Altman從商店偷GPU被抓包、在金字塔前熱舞、與李小龍對打、跟科比打籃球,細節逼真到以假亂真。在國內的小紅書上,一些“手快”的博主,已經讓Sam Altman參與直播帶貨,熟悉的“321,上連結!”從他嘴裡說出來也毫無違和感。圖源:小紅書基於成品視訊流暢的表現,Sora2也給更多行業帶來新的想像空間。以電商領域為例,目前,OpenAI形成以“內容平台激發需求(Sora)—支付管道保障(Stripe)—電商平台供給商品(Shopify/Etsy)”的商業模式閉環。隨著全球範圍內視訊種草、直播帶貨接受度越來越高,通過“代理商務協議”(Agentic Commerce Protocol,ACP),Sora有望開啟“端到端”的新電商模式。並且,OpenAI似乎也在逐步強化這種電商基因。幾天前,OpenAI宣佈推出全新的“Instant Checkout”即時結帳功能,允許使用者直接通過其AI聊天機器人ChatGPT內容完成商品購買,這也標誌著OpenAI與電商的融合進一步加速,ChatGPT也輕鬆實現了從“商品推薦”到“直接支付”的全鏈路閉環。未來如果由Sora一鍵生成的商品展示視訊、買家秀合集等內容也進入這一電商閉環,並與主流電商平台API打通,則有望形成一個區別於傳統電商平台的新的“人貨場”邏輯。與此同時,廣告行銷成本也大幅降低,過去,高昂的製作成本、漫長的周期與專業的門檻,是桎梏電商賣家進行大規模擴張的瓶頸,如今這不再是難題。Agent Platform廠商述信科技CEO彭聖才指出,Sora2這種工具型產品出現,會帶把一些以前不成立的商業模式變成現實、甚至直接創造一些新的模式出來。比如說一款產品出海,在以前需要找代理、找管道、做品牌行銷,一點點去鋪貨,各個環節都要考慮到。現在借助AI等新興技術,可以直接打通整個環節。目前,市面上已經出現一些新興公司,依託中國本土強大的供應鏈和生產能力,借助AI提供的行銷、投流、客服等功能,把貨帶到海外市場。這與傳統的出海模式截然不同,甚至是一些“一個人公司”也可以完成全套流程,對於這些企業來說,AI的出現就像是給業務插上了翅膀,讓以前不能做的生意好做了,讓本來打不開的市場打開了。但這種AI主導的電商模式,也對品牌提出了更高要求。彭聖才指出,以前做產品是“管道為王”,要儘可能多的去覆蓋管道,讓不同消費者能在不同管道上盡快找到我,平台扮演的角色十分重要。但是AI出來之後,消費者很可能只是用一句話來描述自己需要的產品或者服務,餘下的都靠AI來匹配,管道的價值就會衰減,而品牌的價值被放大。在這種模式下,唯一能爭取到AI帶來的消費位置的方式就是做好品牌。“以前,我們要花很多錢做市場、搞行銷、搞投放,但現在只需要把自己的商品和服務做好,然後通過MCP的方式散發給AI,AI就會根據使用者的指令精準找到這個商品,這對於整個行業幾乎是顛覆性的,但長遠來看有利於行業生態的健康發展。”彭聖才說道。(註:MCP,是Model Context Protocol的縮寫,即模型上下文協議,它是一個開源標準,用於將AI應用程式連接到外部系統。基於MCP協議,各大AI應用程式可以連接到資料來源,工具和工作流,使它們能夠訪問關鍵資訊並執行任務。)更顛覆的是,由Sora2驅動的Sora App對標TikTok的滑動操作模式,直接降低了C端使用者使用的門檻。外界一致認為,它“掀了短影片的桌子”,甚至對廣告、明星代言、影視劇、創意產業的商業模式都形成巨大威脅。今年9月,TVB上線了一部100%AI生成短劇——《在我心中,你是獨一無二》,劇中主角、群演、場景、配樂等等全部由AI生成。換句話說,在這部短劇的製作中,AI承擔了“編劇+導演+美術+剪輯+後期”的全部職責,甚至在末端的營運、投流環節中也發揮了巨大作用。從技術層面看,Sora已經可以生成時長25秒(普通使用者在App和網頁端15秒,Pro使用者網頁端可達25秒)、接近4K細節的短影片,畫面更加銳利,幀與幀之間延續性更好,甚至可以實現多語言同步翻譯。GoogleVeo2升級後,也可以提供4K電影級畫質、2分鐘以上的精美視訊。這些工具確實幫助實現了內容生產的質效飛躍。隨著AI深度參與短劇製作各關鍵環節,它成為降本增效的核心動能。在製作端,從AI生成劇本與分鏡,到虛擬製片與智能剪輯,大幅壓縮了創意到成片的時間;在營運端,AI可以智能生成海量行銷素材進行A/B測試,實現精準投放,同時通過使用者資料分析,進一步反哺創作,完成內容持續最佳化。傳統短劇製作需要2-3個月製作周期、50-200萬試錯成本,這已經是行業壓縮到極致的成本線。但是AI短劇已經進化到10-15天出片、6-15萬低成本試錯,單整合本最多可下降90%。這些都給蓬勃發展的短劇行業帶來新的想像力。另一方面,Sora的影響力還波及到社交領域。手指滑動的互動方式,讓它被稱為“AI版抖音”。使用者可通過上傳圖片結合文字提示創作,或使用客串功能,基於自己或朋友形象生成視訊,這種強互動性與親近感,使得Sora App擁有極強的社交屬性。“瀏覽-激發-創作-分享”的閉環一旦轉動,使用者便被牢牢吸附在平台內,每一次創作都在為生態貢獻新的素材和範本,形成內容自然生長的生態,即“使用者資料飛輪”。“AI+社交”可能會成為未來的主流形態。Sora2對廣告行業的影響也備受關注。但目前看,其衝擊力尚未呈現。彭聖才舉了個例子,在廣告行銷行業,文案、圖片、視訊等內容的生產其實是產業鏈的末端環節。而且這個末端通常也由一整個團隊負責,內部還分策劃、美術、編導、剪輯等等職責,Sora2可能只是對那個視訊製作者(或剪輯師)有一定影響,但是放在廣告行銷這個存在了百年的產業鏈條上,Sora2隻影響了末端的那個佔比不到1%的環節。所以他覺得“Sora2很難對整個鏈條產生那麼大的衝擊和影響”。但彭聖才也指出,Sora2的出現確實會帶來成本下降和效率提高,進而幫助一部分人吃到紅利。比如,在廣告主採購視訊廣告內容的採購價不變的前提下,AI用的好的人,可以借助Sora2等工具把視訊生產的效率提高十倍甚至百倍,售價相同但成本更低了,收益自然也會隨之擴大。“但這種紅利僅體現在短期內,因為後果是可以預見的,供給越來越多之後,大家自然而然就會開始卷,同樣的價格,有人能出10條視訊,後面就會有人敢出50條、100條視訊。所以在大部分人還沒能很熟練運用AI生成視訊的這段窗口期內,確實有些人可以賺到錢。只是這個窗口期不會太長,我預測可能也就半年左右。”彭聖才預測。Sora2更大的貢獻在於,它給整個行業提供了一種新的變現思路。過去幾年,全球頭部大模型產品以及垂直領域應用多數採用“訂閱付費”的模式進行變現,即通過按月或季度固定收費,提供一定量的API呼叫服務。而Sam Altman在部落格中公開宣佈,公司將引入“IP分成”收益機制。具體來看,這個機制包含兩步,一是賦予版權方更細粒度的控制權,IP擁有者可設定角色是否及如何被使用;二是探索收入分成模式,當使用者使用授權角色生成視訊並產生收益時,版權方可獲得相應分成。如此一來,思路一下就打開了。過去幾年,迪士尼、漫威、華納兄弟、任天堂等版權巨頭,一直在全球範圍內積極維權,努力避免自己的IP被AI工具使用者侵權。比如著名的文字生成圖片AI應用Midjourney,就在今年的6月至9月間,密集地被迪士尼、環球影業和華納兄弟三家公司送上“被告席”。而Sam Altman把雙方“敵對”的關係轉化為“共贏”,對於上述版權巨頭而言,如果自家IP能被更多垂直領域的創作者使用,無疑會進一步擴大自己的影響力,也可以順便從中獲得一定的分成;而對於活躍在網路上的內容創作者而言,能合法的使用經典IP形象,給他們提供了更豐富的創作靈感,也可以在一定程度上避免同質化的現象。參考YouTube的成功經驗來看,這種模式也有利於整個行業的健康發展。YouTube曾花費大量時間,建立了一套成熟的版權識別和收益共享系統。當博主在作品中使用了某段受版權保護的音樂或影視片段時,YouTube會自動識別並進行記錄,然後將這段視訊產生的廣告收入,按照約定的比例分配給創作者、平台以及版權所有者。多方共贏的方式,也幫助YouTube成為全球範圍內最具影響力的視訊網站之一。據預測,YouTube的全球月活躍使用者(MAU)將在2025年突破28.5億,覆蓋全球51%的網際網路使用者。而Sam Altman的設想,就是要建立一套類似的分成體系。使用者借助Sora2來製作視訊內容,平台對每一個內容進行記錄和追蹤,如果涉及到授權IP,則按照約定的比例完成收益分配。中研普華產業研究院公佈的《2025-2030年中國AI視訊行業全景調研與投資前景預測報告》顯示,2023年,全球AI視訊市場規模已達到420億美元。創作者成功、則平台成功,無論是AI生圖還是AI視訊,都已經被越來越多的創作者接受。如果Sam Altman的設想成真,Sora App將不再是簡單的工具,而是一個連接IP授權方與全球億萬創作者、直通百億美元大市場的全新數字經濟生態。但另一方面,“隔屏如隔山”,當AI生成的視訊足以“以假亂真”,當眼見不再為實成為常態,如何區分虛擬與現實將成為一個難題。一位從業者的觀點是,“不必刻意去區分真的假的,學會適應才是常態”。比如在直播電商領域,虛擬主播已經十分常見。根據市場調研機構QYResearch的統計及預測,2023年全球虛擬偶像與虛擬主播市場銷售額達到了10.83億美元,預計2030年將達到51.29億美元。“很多人已經不再去刻意區分主播是真人還是虛擬人,或者說是放棄了這個動作。畢竟我做消費決策不取決於螢幕裡的人像,而更多取決於我對他態度、語氣、氛圍的感覺,或者說取決於直播間裡產品品牌的信任程度。”該從業者表示。 (霞光社)
OpenAI的Sora上線5天就翻車了,CEO道歉!
上周,OpenAI發佈了AI視訊生成工具Sora,結果畫風急轉——各種動漫角色的AI生成視訊在網上瘋傳,版權方集體不滿。CEO Sam Altman緊急宣佈政策調整:版權方可以主動選擇是否授權,而不是被動退出。💡這場風波來得猝不及防。Altman坦言:"我們以為大家對視訊的反應會和圖片差不多,結果完全不一樣。"原來,Sora就像打開了創意工具箱——任何人都能用文字指令生成10秒視訊,還能克隆自己或朋友的"數字分身"(官方叫"cameo")。雖然系統設定了限制,但使用者還是找到了各種方法繞過規則。更讓人意外的是,很多使用者對"被AI克隆"的態度很糾結。有人想公開分身玩創意,但又擔心AI讓自己說不當言論或出現在爭議內容裡。OpenAI緊急上線新功能:使用者可以給自己的cameo設規則,比如"別讓我出現在某類視訊裡"或"禁止說某些詞"。🤖水印問題也引發熱議。Sora生成的視訊會打水印,但網上已經出現各種移除教學——有人用圖像處理工具,有人直接寫程式碼抹掉。更棘手的是,雖然技術上不允許生成陌生人面孔,但"高仿臉"已經讓不少人感到擔憂,有人用它製作不當內容。Altman的應對策略引發討論。他說,只有讓社會真實體驗這項技術,才能找到應對辦法:"我們必須讓世界意識到,規則變了,難以分辨的AI視訊已經來了。"但質疑者指出,AI技術的發展史上,總有人受到負面影響——從演算法偏見到隱私侵犯,教訓不少。🔥儘管爭議不斷,Sora的爆火速度連OpenAI都沒想到。它在應用程式商店免費榜霸榜,增長曲線比ChatGPT還陡峭。OpenAI總裁Greg Brockman感慨:"這說明一個問題——我們需要更多算力。"這也是OpenAI拚命投資AI基礎設施(聯合軟銀、甲骨文投資數千億美元)和AMD晶片合作的原因。Altman還透露,Sora目前盈利不是首要目標:"我們現在處於積極投入階段,但我們有信心和耐心最終會實現盈利。"他強調,OpenAI對AI基礎設施的全鏈條都很感興趣,未來會有更多動作。 (澤問科技)