#視訊生成
全球AI雙榜第一!力壓GoogleVeo與Grok,Vidu Q3「參考生」之王歸來
【新智元導讀】Vidu Q3帶著「全家桶」重磅回歸,視覺、聽覺、場景能力全面進化。AI視訊的生產級交付時代,真的來了。這個月初,Google一紙公告,把Veo 3.1的視訊生成能力,免費開放給了所有Google帳號。可以說,這是AI視訊史上的一個分水嶺——曾經一條10秒視訊要燒掉數美金的「奢侈品」,正在被巨頭硬生生做成「水電煤」。但越是免費、越是普及,一個尷尬的問題就越藏不住:模型可以無限趨近「能用」,可它和「能交付」之間,依然隔著一整條生產線。榜單上的分數、demo裡的炫技、社交媒體上的爆款片段,全都換不來一個劇組、一支廣告團隊、一條電商內容流水線的穩定輸出。熱鬧歸熱鬧,能用歸能用,從來就是兩件事。而當大多數玩家還在卷免費、卷解析度、卷畫面時長時,一個被低估的中國玩家,悄悄把答案擺上了桌。今天,Vidu Q3帶著「參考生」重磅回歸。作為全球公認的「參考生鼻祖」,這一次,它直接把「參考生」揉進一整套全家桶——以Vidu Q3參考生模型為「核心底座」,Vidu SaaS(Vidu Agent、Vidu Claw)與 Vidu MaaS(Vidu AI 開放平台)全面接入。其中Vidu AI開放平台,可0門檻接入、價格僅為行業平均水平的1/3、切鏡自然合理、生成速度快。同時,它還支援提示詞調優、工作流適配及專項培訓服務,即便在高峰時段也能確保穩健輸出。以上三層加在一起,構成了一套完整的、可直接接入真實生產流水線的內容生產系統。至此,Vidu Q3已全面覆蓋文生、圖生、參考生三大領域,完成由單一模型向全場景視訊生成方案的跨越。正如Slogan所言,「為劇而生,萬物可參」,Vidu正在做一件其他玩家還顧不上做的事:把模型能力,焊死在真正的生產流程中。「參考生之王」回歸 直接拍戲了要理解這件事的重要性,先把背景拎清楚。1月30日,Vidu Q3全球首發,在權威評測榜單AA上一騎絕塵,拿下了全球第一的成績。它一舉超越了Grok Imagine、Gen-4.5、GoogleVeo3.1等一眾領先模型。在全球首個參考生榜單,SuperClue榜單上,Vidu Q3斷層登頂,在多圖/單圖參考任務蟬聯雙榜第一。首次亮相,Vidu Q3便主打「為劇而生」,成為全球首個聲畫直出16秒的AI視訊模型。事實上,整個AI視訊行業的競爭焦點,正在悄悄發生一次根本性的位移。視訊大模型,正在從「生成畫面」邁向「生成內容」。比拚的重點也從單點能力,轉向兩件更本質的事——是否具備完整的敘事能力,以及,是否能進入真實場景的生產級交付。這兩件事,才是把AI視訊從「技術demo」推向「內容生產力」的真正分水嶺。Vidu Q3的出世,恰恰被視為整個行業轉變的階段性節點——從最早的「視訊生成」,到Q2的「演技生成」,再到Q3真正具備「劇集生產能力」的敘事單元級躍遷。每一步,Vidu都踩在了行業演化的關節上。而支撐這次躍遷的關鍵變數,正是Vidu一直握在手裡的那張王牌——參考生。在AI視訊走向生產級交付的這條路上,「參考生」的角色正被徹底改寫。它不再只是一個提升畫面一致性的工具能力,而正逐漸演變為一種可復用、可組合的內容生產範式。作為全球「參考生」首創者,名副其實的「參考生之王」,這一次,Q3直接把其從模型層推到了應用層。這種巨變,直接體現在了漫劇、短劇、廣告、影視劇等應用場景中的可用性和交付性。換句話說,Vidu讓AI視訊,真正具備了「劇」的表達能力,為劇而生。萬物可參,為「劇」而生,聲畫同出在視覺、聽覺和場景上, Vidu Q3系統性升級,招招致命。相較於上一代,Q3不再執著於枯燥的「生成質量指標」(FID/FVD)比拚,而是死磕一個核心目標:讓AI生成內容,真正具備「劇」的表達能力。要知道,所謂的「劇集感」,是由無數個符合直覺的微小細節堆砌而成的。Vidu Q3在視覺、聽覺與場景三個關鍵維度上,交出了一份令人「恐怖」的答卷。在視覺方面,Vidu Q3新增六大特效:粒子、流體、動力學、運鏡、轉場、光影,將其深度融入敘事語言,讓生成內容更接近「成片級表達」。五大沉浸式音效:環境、動態、氛圍、擬音、情緒,讓Q3賦予了AI視訊「聽覺上的敘事連續性」。至此,聲音不再是畫面的附屬,而是情緒的載體。最重要的是,Q3場景能力已進化為直接對齊工業流程的「內容單元」,大幅縮減從創意到成片的距離,覆蓋了短劇、漫劇、影視劇、廣告四大場景。在這些領域,Vidu 不僅實現了極速生成與高頻迭代,更通過極高的視覺穩定性,率先解決了AI創作中「角色一致性」的行業難題。這種從點到面的全場景滲透,標誌著Vidu已從技術驗證期跨入深度產業應用期,建立了不可踰越的落地領先優勢。為了驗證其真實戰力,我們拋棄了傳統的「跑分邏輯」,直接把Vidu Q3扔進更接近真實生產的內容場景裡——漫劇的高燃瞬間、短劇的情緒爆點、影視級的災難與懸疑調度,以及廣告的多元創意。高燃漫劇漫劇,是過去兩年AI內容工業化跑得最快的賽道之一。低成本、短周期、可批次生產,這些特性天然契合AI視訊的能力邊界。但也正因為漫劇對「量」的極致追求,它把AI視訊最致命的那塊短板暴露得淋漓盡致——一致性。一部大約60分鐘的漫劇,每分鐘三四十個鏡頭,每段AI生成的素材只有5–10秒。這就意味著,整部劇是由上千段片段硬拚而成。過去,AI模型最大的問題,是每一張圖之間彼此獨立:人物的臉換了一點、服裝紋樣飄了一點、道具位置跳了一幀,觀眾瞬間出戲。創作者在剪輯台前熬夜重抽素材的痛苦,幾乎是整個行業的共同記憶。一個能夠支援批次生產與快速迭代、同時把主角、場景、道具死死鎖住的模型,是漫劇工業化真正的分水嶺。丟給Vidu Q3一張紅圍巾校服少年的立繪,讓它生成一個「熱血少年覺醒變身」的短片。結果令人震撼,狂風的怒吼、電流的尖嘯、大地的碎裂聲在這一秒瘋狂交織、層層遞進,將情緒推向了最頂峰。最關鍵的突破點在於:複雜的特效變化下,男主形象始終如一。再比如,投喂給Q3一張古風女主的角色圖片、一張江南水鄉的場景圖、一套手繪的服化道參考。提示詞唯寫了一句,「@圖1穿著@圖2衣服,在@圖3江南水鄉行走」。可以看到,動漫女主的臉部特徵被死死鎖住,沒有出現任何畫風偏移或五官融化,服裝的紋理與褶皺也隨著行走步伐自然飄動。而且,背景還夾雜著微風、鳥叫聲、腳步聲生動的環境音效。如果說單人變身是基礎操作,那麼複雜的「雙人肢體纏鬥」則是檢驗AI模型能力的試金石。上傳兩個主角的圖片,在這段激烈的對峙戲中,Vidu Q3展現出了令人膽寒的技術統治力。面對拳腳相加、重擊倒地、連續翻滾等大動態物理互動,Vidu Q3將兩位主角的形象死死鎖住,徹底告別了傳統AI常見的「面部融化」與「服飾穿模」。不僅如此,它在音效與情感生成的顆粒度上達到了影院級水準:沉悶的肉搏聲、倒地後紊亂的喘息,甚至刀鋒逼近脖頸時那一聲微小且冰冷的顫音,都與畫面嚴絲合縫。這一段,可以直接剪進漫劇成片裡,幾乎不需要返工。真人短劇如果說漫劇拼的是「量」,那短劇拼的就是「戲」。中國短劇市場一年狂飆到幾百億規模,單集時長被壓到極致,敘事密度卻反向拉滿——每一句台詞、每一次對視、每一個停頓,都必須精準擊中觀眾的情緒點。大幅降低製作成本和周期,是短劇行業對AI視訊最迫切的呼喚;但前提是——AI必須先學會演對白戲,也就是說,短劇的生死線是「對話」。過去AI視訊在多人對話場景上最容易翻車:要麼兩個人同時張嘴像合唱團,要麼口型對不上台詞,要麼切鏡頭的瞬間人就變了。觀眾能容忍畫面糙一點,但對話一崩,戲就徹底散了。且看下面這段極其細膩的古風雙人對角戲,呈現了Vidu Q3令人驚嘆的「影視級演技」。Vidu Q3 不僅將兩人的骨相特徵與複雜的古裝妝造死死鎖住,更完美呈現了男主嘴角輕佻時那抹似有若無的笑意。這種告別了「AI僵硬感」的細膩神態捕捉,讓角色瞬間擁有了鮮活的靈魂。更令人稱絕的是隨後的雙人台詞交鋒,對話時口型的毫釐不差。再比如來一個現代劇,女強人和霸主之間的糾葛,在Vidu Q3的筆下呈現得淋漓盡致。廣告/電商對於廣告或電商而言,用AI的最大訴求可能就是提升效率──不止是素材版本多,創意要快,要快速試錯。素材生產效率,就是速度、就是搶先引爆熱點的優勢。而Vidu Q3不僅提升了素材生成效率,更重要的是人物、風格統一可控,商品不走樣,背景或人物任意選。比如,下列唇蜜的廣告,利用Vidu Q3參考生功能,可快速篩選不同的風格:只需替換參考模特,一鍵生成不同風格、聲情並茂的視訊,真一鍵出片!鏡頭逐漸推進唇部,模特用唇蜜塗抹在嘴唇上,特寫鏡頭展示唇蜜質感。廣告大片效果,多鏡頭展示。最後手持唇膏模特說說:This touch is more than just color.。去掉bgm,保留人聲再舉一個例子,老梗換新貨,更容易在網上爆紅。比如,威爾·史密斯吃義大利面,就是國外的經典梗之一,可謂歷久不衰。在Vidu Q3,用他的表情包+新的商品(比如漢堡),繼續利用參考生就能生成類似場景的梗圖。這效果看起來是真香!影視預演/內容創意影視劇是AI視訊最難啃的一塊骨頭,但也是價值天花板的最高場景。過去,一個劇本從文字到成片,中間要經歷概念設計、分鏡繪製、預演拍攝、特效合成——這背後,動輒是上千萬的預算,是以「月/年」為單位的製作周期。整個行業最渴望的,是一種能把劇本快速可視化、分鏡自動生成、創意驗證前置的能力,讓導演在燒錢之前,就先看到自己腦中的畫面。Vidu Q3沒有選擇繞路,直接正面正剛。它挑了三種最吃功力的片種:科幻、災難、懸疑。給到一段提示詞:根據參考機甲與未來都市場景,生成一段電影級科幻追逐戲。夜色中的賽博朋克城市高樓林立,霓虹燈閃爍,主角駕駛機甲在高架橋與樓宇之間高速穿梭,後方數架敵方飛行器緊追不捨。鏡頭先從城市遠景俯拍,再切入近距離追蹤,機甲急轉、噴射推進、擦過廣告螢幕與樓體邊緣,期間伴隨爆炸火光與碎片飛散。畫面要求有強烈速度感、空間縱深與電影感,參考主體外觀保持穩定,特效密集但清晰。這個生成的難點在於,俯拍切近景、遠景切追蹤、機甲高速運動、爆炸的碎片層次....每一個細節,都考驗著模型對「電影感」的理解。更狠的是音效,直接構成了一個立體聲場,給人一種身臨其境的壓迫感。再來看災難片,考核的是尺度與震撼,這是這類型大片的標準配方。Vidu Q3在生成效果中,處理了多層次的視覺要素:天空、水牆、慌亂的人群、建築物震顫,每一個要素配合著調度營造出一種末日緊迫感。而且,由遠及近的聲壓推進,更成為了這個視訊重頭戲。更令人想不到的是,一段廢棄醫院的長鏡頭,瞬間拉滿了那種脊背發涼的氛圍感。Vidu Q3不僅在空間推進中保持連貫,還在光影忽明忽暗中保留了真實性,角色表演也有一定的張力。音效更是克制到極致,燈管電流雜音、走廊回音、腳步聲、呼吸聲,把緊張感推向頂點。總言之,Vidu Q3在視覺、聽覺與場景三個關鍵維度上,將四大場景的應用推向了新的高光時刻。偉大的技術 最終都將隱形於無形縱觀科技史,任何一項偉大的技術,其最終的宿命都是「隱形」。當電動機剛發明時,人們驚嘆於電流的魔力;但當大工業時代到來時,電動機隱身於工廠的流水線中,人們只看到源源不斷產出的精美商品。今天的AI視訊行業,正在經歷同樣的蛻變。Vidu Q3通過極盡複雜的底層演算法攻堅,通過從Q1到Q3的艱難跋涉,換來的,恰恰是創作者極其簡單的「為劇而生」。它終結了那個需要靠算運氣、抽盲盒才能得到一段好視訊的時代;它把AI視訊從獵奇者的「玩具箱」,搬到了專業創作者的「工作台」上。「萬物可參」,參考的不僅是現實世界的像素,更是人類無盡的想像力。當你在Vidu App中敲下第一行劇本,當Vidu Claw為你自動生成第一組分鏡,當Vidu Q3用它極具張力的音效和電影級的光影,把你腦海中那個原本只敢做夢的龐大宇宙完美呈現時,你會深刻地意識到:不要用做盲盒的邏輯,去奢望大工業時代的轟鳴。AI視訊的「前戲」已經結束,屬於創作者的、由新質生產力驅動的「大航海時代」,在Vidu Q3按下Enter的那一刻,正式拉開了帷幕。在這個充滿無限可能的時代,最好的故事,不再受制於資本的傲慢與工業的繁瑣。 (新智元)
Anthropic封殺48小時,逼出OpenClaw最強反擊!龍蝦首次會生視訊了
【新智元導讀】太突然了!Anthropic深夜發佈封殺令,切斷OpenClaw免費介面。龍蝦之父霸氣回懟,直接上線2026.4.5王炸更新:AI原生支援視訊生成,還裝上了一套模擬人類的「睡眠記憶」系統。Anthropic全面封殺,OpenClaw絕境爆發!全新的OpenClaw 2026.4.5來了,官號在帖子中,僅用三個短句完成了最強回應——Anthropic把我們封了。GPT-5.4變強了。我們繼續前進。這條推文發出不到24小時,瀏覽量突破130萬。這是頭一次,「龍蝦」支援原生視訊+音樂生成。現如今,OpenClaw可直接呼叫GoogleLyria、Runway等頂尖模型,一次對直出視訊/音樂。最為硬核的,4.5版本還引入了「夢境」(Dreaming)記憶機制。它將AI記憶提取為三個協作階段:輕度、深度、REM(快速眼動)。輸入/dreaming,「龍蝦」便會在後台對「短期記憶」加權彙總,提取出「持久真相」,並記錄在dreams.md中。這就相當於,讓AI模仿人類一樣「睡眠」,結果——OpenClaw不僅能記住對話,更學會了在反思中進化,精準把控長期任務。此外,新版OpenClaw最佳化了「提示詞快取」重用率,降低延遲節省了大量token。Anthropic停用了怎麼辦?OpenClaw接入儘可能多的大模型,可隨意切換,有人已全面切換到GPT-5.4上了。還有人曬出了自家團隊,過去七天,完全被GPT-5.4接管了。這一次重磅更新,到底塞了多少東西?龍蝦首次,直出視訊+音樂了2026.4.5版本,是OpenClaw歷史上功能最密集的版本之一,涵蓋從內容生成到記憶系統的全面升級。最顯眼的變化,OpenClaw現在內建了視訊、音樂和圖片生成能力。Agent可以在對話中直接呼叫這些工具,生成的媒體檔案隨回覆一起返回。視訊生成接入了11家提供商,Grok、Wan、Runway、Google、MiniMax、OpenAI、Qwen、fal、Together AI、BytePlus,外加ComfyUI的本地工作流。下面這個視訊,就是「龍蝦」生成的。音樂生成支援Google Lyria、MiniMax和ComfyUI。圖片生成同樣拉滿,ComfyUI、fal、Google、MiniMax、OpenAI的gpt-image-1全部接入,gpt-image-1還支援上傳參考圖做編輯。這次OpenClaw內建了一個ComfyUI媒體外掛,同時覆蓋圖片、視訊和音樂三條線,支援本地ComfyUI和Comfy Cloud兩種部署方式。對於已經在用ComfyUI做工作流的使用者來說,這相當於把整套本地生產管線直接接進了Agent。音樂和視訊生成還加入了非同步任務追蹤。生成請求發出後Agent不會卡住等結果,任務完成後自動推送成品給使用者。/dreaming 給AI裝了一套「睡眠記憶」系統這個版本最有想像力的功能叫Dreaming。OpenClaw給AI Agent做了一套模擬人類睡眠記憶鞏固的機制,分三個階段運行——淺睡眠(Light)整理和篩選近期短期記憶;REM階段提取主題和反思性訊號;深度睡眠(Deep)決定那些記憶值得永久保留,寫入長期記憶檔案MEMORY.md。僅需在聊天框輸入/dreaming on瞬間開啟,/dreaming status查看當前狀態,/dreaming off隨時關閉。開啟後,OpenClaw默認每天凌晨3點自動執行一輪完整的「睡眠」掃描。Gateway的Dreams標籤頁可以看到全部狀態,短期記憶數量、長期記憶數量、當天提升了多少條、下次掃描什麼時候跑。還有一個「夢境日記」面板,每次整理後自動生成一段人類可讀的敘事摘要,頂部保留了一個龍蝦動畫。命令列使用者有更多玩法。openclaw memory promote --apply手動執行一次深度記憶提升,promote-explain可以查看某條記憶為什麼沒被提升,評分系統的六個加權訊號(頻率、相關性、查詢多樣性、時效性、復現強度、概念豐富度)每一步決策都透明可查。權重分佈透露了一個設計理念,相關性(0.30)比頻率(0.24)權重更高。系統更看重「這條記憶是否在不同場景下被反覆檢索到」,而不是「它出現了多少次」。記憶整理還支援多語言概念標籤,中文對話產生的記憶不需要翻譯成英文就能參與評分和提升。有大佬點評稱,OpenClaw最新「夢境」功能,靈感源自Claude Code上周洩露的原始碼。51萬行程式碼中,暴露了一個CC隱藏功能——KAIROS。其中,包含了一個autoDream的系統,以Fork子處理程序運行,充當後台記憶整合的引擎。它一共有「三道門」觸發機制(Three-Gate Trigger)——時間門,距上次至少24小時。會話門,期間至少5次會話。鎖門,獲取排他鎖防止並行做夢。恰恰,OpenClaw也在Dreaming引入了三個階段。GPT-5.4升級版,超絲滑針對GPT-5.4方面,OpenClaw加了前向相容的openai-codex和gpt-5.4-mini,還有一個可選的GPT人格化選項。GPT-5.4龍蝦升級之後,明顯變得更強了。一手體驗後,有網友表示,立即回到了老版Claude的感覺。OpenClaw之父稱,這可是自己耗費很大精力,才讓GPT有了情感。考慮到和Anthropic的關係變化,OpenAI陣營的支援力度明顯在加碼。龍蝦工作流引擎從外部CLI呼叫改為處理程序內運行,減少了通訊開銷。Claude CLI的整合也有變化,通過一個loopback MCP bridge把OpenClaw的工具暴露給背景執行的Claude CLI,同時切換到stdin流式傳輸。此外,「機構化任務處理程序」也在這個版本落地了。長時間運行的Agent任務,現在可以向UI推送結構化的計畫更新和執行進度,使用者不用再盯著一個轉圈的loading猜Agent到底在幹什麼。提示快取復用做了一輪系統性最佳化,涉及MCP工具排序確定性、圖片歷史嵌入、系統提示指紋歸一化等多個環節。簡單說,就是連續對話時,後續輪次能更多地命中前一輪的快取,省錢省時間。openclaw status --verbose,現在可以直接看快取命中的診斷資訊。Control UI新增了12種語言,包括簡體中文和繁體中文。ClawHub技能市場聚集了超過4.4萬個技能包,技能面板現在內建搜尋和一鍵安裝。安全修復覆蓋了從Telegram到Discord到微信的幾乎所有管道,佔了changelog的三分之一以上。倒貼4800美元,Anthropic動手了說回開頭那三句話的背景。4月4日中午12點(太平洋時間),Anthropic向所有使用者傳送郵件,宣佈Claude Pro和Max訂閱將不再覆蓋OpenClaw等第三方工具的使用。之前花20美元月費就能通過OpenClaw無限呼叫Claude的日子,到此結束。想繼續用,要麼買API key按量付費,要麼開通Extra Usage走按量計費通道。Anthropic給了一次性補償積分作為安撫,有效期到4月17日。CC之父Boris Cherny對此做出瞭解釋,第三方工具繞過了Claude Code的提示詞快取最佳化,一個OpenClaw重度使用者消耗的算力遠超同等規模的Claude Code會話。這些工具給我們的系統造成了超額壓力。這些擔憂,並非空穴來風。此前,Cursor內部研究爆出,Anthropic正在「自殺式」請客。他們正在為200美元的訂閱使用者,背負5000美元的算力成本,而「龍蝦」呼叫token消耗量可想而知。一個Max訂閱使用者通過OpenClaw跑自動化Agent,實際消耗可能是正常使用者的數十倍。這筆帳算不過來。社區估算,大約60%的活躍OpenClaw會話跑在Claude訂閱上。一紙禁令,直接讓大量使用者的AI Agent在周五晚上集體「失聲」。還有人發現,自從封殺了OpenClaw之後,Claude明顯穩定了很多。復合了,但沒完全復合OpenClaw創始人Peter Steinberger的反應很激烈。他說自己和OpenClaw董事會成員Dave Morin「試圖跟Anthropic講道理」,最終只爭取到了推遲一周執行。「有意思的是時間節點,先把開放原始碼專案的熱門功能抄進自家封閉工具裡,然後把開源鎖在門外」。4月5日,OpenClaw發佈2026.4.5版本,release notes裡直接把Claude CLI後端從新使用者引導流程中移除。那句「Anthropic cut us off. GPT-5.4 got better. We moved on.」就出現在版本說明的最後一行。但故事沒有按照「徹底決裂」的劇本走。就在發佈後不久,OpenClaw的官方文件悄然更新了一段話,「Anthropic工作人員告知我們,OpenClaw風格的Claude CLI使用再次被允許。」目前的狀態是,Claude訂閱仍然不能直接免費跑OpenClaw,但CLI層面的技術整合保留了。Anthropic的態度從「一刀切」變成了「你可以用,但得額外付錢」。這出分手復合的戲碼,三天演完。開源Agent的「大廠困境」表面看是計費模式之爭,底層是一個結構性問題——當一個開放原始碼專案的核心能力依賴單一商業公司的模型和基礎設施時,它的命運就不完全掌握在自己手裡。OpenClaw的應對策略是用數量換安全,接入儘可能多的模型提供商,讓使用者在Claude、GPT-5.4、Qwen、MiniMax、Kimi之間自由切換。這次更新把這個策略推到了極致。但同樣的問題換個角度成立,OpenAI贊助了OpenClaw的獨立基金會,Steinberger本人也加入了OpenAI。如果有一天OpenAI也改變政策呢?OpenClaw的文件裡有一句話寫得很誠實,「對於需要長期運行的閘道器主機,Anthropic API key仍然是最清晰、最可預測的生產路徑。」開源不等於免費。模型中立不等於沒有依賴。這只龍蝦跑得夠快,但腳下的地面一直在動。 (新智元)
字節的“羅福莉”,撐起了Seedance的半邊天
隨著小米新模型的推出,“天才少女”羅福莉再度成為焦點。其實在AI科學家圈子裡,女性數量雖然相對較少,但也絕非羅福莉一顆獨苗。在字節跳動,就有一位羅福莉式的人物。她就是Seedance 2.0視訊生成模型的預訓練負責人,曾妍。一般聊起Seedance 2.0,大家普遍想到的人是掌舵人吳永輝、研發負責人周暢、視訊生成技術核心負責人蔣璐。很少有人知道,曾妍的存在,同樣無可或缺。因為預訓練是整個模型的“基石”,它決定了模型的能力上限。大多數人把預訓練當成“喂資料”,但真正的高手知道,預訓練是在“塑造模型的世界觀”。資料怎麼配比、架構怎麼設計、訓練策略怎麼調整,每一個決策都在決定模型能看到什麼、理解什麼、生成什麼。無論你後面怎麼努力最佳化,預訓練只要沒做好,這個模型就一輩子達不到Seedance 2.0現如今的高度。不僅是貢獻大,曾妍的晉陞速度在字節也是相當快的。從她畢業進入字節開始算起,到現在的4-2職級,曾妍僅僅花了5年時間。4-2職級對應高級總監/權威架構師層級,屬於公司核心戰略級技術骨幹,年包(含基本工資、年終獎、股票)普遍在500萬以上。她到底做了什麼,才有如此成就?讓我們從她的求學之路說起。01 從西交到字節說實話,當我第一次看到曾妍的履歷時,並沒有覺得特別驚豔。1997年出生,西安交通大學本科,加拿大蒙特利爾大學電腦碩士。這條路徑放到現在的AI圈裡太常見了。但接下來發生的事,就不那麼“標準”了。2021年9月,曾妍以校招生身份加入字節跳動 AI Lab,起點職級是演算法工程師。入職僅兩個月,曾妍就以第一作者身份在arXiv上發表了論文《Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts》,也就是後來大家熟知的X-VLM模型。這篇論文解決的問題,用大白話說就是:怎麼讓 AI 既能看懂“大場面”,又能注意到“小細節”。傳統的視覺語言模型有兩個極端。一種是“粗線條”派,只看圖像整體和文字的對應關係,就像你給AI看一張照片,它只能說“這是海灘”,但說不出更多了。另一種是“顯微鏡”派,依賴昂貴的目標檢測器去摳每個物體,雖然能看到細節,但計算成本高得嚇人,還得依賴大量人工標註資料。曾妍提出的X-VLM,就是取兩者之所長。它能同時學習從整體到局部、從場景到物體、從粗到細的多層次視覺概念,並與文字中的不同粒度資訊精準對齊。或者我用一個我最近剛學會的話來形容:既見森林,又見樹木。這個“多粒度對齊”的思想,在當時看起來只是個學術創新,但它為曾妍後來擔任Seedance 2.0預訓練負責人埋下了伏筆。因為視訊生成的預訓練,本質上也是個多粒度建模的問題。你要想生成一個好看的視訊,那就既要把握整體敘事節奏,讓一段視訊有連貫的故事線;又要控制每一幀的細節質量,確保人物面容不變形、物體運動符合物理規律;還要建立時序維度上的關聯關係,讓前後幀之間的過渡自然流暢。這剛和X-VLM的底層邏輯是一致的。接下來的兩年,曾妍就像開了掛一樣。她以第一作者身份在TPAMI、ICML、CVPR、ACL、NAACL等國際頂會發表了八篇論文,還擔任了TPAMI、ICML、NeurIPS、ICLR、ACL、EMNLP等頂會的審稿人。2023年,一個關鍵轉折點到來了。字節跳動成立大模型研究部門Seed,曾妍和所在團隊一同轉入。這個時間節點你得放在大背景下看,2022年底ChatGPT橫空出世,2023年初各大公司紛紛All in大模型,字節也在這波浪潮中調整了技術戰略。曾妍擅長的多模態預訓練,在視訊生成這個新戰場上,能發揮她的全部實力。在Seed部門,曾妍作為第一作者主導了兩個重要項目,分別是CCLM和Lynx。先說CCLM(Cross-View Language Modeling)。這個項目讓AI模型同時學會“跨語言”和“跨模態”的理解能力。CCLM通過統一的預訓練框架,讓在英文圖像-文字資料上訓練的模型,可以零樣本遷移到中文、日文等其他語言的多模態任務上。說白了,就是讓 AI 學會“舉一反三”——在英文視訊上學到的理解能力,能直接用到中文、日文、西班牙文的視訊上。再說Lynx。這是一個系統性研究如何訓練GPT-4風格多模態大語言模型的項目。2023年正是GPT-4剛發佈的時候,大家都在摸索怎麼做出“能看圖說話”的大模型。曾妍團隊通過一系列對比實驗,找出了模型架構設計、訓練資料配比、指令微調策略等關鍵因素,最終做出了 Lynx 模型,在多模態理解和指令跟隨能力上都表現出色。用人話說,就是研究“怎麼造出一個既能看懂圖片又能流暢對話的AI”,並且搞清楚了那些因素真正重要。真正讓曾妍“出圈”的,是2023年年底的PixelDance。這個項目的論文題目很有意思,叫《如何讓像素跳舞》(Make Pixels Dance: High-Dynamic Video Generation)。它解決的是視訊生成領域一個長期存在的矛盾,如何平衡動態性和穩定性。你想想,如果一個AI生成的視訊動作幅度很大、畫面變化劇烈,看起來確實生動有趣,但很容易出現畫面崩壞、角色變形、物體突然消失這些“靈異事件”。反過來,如果你追求穩定性,讓角色和場景保持一致,人物面容不突變,那生成的視訊就容易僵硬,像幻燈片切換而不是流暢的動態影像。曾妍團隊的突破在於,他們在預訓練階段就建立了嚴格的時序約束。傳統的視訊生成模型都是先生成視訊,然後再一幀一幀去修補。PixelDance則是讓模型學會了在保持一致性的前提下生成動態內容。核心創新點是在擴散模型框架中,引入首幀+末幀的雙圖像指令,配合文字指令聯合約束視訊生成,同時在網路結構中新增時序摺積與時序注意力層,從生成的源頭就錨定了視訊的起止狀態,從而保證大動態動作下的主體與場景一致性。就像訓練一個舞者,從一開始就教她在保持平衡的前提下做大幅度動作。PixelDance的成功,讓曾妍在字節內部的地位迅速提升。2024年,她從演算法工程師晉陞為演算法研究員,成為Seed團隊中最年輕的研究員之一。這個晉陞不只是對她學術能力的認可,更重要的是,她證明了自己能把研究成果轉化為實際產品。在大廠裡,這兩種能力的差別,就像會做菜和會開餐廳的差別。02 從 PixelDance 到 Seedance 2.0有意思的是,PixelDance就是Seedance的前身。Seed代表字節的大模型部門,dance則保留了“讓像素起舞”的核心理念。這個改名不只是品牌策略,更標誌著模型從研究原型向商業產品的轉變。2025年6月11日,字節正式發佈了Seedance 1.0,曾妍是該模型的核心研發負責人。雖然直至2026年2月,曾妍才被字節官方確認為Seedance 2.0 視訊模型預訓練負責人,但知情人士爆料,早2025年下半年時,曾妍就已經正式牽頭Seedance 2.0的預訓練全流程工作,成為該項目的核心一號位。她的+2 leader是周暢,+3 leader是Seed團隊負責人吳永輝。Seedance 2.0核心技術突破之一是雙分支擴散變換器架構,這是曾妍團隊在預訓練階段就確立的基礎架構。傳統視訊生成模型採用“先畫後配”的模式。即先生成視訊畫面,再單獨生成或匹配音訊。這種方式的問題在於,音畫分離導致同步性差,人物說話時嘴型對不上,背景音樂的節奏與畫面情緒脫節,音效出現的時機與畫面動作不匹配。Seedance 2.0通過視訊與音訊平行生成的方式,共享同一個理解編碼器,從根源上實現了音畫原生協同。這個架構設計的關鍵在於,讓模型在生成每一幀畫面的同時,就考慮對應的音訊應該是什麼樣的,而不是等畫面全部生成完再去“配”音訊。文章開頭我就講了,預訓練是整個模型能力的基石。曾妍在這個階段需要處理海量的視訊資料,建立視覺、文字、音訊等多模態之間的對齊關係。她通過引入“跨分支校準模組”,即時校準視訊與音訊的節奏、情緒與場景匹配度,確保嘴型與台詞同步、音效與畫面契合、背景音樂與情緒氛圍一致。預訓練階段把所有的多模態對齊關係、物理規律、運動模式都塞進模型裡,成為“默認項”。後續模型只要呼叫到相關內容,就會立刻給出預訓練時的結果。它不是簡單地讓模型記住訓練資料,而是讓模型從海量資料中提煉出普遍規律,形成對世界的基礎理解。Seedance 2.0生成時長1分鐘的2K視訊僅需60秒,比上一代Seedance 1.5 Pro快了30%。速度提升的背後,是曾妍團隊在預訓練階段對模型架構、訓練策略、資料配比的精細調優。她的團隊迭代速度極快,在預訓練階段就完成了擴散模型的多輪最佳化。最佳化注意力機制減少冗餘計算,改進噪聲調度策略加快收斂速度,精選高品質訓練資料提升樣本效率。每一個最佳化點單獨看都不起眼,但累積起來就是質的飛躍。模型規模越大,訓練成本越高,每一個百分點的效率提升都意味著數百萬元的成本節約和數周的時間縮短。Seedance 2.0還實現了多鏡頭敘事能力。這意味著模型不僅能生成長視訊,還能理解“全景-中景-特寫”的專業分鏡邏輯,自動規劃鏡頭切換,生成帶有蒙太奇效果的完整敘事序列。這個能力很大程度上依賴於曾妍在預訓練階段投喂的字節跳動海量短影片資料。抖音每天產生數以億計的短影片,這些視訊雖然大多是普通使用者拍攝,但其中不乏優秀的鏡頭語言和敘事技巧。曾妍團隊從這些資料中篩選出高品質樣本,讓模型學習到了人類導演的鏡頭語言和敘事節奏。這種從資料中提煉出的“導演直覺”。03 曾妍與羅福莉同為女性AI科學家,曾妍和羅福莉在模型研發中,都擅長尋找“平衡點”。在DeepSeek時期,羅福莉參與的DeepSeek-V2,通過MoE架構的稀疏啟動,把推理成本降到了GPT-4 Turbo的七十分之一,但是性能卻與頂尖的閉源模型十分相近。這就像設計一個大型圖書館,雖然藏書百萬冊,但每次查詢只需要翻開其中幾本,而不是把所有書都搬出來。這種“按需啟動”的機制,讓大模型的成本驟然下降,卻不怎麼損失性能。羅福莉在性能與成本之間,找到了這樣一個平衡點。到了號稱“性價比之王”的小米,羅福莉把DeepSeek的精神貫徹到底。她主導團隊與北京大學聯合研發資源管理系統ARL-Tangram,讓模型的算力成本直降71.2%。然而成本下降並不意味著性能下降。使用了該技術的兆參數的旗艦模型MiMo-V2-Pro,在Artificial Analysis全球大模型綜合智能排行榜上位列第八、國內第二。羅福莉證明了一件事:性價比不是某個項目的偶然,而是一種可以跨平台複製的方法論。曾妍的平衡點則是前文提到的動態性和穩定性,讓視訊生成模型又能講好故事,又有畫面張力和視覺衝擊力。兩人不同的是職業規劃。羅福莉從阿里跳到幻方,再到DeepSeek,這條路徑是“從大廠到創業公司,從工程應用到模型研究”。曾妍則是在字節內部一路深耕,5年時間完成了從校招畢業生,坐到了4-2的位置。兩條路徑沒有高下之分。在AI大模型這個燒錢、拼資源、看長期積累的領域,年輕的技術人才依然可以通過對問題的深刻理解,在短時間內做出關鍵貢獻。有可能他們研究的方向,你聽都沒聽過,但就是有效。她們的故事才剛剛開始。 (字母AI)
《紐約時報》:中國人為何對人工智慧如此樂觀?
儘管許多西方人士擔心人工智慧技術對就業或整個人類的影響,但中國公眾對人工智慧仍表現出高度樂觀的態度。去年在上海舉行的世界人工智慧大會上展出的服務機器人。沈啟來《紐約時報》最近,人工智慧視訊生成工具 Seedance 2.0 首次亮相,它能夠建立使用者幾乎可以想像的任何內容的逼真視訊片段,這在世界兩端引發了截然不同的兩種反應。在美國,電影行業的許多人對此感到恐慌。一段由Seedance製作的布萊德·皮特和湯姆·克魯斯打鬥場面的視訊在網上廣泛傳播後,好萊塢的電影製作人和編劇們表示,他們的工作正迅速走向終結。但在中國,許多人對此感到自豪和興奮。短影片公司的股票飆升。中國最著名的導演之一賈樟柯分享了一部他用Seedance製作的短片,片中他本人和人工智慧版本探討了電影製作。賈樟柯在社交媒體上寫道: “我不擔心科技會取代電影。從一開始,電影就與新技術共存。真正重要的是人們如何運用科技。”賈樟柯(中)於 2024 年在法國戛納電影節上。安東尼·圖利爾/法新社 — 蓋蒂圖片社截然不同的反應表明,中國與西方大部分地區在人工智慧問題上存在更廣泛的分歧:中國人似乎對人工智慧更加樂觀。根據畢馬威去年對47個國家進行的一項調查,中國民眾對人工智慧的熱情位居世界前列。在中國,69%的受訪者認為這項技術的益處大於風險,而只有35%的美國人認同這一觀點。其他民意調查也顯示出類似的差異。問題是,為什麼?答案可能與該技術在每個國家的部署方式,以及行業領導人如何談論該技術有關。在中國,人工智慧似乎無處不在。無人駕駛計程車已在中國十幾個城市穿梭,服務機器人也穿梭於酒店和餐廳之間。中國科技公司推出了醫療聊天機器人,幫助使用者避免在醫院排長隊。他們還在熱門應用程式中嵌入了人工智慧助手,使用者可以在地圖應用中詢問人工智慧如何選擇餐廳,或者在購物應用中詢問人工智慧如何挑選鞋子。這是中國中部城市蕪湖用於協助交通的機器人。在中國,人工智慧似乎無處不在。王宇石/VCG,圖片來自Getty Images這是因為中國科技公司一直專注於人工智慧的實際應用。相比之下,許多領先的美國科技公司則專注於更抽象的目標,例如開發最前沿的模型或實現通用人工智慧。此外,與美國不同,中國大多數領先的人工智慧模型都是免費使用的。在美國,使用者必須付費才能使用像 ChatGPT 這樣的聊天機器人的全部功能。(事實上,中國公司甚至會贈送現金和豪車來吸引使用者下載他們的應用程式。)上海中歐國際工商學院研究數字經濟的教授白國表示,因此,中國消費者正在感受到人工智慧帶來的好處。白教授表示:“人工智慧已經能夠幫助解決很多問題,人們覺得這很有趣,很有用,所以大家對它抱有很多積極和熱情。” 而潛在風險目前看來仍然遙遠。北京一直是冠軍對人工智慧應用的關注是中國競爭異常激烈的網際網路經濟的產物。阿里巴巴、字節跳動和外賣巨頭美團等領先企業正展開一場曠日持久的使用者爭奪戰,而人工智慧則是他們最新的工具。人工智慧可以幫助解決中國一些最棘手的問題,例如醫療保健或勞動力老齡化問題。許多中國學者、投資者和企業家認為,這種樂觀情緒源於一個更為抽象的原因:簡而言之,中國近幾十年來現代化處理程序飛速發展,許多中國人已經習慣了翻天覆地的變化。而科技正是推動這一變革的關鍵。去年在武漢的一次演示活動中,拍攝了一輛無人駕駛電動小巴。吉爾·薩布裡《紐約時報》來自中國的科技作家Afra Wang在最近的一篇簡報中寫道,她的祖母曾經步行五個小時去買鐘,只為了讓孩子們能準時上學。“如今,她的小米手機讓她沉迷於網購,送貨無人機在她家上空盤旋,”王女士寫道。“人工智慧看起來只不過是車輪向前轉動的又一次而已。” (invest wallstreet)
瞞不住了!透視Seedance 2.0關聯深企:這才是深圳硬核實力
字節跳動推出的AI視訊生成模型Seedance 2.0,在2026年2月初引爆了全球科技和創投圈。Seedance雖然是字節跳動的產品,但它的研發與深圳這座城市緊密相連。根據公開的工商資訊,Seedance 2.0是字節跳動旗下即夢AI開發的產品,而即夢AI的關聯公司——深圳市臉萌科技有限公司,由字節跳動全資持股,就坐落於深圳。▲圖源:CFP這意味著,這款在全球範圍內引發關注的AI應用,其核心研發和營運實體就在深圳。這不僅體現了深圳在吸引和培育高科技企業方面的優勢,也展示了深圳在AI應用層面積累的深厚人才和技術底蘊。一幅以人工智慧和具身智慧型手機器人為雙引擎的科技創新藍圖徐徐展開。深圳正以“全端自主可控”的雄心,加速建設全球人工智慧先鋒城市和具身智慧型手機器人產業集聚區,在全球科技競爭的新賽道上展現出中國科技創新第一城的硬核實力。AI先鋒:打造全端自主可控的智能底座2026年深圳政府工作報告明確提出:加快建設全球人工智慧先鋒城市,力爭人工智慧產業叢集增加值增長10%以上。這一目標背後,是深圳在AI領域建構的完整創新矩陣。▲圖源:CFP在算力基礎設施方面,深圳正在建構“四算合一”(通算、智算、超算、量算)的算力網路,福田區作為重要承載地,推動“港數深算”打通深港資料與算力壁壘。光明實驗室、福田實驗室、領先邊端智能開放研究院等創新平台高標準推進,深圳河套學院高水平建設,形成了從基礎研究到產業應用的完整鏈條。在技術攻堅層面,深圳集中力量突破演算法理論、模型架構、智算晶片、基礎軟體等核心技術。2026年,全社會研發投入將增長10%以上,實施基礎研究項目180個以上,重點產業研發項目150個以上。這種“頂天立地”的創新體系,正是深圳建設具有全球重要影響力的產業科技創新中心的核心支撐。更具戰略眼光的是,深圳正加強全端自主可控AI軟硬體生態建設。從晶片到框架,從演算法到應用,深圳正在建構不依賴外部技術的完整AI生態,這在當前國際形勢下具有深遠的戰略意義。具身智能:從“八大金剛”到千億產業叢集如果說人工智慧是“大腦”,具身智慧型手機器人則是“身體”。2026年,深圳依然將人工智慧列為重點壯大的四大戰略性新興產業之一,標誌著這一未來產業正式進入深圳產業政策的C位。▲2026年2月14日,深圳,全球首屆春節嘉年華——未來同頻 人機共生。深圳在具身智能領域的佈局早已先行一步。目前,深圳已培育出“八大金剛”——數字華夏、眾擎機器人、逐際動力、帕西尼、智平方、跨維智能、優必選、普渡科技。這些企業構成了深圳具身智能產業的第一梯隊。據統計,深圳共有5.11萬家機器人相關企業,數量穩居全國首位,產業鏈總產值超過1700億元。根據《深圳市具身智慧型手機器人技術創新與產業發展行動計畫(2025-2027年)》,到2027年,深圳將實現:具身智慧型手機器人產業叢集相關企業超過1200家,新增培育估值過百億企業10家以上、營收超十億企業20家以上,關聯產業規模達到1000億元以上。2026年,深圳還將推出10個以上產業集聚效應明顯的人工智慧和具身智慧型手機器人創新孵化器。在核心技術方面,深圳重點支援具身智慧型手機器人核心零部件、AI晶片、仿生靈巧手、基座及垂直領域大模型、本體控制等關鍵核心技術攻關。以算力券方式對人形機器人企業和科研平台進行算力支援,為產業發展提供堅實底座。產業融合:AI終端與場景應用的雙向奔赴深圳的獨特優勢在於產業鏈完備、機電一體化、應用場景豐富。2026年,深圳將人工智慧終端產業規模目標設定為8000億元以上、力爭1兆元,推出50款以上爆款人工智慧終端產品,打造60個以上典型應用場景。在智能終端領域,深圳在手機、電腦、大模型一體機、可穿戴裝置等領域全面發力,人工智慧終端產品產量突破1.5億台。從AI手機到智能可穿戴裝置,從AI電腦到具身智慧型手機器人,深圳正在打造具有國際競爭力的智能硬體產品叢集。在場景開放方面,深圳已累計發佈近200個“城市+AI”應用場景,2026年計畫再開放100個應用場景。從智能製造到智慧金融,從智慧城市到智慧養老,從智慧政務到低空經濟,深圳正以"場景應用最開放"的姿態,為AI和機器人技術提供最好的試驗場。前海作為深港合作的橋頭堡,正建構“642”產業體系,其中“4”大戰略性新興產業就包括人工智慧與具身智慧型手機器人、海洋產業、智能終端、低空經濟。這種“南山創新+寶安製造+前海服務”的疊加優勢,將推動深港現代服務業與珠三角先進製造業深度融合。生態建構:從政策護航到全球資源配置深圳科技實力的持續領先,離不開制度創新與生態建構。在政策支援方面,深圳採取超常規政策舉措,支援發展人工智慧與機器人產業。《深圳市加快打造人工智慧先鋒城市行動計畫(2025—2026年)》提出,到2026年全市人工智慧企業數量超3000家,獨角獸企業超10家,產業規模年均增長超20%。在人才集聚方面,深圳高水平建設深圳河套學院,建構“學院+園區”創新生態,打造富有吸引力的人工智慧人才集聚地。丘成桐院士發起的數學與交叉學科研究院、深圳醫學科學院的國際臨床試驗中心、粵港澳大灣區國創中心國際總部等,形成了從基礎研究到臨床應用、再到產業轉化的全鏈條創新生態。▲深圳河套學院。圖源:深圳河套學院官網在全球資源配置方面,深圳加快推進河套深港科技創新合作區建設,打造國際協同創新區、國際性產業與標準組織集聚區。前海累計吸引183家世界500強投資主體,全球服務商區域性、功能性總部累計42家,為深圳科技產業對接全球資源提供了重要平台。新質生產力的深圳樣本從2026年深圳的科技願景可以看出,深圳正在以人工智慧和具身智慧型手機器人為雙引擎,建構具有全球競爭力的現代化產業體系。這不僅是技術的突破,更是新質生產力的生動實踐。深圳的目標是清晰的:建成具有國際影響力的人工智慧先鋒城市,具身智慧型手機器人產業綜合實力達到國際領先水平。在“十五五”規劃的開局之年,深圳以10%以上的研發投入增長、10%以上的AI產業增加值增長、兆級的人工智慧終端產業規模,向世界展示著中國科技創新的速度與質量。從華強北的電子元器件到前海的國際標準組織,從南山區的演算法創新到寶安區的機器人製造,從河套的跨境資料流通到光明實驗室的基礎研究——深圳正以全產業鏈優勢、全場景應用優勢、全要素創新優勢,在全球科技革命和產業變革中搶佔制高點。 (察理思特)
中國AI引爆好萊塢恐慌!馬斯克點贊背後,一場3000億產業大洗牌正在發生
當《黑神話:悟空》創始人馮驥在社交平台上感嘆“內容領域必將迎來史無前例的通貨膨脹”時,他手中的工具正是字節跳動最新發佈的視訊生成模型Seedance 2.0。這款沒有發佈會、沒有通稿的AI工具,卻在全球科技圈投下了一枚深水炸彈。特斯拉CEO埃隆·馬斯克親自轉發點評:“進展太快”。從好萊塢到底特律,從橫店到矽谷,一場由國產AI引發的產業地震正在蔓延。01 產業重構:成本塌方90%,傳統影視的“末日鐘聲”“一人劇組”時代的到來在北京一家影視科技公司裡,工作人員正通過Seedance 2.0加緊製作新春祝福視訊。公司首席技術官徐京徽感慨:“過去想實現流暢的、人物一致性完好的商業片,可能需要堆砌大量的工作流。現在創作者可以把更多精力聚焦在創意上。”[citation:原創]這種變化的背後,是令人窒息的成本壓縮。常州華彩映畫影業曾為《那吒2》提供後期製作,企業負責人梁奕黃告訴記者,以前接一個特效簡單的短劇項目,需要30多人的團隊;現在五六個人就能跑通全流程。南京炫佳科技目前已實現日產9000分鐘的內容產能,最快1小時即可成片。該公司負責人秦林算了一筆帳:“過去傳統真人短劇單集綜合成本普遍在3萬元到5萬元,頭部精品超10萬元。而依託Seedance 2.0,AI短劇單整合本可以控制在幾千元,AI漫劇甚至能低至幾百元,整體成本降幅超過80%甚至90%。”知名視效指導姚騏使用該工具製作的2分鐘科幻短片《歸途》,整體成本僅330.6元——這一數字在傳統製作框架下難以想像。“導演”這個詞,正在被重新定義Seedance 2.0真正讓普通人擁有了導演的能力。北鬥智影的技術負責人這樣描述他的使用體驗:只需告訴它故事,模型自行完成分鏡設計——遠景交代環境,特寫捕捉情緒,音效、配樂、剪輯點全部一次性生成。遊戲科學創始人馮驥在深度體驗後給出了極具份量的判斷:“一般性視訊的製作成本將無法再沿用影視行業的傳統邏輯,開始逐漸趨近算力的邊際成本。傳統組織結構與製作流程會被徹底重構。”南京市電影協會秘書長周正認為,對於技術門檻較低的環節,AI可以有效實現降本增效。他特別提到,AI對“一人公司”模式的短影片創作者非常有利。02 資本暗戰:AI漫劇概念爆發,誰在風口起舞?二級市場的狂熱反應資本市場對Seedance 2.0的反應可謂狂熱。連續兩日,A股Seedance概念類股持續走強,多隻個股觸及漲停。AI漫劇概念相關個股迅速受到市場追捧,掌閱科技、德才股份在2月9日至12日均連續漲停,錄得四連板。海通國際發佈研報指出,AI漫劇作為最確定的落地場景,2025年中國市場規模達168億元,2026年預計增長45%至243.6億元。AI漫劇製作成本已從傳統短劇的1.5-4萬元/分鐘壓縮至約1000元/分鐘,製作周期從30-45天縮短至7-10天。開源證券最新研報認為,Seedance 2.0有望率先在AI漫劇、AI短劇等短內容領域得到廣泛應用。其極高的可控性顯著降低了“抽卡”成本,中性假設下可使模型每秒生成成本相比同業降低37%,推動製作大幅降本提效。產業鏈的價值重估中銀證券在其最新研報中表示,Seedance 2.0在功能層面取得的突破對於AI多模態應用特別是視訊生成領域有著重要的催化意義。多模態生成對於算力需求較大,這使得上游硬體基礎設施亦有望同步受益。方正證券發佈研報稱,結合2026年AI應用大年的產業邏輯,疊加Seedance 2.0的技術催化,從彈性排序來看,後續細分賽道機會呈現“低位影視>行銷>傳媒指數>遊戲”的趨勢。資料顯示,中國整體日均token消耗已從2024年初的1000億增至2026年2月的180兆等級。視訊生成將驅動雲廠商token消耗呈指數級增長,火山引擎、阿里雲等雲廠商將直接受益。在狂熱中,也有冷靜的聲音。掌閱科技在2月12日晚間發佈的公告中表示,公司2025年度AI短劇業務收入預計不超過主營業務收入的1%。德才股份則指出,其控股孫公司奇想無限設立時間較短,尚無相關業務訂單及收入。市場的熱情與公司的冷靜形成了鮮明對比。03 創作革命:從“抽卡”到“導演”,短影片創作者的新紅利告別“抽卡”時代過去,AI視訊最大的痛點在於“抽卡”——創作者們往往為了得到一個不崩壞、一致性的幾秒鐘視訊需要反覆生成數十次。Seedance 2.0的核心突破在於試圖將“炫技”轉化為“可交付敘事”。從技術層面看,Seedance 2.0採用了統一的多模態音視訊聯合生成架構。清華大學新聞與傳播學院、人工智慧學院雙聘教授瀋陽分析:“我們可以指定表演的細節,燈光、相機運動等多元素實現電影等級的精確控制,在時間連貫性和物理真實性上的躍進,保持物理的一致性。”[citation:原創]在實際應用中,這種技術突破意味著什麼?同樣輸入提示詞“男主在香港街頭被圍攻,一人打倒十幾個黑衣人,最後怒吼‘還有誰’”,過去的模型可能生成一段站樁式輸出,而Seedance 2.0則自行完成了完整的分鏡設計。IP價值的新可能在氾濫的AI生成內容洪流中,技術本身不再是壁壘,真正的壁壘依然掌握在IP所有者手中。正因為市場上充斥著大量“高仿”內容,才更顯出真正IP的不可替代。當內容供給不僅過剩而且“通貨膨脹”時,使用者的時間和注意力將變得前所未有的昂貴。能夠瞬間捕獲使用者注意力的,依然是那些經過時間驗證的、具有強大情感穿透力的經典IP。青年導演成亞妹認為,儘管AI可以在配樂、分鏡、故事策劃、視效製作等方面提高效率,為導演拓寬思路,但她堅信,最關鍵的仍在於故事的靈魂——創作者想要表達什麼?那些故事裡的靈光,是AI無法實現的。04 深度訊號:技術狂飆背後的冷思考“技術平權”的雙刃劍從Seedance到DeepSeek,中國企業AI產品的火爆並非偶然。獨立智庫澳大利亞戰略政策研究所(ASPI)去年末發佈的《關鍵技術追蹤報告》顯示,中國在74項關鍵技術中66項排名第一。中國正致力於AI發展與監管平行。今年1月,修訂後的《中華人民共和國網路安全法》正式施行,其中新增了促進人工智慧發展的相關規定。針對有害內容、隱私和資料安全等方面,中國國內已制定了廣泛的規則,例如《生成式人工智慧服務管理暫行辦法》早在2023年就開始實施。版權與深偽:AI的“阿喀琉斯之踵”Seedance 2.0驚人的復刻能力,也讓版權方感到了前所未有的壓力。近日,大量關於周星馳經典電影的“二創”甚至“惡搞”片段在短影片平台瘋傳。周星馳經紀人陳震宇公開發文質疑:“想問一下,這些屬於侵權嗎?”美國電影協會(MPA)12日發佈聲明稱:“僅一天時間,中國的Seedance 2.0就大規模未經授權使用了美國受版權保護的作品。”而比版權風險更為棘手的是“深偽”問題。Seedance 2.0模型具備對個人生物資訊的深度復現能力,針對使用者反饋,字節跳動隨即叫停了“真人素材參考”功能。在平台使用Seedance 2.0時會提示暫不支援真人人臉參考。與此同時,在即夢App和豆包App使用Seedance 2.0時,平台採取“活體核驗”措施,使用者需要錄製本人形象與聲音完成真人校驗,才可以製作數字分身。05 實操乾貨:創作者如何在AI洪流中生存與崛起擁抱AI,但不盲從對於內容創作者而言,Seedance 2.0的到來既是機遇也是挑戰。南京市電影協會秘書長周正建議:“未來平台上不缺內容,缺的是有思想、有情感、有辨識度的優質內容。”他指出,對於一些低端內容領域來說,技術門檻已被徹底踏平。那些只會按固定範本拍攝、缺乏核心創意的導演會被淘汰。短劇行業的真正價值必將回歸到那些無法被演算法壓縮的部分——獨特的創意構想、深刻的人文關懷、真誠的情感連接,以及歷經時間淬煉的IP靈魂。複合型人才的新賽道站在行業視角來看,AI漫劇和AI短劇下半場的競爭邏輯已經非常清晰:從拼產能轉向拼品質、拼IP、拚生態。當AI工具逐漸普及,單純的量產能力不再是壁壘,低質同質化內容會快速被市場淘汰。在這樣的趨勢下,行業需要的也不再是傳統意義上單一技能的影視人才,而是AI原生的複合型人才——既懂內容敘事、懂使用者情緒、能把控審美與故事靈魂的創意人才,也懂模型、懂多模態生成、能最佳化生產流程的技術人才。周正強調,無論技術如何演進,內容創作的精度與創意依然是根本。行業對“好故事”的要求只會更高,對人本身的要求也會更高——多閱讀、提升思維深度、保持對人文的敏感,仍是所有創作者無法繞開的功課。AI是工具,但內容的溫度、故事的價值、IP的生命力,最終還是要靠人來定義。夜深人靜,當影視颶風Tim更新了Seedance 2.0的體驗視訊,有創作者在凌晨三點寫下:“1年來第一次在半夜,被AI進展驚到失眠。”這種失眠,既是興奮也是恐懼。興奮於創作的門檻從未如此之低,恐懼於自身的價值從未如此需要重新證明。電影《死侍》編劇雷特·瑞斯看著由AI生成的湯姆·克魯斯和布萊德·皮特互搏短片,感慨道:“我真不想這麼說,但我們可能完了。很快,就會有人坐在電腦前生成一部與好萊塢現有電影無法區分的影片。”從導演到剪輯,從拍攝到配樂,AI正在瘋狂壓縮我們的工作流。當工具變得唾手可得,決定內容高度的,將不再是會不會用軟體,而是腦海中那個關於世界的構想是否足夠獨特。一人公司、一人劇組正慢慢成為潮流現象[citation:原創]。在技術的狂飆中,最珍貴的東西始終沒變——那些無法被演算法壓縮的,是人的溫度。 (胡曉妃新商業)
中國AI為何再次令世界驚豔
中國人工智慧(AI)視訊創作模型Seedance 2.0近日發佈後在全球網路上迅速走紅。各國使用者大量分享該模型生成的超逼真視訊,引發國際社會廣泛關注與熱議。這不禁讓人聯想到2025年的“DeepSeek時刻”。中國AI再次驚豔世界,從深層來看是制度、市場與創新體系長期積累的結果,更展現了中國在科研領域的整體快速發展。伴隨著高品質科研產出和技術貢獻的持續提升,中國的創新實踐正在重塑全球科技生態。AI視訊生成迎來“奇點”時刻據推出該模型的字節跳動公司發佈的聲明,Seedance 2.0模型面向專業影視、電商和廣告等場景設計,能夠同時處理文字、圖像、音訊和視訊內容,從而顯著降低高品質視訊內容的製作成本。美國業內人士指出,Seedance 2.0在生成視訊方面表現突出,可能成為視訊內容創作的一個轉折點。在以文字生成為核心的大語言模型得到廣泛應用後,專注於生成視訊和圖像的大模型被視為AI技術的下一階段。業界此前普遍認為該領域實現突破還需要兩三年,但Seedance 2.0的發佈意味著這一刻已提前來臨。美國企業家埃隆·馬斯克在其X平台上評論Seedance 2.0時感嘆:“發展得太快了。”電商行業垂直搜尋引擎BigGo金融頻道發文說,眾多業內人士評價Seedance 2.0為“當前全球最強視訊生成模型”,其發佈是視訊生成領域的“奇點”時刻。該模型憑藉其卓越的多鏡頭剪輯、高超的運鏡、角色一致性與音畫同步能力,在全球開發者、影視從業者及資本市場中引發巨大反響。德國科技博主蒂莫西·邁克斯納發佈評測視訊說,與先前以“文字生成視訊”的模型不同,Seedance 2.0允許使用者將多種輸入源以極度靈活的方式進行組合,從而實現更有針對性的內容創作。“Seedance 2.0的問世,標誌著AI視訊生成技術正經歷代際躍遷。”他說。制度和市場提供發展“厚土”從去年1月開源模型DeepSeek-R1打破全球AI產業長期依賴“堆算力”的發展路徑,到今年的Seedance 2.0生成的視訊刷屏各大平台,中國AI一年多來不斷交出亮眼“答卷”。不少西方媒體和分析人士認為,中國AI產業的快速發展是制度和市場雙重賦能的結果。英國《金融時報》發表評論文章說,政策支援、人才培養以及企業與市場的結合等因素,為中國AI發展提供了豐厚土壤。文章說,中國近年來投入大量資源用於AI相關研究、人才培養和基礎設施建設。此外,AI發展不僅在於生成文字和圖像,也在於將AI嵌入物理環境,包括智能製造、人形機器人以及汽車、手機、可穿戴裝置等終端應用。成熟的製造業體系讓中國在這些方面擁有巨大優勢。英國埃塞克斯大學管理學教授彼得·布盧姆認為,中國科技企業推動開源模型的發展為許多國家的AI項目作出重大貢獻。南非主串流媒體《郵衛報》近日發表文章指出,中國推動的開源大模型正成為全球特別是全球南方國家技術創新的重要基礎。中國創新深刻影響全球科技生態AI領域的快速發展,是中國科技自主創新的縮影。美國《時代》雜誌提到,中國AI產業快速發展,2014年至2023年在生成式AI領域的專利註冊數量上領先全球,是美國的6倍。美國史丹佛大學發佈的2025年AI指數報告指出,中國在AI領域的論文發表數量和專利數量繼續保持國際領先地位。中國科技創新在科研產出規模、質量和貢獻量等方面正在持續重塑全球科技生態。早在2022年,日本科學技術政策研究所就發佈報告說,中國在一項旨在評估高品質科學成果的關鍵指標上超過了美國,那就是對排名前1%的高被引論文的貢獻。自然指數2025科研領導者榜單顯示,中國高品質科研產出繼續保持全球第一,並在迅速擴大領先優勢。美國聖路易斯聯準會基於經濟合作與發展組織資料的分析顯示,2015年至2022年,海外支付給中國企業的專利使用費增長超過五倍。2022年,韓國成為向中國支付專利使用費最多的國家,緊隨其後的是美國、日本與新加坡。其他付費的發達經濟體還包括瑞士、德國、荷蘭等。聖路易斯聯準會的分析報告說,這一趨勢凸顯出更廣泛的結構性轉變,即中國不再僅限於引進與應用外國技術,而是開始對外輸出技術。尤其在AI、綠色能源等領域,中國企業正在從創新的接受者轉變為塑造技術發展方向的主動貢獻者。 (中國資訊化周報)