#Vidu | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#Vidu

全球AI雙榜第一！力壓GoogleVeo與Grok，Vidu Q3「參考生」之王歸來

【新智元導讀】Vidu Q3帶著「全家桶」重磅回歸，視覺、聽覺、場景能力全面進化。AI視訊的生產級交付時代，真的來了。這個月初，Google一紙公告，把Veo 3.1的視訊生成能力，免費開放給了所有Google帳號。可以說，這是AI視訊史上的一個分水嶺——曾經一條10秒視訊要燒掉數美金的「奢侈品」，正在被巨頭硬生生做成「水電煤」。但越是免費、越是普及，一個尷尬的問題就越藏不住：模型可以無限趨近「能用」，可它和「能交付」之間，依然隔著一整條生產線。榜單上的分數、demo裡的炫技、社交媒體上的爆款片段，全都換不來一個劇組、一支廣告團隊、一條電商內容流水線的穩定輸出。熱鬧歸熱鬧，能用歸能用，從來就是兩件事。而當大多數玩家還在卷免費、卷解析度、卷畫面時長時，一個被低估的中國玩家，悄悄把答案擺上了桌。今天，Vidu Q3帶著「參考生」重磅回歸。作為全球公認的「參考生鼻祖」，這一次，它直接把「參考生」揉進一整套全家桶——以Vidu Q3參考生模型為「核心底座」，Vidu SaaS（Vidu Agent、Vidu Claw）與 Vidu MaaS（Vidu AI 開放平台）全面接入。其中Vidu AI開放平台，可0門檻接入、價格僅為行業平均水平的1/3、切鏡自然合理、生成速度快。同時，它還支援提示詞調優、工作流適配及專項培訓服務，即便在高峰時段也能確保穩健輸出。以上三層加在一起，構成了一套完整的、可直接接入真實生產流水線的內容生產系統。至此，Vidu Q3已全面覆蓋文生、圖生、參考生三大領域，完成由單一模型向全場景視訊生成方案的跨越。正如Slogan所言，「為劇而生，萬物可參」，Vidu正在做一件其他玩家還顧不上做的事：把模型能力，焊死在真正的生產流程中。「參考生之王」回歸直接拍戲了要理解這件事的重要性，先把背景拎清楚。1月30日，Vidu Q3全球首發，在權威評測榜單AA上一騎絕塵，拿下了全球第一的成績。它一舉超越了Grok Imagine、Gen-4.5、GoogleVeo3.1等一眾領先模型。在全球首個參考生榜單，SuperClue榜單上，Vidu Q3斷層登頂，在多圖/單圖參考任務蟬聯雙榜第一。首次亮相，Vidu Q3便主打「為劇而生」，成為全球首個聲畫直出16秒的AI視訊模型。事實上，整個AI視訊行業的競爭焦點，正在悄悄發生一次根本性的位移。視訊大模型，正在從「生成畫面」邁向「生成內容」。比拚的重點也從單點能力，轉向兩件更本質的事——是否具備完整的敘事能力，以及，是否能進入真實場景的生產級交付。這兩件事，才是把AI視訊從「技術demo」推向「內容生產力」的真正分水嶺。Vidu Q3的出世，恰恰被視為整個行業轉變的階段性節點——從最早的「視訊生成」，到Q2的「演技生成」，再到Q3真正具備「劇集生產能力」的敘事單元級躍遷。每一步，Vidu都踩在了行業演化的關節上。而支撐這次躍遷的關鍵變數，正是Vidu一直握在手裡的那張王牌——參考生。在AI視訊走向生產級交付的這條路上，「參考生」的角色正被徹底改寫。它不再只是一個提升畫面一致性的工具能力，而正逐漸演變為一種可復用、可組合的內容生產範式。作為全球「參考生」首創者，名副其實的「參考生之王」，這一次，Q3直接把其從模型層推到了應用層。這種巨變，直接體現在了漫劇、短劇、廣告、影視劇等應用場景中的可用性和交付性。換句話說，Vidu讓AI視訊，真正具備了「劇」的表達能力，為劇而生。萬物可參，為「劇」而生，聲畫同出在視覺、聽覺和場景上， Vidu Q3系統性升級，招招致命。相較於上一代，Q3不再執著於枯燥的「生成質量指標」（FID/FVD）比拚，而是死磕一個核心目標：讓AI生成內容，真正具備「劇」的表達能力。要知道，所謂的「劇集感」，是由無數個符合直覺的微小細節堆砌而成的。Vidu Q3在視覺、聽覺與場景三個關鍵維度上，交出了一份令人「恐怖」的答卷。在視覺方面，Vidu Q3新增六大特效：粒子、流體、動力學、運鏡、轉場、光影，將其深度融入敘事語言，讓生成內容更接近「成片級表達」。五大沉浸式音效：環境、動態、氛圍、擬音、情緒，讓Q3賦予了AI視訊「聽覺上的敘事連續性」。至此，聲音不再是畫面的附屬，而是情緒的載體。最重要的是，Q3場景能力已進化為直接對齊工業流程的「內容單元」，大幅縮減從創意到成片的距離，覆蓋了短劇、漫劇、影視劇、廣告四大場景。在這些領域，Vidu 不僅實現了極速生成與高頻迭代，更通過極高的視覺穩定性，率先解決了AI創作中「角色一致性」的行業難題。這種從點到面的全場景滲透，標誌著Vidu已從技術驗證期跨入深度產業應用期，建立了不可踰越的落地領先優勢。為了驗證其真實戰力，我們拋棄了傳統的「跑分邏輯」，直接把Vidu Q3扔進更接近真實生產的內容場景裡——漫劇的高燃瞬間、短劇的情緒爆點、影視級的災難與懸疑調度，以及廣告的多元創意。高燃漫劇漫劇，是過去兩年AI內容工業化跑得最快的賽道之一。低成本、短周期、可批次生產，這些特性天然契合AI視訊的能力邊界。但也正因為漫劇對「量」的極致追求，它把AI視訊最致命的那塊短板暴露得淋漓盡致——一致性。一部大約60分鐘的漫劇，每分鐘三四十個鏡頭，每段AI生成的素材只有5–10秒。這就意味著，整部劇是由上千段片段硬拚而成。過去，AI模型最大的問題，是每一張圖之間彼此獨立：人物的臉換了一點、服裝紋樣飄了一點、道具位置跳了一幀，觀眾瞬間出戲。創作者在剪輯台前熬夜重抽素材的痛苦，幾乎是整個行業的共同記憶。一個能夠支援批次生產與快速迭代、同時把主角、場景、道具死死鎖住的模型，是漫劇工業化真正的分水嶺。丟給Vidu Q3一張紅圍巾校服少年的立繪，讓它生成一個「熱血少年覺醒變身」的短片。結果令人震撼，狂風的怒吼、電流的尖嘯、大地的碎裂聲在這一秒瘋狂交織、層層遞進，將情緒推向了最頂峰。最關鍵的突破點在於：複雜的特效變化下，男主形象始終如一。再比如，投喂給Q3一張古風女主的角色圖片、一張江南水鄉的場景圖、一套手繪的服化道參考。提示詞唯寫了一句，「@圖1穿著@圖2衣服，在@圖3江南水鄉行走」。可以看到，動漫女主的臉部特徵被死死鎖住，沒有出現任何畫風偏移或五官融化，服裝的紋理與褶皺也隨著行走步伐自然飄動。而且，背景還夾雜著微風、鳥叫聲、腳步聲生動的環境音效。如果說單人變身是基礎操作，那麼複雜的「雙人肢體纏鬥」則是檢驗AI模型能力的試金石。上傳兩個主角的圖片，在這段激烈的對峙戲中，Vidu Q3展現出了令人膽寒的技術統治力。面對拳腳相加、重擊倒地、連續翻滾等大動態物理互動，Vidu Q3將兩位主角的形象死死鎖住，徹底告別了傳統AI常見的「面部融化」與「服飾穿模」。不僅如此，它在音效與情感生成的顆粒度上達到了影院級水準：沉悶的肉搏聲、倒地後紊亂的喘息，甚至刀鋒逼近脖頸時那一聲微小且冰冷的顫音，都與畫面嚴絲合縫。這一段，可以直接剪進漫劇成片裡，幾乎不需要返工。真人短劇如果說漫劇拼的是「量」，那短劇拼的就是「戲」。中國短劇市場一年狂飆到幾百億規模，單集時長被壓到極致，敘事密度卻反向拉滿——每一句台詞、每一次對視、每一個停頓，都必須精準擊中觀眾的情緒點。大幅降低製作成本和周期，是短劇行業對AI視訊最迫切的呼喚；但前提是——AI必須先學會演對白戲，也就是說，短劇的生死線是「對話」。過去AI視訊在多人對話場景上最容易翻車：要麼兩個人同時張嘴像合唱團，要麼口型對不上台詞，要麼切鏡頭的瞬間人就變了。觀眾能容忍畫面糙一點，但對話一崩，戲就徹底散了。且看下面這段極其細膩的古風雙人對角戲，呈現了Vidu Q3令人驚嘆的「影視級演技」。Vidu Q3 不僅將兩人的骨相特徵與複雜的古裝妝造死死鎖住，更完美呈現了男主嘴角輕佻時那抹似有若無的笑意。這種告別了「AI僵硬感」的細膩神態捕捉，讓角色瞬間擁有了鮮活的靈魂。更令人稱絕的是隨後的雙人台詞交鋒，對話時口型的毫釐不差。再比如來一個現代劇，女強人和霸主之間的糾葛，在Vidu Q3的筆下呈現得淋漓盡致。廣告/電商對於廣告或電商而言，用AI的最大訴求可能就是提升效率──不止是素材版本多，創意要快，要快速試錯。素材生產效率，就是速度、就是搶先引爆熱點的優勢。而Vidu Q3不僅提升了素材生成效率，更重要的是人物、風格統一可控，商品不走樣，背景或人物任意選。比如，下列唇蜜的廣告，利用Vidu Q3參考生功能，可快速篩選不同的風格：只需替換參考模特，一鍵生成不同風格、聲情並茂的視訊，真一鍵出片！鏡頭逐漸推進唇部，模特用唇蜜塗抹在嘴唇上，特寫鏡頭展示唇蜜質感。廣告大片效果，多鏡頭展示。最後手持唇膏模特說說：This touch is more than just color.。去掉bgm，保留人聲再舉一個例子，老梗換新貨，更容易在網上爆紅。比如，威爾·史密斯吃義大利面，就是國外的經典梗之一，可謂歷久不衰。在Vidu Q3，用他的表情包+新的商品（比如漢堡），繼續利用參考生就能生成類似場景的梗圖。這效果看起來是真香！影視預演/內容創意影視劇是AI視訊最難啃的一塊骨頭，但也是價值天花板的最高場景。過去，一個劇本從文字到成片，中間要經歷概念設計、分鏡繪製、預演拍攝、特效合成——這背後，動輒是上千萬的預算，是以「月/年」為單位的製作周期。整個行業最渴望的，是一種能把劇本快速可視化、分鏡自動生成、創意驗證前置的能力，讓導演在燒錢之前，就先看到自己腦中的畫面。Vidu Q3沒有選擇繞路，直接正面正剛。它挑了三種最吃功力的片種：科幻、災難、懸疑。給到一段提示詞：根據參考機甲與未來都市場景，生成一段電影級科幻追逐戲。夜色中的賽博朋克城市高樓林立，霓虹燈閃爍，主角駕駛機甲在高架橋與樓宇之間高速穿梭，後方數架敵方飛行器緊追不捨。鏡頭先從城市遠景俯拍，再切入近距離追蹤，機甲急轉、噴射推進、擦過廣告螢幕與樓體邊緣，期間伴隨爆炸火光與碎片飛散。畫面要求有強烈速度感、空間縱深與電影感，參考主體外觀保持穩定，特效密集但清晰。這個生成的難點在於，俯拍切近景、遠景切追蹤、機甲高速運動、爆炸的碎片層次....每一個細節，都考驗著模型對「電影感」的理解。更狠的是音效，直接構成了一個立體聲場，給人一種身臨其境的壓迫感。再來看災難片，考核的是尺度與震撼，這是這類型大片的標準配方。Vidu Q3在生成效果中，處理了多層次的視覺要素：天空、水牆、慌亂的人群、建築物震顫，每一個要素配合著調度營造出一種末日緊迫感。而且，由遠及近的聲壓推進，更成為了這個視訊重頭戲。更令人想不到的是，一段廢棄醫院的長鏡頭，瞬間拉滿了那種脊背發涼的氛圍感。Vidu Q3不僅在空間推進中保持連貫，還在光影忽明忽暗中保留了真實性，角色表演也有一定的張力。音效更是克制到極致，燈管電流雜音、走廊回音、腳步聲、呼吸聲，把緊張感推向頂點。總言之，Vidu Q3在視覺、聽覺與場景三個關鍵維度上，將四大場景的應用推向了新的高光時刻。偉大的技術最終都將隱形於無形縱觀科技史，任何一項偉大的技術，其最終的宿命都是「隱形」。當電動機剛發明時，人們驚嘆於電流的魔力；但當大工業時代到來時，電動機隱身於工廠的流水線中，人們只看到源源不斷產出的精美商品。今天的AI視訊行業，正在經歷同樣的蛻變。Vidu Q3通過極盡複雜的底層演算法攻堅，通過從Q1到Q3的艱難跋涉，換來的，恰恰是創作者極其簡單的「為劇而生」。它終結了那個需要靠算運氣、抽盲盒才能得到一段好視訊的時代；它把AI視訊從獵奇者的「玩具箱」，搬到了專業創作者的「工作台」上。「萬物可參」，參考的不僅是現實世界的像素，更是人類無盡的想像力。當你在Vidu App中敲下第一行劇本，當Vidu Claw為你自動生成第一組分鏡，當Vidu Q3用它極具張力的音效和電影級的光影，把你腦海中那個原本只敢做夢的龐大宇宙完美呈現時，你會深刻地意識到：不要用做盲盒的邏輯，去奢望大工業時代的轟鳴。AI視訊的「前戲」已經結束，屬於創作者的、由新質生產力驅動的「大航海時代」，在Vidu Q3按下Enter的那一刻，正式拉開了帷幕。在這個充滿無限可能的時代，最好的故事，不再受制於資本的傲慢與工業的繁瑣。 (新智元)

中國AI視訊雙雄並起：Seedance 2.0與Vidu Q3組團席捲全球

爆紅社交平台、登頂全球評測，中國AI視訊模型集體破圈。在AI視訊創作領域，Seedance 2.0的爆火不是偶然。這一次真正“破圈”，很大程度上源於它所具備的“導演思維”——劇本驅動、分鏡清晰、節奏精準。它讓人們意識到，一個好的AI視訊更需要創意調度。而過去，創作者在AI視訊中最難掌握的兩個要素，恰恰就是理解故事結構與鏡頭語言。與此同時，另一款國產視訊生成模型生數科技的Vidu Q3，也在創作者社群中走紅，並剛剛登頂全球權威AI評測平台Artificial Analysis，成為全球排名第一的視訊生成模型。Vidu Q3強調“為劇而生”，它將畫面、聲音與長時長合為一體，一次生成即可輸出16秒的完整敘事段落，並支援多角色、多語種對話，具備強烈的“導演感”與“表演張力”。當行業熱議Seedance 2.0的絲滑節奏與真實感時，Vidu所代表的則是另一種強勢崛起——可控的內容表達、紮實的技術底盤以及高完成度的成片落地。01. 同樣是爆款視訊製造機Vidu Q3頗具表演張力AI生成視訊越來越真實，也越來越“能演”。情緒遞進是否自然、人物神情是否真實，成為評判AI視訊質感的重要標準之一。此次對比中，Vidu Q3在“表演感”上的表現，展現了另一種完成度。提示詞：現代高層辦公室，冷灰色調搭配落地窗的自然光線。女主穿著黑色西裝，手肘撐在辦公桌托腮凝視鏡頭，眼神冷靜且有力量。鏡頭從正面鏡頭，切換到側面鏡頭，捕捉她手指輕敲桌面的細節，她皺起眉頭，有點生氣，中文開口說道：“這就是這個星期的成果麼？我不滿意，重新做吧。”背景加入鍵盤敲擊聲與窗外城市車流的環境音，營造專業且略帶壓迫感的職場氛圍，無背景音樂。參考圖：Seedance 2.0與Vidu Q3效果：Vidu Q3生成的人物表情細節表現出較高穩定性，尤其在眼神、嘴角與眉弓等關鍵部位的控制上較為自然。當人物面臨情緒轉折時，能呈現出接近真人演員的表情變化，而非單一貼圖式的處理方式。A與此同時，Seedance 2.0與Vidu Q3的情緒表達具備起伏與節奏感，能夠與劇情節點同步推進，使畫面更具張力與“表演感”。無論是Seedance 2.0所展現的鏡頭感與節奏感，還是Vidu Q3在人設與情緒上的延展，都在共同拓展AI視訊“可看性”的邊界，補足了當前主流AI視訊模型在人物演繹方面的一大空白。02. 視聽一體的沉浸感更接近可用成片音畫一致性也是成片質感的關鍵參考因素。我們嘗試用Vidu Q3復刻了Seedance 2.0所生成的爆款視訊，Vidu Q3的效果與Seedance 2.0相近，在聲音與畫面協同方面展現出極高完成度。Seedance 2.0效果：Vidu Q3效果：從兩款模型的生成效果可見，其環境音、動作聲均與畫面節奏高度貼合，音效能夠配合鏡頭同步表達情緒變化。就比如在“怪獸大戰貓咪”這類打鬥場景中，打擊聲和背景音樂與角色動作完全同步，環境音與畫面節奏貼合得很好，整體氛圍被瞬間拉滿。無論是Seedance 2.0還是Vidu Q3，整體生成結果都具備很強的沉浸感，無明顯音畫錯位或情緒斷裂，生成後無需額外“補聲”處理，即可作為可用片段使用。在此番對比下，Vidu Q3與Seedance 2.0在視聽協同方面的穩定性與一致性上平分秋色，其生成內容均接近“直接可投放”水準，特別適用於短劇、廣告、劇情視訊等需要聲畫並重的創作場景。03. 開頭抓人，結尾帶情緒畫面爆發力適配商業化節奏在短內容環境中，一條視訊是否“抓人”，往往由首尾幾秒決定。本輪對比測試中，兩款模型在關鍵畫面節點均表現出色，尤其是在開場的視覺衝擊力與結尾的情緒收束方面。提示詞：電影級特效風格，夜晚都市環境，中景拍攝。一名身穿西裝的男子站立不動，神情冷靜；下一瞬間黑色黏稠液體從頸部與肩部迅速蔓延，沿身體流動、翻湧、包裹全身，伴隨強烈閃光，西裝被吞噬並重組為毒液風格怪獸形態，肌肉誇張、表面液態反射明顯。鏡頭輕微震動並快速推近，強化變身衝擊力。音訊：低頻能量轟鳴起始 → 黏液流動音效（濕潤、拉絲感）→ 變身完成瞬間加入強烈衝擊音與閃光爆音；無背景音樂、無人聲，對白完全缺失，所有聲音集中服務於變身過程，營造震撼、黑暗、危險的氛圍。參考圖：以“毒液變身”這一高強度特效場景為例，Vidu Q3的開場首幀具備強烈的視覺記憶點，如面部特寫、液體包裹動作與爆發性變身效果，能夠迅速吸引使用者注意。而在劇情推進結束時，其收尾處理較為自然，畫面具有一定的定格感，這類特徵便適用於短劇、廣告等留存導向內容。與之對應，Seedance 2.0則在鏡頭語言與節奏控制上表現穩定，變身過程中的動作銜接與閃光爆點處理流暢，在視覺與節奏之間拿捏得當，也展現出極強的大片質感。再來看“雪王大戰奧特曼”這一打鬥場景。Seedance 2.0在打擊感上的表現更加直接，動作反饋清晰、節奏緊湊，呈現出“拳拳到肉”的真實衝擊力。Vidu Q3則在特效表現上更為突出，“電光火石”的能量感與視覺張力更強，整體畫面更具影視感。就對內容“起承轉合”的掌控能力而言，這兩款模型不僅都適合內容生產，還可直接用於商用傳播。在以短影片和片段化內容為主的平台生態中，這種“自帶爆點”的生成方式將極大提升效率。04. 從節奏調度到風格控制創作可控性正在重塑AI視訊工具AI視訊是否能持續復用、風格是否統一、鏡頭是否可控，是關鍵難題。從這一層面看，兩款模型代表了創作路徑的不同側重。在節奏調度方面，Seedance 2.0在李小龍風格動作片這類快節奏場景中，鏡頭切換自然、動作銜接流暢，具備很強的“剪輯感”，很適合強調動感、爽感的內容創作。相較之下，Vidu Q3在鏡頭穩定性上表現較為均衡。在風格控制能力上，Vidu Q3支援特效參數設定與多參考素材輸入，創作者可細緻調節光效、鏡頭節奏、角色穩定性等維度，可控影響最終的生成內容。兩種路徑的分化，本質上是效率與風格的抉擇，也為不同階段、不同類型的創作者提供了工具層面的適配方案。一邊是絲滑節奏與高上手效率，一邊是多參控制與風格一致性，兩種創作思路均圍繞“可控性”這一核心能力進行各自演進，共同推動AI視訊從生成工具進化為創作工具。05. 中國雙雄並起，國產AI視訊模型正攜手走上全球第一梯隊在生成視訊這條賽道上，中國模型正在超越國際水準。Seedance 2.0和Vidu Q3分別代表了創意調度與高水準輸出的兩個高點，也代表了國產模型從技術追趕到能力破圈的階段性躍遷。從性能角度看，據全球權威評測平台Artificial Analysis資料顯示，Vidu在商業內容生成級模型中目前排名全球第一，其生成速度比OpenAI的Sora 2快10倍，相較Google Veo 3 Fast和Grok-imagine-video也有2倍優勢。生數科技在2025年12月開放原始碼的TurboDiffusion框架，也將生成效率提升至單張RTX 5090顯示卡1.9秒生成5秒視訊，效率相比傳統擴散路徑提升100-200倍。相比海外模型，Vidu和Seedance走出了一條更加面向成片落地的道路，強化結構控制與多角色協同，在短劇、廣告、劇情類內容中更具適用性，國產AI視訊模型正攜手走上全球第一梯隊。06. 結語：一登榜首，一爆火出圈國產AI視訊模型正在形成集體突破從登頂全球權威榜單的Vidu Q3，到在海內外爆火的Seedance 2.0，無論是生成速度、結構控制、情緒表現，還是風格自由度，國產AI視訊模型正在多個核心維度上持續接近甚至超越海外同類產品，逐步站上全球第一梯隊。它們不僅證明了中國模型在技術能力上的躍升，也為AI視訊在商業化與創作生態中的深度落地打開了想像空間。國產AI視訊的全球登頂，或許只是一個更大變局的起點。 (智東西)

中國AI又贏麻了！Vidu Q3榜單殺到中國第一，AI漫劇短劇狂喜：16秒聲畫直出，效率起飛！

最近的AI視訊圈子真是越來越卷的，但是不知道大家有沒有跟我一樣的感覺：雖然工具在不斷的快速迭代，但是要做個精品視訊，其實還是很不科學的。為什麼這麼說呢？傳統AI視訊生成的痛點太明顯了：多個分鏡間的銜接不自然容易出現人物和場景不一致後期配音太麻煩：配音、配樂、配音效、對口型生成的視訊普遍還是 5-10 秒的小片段一個能拿得出手的精品視訊，背後是創作者花大量時間和精力，反覆抽卡、修改、磨出來的。最近，行者發現Vidu 升級了 Q3 視訊模型，可以支援最高 16S 的音視訊聲畫同步同出高畫質直出，對創作效率的提升是實打實的。大家先看下行者生成的這個視訊：FVP視角，蜜蜂視角，鏡頭無限穿梭。更厲害的是，最新國際權威AI評測榜單Artificial Analysis剛放榜，Vidu Q3直接衝到中國第一、全球第二！硬剛馬斯克的xAI Grok，還把Runway Gen-4.5、Google Veo3.1、OpenAI Sora 2全都甩在身後。Vidu這是用實力告訴全世界：中國速度，真的來了！視訊生成下半場，我們已經開始領跑啦.一、Vidu Q3介紹先來說下Vidu Q3這次升級的內容。1.全球首個16秒音視訊直出：這絕對是王炸。以前的視訊基本都是8秒、10秒，頂多算個鏡頭，而16秒，已經是一個有劇本、有分鏡、有穩定角色、有統一美術風格的，真正的作品。更關鍵的是，聲畫同步，高畫質直出。你輸入的台詞，Q3能直接生成帶配音、音效、背景音樂的視訊。2.鏡頭控制，自由切換： Q3的運鏡能力也進化了，它能根據你的描述，自動進行鏡頭切換，從跟拍切到特寫，從全景拉到俯瞰，讓視覺呈現更生動，敘事感更強。你不再只是一個“抽卡”的人，更像一個“導演”。3.支援文字渲染，多國語言：這個功能很有意思，可以在視訊裡精準地渲染出中、英、日三種文字。讓文字在視訊裡演戲，對於做一些特效、片頭或者特殊視覺效果的視訊來說，非常實用。大家還記得前段時間很火的花瓣消失特效，我用Q3復刻了一下，並加上了文字渲染。圖生視訊提示詞：讓圖片中的場景人物動起來，她從頭到腳開始分解成啞光紅色的玫瑰花瓣，她的身形變成無數紅色花瓣消失在視訊中，向右吹走。銀光閃爍地拼出漂浮的字母：“消失的他”。在整個效果呈現過程中，背景保持完全不變。紅色的玫瑰花瓣應緩慢飄移，要確保分解過程看起來平滑且在規模和方向上保持一致，背景不得出現扭曲。人物分解成花瓣的過程非常平滑，最後花瓣匯聚成“消失的她”四個字，意境一下就出來了。這種視覺特效，以前得用AE做半天，現在一句話就搞定了。總的來說，這些亮點對創作效率是實打實的提升。它讓AI視訊創作，從【演技生成】進入到【視聽生成】的時代。二、實測場景每一次 AI 工具的進化，對我們創作效率的提升是非常大的。行者從影視創作、AI短劇、AI漫劇、電商廣告、數字人等幾個最主流的應用場景進行測試。1）影視創作首先是影視創作，看下Q3在電影質感和捕捉細膩情緒方面的能力。我選了兩個動態感和鏡頭感要求極高的場景。1.擂台格鬥在圖生視訊中，上傳我們的參考圖，選擇Q3 視訊模型，時長12S。圖生視訊提示詞：視訊從一個緊貼女鬥士側臉的特寫鏡頭開始，她的眼神銳利如刀，馬尾辮在空中劃出動態的弧線。隨著她身體的旋轉，鏡頭以一個流暢的弧形運鏡（arc shot）向外拉伸，同時時間流速急劇減慢進入子彈時間。當她修長的腿以完美的姿態踢中對手面部的瞬間，一圈由汗水和水珠組成的衝擊波以三維形態炸裂開來。每一顆水珠都在明亮的拳擊場頂光下折射出鑽石般的光芒，清晰可見。鏡頭持續環繞，最終定格在展示踢擊完整姿態和對手受擊後仰的經典構圖上，整個畫面充滿雕塑般的美感和極致的力量生成的視訊：這個子彈時間的效果太帥了！弧形運鏡、慢動作、汗水炸開的衝擊波，這些複雜的指令Q3都理解並執行了。整個畫面的力量感和美感都非常到位，完全是電影等級的動作鏡頭。2、香港雨後小巷午夜香港雨後小巷，身穿綠色旗袍的女子在斑駁的霓虹光影中行走。採用粗糙的 16mm 膠片質感，從手持跟拍切入慢動作面部特寫。空靈的女聲畫外音響起：是不是永遠都差一步？整體氛圍憂鬱、懷舊且充滿敘事感。從跟拍到面部特寫的切換很自然。那句“是不是永遠都差一步？的旁白，是直接生成的！無需再匯入剪映後期配音，視訊直出旁白，這效率提升可不是一點半點。2）AI 短劇創作分鏡驅動，一鍵成片。現在AI短劇仍然是視訊變現的一個主航道。傳統的做法是生成劇本和分鏡，文生圖，圖生視訊，再剪輯配音。製作上，我們可以用 Deepseek 或豆包生成劇本大綱。再生成連續的 9 宮格分鏡圖，把分鏡圖給Vidu Q3。比如這個熱播動漫《仙逆》的二創視訊：我想看看它能不能根據分鏡圖驅動生成視訊並實現多鏡頭演繹。Q3的運鏡能力很強，它能根據分鏡圖，自動進行鏡頭切換，從中景到特寫，從全景拉到俯瞰，讓視覺呈現更生動，敘事感更強。3）AI 漫劇生成現在漫劇有多火，不用我多說了。經過半年發展，現在漫劇也在往精品化方向走了，對畫質和鏡頭感的要求越來越高。以往那種動態漫，已經滿足不了觀眾的胃口了。正好，拿我之前的漫劇分鏡圖生成一個酷炫的少年闖蕩江湖視訊：提示詞：根據上傳的 9 宮格漫畫圖片，生成動漫格鬥動畫視訊，不同的視角，動態感，畫面張力，特殊的透視這個效果讓我很驚喜。視訊裡有特寫、有全景、有仰拍、有俯瞰，鏡頭語言體現得非常好。還自動配上了一段非常中二但又很燃的旁白：命運的齒輪開始轉動，少年將肩負起守護世界的重任。聲畫同步，一步到位，這對於漫劇創作者來說，簡直是神器。4）電商拍攝廣告降本增效，氛圍拉滿這兩年，電商領域的AI視訊應用也越來越廣。以前拍一組服裝大片，得飛倫敦實景拍攝——機票、酒店、場地、模特、攝影師，一套下來大幾萬。現在用Q3 流程簡單很多：1.建立一張 9 宮格的倫敦街拍時尚大片場景圖2.使用 Q3 生成”實拍視訊“圖生視訊提示詞：根據上傳的 6 宮格故事版，生成連續視訊，每一個網格一個鏡頭，動態感，電影質感成片效果非常棒，模特走在倫敦街頭，背景音是真實的街道環境音——汽車引擎聲、行人交談聲、咖啡館的輕音樂。Q3的音效渲染能力在這種場景下特別加分，氛圍感直接拉滿，讓廣告看起來更真實、更有質感。5）跨境電商跨境電商商家來說，Q3可以快速生成虛擬模特展示商品，成本極低。一條介紹視訊，可以一鍵生成多國語言版本，助力出海。日語版：ピンクの背景の前で、女性が両手で頬を支え、嬉しそうな表情を浮かべ、右手に化粧品の箱を載せている。女性のセリフ：「天然酸素で、肌にハリと活力を。內側から輝く美しさを引き出してくれるから、寢る前に使うのが好きなんです。」日語發音很標準，口型也對得上，人物表情和台詞的情緒很搭。對於需要快速本地化的跨境賣家來說，這個功能太香了。6）動漫二創據貓眼專業版資料，《瘋狂動物城 2》上映 61 天，總票房破 44 億。基於它的二創視訊也獲得了不少流量。我簡單做了個尼克、朱迪在動物城的打鬥視訊，效果不錯。鬼殺隊蝴蝶忍我還測試了一個更複雜的場景，《鬼滅之刃》中蟲柱蝴蝶忍的特效大招，測試Q3在多個大幅度運動下能否始終保持穩定一致。圖生視訊提示詞：鏡頭始於劍尖的耀眼特寫，一道明亮的紫色光芒瞬間爆發。隨著女主角——鬼殺隊蟲柱蝴蝶忍向前疾衝，鏡頭迅速後拉並跟隨她的動作。她的劍身劃出一道巨大的紫色能量漩渦，無數發光的能量蝴蝶從中誕生，環繞著她飛舞。在滿月和紫藤花的背景下，她的蝴蝶羽織在高速移動中完全展開，色彩斑斕。鏡頭跟隨能量軌跡進行一次高速螺旋運鏡（spiral tracking shot），全方位展示這一招`蝶之舞·戲弄`的華麗與威力，最終在她突刺的終點定格，能量達到頂峰，照亮她那帶著一絲冷酷的微笑。這個長提示詞對AI的理解能力要求很高。Q3完成得相當不錯，螺旋運鏡、能量漩渦、發光蝴蝶這些核心元素都表現出來了，畫面非常華麗，大招有味。7）數字人現在很多博主開始用自己的AI形象出鏡了。我測試了用Q3生成虛擬IP演講和直播的場景。虛擬IP 演講提示詞：Mid shot, frontal perspective, fixed lens. Screen: Inside, a woman wearing a white camisole is wearing a microphone. Expression: Confident. Action: Open your hands and gesture while giving a speech. The woman speaks:英文台詞：seek out strong women, to be friends to align yourself with, follow your dreams,not your boyfriends, never doubt that you are valuable and powerful, and deserving of every chance and opportunity in the world。人物表情自信、自然，手部動作和演講內容匹配，鏡頭感很強。英文發音地道，口型精準。用這個來做知識付費課程或者分享視訊，完全沒問題。三、如何使用看了這麼多案例，是不是已經躍躍欲試了？行者跟大家介紹下使用方法。第一步：打開 Vidu 官網，點選左側菜單 "圖生視訊"或”文生視訊”傳送門：Vidu網站：https://www.vidu.cn/Vidu API：platform.vidu.cn第二步：按照下面的說明操作1.選擇 Vidu Q3 視訊模型：一定要選Q32.輸入視訊提示詞：包括動作、表情、運鏡，如果需要配音，就把台詞也寫進去。3.如果是圖生視訊，記得上傳一張高畫質的參考圖。4.選擇時長：根據你的場景和台詞長短，選擇8秒-16秒的時長。記住，不是非要16秒，合適的才是最好的。第三步：點選創作按鈕，然後泡杯咖啡，等待你的大片誕生！四、評測體會生成了幾十個視訊之後，行者的真實體驗是：它不是在某個單點上有所突破，而是系統性地解決了AI視訊創作的核心痛點。首個支援16秒音視訊直出，聲畫同步，這讓AI視訊擁有了完整的視聽語言，創作效率指數級提升。從抽卡到導演：人物一致性、動作連續性、口型精準性、畫面質感都做得非常好。加上多鏡頭自動切換和聲音驅動情緒，讓創作者可以真正地去“設計”和“導演”一個視訊，而不是靠運氣抽卡。為本土化而生：支援中、英、日三種語言的文字渲染和配音，對國內創作者和出海業務都非常友好。可以說，Vidu Q3推動了AI視訊從【演技生成】到【視聽生成】時代的到來，對於我們這些內容創作者來說，它是一個可以真正投入生產線的強大工具。五、寫在最後每次測評完一個強大的AI工具，我都會有些感慨。技術的進步，最終目的不是為了炫技，而是為瞭解放生產力，解放創造力。Vidu Q3的出現，把我們從繁瑣的視訊剪輯的工作中解放出來。我們不再需要為鏡頭不連貫而頭疼，不再需要為後期配音而熬夜。我們可以把更多的精力，投入到真正重要的事情上——講好一個故事，表達一種情緒，創造一個世界。AI的浪潮滾滾向前，它不會停下來等待任何人。作為創作者，我們唯一能做的，就是擁抱它，駕馭它，用它來武裝我們的思想，放大我們的創意。工具本身沒有價值，用工具創造出的作品才有。好了，今天就聊到這。我是行者，一個只講乾貨的AI實戰派。大家趕緊去試試Vidu Q3吧，期待看到你們的創想無界！ (行者AI視訊)

OpenAI還在卷生圖，中國AI已一鍵成片！馬斯克免費代言

【新智元導讀】AI一鍵成片神器來臨！今天，Vidu Agent開啟全球內測，一句話復刻爆款，從廣告到創意短片，分鏡級可控一鍵短片。視訊AI，正在進入真正的「硬仗階段」。2025年，GoogleVeo 3、OpenAI Sora 2、Runway Gen-4.5，本土Vidu等競相角逐，激烈交鋒。模型能力不斷狂飆，參數和demo一個比一個驚豔。但所有模型都繞不開一個現實問題：AI是能生成視訊片段了，可真正「會拍片」的，還是少數。創意如何拆解？鏡頭怎麼設計？節奏、情緒、結構怎麼控？就在今天，全新Vidu Agent出世，讓所有人看到了一種更親民的創新路徑：一個專業視訊創作夥伴，打破了單純的片段式視訊素材拼接的舊範式。Vidu Agent，主打一個「一鍵成片」。無論是產品廣告、品牌TVC，還是動畫短片，創意短片，你只負責想像，AI負責把創意100%落地。這一新功能，主要帶來了以下三大核心亮點——一站式創意輸出：專業級內容質感，想像力x分鏡級可控力x精細化編輯力高效率高性價比：支援一鍵成片、範本復刻與批次創作，讓創作高效簡單多元化場景定製：從靈感發散到結構化成片，覆蓋多語種、多場景創作需求從12月16日起，Vidu Agent 全球開放內測，使用者進入Vidu官網（Vidu.cn）申請Agent內測，並加入社群即可優先獲得體驗權限。使用邀請碼：XINZHIYUAN，立即註冊即送100積分提前拿到內測資格的小編，對Vidu Agent展開了一次最完整、最真實的實測體驗。一手實測進入Vidu首頁，點選左側欄中「AI Agent」，即刻體驗一鍵成片和視訊復刻。傳送門：https://www.vidu.cn/上手實操第一步，選定場景，上傳幾張產品圖+產品功能資訊+主題要求，Vidu Agent便開始自主工作了。張口提需求，AI一鍵成片傳統的電商視訊製作，堪稱一場「持久戰」。一條短短幾分鐘的廣告，素材成本獲取高昂，涉及攝影師、剪輯師等多工種協作，動輒數萬元成本。而且，製作周期長，迭代慢。尤其是，在大促前夕，傳統方式無法快速批次產出變體視訊，導致投放效果衰減快。更致命的是，創意與轉化的兩難：有趣的視訊，點贊率高但轉化差；但直擊賣點的「硬廣」，又容易被使用者劃走。一些平台的廣告投放資料顯示，前3秒未能有效吸引注意力，退出率特別高。產品功能展示不吸引人，觀眾難以產生「必須買」的衝動。此外，跨境電商還面臨多語種、本地化痛點：不同市場文化差異大，傳統拍攝難以覆蓋。早期AI視訊工具看似「解決」但往往陷入了「雞肋」的境地。除了多主體一致性差，質量不穩定，更常見的問題是「生成即結束」——AI只提供半成品，缺少爆點設計、情感敘事、行動號召（CTA）....而最新推出的Vidu Agent的「一鍵成片」，便直擊這些痛點，生成可直接投放的廣告成片。先來體驗一波「電商廣告」場景的視訊生成。上傳兩張圖片，一張是BOLON太陽鏡的產品圖，一張是奧黛麗赫本照片，看看Vidu Agent如何聯動起來。輸入一句話後，Vidu Agent直出一個分鏡指令碼。整個廣告片的劇情，它都幫你寫好了。若是對指令碼中的內容不滿意，可以自行編輯完善。然後對話方塊輸入「生成視訊」，由赫本代言的暴龍太陽鏡的廣告片就生成了！讓馬斯克穿上潮牌Supreme，展示上身效果，Vidu Agent一鍵搞定。無需複雜提示詞，全程只需「簡單式操作」即可完成——在Agent介面上傳所有圖片素材，來一句「圖片中的男子穿上潮牌紅衣」，分鏡指令碼視訊全由Vidu Agent瞬間完成。亦或是CHANEL蔚藍，想要一種美學效果的短片，還是得找專業的Vidu Agent。當香奈兒香水從綻放花苞當中閃現，那種神秘優雅感油然而生。它甚至自動完成「音畫同步」，一鍵生成配音。再比如，還是同款產品，這一次，選擇讓一位男模為這瓶香水代言。簡簡單單一句話——男模特拿著BLEU DE CHANEL香水瓶，Vidu Agent同樣直出高品質的視覺與創意短片。從人物形象、動作氣質，到香水瓶的外觀細節，鏡頭中的呈現方式，都能夠穩定一致，不會出現走樣的問題。或者直接告訴Agent想要的文案——令人驚豔的是，Vidu Agent瞬間就自動完成了，從畫面構思到鏡頭編排的全過程，一支拿來即用的品牌廣告片出爐了。一鍵成片，即刻上手是Vidu Agent的最大亮點之一。而且這並不是「一次性生成、不可修改」的成片，Vidu Agent具備「精細化編輯力」，不論是想調整文案、鏡頭節奏，還是修改動作、補充情緒表達，皆可隨時修改指令碼和視訊內容。最重要的是，Vidu Agent的「分鏡級可控力」，產品、人物、場景在15秒或者30秒視訊中能始終保持一致，生成直接可商用的廣告成片。再比如，為蘋果AirPods Max做一個創意宣傳片——戴著耳機在咖啡廳喝咖啡。令人驚喜的是，Vidu Agent巧妙地將Apple AirPods Max與尼克角色自然結合，生動詮釋出產品的高品質音效與其時尚的外觀設計。再比如，讓Vidu Agent生成一段耳機廣告，它能一鍵直出沉浸感十足的視覺場景，營造出所需氛圍與意境。不僅如此，Vidu Agent還可以支援多語言、多場景定製，從中文到多語種電商廣告，都能無縫適配，跨境電商只需簡單改一句話，就能生成不同語種的產品廣告了。在如下的宣傳視訊中，AI原生直出英文。以上這些廣告成片凸顯了Vidu Agent在電商廣告類場景中的應用效果——它不只是生成視訊，還最佳化了「爆點」。比如，產品特寫、指令碼情感過渡、產品使用場景、產品功能展示、使用者感受等，以提升廣告片的吸引力和使用者購買力。從簡單一句話+產品圖即可生成敘事完整的廣告大片，釋放從1到100的創意產能。此外，視訊復刻，是Vidu Agent另一大殺器。對於廣告電商從業者，營運的核心痛點在於，沒有專業編導和剪輯師，不懂平台演算法和使用者喜好，做視訊如同開盲盒，費了九牛二虎做的視訊，播放量卻是個位數，始終與爆款無緣。而「視訊復刻」功能就是廣告電商從業者上手立即可用的解決方案，上傳1分鐘以內爆款視訊以及產品參考圖，只描述想要的效果即可生成同樣高品質的爆款視訊。從此產出爆款不再是玄學，而是可以批次產出的可靠方法論。生成即成片，成片即投放像Vidu Agent這樣的AI視訊工具，正在深刻重塑內容生成的鏈條。對於2B領域的品牌主和行銷團隊來說，品牌廣告片、產品宣傳視訊的製作門檻被大幅降低。只需一個產品圖，加上幾句提示，就能立即把腦海中的畫面變為現實。實現生成即成片，成片即投放。這意味著，企業可以更快速地響應市場熱點，一些天馬行空，但拍攝成本極高的想法，如今也能借助Vidu Agent低成本實現。這種高效低成本的內容生產範式，使品牌行銷更加敏捷多變，廣告的定製化和本地化也更易實現。對於內容創作者來說，Vidu Agent也是流量變現的利器，一鍵復刻爆款視訊DNA，快速迭代視訊，適應平台演算法。Vidu Agent更深層次的價值在於，推動了「人機共創」的模式，讓AI成為協作的夥伴，放大人類的想像力。我們正處於一場內容生產大變革的前夜——可以預見的是，不久的將來，AI視訊生成將在廣告、電商、動漫、短片等眾多領域中，釋放出巨大潛能。最後再劃個重點，多模態領域Vidu首推Agent API ，Vidu在深入場景為企業提供可端到端交付結果的API，不再是單點原子能力。 (新智元)

中國國產視訊大模型Vidu 2.0上線，生成速度從30秒降至10秒

1月15日，由北京生數科技有限公司開發的中國國產視訊大模型Vidu 2.0上線，新版模型視訊生成速度跑進10秒，同時上線“錯峰模式”，支援閒時不限量生成。據介紹，相比上一代，Vidu 2.0生成速度從30秒降至10秒，可有效提高廣告製作、影視動畫等專業內容創作效率。“以廣告商業片為例，傳統廣告製作流程繁雜，要經歷策劃、拍攝、後期剪輯、配音等環節，拍攝周期3-5天，加上後期製作需5-15天不等。在Vidu 2.0的理想狀態下，5分鐘可生成足夠1分鐘時長的視訊素材。”北京生數科技有限公司介紹，目前市面上的視訊模型採用訂閱制，除了不菲的訂閱費，每月還有積分限制。以Runway為例，產出一條素材花費25積分，每月625積分只能產出25條5秒左右的素材片段。若生成質量不高，仍需提升會員權益。Sora上線時也有海外使用者吐槽Sora價格“太貴”，生成一個5秒480P視訊成本為0.5美元，生成一段1080P視訊成本27元。以720P視訊為例，Vidu 2.0收費標準為0.258元/秒，行業平均價格約0.6元/秒。目前市面上的視訊模型，10元平均能生成20秒視訊，而Vidu 2.0可生成38秒。採用Vidu 2.0生成1分鐘商業廣告片素材的成本在3-5元，考慮到素材有效率和後期剪輯配音等成本，1分鐘廣告片成本約為100元。如果按照Vidu2.0-4s-512模型計算，一次生成抵扣4積分，生成單秒視訊僅需4分錢。想進一步薅羊毛，還可以採用“錯峰模式”，使用者申請的任務將排隊等待流量低峰時執行，錯峰生成不扣使用者現有積分，支援生成素材無限量。 (澎湃新聞科技頻道)

Sora的最強競爭對手，來自中國

今年2月發佈的Sora，先是引得業界“哇聲一片”，馬斯克直接表態「人類願賭服輸」；周鴻禕說借助Sora人類實現AGI將縮減至一兩年。大佬的彩虹屁不是白吹的。利用Diffusion+Transformer架構，Sora借助圖像處理、空間關係、物理規律、因果邏輯等規律與知識，在十幾秒、幾十秒的視訊中完成對現實世界的解構與再造。但沒過多久人們就發現，再多的“哇聲一片”也改變不了Sora演算法閉源的事實，意味著它無法復現。留給外界的是一道單選題：要麼加入，要麼自研。 1 變局