網易智能實測:用爆火的即夢Seedance2.0拍王家衛和《史密斯夫婦》

2026年2月,隨著字節跳動旗下即夢AI(Jimeng AI)正式全量上線新一代視訊生成模型Seedance 2.0,中國AI視訊賽道再次迎來了“地震級”的更新。

如果說去年的Sora和PixelDance開啟了AI視訊的“默片時代”,那麼Seedance 2.0的發佈,標誌著行業正式跨入了“有聲電影”的紀元。

作為字節跳動在多模態領域的最新成果,Seedance 2.0憑藉其獨創的音畫同步生成技術,迅速在中文網際網路引發了一場關於“AI創作奇點”的輿論熱潮。

測評博主們對Seedance的測評主要集中在這幾點:

1、複雜的運鏡指令

2、音畫同步生成

3、動作一致性。

中國權威視訊製作博主“影視颶風”在實測後指出,不同於以往AI模型只能生成單一視角的固定鏡頭,Seedance 2.0能夠理解複雜的運鏡指令。在測試中,模型成功執行了從特寫拉至全景、環繞拍攝等高難度動作,且在鏡頭運動過程中,主體人物與背景的物理一致性保持得相當出色。這種“指那打那”的操控感,被評價為打破了AI視訊“隨機抽卡”的魔咒,讓創作者從單純的“提示詞輸入者”晉陞為擁有調度權的“導演”。

圖為蜜雪冰城大戰外企咖啡店,圖源 @影視颶風

有評論稱,該模型在生成視訊時可同步生成匹配的音效和配樂,並支援角色口型同步和情緒匹配。

也有評論表示,Seedance 2.0最具顛覆性的突破,在於其攻克了AI視訊生成領域長期存在的“動作一致性”難題,實現了對複雜連續動作指令的精準跟隨。

從行業競爭的維度來看,Seedance 2.0的發佈也被資本市場視為一個重要的訊號。開源證券在最新的研報中將其稱為AI影視的“奇點時刻”。與此同時,《每日經濟新聞》等媒體的實測資料顯示,在同等2K畫質下,Seedance 2.0的生成速度相比快手可靈(Kling)等競品提升了約30%。

東方證券分析師認為Seedance 2.0降低了專業視訊製作的門檻,讓普通使用者也能像操作儀表盤一樣控制光影、聲音和動作,這將極大推動B端廣告與C端個人創作市場的雙重擴容。

以下為網易智能實測案例:

01 實測一:TVC 畫面測試

首先,我們先進行了一段廣告宣傳片等級的畫面測試,我們選取了一個玩梗幽默+視覺反差風格的小片。以下為提示詞:

鏡頭1:靈魂拷問

畫面:快速推進特寫,鏡頭懟臉拍男生(參考圖2),他正對著電腦一臉認真,背景是全粉辦公室。

音效:“咻” 的一聲快速推進音效,配合鍵盤敲擊聲驟停。

旁白(女聲,犀利調侃):

“Eassy,說吧,你想找個什麼樣的女朋友?”

鏡頭2:極限二選一

畫面:先切到左側粉裙女生(參考圖3),鏡頭定格,彈出文字標籤:「事事隨你」,配軟萌 BGM。

再切到右側黑西裝女生(參考圖3),鏡頭定格,彈出文字標籤:「很有主見」,BGM 瞬間切換成酷颯電子音。

鏡頭拉遠,男生從畫面上方 “啪嗒” 落下,坐在兩人中間(參考圖4),雙手一攤,一臉 “我是誰我在那” 的迷茫,開始瘋狂撓頭。

可以看出,人物的情感和整體基調把握準確,展示得很鮮明。且不同場景之間可以做到絲滑的銜接,AI感並不明顯。

02 實測二:王家衛電影類型測試

隨後,我們對於聲音和畫面的銜接進行了測試。我設定了一個王家衛風格的電影場景,主要驗證多景別切換下,雨聲環境音的連續性和空間感變化,並且測試在嘈雜雨聲背景下,人物低語對白的清晰度與口型(側臉)同步。

以下是我的提示詞:

畫面描述:王家衛電影風格,極強的復古膠片顆粒感,高飽和度,色彩以昏黃、墨綠和深紅為主。夜晚濕漉漉的香港老弄堂,霓虹燈牌在積水中拉出長長的倒影。

鏡頭序列:

【全景 】:鏡頭靜止。一條悠長、狹窄且空無一人的雨巷,大雨如注。一個渺小的身影(女主)撐著透明傘緩緩走入畫面深處。

【跟拍中景】:鏡頭跟隨女主背影移動。她身穿華麗的墨綠色花卉旗袍,腰肢搖曳。重點展示透明雨傘上瘋狂跳動的雨珠,以及周圍環境的濕潤感。

【特寫】:鏡頭聚焦在她穿著精緻高跟鞋的雙腳上。一隻腳踏入積水坑,濺起的水花在慢動作中炸開,映照著霓虹光影。

【中近景】:她在一家昏暗的雲吞麵攤前停下腳步,身體微微側轉,露出精緻憂鬱的側臉。雨水順著傘沿滴落。

聲音/音訊描述:

整體環境音: 持續不斷的、密集的暴雨聲(嘩啦啦),帶有明顯的空間包裹感。對話在【中近景·側臉】鏡頭時:一個低沉、富有磁性的男性聲音從畫面外(右側暗處)傳來,聲音不大,夾雜在雨聲中:“還不想回去?”

女主微微低頭,嘴唇輕啟,發出極輕柔、略帶嘆息的女聲(粵語):“不知道去那。”

我們可以看出,Seedance2.0對於雨聲的處理基本實現了模擬效果,雨聲環境音在深巷中呈現出遠聲,在近處呈現出打在雨傘上的“實體聲音”。高跟鞋敲擊地面、激起雨水的音效也完成了模仿。

在最後的場景中,人物低語對白的清晰度與口型(側臉)同步。王家衛導演鮮明的風格化與“氛圍感”,在畫面中得到了呈現。

但是也可以看到,這場戲的不同景別之間轉換依然不夠絲滑,從女主背影過渡到高跟鞋特寫的轉場,仍然趕超沒有人類導演引以為傲的「運鏡」能力。

03 實測三:《史密斯夫婦》敘事小說等級測試

最後,我們用一段指令,直接實現了對於敘事小說等級的測試。我用即夢模擬了一段《史密斯夫婦》的原劇本。以下是我的提示詞:

鏡頭01:

畫面描述: 電影質感,低照度燭光晚餐。一張精緻的紅木餐桌,桌上擺著銀質餐具和高腳杯。一位穿著白色襯衫的男士(類似布萊德·皮特側影),正拿著餐刀切牛排。他的手肘看似不經意地向外一拐,重重地撞向桌邊一瓶開封的紅酒瓶。酒瓶失去平衡,開始傾斜墜落。

聲音描述 : 極度安靜的房間底噪。刀叉切割瓷盤的刺耳“滋滋”聲。突然一聲沉悶的撞擊聲(手肘碰到玻璃瓶),緊接著是瓶底摩擦桌面的“格拉”聲,聲音突然中斷(瓶子離桌)。

鏡頭02:

畫面描述: 極具張力的特寫鏡頭。紅酒瓶在半空中翻轉下落,深紅色的酒液在瓶頸處激盪,差點灑出。突然,一隻纖細但有力的女性手臂(穿著黑色晚禮服)從畫面右側極速伸入,帶著強烈的動態模糊。在瓶子落地前的最後一毫秒,她的手穩穩抓住了瓶身。

聲音描述: 彷彿時間靜止的低頻“嗡——”聲。紅酒在瓶子裡激盪的液體聲。緊接著是一聲極快的、銳利的破風聲“嗖!”,與手伸出的動作完全同步。

鏡頭03:

景別: 雙人過肩鏡頭

畫面描述: 鏡頭恢復正常速度。女士面無表情,眼神冷酷,動作輕柔地將紅酒瓶重新放回桌面上。她抬眼看了一下對面,整理了一下頭髮。對面的男士手裡拿著叉子停在半空,表情從驚訝轉為玩味的微笑。

聲音描述: 厚重的玻璃瓶底觸碰實木桌面的“咚”一聲悶響,非常有質感。片刻沉默後,男士用低沉、富有磁性的聲音說:“Nice catch.”。

但在這場戲中,最大的問題是在特寫鏡頭中,女士抓酒的手臂出現了兩次,這是AI 目前還沒有進化掉的BUG,也是最明顯的紕漏。

此外,酒作為液體的流向正常,沒有出現“反重力”等違背物理學常識的情況;女主抓酒時的風聲也非常還原。

儘管每秒的鏡頭都可以還原劇本,但整體而言,這種“質感”並不能與原片相比。

在傳統模式下,一個簡單的“雨夜”鏡頭需要燈光佈景、攝影調度、現場收音以及後期的擬音(Foley)合成,成本高昂且周期漫長。而 Seedance 2.0憑藉“音畫一體”的生成能力,將這一複雜的工業協作鏈條壓縮為一次簡單的“提示詞互動”。這意味著,影視製作的邊際成本正在趨近於零。

對於行業而言,這種衝擊是結構性的:初級概念設計、分鏡繪製以及基礎音效師的生存空間將被大幅擠壓;而創作的門檻被徹底倒置——未來的核心競爭力將不再是操作攝影機或調音台的技術壁壘,而是“審美決策力”與“敘事想像力”。

然而,在一片讚譽聲中,我們也必須客觀審視Seedance 2.0當前存在的侷限性。經過我們的測評,畫面仍然會出現一些閃回、重複等低級錯誤,也有部分使用者反饋,在極少數情況下,生成的背景音中會出現與畫面無關的雜音或模糊人聲,這種“幻覺”現象雖然出現頻率不高,但也提醒我們在商業交付時必須進行嚴格的人工稽核。

同時,由於音畫同步計算對算力要求極高,目前普通使用者在高峰期生成視訊往往面臨較長的排隊時間,且積分消耗是舊版模型的兩倍以上,這對於高頻使用的企業使用者來說,是一筆需要考量的成本帳。 (網易科技)