“目前暫不支援輸入真人素材作為主體參考。我們深知創意的邊界是尊重。”
這是打開即夢web平台時使用者看到的提示。就在前一天,Seedance 2.0因真人肖像生成能力引發爭議,字節跳動緊急下線了真人人臉素材參考功能。
原因是他發現,僅上傳自己的人臉照片,模型就能自動生成與他本人高度相似的聲音,甚至精準匹配語氣特質。真實地讓人感到害怕。
但在功能下線之前,Seedance 2.0已經完成了一次現象級的出圈。《黑神話·悟空》製作人馮驥在微博上稱其為“當前地表最強的視訊生成模型”,並警告“逼真的視訊將變得毫無門檻”。
印象中在此之前,馮驥給予這麼高評價的,也就是DeepSeek。
自字節跳動開啟 Seedance 2.0開始灰度測試,不到48小時,X、抖音等社交平台充滿了鋪天蓋地各種基於該模型的 AI 視訊。
《火影忍者》、《咒術回戰》、《奧特曼》……基本上你能想到的作品全都有。
海外反應同樣炸裂。X 平台上,一位學習7年數字電影製作的使用者發帖:“這是唯一讓我感到害怕的模型,90% 我學到的技能它都能實現。”
AIGC圈大佬,Sensive和KidsHackClub的聯合創始人萊納斯·埃肯斯塔姆(Linus Ekenstam)直接回覆這條X說:“它會讓網際網路崩潰,百分之百。”Hacker News上,更是有人直言“這是2026年最好的視訊模型,超越Sora 2”。
超越Sora尚在其次,更重要的是,物理世界的精準建模被視為通用AGI的關鍵能力之一,而Seedance 2.0讓業內人士看到了實現這一點的可能性。
2月9日,A 股的傳媒、短劇、AI 應用類股也隨著 Seedance 2.0 的爆火而集體大漲。上海電影、完美世界等公司單日漲幅達 10%,分析師預期該模型將大幅降低製作成本、加速內容生產周期。
爆火背後,問題同樣尖銳。
Sora 2可以說是前車之鑑。剛推出時,Sora 2好評如潮,然而僅僅過去兩個月,留存率就無限接近於零。除此之外,版權風險、數字授權等問題,也已經在Sora 2上面暴露過一次了。
字節會帶著Seedance 2.0,找到另一條出路嗎?
在瞭解Seedance 2.0火爆之前,不妨讓我們先來認識一下它。
Seedance 2.0支援文字、圖片(最多 9 張)、視訊(最多 3 段,總長≤15 秒)、音訊(最多 3 段,總長≤15 秒)同時輸入,混合上限 12 個檔案。
使用者可用圖片定義構圖和角色、視訊指定動作和鏡頭運動、音訊驅動節奏。
引發禁令的是影視颶風Tim在凌晨發佈的一條視訊,他說Seedance 2.0是“改變視訊行業的 AI”,可他的語氣並不是讚歎,而是一種警醒。
相比之下,Sora 2的Cameo功能僅支援單張照片植入,Veo 3和Kling 2.6主要依賴文字加單圖輸入。
這種多模態能力不是簡單的素材疊加。字節引入了@提及系統,這樣就能明確控制每個資源。
在提示詞中,使用者可以寫“ @Image1作為第一幀,參考@Video1的運鏡,使用@Audio1作為背景音樂節奏”。
其最大的好處就是,改變了以往“扔一堆素材給AI,然後碰運氣”的創作模式。
模型採用“Seedance V2運動合成”技術,在重力、動量、碰撞、流體等物理現象的模擬上有明顯改進。
實測顯示,布料飄動、液體飛濺、肢體運動的軌跡更接近真實物理規律,減少了“漂浮感”和物體穿模等常見偽影。
Seedance 2.0還有一個很重要的能力就是精準首尾幀。
使用者上傳起始幀與結束幀圖像後,模型智能推演中間動態過程,確保轉場自然、節奏穩定。這對廣告定格動畫、劇情銜接等強控制需求場景特別有用。
分鏡驅動視訊生成支援按分鏡指令碼逐鏡生成,跨鏡頭維持角色外觀、光影邏輯與美術風格一致性。有使用者用Lovart的Skill生成分鏡故事板,直接複製到Seedance 2.0中,生成的視訊比用ComfyUI手工調參做的還細緻。
這說明模型不僅理解單個畫面,還理解鏡頭之間的敘事邏輯。
Seedance 2.0的編輯能力也得到了增強,支援對已有視訊進行角色更替、刪減、增加。使用者可以直接在生成結果中編輯局部畫面,而不是推倒重來。這大幅提升了成片率,也讓創作流程更接近傳統視訊編輯的體驗。
從單一提示詞可生成包含多個鏡頭切換的完整片段。
模型能自動規劃分鏡、執行運鏡(如漸進、環繞、跟隨)、加入剪輯效果(如慢動作、鏡頭抖動)。多鏡頭間保持角色面部特徵、服裝細節、場景光照、敘事基調的一致性,過渡較為自然。
最後就是視聽聯合生成方面,音訊與視覺在創作過程中相互影響。
支援8種以上語言的音素級口型同步,環境音效與視覺事件即時對應。腳步聲匹配角色移動,玻璃破碎伴隨清脆音效。上傳音訊可驅動視訊生成,BGM節拍對應鏡頭切換。
通過火山引擎RayFlow最佳化,生成速度比1.0版本提升約30%。10秒1080p帶音訊視訊約需2-5分鐘。Pro版本支援原生2K解析度,視訊可延長至2分鐘,相比Sora 2的15秒上限和Kling 2.6的10秒限制有明顯優勢。
角色一致性機制引入增強版“身份持久性”注意力機制,在不同鏡頭、角度、光照條件下保持角色特徵穩定。面部輪廓、髮型、服裝紋理等細節在鏡頭切換時漂移較少。
在X、抖音等社交媒體上,Seedance 2.0最受關注的內容集中在熱門IP角色的格鬥與動作視訊:真人版七龍珠戰鬥、奧特曼對決、運動廣告。
這類內容的點贊數普遍在數十萬等級。
從視訊的觀感來講,動作場景對物理模擬精度要求極高,任何失真都會破壞可信度。
拳擊手出拳時的重心轉移、擊中目標的形變反饋、被擊者後退距離需符合力學規律。AIGC藝術家DynamicWang用Seedance 2.0製作的Nike風廣告中,四位女性的肌肉線條、動作幅度與其運動項目(體操、拳擊、跑步、游泳)高度匹配。
體操翻轉、武術連續踢腿、跑酷牆面反彈等動作鏈條中,任何一幀的速度、角度、加速度偏差都會產生“機械感”。Seedance 2.0通過時序一致性建模,使動作流暢度接近實拍效果。
格鬥時的揚塵、武器破風聲、衣袂翻飛的褶皺等二次物理效應增強了場景真實感。
物理世界的精準建模被視為通用AGI的關鍵能力之一。
“物體如何運動”“力如何傳遞”“因果如何發生”,雖然這些事情對我們早已司空見慣了,但是對於AI這還是新鮮事。
當AI模型能精準預測拳頭擊中目標後的形變、水花濺起的軌跡、布料隨風飄動的形態,意味著它不再是簡單的“像素生成器”,而是建立了對真實世界運作機制的內部表徵。
楊立昆曾多次強調,AGI必須具備對物理世界的常識性理解。
Seedance 2.0在物理模擬上的提升,本質上是其世界模型能力的增強,模型開始理解物體之間的關係、動作的因果鏈條、環境對物體的約束。
傳統生成模型依賴“資料中出現過什麼,就生成什麼”的統計規律,然而真實世界遵循因果邏輯,推倒多米諾骨牌,後續骨牌必然倒下;拳頭擊中臉部,頭部必然後仰。
Seedance 2.0能夠生成符合物理規律的格鬥視訊,說明模型內部已經形成了某種因果推理能力。
它不是記住了“拳擊的樣子”,而是理解了“力的作用必然產生反作用”這一底層邏輯。這種能力是從“模式識別”向“概念推理”的跨越。
傳統AI是停留在統計層面的擬合,只有當AI理解了物理世界,才能真正與現實互動。
這也是為什麼之前各大廠一直強調多模態。
因為咱們人類的大腦理解物理世界,本質上就是多模態。我們通過視覺看到物體運動,通過聽覺感知碰撞聲響,通過觸覺理解材質硬度,這些感官資訊在大腦中融合形成統一的世界理解。
前文提到的Seedance 2.0視聽聯合生成架構,在某種程度上就是模擬了這種多模態融合機制。
當模型能夠理解“重物落地應該發出低沉聲音”“玻璃破碎應該伴隨清脆音效”時,它已經在建立跨模態的因果關聯。這種能力遠超單純的文字生成或圖像生成,已經預示著模型正朝著AGI靠攏了。
還有一點,當前AI研究的共識是,AGI最終需要體現在具身智能上。
原因很簡單,一個能夠在物理世界中行動的智能體,無論是機器人還是自動駕駛,都要求AI精準預測物理世界的動態變化。
Seedance 2.0雖然是視訊生成模型,但它對物理規律的理解能力(重力、動量、碰撞、流體力學)與具身智能所需的能力高度重合。
可以說,視訊生成是具身智能的“沙盒”。
模型在虛擬世界中學會了物理規律,未來可以遷移到真實世界的機器人控制中。而基於Seedance 2.0的那些格鬥視訊,剛好集中體現了模型對力學、運動學、時序因果的綜合理解,這些都是具身智能的核心能力。
GPT、Claude等大語言模型雖然強大,但它們對物理世界的理解是間接的、基於文字描述的。它們可以告訴你“蘋果會掉下來”,但無法真正“看到”重力如何作用。
Seedance 2.0的突破在於,它通過視訊生成這一任務,被迫學習物理世界的直接表徵。
這使得它在通往AGI的路徑上比純語言或靜態圖像模型走得更遠,所以它的運行邏輯更接近人類“看到-理解-預測”的認知閉環。
如果說語言模型是AGI的“左腦”(邏輯與符號),那麼物理世界模型就是AGI的“右腦”(空間與直覺)。
Sora 2在靜態場景和慢節奏敘事上表現較好,但在快速動作場景存在明顯短板。籃球彈跳軌跡、水流形態、布料飄動呈現“夢幻感”而非“真實感”,慢鏡頭下尤為明顯。
角色快速位移(衝刺、跳躍、揮拳)時容易產生運動模糊過度或肢體變形,源於擴散模型處理時序劇烈變化的侷限。
Sora 2 要生成單鏡頭,使用者拼接多個動作片段時,角色動作銜接、速度一致性難以保證。
格鬥視訊需要“出招-閃避-反擊”的多回合結構,這是Sora 2的弱項。社交媒體上Sora 2生成的同類內容常因“動作僵硬”“物理違和”被使用者批評。
字節在短影片領域的資料積累可能是優勢來源。
抖音每日處理數十億條視訊,這些資料幫助模型理解“什麼樣的運動吸引眼球”“那種節奏讓人持續觀看”。模型訓練可能使用了大量真實武術、體育、舞蹈視訊作監督訊號。
OpenAI將 Sora 2 定位為“AI 版抖音”。首日10萬安裝(邀請制 iOS)、4天登頂美國App Store總榜、5天破100萬下載(快於 ChatGPT)。
但Appfigures資料顯示,Sora 2在60天內的下載量出現斷崖式下滑。12月環比下降32%,1月環比大幅下降45%,降至約120萬次。
截至發稿,Sora 2目前已跌出美國App Store免費應用總榜前100名。
Sora 2最大的戰略失誤是試圖複製抖音那套社區文化。
AI生成內容天然缺乏真實人際關係,這是社交網路的核心之一。使用者在抖音上刷到的是真實的人、真實的生活片段、真實的情感連接。而Sora 2生成的視訊,無論多麼精美,本質上都是演算法的產物,缺乏社交網路賴以生存的人際紐帶。
Seedance 2.0目前的做法更務實,嵌入剪映、即夢等成熟創作工具,作為“功能模組”而非“獨立 App”。
將自己定位為創作者工具箱的一部分。使用者不是來“刷AI視訊”,而是來“用AI做視訊”。這個定位差異,決定了產品的生命周期。
Sora 2在版權上的搖擺暴露了西方監管環境的困境。
上線初期,因缺乏嚴格管控,使用者曾可生成海綿寶寶、皮卡丘等知名IP角色的視訊,這雖在一定程度上有助於早期推廣,但引發了版權方的強烈反對。
面對壓力,OpenAI將版權使用規則從“默認可選”改為“需明確授權”,也正是因為這種版權內容的變更,導致Sora 2失去了最初病毒式傳播的動力源泉。
目前來看,Seedance 2.0另一大爆火的原因,是創作者利用AI生成了奧特曼、七龍珠等大量知名角色,但同樣存在版權風險,比如下圖中就是趙本山和詹姆斯。
字節因真人素材參考能力引發爭議後,已緊急下線該功能。這說明字節在版權問題上採取了更謹慎的態度,試圖在技術能力與合規風險之間找到平衡點。
但最重要的是,當任何人都能在幾分鐘內生成一段精美視訊,內容本身就失去了稀缺性。使用者真正需要的不是“更多視訊”,而是“更有意義的表達”。
技術再強,如果不能回答“使用者為什麼需要這個”的問題,最終都會淪為玩具。
AI生成的視訊雖然精美,但往往缺乏核心的情感核心與持續的敘事價值。許多使用者在社交平台上反饋,在最初的新鮮感褪去後,Sora 2生成的內容逐漸趨同且無趣。
Seedance 2.0若想長期存活,需要回答一個問題:在AI讓視訊生成成本趨近於零的時代,你為使用者創造的核心價值是什麼?是節省時間?是實現創意?還是建立身份認同?
從目前的產品策略來看,字節選擇了“工具”而非“平台”的路線。
但工具路線也有自己的挑戰。當可靈、Sora、Veo都在提供類似能力時,使用者憑什麼選擇 Seedance 2.0?答案可能不在技術本身,而在生態整合的深度。
字節擁有抖音、剪映、即夢的完整創作生態,Seedance 2.0如果能與這些產品深度打通,形成從靈感到發佈的閉環,就能建立起其他競爭對手難以複製的護城河。
不過歸根結底,版權問題是永遠不會消失的,技術能力的邊界也會不斷被競爭對手追平。真正決定Seedance 2.0命運的,是字節能否在爆火的窗口期內,將流量轉化為使用者習慣,將技術優勢轉化為生態壁壘。
答案可能決定了它是成為字節的下一個抖音,還是下一個 Sora 2。 (虎嗅APP)