Seedance 2.0火出圈，意味著AGI又近了一步

2026/02/11

•

“目前暫不支援輸入真人素材作為主體參考。我們深知創意的邊界是尊重。”

這是打開即夢web平台時使用者看到的提示。就在前一天，Seedance 2.0因真人肖像生成能力引發爭議，字節跳動緊急下線了真人人臉素材參考功能。

原因是他發現，僅上傳自己的人臉照片，模型就能自動生成與他本人高度相似的聲音，甚至精準匹配語氣特質。真實地讓人感到害怕。

但在功能下線之前，Seedance 2.0已經完成了一次現象級的出圈。《黑神話·悟空》製作人馮驥在微博上稱其為“當前地表最強的視訊生成模型”，並警告“逼真的視訊將變得毫無門檻”。

印象中在此之前，馮驥給予這麼高評價的，也就是DeepSeek。

自字節跳動開啟 Seedance 2.0開始灰度測試，不到48小時，X、抖音等社交平台充滿了鋪天蓋地各種基於該模型的 AI 視訊。

《火影忍者》、《咒術回戰》、《奧特曼》……基本上你能想到的作品全都有。

海外反應同樣炸裂。X 平台上，一位學習7年數字電影製作的使用者發帖：“這是唯一讓我感到害怕的模型，90% 我學到的技能它都能實現。”

AIGC圈大佬，Sensive和KidsHackClub的聯合創始人萊納斯·埃肯斯塔姆（Linus Ekenstam）直接回覆這條X說：“它會讓網際網路崩潰，百分之百。”Hacker News上，更是有人直言“這是2026年最好的視訊模型，超越Sora 2”。

超越Sora尚在其次，更重要的是，物理世界的精準建模被視為通用AGI的關鍵能力之一，而Seedance 2.0讓業內人士看到了實現這一點的可能性。

2月9日，A 股的傳媒、短劇、AI 應用類股也隨著 Seedance 2.0 的爆火而集體大漲。上海電影、完美世界等公司單日漲幅達 10%，分析師預期該模型將大幅降低製作成本、加速內容生產周期。

爆火背後，問題同樣尖銳。

Sora 2可以說是前車之鑑。剛推出時，Sora 2好評如潮，然而僅僅過去兩個月，留存率就無限接近於零。除此之外，版權風險、數字授權等問題，也已經在Sora 2上面暴露過一次了。

字節會帶著Seedance 2.0，找到另一條出路嗎？

什麼是Seedance 2.0

在瞭解Seedance 2.0火爆之前，不妨讓我們先來認識一下它。

Seedance 2.0支援文字、圖片（最多 9 張）、視訊（最多 3 段，總長≤15 秒）、音訊（最多 3 段，總長≤15 秒）同時輸入，混合上限 12 個檔案。

使用者可用圖片定義構圖和角色、視訊指定動作和鏡頭運動、音訊驅動節奏。

引發禁令的是影視颶風Tim在凌晨發佈的一條視訊，他說Seedance 2.0是“改變視訊行業的 AI”，可他的語氣並不是讚歎，而是一種警醒。

相比之下，Sora 2的Cameo功能僅支援單張照片植入，Veo 3和Kling 2.6主要依賴文字加單圖輸入。

這種多模態能力不是簡單的素材疊加。字節引入了@提及系統，這樣就能明確控制每個資源。

在提示詞中，使用者可以寫“ @Image1作為第一幀，參考@Video1的運鏡，使用@Audio1作為背景音樂節奏”。

其最大的好處就是，改變了以往“扔一堆素材給AI，然後碰運氣”的創作模式。

模型採用“Seedance V2運動合成”技術，在重力、動量、碰撞、流體等物理現象的模擬上有明顯改進。

實測顯示，布料飄動、液體飛濺、肢體運動的軌跡更接近真實物理規律，減少了“漂浮感”和物體穿模等常見偽影。

Seedance 2.0還有一個很重要的能力就是精準首尾幀。

使用者上傳起始幀與結束幀圖像後，模型智能推演中間動態過程，確保轉場自然、節奏穩定。這對廣告定格動畫、劇情銜接等強控制需求場景特別有用。

分鏡驅動視訊生成支援按分鏡指令碼逐鏡生成，跨鏡頭維持角色外觀、光影邏輯與美術風格一致性。有使用者用Lovart的Skill生成分鏡故事板，直接複製到Seedance 2.0中，生成的視訊比用ComfyUI手工調參做的還細緻。

這說明模型不僅理解單個畫面，還理解鏡頭之間的敘事邏輯。

Seedance 2.0的編輯能力也得到了增強，支援對已有視訊進行角色更替、刪減、增加。使用者可以直接在生成結果中編輯局部畫面，而不是推倒重來。這大幅提升了成片率，也讓創作流程更接近傳統視訊編輯的體驗。

從單一提示詞可生成包含多個鏡頭切換的完整片段。

模型能自動規劃分鏡、執行運鏡（如漸進、環繞、跟隨）、加入剪輯效果（如慢動作、鏡頭抖動）。多鏡頭間保持角色面部特徵、服裝細節、場景光照、敘事基調的一致性，過渡較為自然。

最後就是視聽聯合生成方面，音訊與視覺在創作過程中相互影響。

支援8種以上語言的音素級口型同步，環境音效與視覺事件即時對應。腳步聲匹配角色移動，玻璃破碎伴隨清脆音效。上傳音訊可驅動視訊生成，BGM節拍對應鏡頭切換。

通過火山引擎RayFlow最佳化，生成速度比1.0版本提升約30%。10秒1080p帶音訊視訊約需2-5分鐘。Pro版本支援原生2K解析度，視訊可延長至2分鐘，相比Sora 2的15秒上限和Kling 2.6的10秒限制有明顯優勢。

角色一致性機制引入增強版“身份持久性”注意力機制，在不同鏡頭、角度、光照條件下保持角色特徵穩定。面部輪廓、髮型、服裝紋理等細節在鏡頭切換時漂移較少。

出圈竟是因為AGI？

在X、抖音等社交媒體上，Seedance 2.0最受關注的內容集中在熱門IP角色的格鬥與動作視訊：真人版七龍珠戰鬥、奧特曼對決、運動廣告。

這類內容的點贊數普遍在數十萬等級。

從視訊的觀感來講，動作場景對物理模擬精度要求極高，任何失真都會破壞可信度。

拳擊手出拳時的重心轉移、擊中目標的形變反饋、被擊者後退距離需符合力學規律。AIGC藝術家DynamicWang用Seedance 2.0製作的Nike風廣告中，四位女性的肌肉線條、動作幅度與其運動項目（體操、拳擊、跑步、游泳）高度匹配。

體操翻轉、武術連續踢腿、跑酷牆面反彈等動作鏈條中，任何一幀的速度、角度、加速度偏差都會產生“機械感”。Seedance 2.0通過時序一致性建模，使動作流暢度接近實拍效果。

格鬥時的揚塵、武器破風聲、衣袂翻飛的褶皺等二次物理效應增強了場景真實感。

物理世界的精準建模被視為通用AGI的關鍵能力之一。

“物體如何運動”“力如何傳遞”“因果如何發生”，雖然這些事情對我們早已司空見慣了，但是對於AI這還是新鮮事。

當AI模型能精準預測拳頭擊中目標後的形變、水花濺起的軌跡、布料隨風飄動的形態，意味著它不再是簡單的“像素生成器”，而是建立了對真實世界運作機制的內部表徵。

楊立昆曾多次強調，AGI必須具備對物理世界的常識性理解。

Seedance 2.0在物理模擬上的提升，本質上是其世界模型能力的增強，模型開始理解物體之間的關係、動作的因果鏈條、環境對物體的約束。

傳統生成模型依賴“資料中出現過什麼，就生成什麼”的統計規律，然而真實世界遵循因果邏輯，推倒多米諾骨牌，後續骨牌必然倒下；拳頭擊中臉部，頭部必然後仰。

Seedance 2.0能夠生成符合物理規律的格鬥視訊，說明模型內部已經形成了某種因果推理能力。

它不是記住了“拳擊的樣子”，而是理解了“力的作用必然產生反作用”這一底層邏輯。這種能力是從“模式識別”向“概念推理”的跨越。

傳統AI是停留在統計層面的擬合，只有當AI理解了物理世界，才能真正與現實互動。

這也是為什麼之前各大廠一直強調多模態。

因為咱們人類的大腦理解物理世界，本質上就是多模態。我們通過視覺看到物體運動，通過聽覺感知碰撞聲響，通過觸覺理解材質硬度，這些感官資訊在大腦中融合形成統一的世界理解。

前文提到的Seedance 2.0視聽聯合生成架構，在某種程度上就是模擬了這種多模態融合機制。

當模型能夠理解“重物落地應該發出低沉聲音”“玻璃破碎應該伴隨清脆音效”時，它已經在建立跨模態的因果關聯。這種能力遠超單純的文字生成或圖像生成，已經預示著模型正朝著AGI靠攏了。

還有一點，當前AI研究的共識是，AGI最終需要體現在具身智能上。

原因很簡單，一個能夠在物理世界中行動的智能體，無論是機器人還是自動駕駛，都要求AI精準預測物理世界的動態變化。

Seedance 2.0雖然是視訊生成模型，但它對物理規律的理解能力（重力、動量、碰撞、流體力學）與具身智能所需的能力高度重合。

可以說，視訊生成是具身智能的“沙盒”。

模型在虛擬世界中學會了物理規律，未來可以遷移到真實世界的機器人控制中。而基於Seedance 2.0的那些格鬥視訊，剛好集中體現了模型對力學、運動學、時序因果的綜合理解，這些都是具身智能的核心能力。

GPT、Claude等大語言模型雖然強大，但它們對物理世界的理解是間接的、基於文字描述的。它們可以告訴你“蘋果會掉下來”，但無法真正“看到”重力如何作用。

Seedance 2.0的突破在於，它通過視訊生成這一任務，被迫學習物理世界的直接表徵。

這使得它在通往AGI的路徑上比純語言或靜態圖像模型走得更遠，所以它的運行邏輯更接近人類“看到-理解-預測”的認知閉環。

如果說語言模型是AGI的“左腦”（邏輯與符號），那麼物理世界模型就是AGI的“右腦”（空間與直覺）。

Sora 2在靜態場景和慢節奏敘事上表現較好，但在快速動作場景存在明顯短板。籃球彈跳軌跡、水流形態、布料飄動呈現“夢幻感”而非“真實感”，慢鏡頭下尤為明顯。

角色快速位移（衝刺、跳躍、揮拳）時容易產生運動模糊過度或肢體變形，源於擴散模型處理時序劇烈變化的侷限。

Sora 2 要生成單鏡頭，使用者拼接多個動作片段時，角色動作銜接、速度一致性難以保證。

格鬥視訊需要“出招-閃避-反擊”的多回合結構，這是Sora 2的弱項。社交媒體上Sora 2生成的同類內容常因“動作僵硬”“物理違和”被使用者批評。

字節在短影片領域的資料積累可能是優勢來源。

抖音每日處理數十億條視訊，這些資料幫助模型理解“什麼樣的運動吸引眼球”“那種節奏讓人持續觀看”。模型訓練可能使用了大量真實武術、體育、舞蹈視訊作監督訊號。

字節能從Sora 2上吸取教訓嗎？

OpenAI將 Sora 2 定位為“AI 版抖音”。首日10萬安裝（邀請制 iOS）、4天登頂美國App Store總榜、5天破100萬下載（快於 ChatGPT）。

但Appfigures資料顯示，Sora 2在60天內的下載量出現斷崖式下滑。12月環比下降32%，1月環比大幅下降45%，降至約120萬次。

截至發稿，Sora 2目前已跌出美國App Store免費應用總榜前100名。

Sora 2最大的戰略失誤是試圖複製抖音那套社區文化。

AI生成內容天然缺乏真實人際關係，這是社交網路的核心之一。使用者在抖音上刷到的是真實的人、真實的生活片段、真實的情感連接。而Sora 2生成的視訊，無論多麼精美，本質上都是演算法的產物，缺乏社交網路賴以生存的人際紐帶。

Seedance 2.0目前的做法更務實，嵌入剪映、即夢等成熟創作工具，作為“功能模組”而非“獨立 App”。

將自己定位為創作者工具箱的一部分。使用者不是來“刷AI視訊”，而是來“用AI做視訊”。這個定位差異，決定了產品的生命周期。

Sora 2在版權上的搖擺暴露了西方監管環境的困境。

上線初期，因缺乏嚴格管控，使用者曾可生成海綿寶寶、皮卡丘等知名IP角色的視訊，這雖在一定程度上有助於早期推廣，但引發了版權方的強烈反對。

面對壓力，OpenAI將版權使用規則從“默認可選”改為“需明確授權”，也正是因為這種版權內容的變更，導致Sora 2失去了最初病毒式傳播的動力源泉。

目前來看，Seedance 2.0另一大爆火的原因，是創作者利用AI生成了奧特曼、七龍珠等大量知名角色，但同樣存在版權風險，比如下圖中就是趙本山和詹姆斯。

字節因真人素材參考能力引發爭議後，已緊急下線該功能。這說明字節在版權問題上採取了更謹慎的態度，試圖在技術能力與合規風險之間找到平衡點。

但最重要的是，當任何人都能在幾分鐘內生成一段精美視訊，內容本身就失去了稀缺性。使用者真正需要的不是“更多視訊”，而是“更有意義的表達”。

技術再強，如果不能回答“使用者為什麼需要這個”的問題，最終都會淪為玩具。

AI生成的視訊雖然精美，但往往缺乏核心的情感核心與持續的敘事價值。許多使用者在社交平台上反饋，在最初的新鮮感褪去後，Sora 2生成的內容逐漸趨同且無趣。

Seedance 2.0若想長期存活，需要回答一個問題：在AI讓視訊生成成本趨近於零的時代，你為使用者創造的核心價值是什麼？是節省時間？是實現創意？還是建立身份認同？

從目前的產品策略來看，字節選擇了“工具”而非“平台”的路線。

但工具路線也有自己的挑戰。當可靈、Sora、Veo都在提供類似能力時，使用者憑什麼選擇 Seedance 2.0？答案可能不在技術本身，而在生態整合的深度。

字節擁有抖音、剪映、即夢的完整創作生態，Seedance 2.0如果能與這些產品深度打通，形成從靈感到發佈的閉環，就能建立起其他競爭對手難以複製的護城河。

不過歸根結底，版權問題是永遠不會消失的，技術能力的邊界也會不斷被競爭對手追平。真正決定Seedance 2.0命運的，是字節能否在爆火的窗口期內，將流量轉化為使用者習慣，將技術優勢轉化為生態壁壘。

答案可能決定了它是成為字節的下一個抖音，還是下一個 Sora 2。 (虎嗅APP)