#視訊創作
中國AI為何再次令世界驚豔
中國人工智慧(AI)視訊創作模型Seedance 2.0近日發佈後在全球網路上迅速走紅。各國使用者大量分享該模型生成的超逼真視訊,引發國際社會廣泛關注與熱議。這不禁讓人聯想到2025年的“DeepSeek時刻”。中國AI再次驚豔世界,從深層來看是制度、市場與創新體系長期積累的結果,更展現了中國在科研領域的整體快速發展。伴隨著高品質科研產出和技術貢獻的持續提升,中國的創新實踐正在重塑全球科技生態。AI視訊生成迎來“奇點”時刻據推出該模型的字節跳動公司發佈的聲明,Seedance 2.0模型面向專業影視、電商和廣告等場景設計,能夠同時處理文字、圖像、音訊和視訊內容,從而顯著降低高品質視訊內容的製作成本。美國業內人士指出,Seedance 2.0在生成視訊方面表現突出,可能成為視訊內容創作的一個轉折點。在以文字生成為核心的大語言模型得到廣泛應用後,專注於生成視訊和圖像的大模型被視為AI技術的下一階段。業界此前普遍認為該領域實現突破還需要兩三年,但Seedance 2.0的發佈意味著這一刻已提前來臨。美國企業家埃隆·馬斯克在其X平台上評論Seedance 2.0時感嘆:“發展得太快了。”電商行業垂直搜尋引擎BigGo金融頻道發文說,眾多業內人士評價Seedance 2.0為“當前全球最強視訊生成模型”,其發佈是視訊生成領域的“奇點”時刻。該模型憑藉其卓越的多鏡頭剪輯、高超的運鏡、角色一致性與音畫同步能力,在全球開發者、影視從業者及資本市場中引發巨大反響。德國科技博主蒂莫西·邁克斯納發佈評測視訊說,與先前以“文字生成視訊”的模型不同,Seedance 2.0允許使用者將多種輸入源以極度靈活的方式進行組合,從而實現更有針對性的內容創作。“Seedance 2.0的問世,標誌著AI視訊生成技術正經歷代際躍遷。”他說。制度和市場提供發展“厚土”從去年1月開源模型DeepSeek-R1打破全球AI產業長期依賴“堆算力”的發展路徑,到今年的Seedance 2.0生成的視訊刷屏各大平台,中國AI一年多來不斷交出亮眼“答卷”。不少西方媒體和分析人士認為,中國AI產業的快速發展是制度和市場雙重賦能的結果。英國《金融時報》發表評論文章說,政策支援、人才培養以及企業與市場的結合等因素,為中國AI發展提供了豐厚土壤。文章說,中國近年來投入大量資源用於AI相關研究、人才培養和基礎設施建設。此外,AI發展不僅在於生成文字和圖像,也在於將AI嵌入物理環境,包括智能製造、人形機器人以及汽車、手機、可穿戴裝置等終端應用。成熟的製造業體系讓中國在這些方面擁有巨大優勢。英國埃塞克斯大學管理學教授彼得·布盧姆認為,中國科技企業推動開源模型的發展為許多國家的AI項目作出重大貢獻。南非主串流媒體《郵衛報》近日發表文章指出,中國推動的開源大模型正成為全球特別是全球南方國家技術創新的重要基礎。中國創新深刻影響全球科技生態AI領域的快速發展,是中國科技自主創新的縮影。美國《時代》雜誌提到,中國AI產業快速發展,2014年至2023年在生成式AI領域的專利註冊數量上領先全球,是美國的6倍。美國史丹佛大學發佈的2025年AI指數報告指出,中國在AI領域的論文發表數量和專利數量繼續保持國際領先地位。中國科技創新在科研產出規模、質量和貢獻量等方面正在持續重塑全球科技生態。早在2022年,日本科學技術政策研究所就發佈報告說,中國在一項旨在評估高品質科學成果的關鍵指標上超過了美國,那就是對排名前1%的高被引論文的貢獻。自然指數2025科研領導者榜單顯示,中國高品質科研產出繼續保持全球第一,並在迅速擴大領先優勢。美國聖路易斯聯準會基於經濟合作與發展組織資料的分析顯示,2015年至2022年,海外支付給中國企業的專利使用費增長超過五倍。2022年,韓國成為向中國支付專利使用費最多的國家,緊隨其後的是美國、日本與新加坡。其他付費的發達經濟體還包括瑞士、德國、荷蘭等。聖路易斯聯準會的分析報告說,這一趨勢凸顯出更廣泛的結構性轉變,即中國不再僅限於引進與應用外國技術,而是開始對外輸出技術。尤其在AI、綠色能源等領域,中國企業正在從創新的接受者轉變為塑造技術發展方向的主動貢獻者。 (中國資訊化周報)
通義萬相VACE開源!一款模型搞定多種視訊編輯任務
此次開放原始碼的 Wan2.1-VACE-1.3B 支援 480P 解析度,Wan2.1-VACE-14B 支援 480P 和 720P 解析度。通過 VACE,使用者可一站式完成文生視訊、圖像參考生成、局部編輯與視訊擴展等多種任務,無需頻繁切換模型或工具,真正實現高效、靈活的視訊創作體驗。傳統視訊生成流程,一旦生成完成,想要調整人物姿態、動作軌跡或場景佈局非常困難。VACE 提供了強大的可控重繪能力,支援基於人體姿態、運動光流、結構保持、空間運動、著色等控制生成,同時也支援基於主體和背景參考的視訊生成。背後的核心技術是 VACE 的多模態輸入機制,不同於僅依賴文字提示的傳統模型,VACE 建構了一個集文字、圖像、視訊、Mask 和控制訊號於一體的統一輸入系統。對於圖像輸入,VACE 可支援物體參考圖或視訊幀;對於視訊輸入,使用者可以通過抹除、局部擴展等操作,使用 VACE 重新生成;對於局部區域,使用者可以通過0/1二值訊號來指定編輯區域;對於控制訊號,VACE支援深度圖、光流、佈局、灰度、線稿和姿態等。VACE 支援對視訊中指定區域進行內容替換、增加或刪除等操作。在時間維度上,VACE 可根據任意片段或首尾幀補全整個視訊時長;在空間維度上,支援對畫面邊緣或背景區域進行擴展生成,如背景替換 ——在保留主體不變的前提下,依據 Prompt 更換背景環境。得益於強大的多模態輸入模組和 Wan2.1 的生成能力,傳統專家模型能實現的功能 VACE 可以輕鬆駕馭,包括:圖像參考能力,給定參考主體和背景,可以完成元素一致性生成視訊重繪能力,包括姿態遷移、運動控制、結構控制、重新著色等局部編輯能力,包括主體重塑、主體移除、背景延展、時長延展等VACE 還支援多種單任務能力的自由組合,打破了傳統專家模型各自為戰的協作瓶頸。作為統一模型,它能夠自然融合文生視訊、姿態控制、背景替換、局部編輯等原子能力,無需為單一功能單獨訓練新模型。這種靈活的組合機制,不僅大幅簡化創作流程,也極大拓展了 AI 視訊生成的創意邊界,例如:組合圖片參考 + 主體重塑功能 → 視訊中物體替換組合運動控制 + 首幀參考功能 → 靜態圖片的姿態控制組合圖片參考 + 首幀參考 + 背景擴展 + 時長延展 → 將豎版圖拓展為橫式影片,並且在其中加入參考圖片中的元素。我們通過對四類常見任務(文生視訊、圖生視訊、視訊生視訊、局部視訊生視訊)的輸入形態進行分析和總結,提出了一個靈活統一的輸入範式:視訊條件單元 VCU。它將多模態的各類上下文輸入,總結成了文字、幀序列、mask 序列三大形態,在輸入形式上統一了 4 類視訊生成與編輯任務的統一。VCU 的幀序列和 Mask 序列在數學上可以相互疊加,為多工的自由組合創造條件。如何將多模態輸入統一編碼為擴散 Transformer 可處理的 token 序列?這是 VACE 需要解決的一大難題。首先,VACE 對 VCU 輸入中的 Frame 序列進行概念解耦,將其分為兩類:一類是需要原封不動保留的 RGB 像素(不變幀序列),另一類是需要根據提示重新生成的內容(可變幀序列)。接下來,分別對這三類輸入(可變幀、不變幀、Mask)進行隱空間編碼,其中,可變幀和不變幀通過 VAE 被編碼到與 DiT 模型噪聲維度一致的空間,通道數為 16;而 mask 序列則通過變形和採樣操作,被對應到時空維度一致、通道數為 64 的隱空間特徵。最後,將 Frame 序列和 mask 序列的隱空間特徵合一,並通過可訓練參數對應為 DiT 的 token 序列。通過本次發佈的 VACE 系列模型定量評測可以看出,相比 1.3B preview 版本,模型在多個關鍵指標上均有明顯提升。在訓練策略上,我們對比了全域微調與上下文介面卡微調兩種方案。全域微調通過訓練全部 DiT 參數,能取得更快的推理速度;而上下文適配微調方案是固定原始的基模型參數,僅選擇性地複製並訓練一些原始 Transformer 層作為額外的介面卡。實驗表明,兩者在驗證損失上差異不大,但上下文介面卡微調具有更快的收斂速度,且避免了基礎能力丟失的風險。因此,本次開源版本採用該方法進行訓練。如果想要基於 VACE 進行二次開發,可以遵循以下步驟進行使用,首先從 GitHub 下載 Wan2.1 的官方repo,再進入HuggingFace或  ModelScope下載對應的 VACE 模型,在 Wan 的主站也即將支援 VACE 的部分功能。 (通義大模型)