#視訊編輯
通義萬相VACE開源!一款模型搞定多種視訊編輯任務
此次開放原始碼的 Wan2.1-VACE-1.3B 支援 480P 解析度,Wan2.1-VACE-14B 支援 480P 和 720P 解析度。通過 VACE,使用者可一站式完成文生視訊、圖像參考生成、局部編輯與視訊擴展等多種任務,無需頻繁切換模型或工具,真正實現高效、靈活的視訊創作體驗。傳統視訊生成流程,一旦生成完成,想要調整人物姿態、動作軌跡或場景佈局非常困難。VACE 提供了強大的可控重繪能力,支援基於人體姿態、運動光流、結構保持、空間運動、著色等控制生成,同時也支援基於主體和背景參考的視訊生成。背後的核心技術是 VACE 的多模態輸入機制,不同於僅依賴文字提示的傳統模型,VACE 建構了一個集文字、圖像、視訊、Mask 和控制訊號於一體的統一輸入系統。對於圖像輸入,VACE 可支援物體參考圖或視訊幀;對於視訊輸入,使用者可以通過抹除、局部擴展等操作,使用 VACE 重新生成;對於局部區域,使用者可以通過0/1二值訊號來指定編輯區域;對於控制訊號,VACE支援深度圖、光流、佈局、灰度、線稿和姿態等。VACE 支援對視訊中指定區域進行內容替換、增加或刪除等操作。在時間維度上,VACE 可根據任意片段或首尾幀補全整個視訊時長;在空間維度上,支援對畫面邊緣或背景區域進行擴展生成,如背景替換 ——在保留主體不變的前提下,依據 Prompt 更換背景環境。得益於強大的多模態輸入模組和 Wan2.1 的生成能力,傳統專家模型能實現的功能 VACE 可以輕鬆駕馭,包括:圖像參考能力,給定參考主體和背景,可以完成元素一致性生成視訊重繪能力,包括姿態遷移、運動控制、結構控制、重新著色等局部編輯能力,包括主體重塑、主體移除、背景延展、時長延展等VACE 還支援多種單任務能力的自由組合,打破了傳統專家模型各自為戰的協作瓶頸。作為統一模型,它能夠自然融合文生視訊、姿態控制、背景替換、局部編輯等原子能力,無需為單一功能單獨訓練新模型。這種靈活的組合機制,不僅大幅簡化創作流程,也極大拓展了 AI 視訊生成的創意邊界,例如:組合圖片參考 + 主體重塑功能 → 視訊中物體替換組合運動控制 + 首幀參考功能 → 靜態圖片的姿態控制組合圖片參考 + 首幀參考 + 背景擴展 + 時長延展 → 將豎版圖拓展為橫式影片,並且在其中加入參考圖片中的元素。我們通過對四類常見任務(文生視訊、圖生視訊、視訊生視訊、局部視訊生視訊)的輸入形態進行分析和總結,提出了一個靈活統一的輸入範式:視訊條件單元 VCU。它將多模態的各類上下文輸入,總結成了文字、幀序列、mask 序列三大形態,在輸入形式上統一了 4 類視訊生成與編輯任務的統一。VCU 的幀序列和 Mask 序列在數學上可以相互疊加,為多工的自由組合創造條件。如何將多模態輸入統一編碼為擴散 Transformer 可處理的 token 序列?這是 VACE 需要解決的一大難題。首先,VACE 對 VCU 輸入中的 Frame 序列進行概念解耦,將其分為兩類:一類是需要原封不動保留的 RGB 像素(不變幀序列),另一類是需要根據提示重新生成的內容(可變幀序列)。接下來,分別對這三類輸入(可變幀、不變幀、Mask)進行隱空間編碼,其中,可變幀和不變幀通過 VAE 被編碼到與 DiT 模型噪聲維度一致的空間,通道數為 16;而 mask 序列則通過變形和採樣操作,被對應到時空維度一致、通道數為 64 的隱空間特徵。最後,將 Frame 序列和 mask 序列的隱空間特徵合一,並通過可訓練參數對應為 DiT 的 token 序列。通過本次發佈的 VACE 系列模型定量評測可以看出,相比 1.3B preview 版本,模型在多個關鍵指標上均有明顯提升。在訓練策略上,我們對比了全域微調與上下文介面卡微調兩種方案。全域微調通過訓練全部 DiT 參數,能取得更快的推理速度;而上下文適配微調方案是固定原始的基模型參數,僅選擇性地複製並訓練一些原始 Transformer 層作為額外的介面卡。實驗表明,兩者在驗證損失上差異不大,但上下文介面卡微調具有更快的收斂速度,且避免了基礎能力丟失的風險。因此,本次開源版本採用該方法進行訓練。如果想要基於 VACE 進行二次開發,可以遵循以下步驟進行使用,首先從 GitHub 下載 Wan2.1 的官方repo,再進入HuggingFace或  ModelScope下載對應的 VACE 模型,在 Wan 的主站也即將支援 VACE 的部分功能。 (通義大模型)