#視訊創作 | 熱門關鍵字 | 鉅亨號

此次開放原始碼的 Wan2.1-VACE-1.3B 支援 480P 解析度，Wan2.1-VACE-14B 支援 480P 和 720P 解析度。通過 VACE，使用者可一站式完成文生視訊、圖像參考生成、局部編輯與視訊擴展等多種任務，無需頻繁切換模型或工具，真正實現高效、靈活的視訊創作體驗。傳統視訊生成流程，一旦生成完成，想要調整人物姿態、動作軌跡或場景佈局非常困難。VACE 提供了強大的可控重繪能力，支援基於人體姿態、運動光流、結構保持、空間運動、著色等控制生成，同時也支援基於主體和背景參考的視訊生成。背後的核心技術是 VACE 的多模態輸入機制，不同於僅依賴文字提示的傳統模型，VACE 建構了一個集文字、圖像、視訊、Mask 和控制訊號於一體的統一輸入系統。對於圖像輸入，VACE 可支援物體參考圖或視訊幀；對於視訊輸入，使用者可以通過抹除、局部擴展等操作，使用 VACE 重新生成；對於局部區域，使用者可以通過0/1二值訊號來指定編輯區域；對於控制訊號，VACE支援深度圖、光流、佈局、灰度、線稿和姿態等。VACE 支援對視訊中指定區域進行內容替換、增加或刪除等操作。在時間維度上，VACE 可根據任意片段或首尾幀補全整個視訊時長；在空間維度上，支援對畫面邊緣或背景區域進行擴展生成，如背景替換 ——在保留主體不變的前提下，依據 Prompt 更換背景環境。得益於強大的多模態輸入模組和 Wan2.1 的生成能力，傳統專家模型能實現的功能 VACE 可以輕鬆駕馭，包括：圖像參考能力，給定參考主體和背景，可以完成元素一致性生成視訊重繪能力，包括姿態遷移、運動控制、結構控制、重新著色等局部編輯能力，包括主體重塑、主體移除、背景延展、時長延展等VACE 還支援多種單任務能力的自由組合，打破了傳統專家模型各自為戰的協作瓶頸。作為統一模型，它能夠自然融合文生視訊、姿態控制、背景替換、局部編輯等原子能力，無需為單一功能單獨訓練新模型。這種靈活的組合機制，不僅大幅簡化創作流程，也極大拓展了 AI 視訊生成的創意邊界，例如：組合圖片參考 + 主體重塑功能 → 視訊中物體替換組合運動控制 + 首幀參考功能 → 靜態圖片的姿態控制組合圖片參考 + 首幀參考 + 背景擴展 + 時長延展 → 將豎版圖拓展為橫式影片，並且在其中加入參考圖片中的元素。我們通過對四類常見任務（文生視訊、圖生視訊、視訊生視訊、局部視訊生視訊）的輸入形態進行分析和總結，提出了一個靈活統一的輸入範式：視訊條件單元 VCU。它將多模態的各類上下文輸入，總結成了文字、幀序列、mask 序列三大形態，在輸入形式上統一了 4 類視訊生成與編輯任務的統一。VCU 的幀序列和 Mask 序列在數學上可以相互疊加，為多工的自由組合創造條件。如何將多模態輸入統一編碼為擴散 Transformer 可處理的 token 序列？這是 VACE 需要解決的一大難題。首先，VACE 對 VCU 輸入中的 Frame 序列進行概念解耦，將其分為兩類：一類是需要原封不動保留的 RGB 像素（不變幀序列），另一類是需要根據提示重新生成的內容（可變幀序列）。接下來，分別對這三類輸入（可變幀、不變幀、Mask）進行隱空間編碼，其中，可變幀和不變幀通過 VAE 被編碼到與 DiT 模型噪聲維度一致的空間，通道數為 16；而 mask 序列則通過變形和採樣操作，被對應到時空維度一致、通道數為 64 的隱空間特徵。最後，將 Frame 序列和 mask 序列的隱空間特徵合一，並通過可訓練參數對應為 DiT 的 token 序列。通過本次發佈的 VACE 系列模型定量評測可以看出，相比 1.3B preview 版本，模型在多個關鍵指標上均有明顯提升。在訓練策略上，我們對比了全域微調與上下文介面卡微調兩種方案。全域微調通過訓練全部 DiT 參數，能取得更快的推理速度；而上下文適配微調方案是固定原始的基模型參數，僅選擇性地複製並訓練一些原始 Transformer 層作為額外的介面卡。實驗表明，兩者在驗證損失上差異不大，但上下文介面卡微調具有更快的收斂速度，且避免了基礎能力丟失的風險。因此，本次開源版本採用該方法進行訓練。如果想要基於 VACE 進行二次開發，可以遵循以下步驟進行使用，首先從 GitHub 下載 Wan2.1 的官方repo，再進入HuggingFace或 ModelScope下載對應的 VACE 模型，在 Wan 的主站也即將支援 VACE 的部分功能。 (通義大模型)