阿里巴巴通義實驗室正式開源了他們最新、最強大的視訊生成模型 Wan2.1 系列!
✨ 複雜運動: 視訊動作更流暢自然,複雜場景也能輕鬆駕馭
🧲 物理模擬: 物體互動更真實,視訊更具沉浸感
🎬 電影質感: 視覺效果更上一層樓,細節更豐富,更具藝術性
✏️ 可控編輯: 編輯能力更強大,創作空間更廣闊
✍️ 視覺文字: 中英文動態文字生成,應用場景更豐富
🎶 音效音樂: 視聽體驗一體化,視訊極具感染力
Wan2.1-I2V-14B: 圖像到視訊 (I2V) 領域的天花板! 140億參數,720P高畫質畫質,I2V 性能 SOTA!
Wan2.1-T2V-14B: 文字到視訊 (T2V) 領域的性能王者! 140億參數,720P高畫質畫質,T2V 性能 SOTA! 獨家支援中英文文字生成!
Wan2.1-T2V-1.3B: 消費級顯示卡的最佳拍檔! 13億參數,480P流暢運行,8GB視訊記憶體即可暢玩! 性能媲美部分閉源大模型!
從技術報告來看 Wan2.1 的突破性進展,主要得益於以下幾大創新:
核心創新一: 3D 變分自編碼器 (VAE) —— 視訊壓縮與質量的完美平衡!
Wan2.1 團隊創新性地提出了3D 因果 VAE 架構,專為視訊生成量身打造! 它巧妙地融合了多種策略,在時空壓縮、記憶體控制和時間因果性 之間找到了最佳平衡點,讓 VAE更高效、更易擴展,並與擴散模型 DiT 完美結合!
長視訊處理秘訣: 特徵快取機制 (Feature Cache Mechanism): 為了高效處理任意長度的視訊,Wan2.1 的 VAE 在因果摺積模組中引入了特徵快取機制。 它將視訊幀序列 (1+T 格式) 分割成 1 + T/4 個 chunks,每個 chunk 對應一個潛在特徵。 模型以 chunk-wise 策略 處理視訊,每次編解碼操作只處理對應一個潛在表示的視訊 chunk。 每個 chunk 的幀數被限制在 最多 4 幀,有效防止了 GPU 記憶體溢出!
性能飛躍: 速度提升 2.5 倍! 實驗證明,Wan2.1 的視訊 VAE 性能卓越,在視訊質量和處理效率上都表現出色。 在相同的硬體環境 (單 A800 GPU) 下,Wan2.1 VAE 的 重建速度比 SOTA 方法 HunYuanVideo 快了 2.5 倍! 在高解析度下,速度優勢將更加明顯!
核心創新二: 視訊擴散 DiT (Diffusion Transformer) —— 強大生成力的源泉!
Wan2.1 基於主流擴散 Transformer 範式和 Flow Matching 框架建構了視訊擴散模型 DiT。 它巧妙地利用了T5 Encoder來編碼多語言文字,並通過在每個 Transformer Block 中加入 交叉注意力,將文字資訊深度融入模型結構。
參數高效最佳化: 線性層 + SiLU 層 + 共享 MLP: Wan2.1 採用線性層和 SiLU 層處理時間 Embedding,並預測六個調製參數。 關鍵在於,一個共享的 MLP被所有 Transformer Block 共用,每個 Block 只學習不同的偏差 (biases)。 實驗表明,這種方法在 參數規模不變的情況下,顯著提升了模型性能! 因此,1.3B 和 14B 模型都採用了這種架構
核心創新三: 模型擴展與訓練效率最佳化 —— 更大模型,更快速度
為了訓練更大規模的 Wan2.1 模型,並提升訓練和推理效率,團隊採用了多種平行策略:
訓練加速: FSDP + 上下文平行 (CP): 訓練時,Wan2.1 使用FSDP (Fully Sharded Data Parallel) 進行模型分片,並結合上下文平行 (CP)。 FSDP group 和 CP group 相交而非巢狀。 在 FSDP 中,資料平行 (DP) size 等於 FSDP size 除以 CP size。 在滿足記憶體和單 batch 延遲要求後,使用 DP 進行擴展
推理加速: 上下文平行 (CP): 推理時,為了減少單視訊生成延遲,Wan2.1 選擇上下文平行 (CP) 進行分佈式加速。 對於 14B 等大型模型,模型分片 (FSDP)也是必需的。 考慮到視訊序列通常較長,FSDP 比張量平行 (TP) 通訊開銷更小,並允許計算與通訊重疊
平行策略細節: 2D 上下文平行: 訓練和推理都採用相同的 2D 上下文平行策略: 機器間 (external layer) 使用 RingAttention,機器內 (intra-machine) 使用 Ulysses。 實驗表明,在 Wan 14B 大模型上,使用 2D CP 和 FSDP 平行策略,DiT 實現了 近乎線性的加速!
核心創新四: Image-to-Video (I2V) —— 圖像驅動,精準可控!
Wan2.1 在 Image-to-Video (I2V) 任務上也表現出色,實現了更強的 可控性。 其 I2V 的關鍵技術包括:
條件圖像引導: 將 條件圖像作為視訊的第一幀,並與零填充幀沿時間軸拼接,形成引導幀 (guidance frames)
VAE 壓縮條件資訊: 使用 3D VAE 將引導幀壓縮為 條件潛在表示 (condition latent representation)
二元掩碼 (Binary Mask) 控制生成區域: 引入二元掩碼,1 表示保留幀,0 表示需要生成的幀。 掩碼的空間尺寸與條件潛在表示匹配,時間長度與目標視訊相同。 掩碼會被重塑為與 VAE 的時間步幅相對應的特定形狀
融合機制: 將噪聲潛在表示、條件潛在表示和重塑後的掩碼沿通道軸拼接,輸入到 DiT 模型中
I2V 專屬投影層: 由於 I2V DiT 模型的輸入通道數比 T2V 模型更多,因此增加了一個 額外的投影層,並用零值初始化。
CLIP 圖像編碼器 + MLP 全域上下文: 使用 CLIP 圖像編碼器** 提取條件圖像的特徵表示。 通過三層 MLP** 將特徵投影為全域上下文 (global context),並通過解耦交叉注意力 (decoupled cross-attention)** 注入到 DiT 模型中
為了訓練出強大的 Wan2.1 模型,通義實驗室建構了一個 規模龐大、質量極高的資料集,包含 15 億個視訊和 100 億張圖像! 資料來源包括 內部版權資料和公開資料
四步資料清洗流程: 為了從海量資料中篩選出 高品質、多樣化 的資料,團隊設計了 四步資料清洗流程,從 基本維度、視覺質量和運動質量 等方面對資料進行嚴格篩選,確保訓練資料的純淨度和有效性。 (具體四步流程細節,期待官方技術報告的詳細解讀!)
AI圈現在太捲了,阿里這次開源很有誠意,但是感覺阿里現在需要一個拳頭產品來破圈了,DeepSeek的光環太耀眼了 (AI寒武紀)