#Wan2.1
阿里巴巴通義萬相 Wan2.1-VACE正式開源
今日,阿里巴巴正式開源通義萬相「Wan2.1-VACE」,這是業界功能最全的視訊生成與編輯模型,單一模型可同時支援文生視訊、圖像參考視訊生成、視訊重繪、視訊局部編輯、視訊背景延展以及視訊時長延展等全系列基礎生成和編輯能力。本次共開源1.3B和14B兩個版本,其中1.3B版本可在消費級顯示卡運行,開發者可在GitHub、HuggingFace及魔搭社區下載體驗。該模型還將逐步在通義萬相官網和阿裡雲百煉上線。Wan2.1-VACE在通義萬相文生視訊模型基礎上,創新性提出了全新的視訊條件單元 VCU,它在輸入形態上統一了文生視訊、參考圖生視訊、視訊生視訊,基於局部區域的視訊生視訊4大類視訊生成和編輯任務。同時,Wan2.1-VACE還進一步解決了多模態輸入的token序列化難題,將VCU輸入的幀序列進行概念解耦,分開重構成可變序列和不可變序列後進行編碼,有效提升訓練效率和視訊生成的質量。Wan2.1-VACE支援全部主流輸入形式,涵蓋文字、圖像、視訊、Mask和控制訊號,可以保持角色一致性,同時實現佈局、運動姿態和幅度等要素的控制。例如,Wan2.1-VACE可以基於物體參考圖或者視訊幀生成一段視訊,也可以通過抹除、局部擴展等操作,對原有視訊進行重新生成,該模型還可以通過深度圖、光流、佈局、灰度、線稿等控制訊號對視訊進行重繪。另外,Wan2.1-VACE還支援任意基礎能力的自由組合,使用者無需針對特定功能訓練一個新的專家模型,通過輸入條件的組合即可完成更複雜的任務,極大地擴展了AI視訊生成的想像空間。例如,將圖片參考和主體重塑功能組合,可以實現視訊的物體替換;將圖片參考、首幀參考、背景擴展和時長延展功能,可以將一張豎版圖片變成橫版視訊,並且在其中加入參考圖片中的元素。自今年2月以來,通義萬相已先後開源文生視訊模型、圖生視訊模型和首尾幀生視訊模型,目前在開源社區的下載量已超330萬,在GitHub上斬獲超1.1w Star,是同期最受歡迎的視訊生成模型。開源地址:GitHub:https://github.com/Wan-Video/Wan2.1HuggingFace:https://huggingface.co/Wan-AI魔搭社區:https://www.modelscope.cn/organization/Wan-AI?tab=model (通義萬相Wan)