萬相2.1雙版本模型均開源,生成能力全方位開掛。
智東西2月26日報導,昨夜,阿里雲視覺生成基座模型萬相2.1(Wan)宣佈開源!
萬相2.1共有兩個參數規模,140億參數模型適用於對生成效果要求更高的專業人士,13億參數模型生成速度較快且能相容所有消費級GPU,兩個模型的全部推理程式碼和權重已全部開源。
綜合來看,萬相2.1的主要優勢集中於以下五點:
SOTA性能:萬相2.1在多個基準測試中優於現有的開源模型和商業解決方案,140億參數專業版萬相模型在權威評測集VBench中,以總分86.22%大幅超越Sora、Luma、Pika等國內外模型,居於榜首。
支援消費級GPU:13億參數模型僅需8.2GB視訊記憶體就能生成480P視訊,可相容幾乎所有消費級GPU,約4分鐘內(未使用量化等最佳化技術)在RTX 4090上生成5秒的480P視訊。
多項任務:萬相2.1同時支援文生視訊、圖生視訊、視訊編輯、文生圖和視訊生音訊。
視覺文字生成:萬相2.1是首個能夠生成中英文文字的視訊模型,無需外部外掛就能生成文字。
強大的視訊VAE:Wan-VAE提供卓越的效率和性能,可對任意長度的1080P視訊進行編碼和解碼,同時保留時間資訊。
萬相系列模型的研發團隊基於運動質量、視覺質量、風格和多目標等14個主要維度和26個子維度進行了模型性能評估,該模型實現5項第一,萬相系列模型能夠穩定展現各種複雜的人物肢體運動,如旋轉、跳躍、轉身、翻滾等;還能還原碰撞、反彈、切割等複雜真實物理場景。
官方Demo中“貓熊用滑板炫技”的視訊,展示了一隻貓熊連續完成多個高難度動作:
阿里雲通義實驗室的研究人員昨夜23點直播介紹了萬相2.1的模型及技術細節。
此外,阿里通義官方文章還提到,萬相2.1的開源,標誌著阿里雲實現了全模態、全尺寸的開源。
目前,萬相2.1支援訪問通義官網線上體驗或者在Github、HuggingFace、魔搭社區下載進行本地部署體驗。
通義官網體驗地址:https://tongyi.aliyun.com/wanxiang/
Github: https://github.com/Wan-Video/Wan2.1
HuggingFace:https://huggingface.co/spaces/Wan-AI/Wan2.1
魔搭社區:https://modelscope.cn/studios/Wan-AI/Wan-2.1
在生成能力方面,萬相2.1可以還原複雜運動表現、遵循物理規律、影院等級畫質、具備文字生成和視覺特效製作能力。
萬相2.1不僅支援生成走路、吃飯等基本的日常運動,還能還原複雜的旋轉、跳躍、轉身跳舞以及擊劍、體操等體育運動類的動作。
此外,其能在遵循物理世界規律的前提下,還原重力、碰撞、反彈、切割等物理場景,並生成萬物生長等有創意的視訊。
在畫質方面,萬相2.1生成的視訊達到影院等級畫質,同時理解多語言、長文字指令,呈現角色的互動。
同時,萬相2.1是首次在開源模型中支援中英文文字渲染,中英文藝術字生成。
以紅色新年宣紙為背景,出現一滴水墨,暈染墨汁緩緩暈染開來。文字的筆畫邊緣模糊且自然,隨著暈染的進行,水墨在紙上呈現“福”字,墨色從深到淺過渡,呈現出獨特的東方韻味。背景高級簡潔,雜誌攝影感。
不過,紙上福字左上角的一點並沒有書寫過程,而是突然在視訊後期出現。
紀實攝影風格,低空追蹤視角,一輛寶馬M3在蜿蜒的山路上疾馳,車輪揚起滾滾塵土雲。高速攝影機定格每個驚險過彎瞬間,展現車輛極致的操控性能。背景是連綿起伏的山脈和藍天。畫面充滿動感,輪胎與地面摩擦產生的煙霧四散。中景,運動模糊效果,強調速度感。
可以看到,視訊鏡頭隨著汽車的漂移加速,捕捉到了每一個畫面,並且在漂移時路邊還有與地面摩擦飛揚的塵土。
微觀攝影,珊瑚管蟲和霓虹刺鰭魚在五彩斑斕的海底世界中游弋。珊瑚管蟲色彩鮮豔,觸手輕輕搖曳,彷彿在水中舞蹈;霓虹刺鰭魚身體閃耀著螢光,快速穿梭於珊瑚之間。畫面充滿奇幻視覺效果,真實自然,4k高畫質畫質,展現海底世界的奇妙與美麗。近景特寫,水下環境細節豐富。
整個畫面色彩鮮豔,對提示詞中的細節基本都表現到了。
中國古典風格的動畫角色,一個身穿淡紫色漢服的女孩站在櫻花樹下。她有著大大的眼睛和精緻的五官,頭髮上裝飾著粉色的花朵。女孩表情溫柔,眼神中帶著一絲憂鬱,彷彿在思考什麼。背景是朦朧的古建築輪廓,花瓣在空中輕輕飄落,營造出一種寧靜而夢幻的氛圍。近景特寫鏡頭,強調女孩的面部表情和細膩的光影效果。
視訊對“眼神中帶著一絲憂鬱,彷彿在思考什麼”這類複雜的指令,也在女孩的眼神中得到了呈現。
為了評估萬相2.1的性能,研發人員基於1035個內部提示集,在14個主要維度和26個子維度上進行了測試,然後通過對每個維度的得分進行加權計算來計算總分,其中利用了匹配過程中人類偏好得出的權重。詳細結果如下表所示:
研發人員還對文生視訊、圖生視訊以及模型在不同GPU上的計算效率進行了評估。
文生視訊的評估結果:
圖生視訊的評估結果:
其結果顯示,萬相2.1均優於其他開源、閉源模型。
不同GPU上的計算效率:
可以看到,13億參數模型可相容消費級顯示卡,並實現較快的生成速度。
基於主流的DiT和線性噪聲軌跡Flow Matching範式,萬相2.1基於自研因果3D VAE、可擴展的預訓練策略、大規模資料鏈路建構以及自動化評估指標提升了模型最終性能表現。
VAE是視訊生成領域廣泛使用的模組,可以使得視訊模型在接近無損情況下有效降低資源佔用。
在演算法設計上,萬相基於主流DiT架構和線性噪聲軌跡Flow Matching範式,研發了高效的因果3D VAE、可擴展的預訓練策略等。以3D VAE為例,為了高效支援任意長度視訊的編碼和解碼,萬相在3D VAE的因果摺積模組中實現了特徵快取機制,從而代替直接對長視訊端到端的編解碼過程,實現了無限長1080P視訊的高效編解碼。
此外,通過將空間降採樣壓縮提前,在不損失性能的情況下進一步減少了29%的推理時記憶體佔用。
萬相2.1模型架構基於主流的視訊DiT結構,通過Full Attention機制確保長時程時空依賴的有效建模,實現時空一致的視訊生成。
採樣策略上,模型的整體訓練則採用了線性噪聲軌跡的流匹配(Flow Matching)方法。如模型架構圖所示,模型首先使用多語言umT5編碼器對輸入文字進行語義編碼,並通過逐層的交叉注意力層,將文字特徵向量注入到每個Transformer Block的特徵空間,實現細粒度的語義對齊。
此外,研發人員通過一組在所有Transformer Block中共享參數的MLP,將輸入的時間步特徵T對應為模型中AdaLN層的可學習縮放與偏置參數。在相同參數規模下,這種共享時間步特徵對應層參數的方法在保持模型能力同時可以顯著降低參數和計算量。
資料方面,研究人員整理並去重了一個包含大量圖像和視訊資料的候選資料集。在資料整理過程中,其設計了四步資料清理流程,重點關注基本維度、視覺質量和運動質量。通過強大的資料處理流程快速獲得高品質、多樣化、大規模的圖像和視訊訓練集。
訓練階段,對於文字、視訊編碼模組,研究人員使用DP和FSDP組合的分佈式策略;對於DiT模組採用DP、FSDP、RingAttention、Ulysses混合的平行策略。
基於萬相2.1模型參數量較小和長序列帶來的計算量較大的特徵,結合叢集計算性能和通訊頻寬採用FSDP切分模型,並在FSDP外巢狀DP提升多機拓展性,FSDP和DP的通訊均能夠完全被計算掩蓋。
為了切分長序列訓練下的Activation,DiT部分使用了Context Parallelism (CP) 對序列維度進行切分,並使用外層RingAttention、內層Ulysses的2D CP的方案減少CP通訊開銷。
此外,為了提升端到端整體效率,在文字、視訊編碼和DiT模組間進行高效策略切換避免計算冗餘。具體來說,文字、視訊編碼模組每個裝置讀不同資料,在進入DiT之前,通過循環廣播方式將不同裝置上的資料同步,保證CP組裡中資料一樣。
在推理階段,為了使用多卡減少生成單個視訊的延遲,選擇CP來進行分佈式加速。此外,當模型較大時,還需要進行模型切分。
一方面,模型切分策略時,單卡視訊記憶體不足時必須考慮模型切分。鑑於序列長度通常較長,與張量平行(TP)相比,FSDP的通訊開銷更小,並且可以被計算掩蓋。因此,研究人員選擇FSDP方法進行模型切分(注意:這裡僅做切分權重,而不做資料平行);另一方面採用序列平行策略:採用與訓練階段相同的2D CP方法:外層(跨機器)使用RingAttention,內層(機器內)使用Ulysses。
在萬相2.1 140億參數模型上,使用FSDP和2D CP的組合方法,在多卡上具有如下圖所示的近線性加速:
視訊記憶體最佳化方面,研究人員採用分層的視訊記憶體最佳化策略,選擇一些層進行Offload,其他層根據不同算子計算量和視訊記憶體佔用的分析使用細粒度Gradient Checkpointing(GC)進一步最佳化Activation視訊記憶體。最後利用PyTorch視訊記憶體管理機制,解決視訊記憶體碎片問題。
在訓練穩定性方面,萬相2.1借助於阿里雲訓練叢集的智能化調度、慢機檢測以及自癒能力,在訓練過程中可以自動識別故障節點並快速重啟任務,平均重啟時間為39秒,重啟成功率超過98.23%。
2023年8月,阿里雲率先開源Qwen模型,正式拉開了開源大模型的序幕。隨後,Qwen1.5、Qwen2、Qwen2.5等四代模型相繼開源,覆蓋了從0.5B到110B的全尺寸範圍,涵蓋大語言、多模態等領域。目前其千問(Qwen)衍生模型數量已超過10萬個。其官方文章顯示,隨著萬相的開源,阿里雲實現了全模態、全尺寸的開源。
從大語言模型到視覺生成模型,從基礎模型到多樣化的衍生模型,開源生態的發展正不斷被注入強大的動力。 (智東西)