馬斯克酷炫變身毒液！實測通義Wan2.1首尾幀視訊模型，還能「拼接」經典梗圖

2025/04/20

•

在GitHub狂攬1w+星標的通義萬相Wan2.1，又雙詠上新了！

最新打開方式是醬嬸兒的：

給出開始（首幀）和結束（尾幀）兩張圖片，Wan2.1便能分分鐘生成一段絲滑的5s、720p視訊。

根據前後視角的不同，還能自動調整鏡頭角度，緩慢變成高空俯拍，並同時確保人物光影正確：

原來這是阿里通義萬相Wan2.1最新開放原始碼的首尾幀視訊模型，基於Wan2.1文生視訊14B大模型，為創作者提供更有效率、更靈活的視訊製作方式。

官方表示，這是業界首個百億參數規模的開源首尾幀視訊模型。

目前一般使用者可以直接在通義萬相官網體驗，開發者可以透過GitHub、Hugging Face、魔搭社群等開源平台使用。

為了評估其真實能力，我們也在第一時間手實測了一波。

初步感受是，從整體來說，Wan2.1首尾幀視訊模型這次在主體一致性、前後連貫性等方面確實表現良好。

我們嘗試了用它來改造經典梗圖或挑戰一些火爆一時的玩法，具體過程如下。

實測Wan2.1首尾幀視訊模型

打開通義萬相官網，進入視訊生成，然後選擇圖生視訊並開啟首尾幀功能：

先上經典玩法——「文藝復興」表情包。

我們提供的首尾幀分別如下：

對於這樣兩張頗具戲劇張力的圖片，Wan2.1最終產生的視訊，雖然不能深究故事合理性，但整個轉場確實非常絲滑，而且運動過程中人物的一致性保持較好，類似頭髮、長相、服裝這樣易出錯的細節也hold住了。

接下來難度升級，我們又嘗試讓兩張完全不同的表情包來個「時空跨越」。

結果生成的視訊自帶「PPT轉場」效果，有種家裡長輩看熊孩子的感覺了（doge）~

Okk，除了整活兒，接下來我們也從時序連貫性、創意合理性、內容一致性以及技術實現難度等維度來進行一個全方位考察。

最常見的用法，當屬各類寫實。

讓我們淺淺模仿一下自然頻道，讓一朵花花慢慢生長出來。

Prompt：特寫鏡頭，讓牡丹花慢慢綻放。

可以看到，整個生長過程相當自然，已經是肉眼無法一眼辨識為AI的情況了。

而且連首幀圖片中隱藏的蛛網也捕捉到了，在花朵綻放時也被牽動起來。

還有人物寫實，透過提供兩張特寫照片，我們考察一下Wan2.1對光影這類細節的把控力。

Prompt：寫實風格，臉部特寫，一個金發碧眼的小男孩，鏡頭微微左移，記錄他被陰影遮住的側臉。

顯然，由於兩張圖片前後差距不大，因此稍微不注意可能還以為是靜態影像。

而透過細緻觀察，我們在影片靠近結尾的部分捕捉了小男孩的脖子和臉上發生了光照變化。

除此之外，我們也挑戰了曾經火爆一時的創意玩法——毒液變身特效。

Prompt：特效大片既視感，穿著西裝的男人突然變身成怪獸毒液。

馬斯克版·毒液這就來了：

能夠看出，對於這種內容跨度比較大的例子，Wan2.1使用了“遮掩大法”，直接一個閃光特效實現變身。

對此，你說它變了還是沒變，還真難界定~

另外我們也嘗試了其他風格，例如二次元。

Prompt：動漫風格，一個打著雨傘的動漫角色站在雨中，不知道看見什麼突然傻笑起來。

可以看到，開頭和結尾的表情100%還原了，而且中間還上演了“超絕變臉”，一秒鐘八百個小表情（bushi~

同時下雨這個場景也真實還原了，沒有雨滴直接穿過雨傘的「超現實場景」。

最後，我們也簡單對比了一下Wan2.1和可靈（可靈1.6）的首尾幀生成效果。

同樣兩張圖片和提示詞下，可靈生成的馬斯克版·毒液如下：

雖然老馬的面目略顯猙獰，但好歹是真變身了。

所以，你更pick那一個呢？

揭秘技術原理與組態

從上述簡單實測來看，相比早期的一些鬼畜視訊，這次開放原始碼的Wan2.1首尾幀視訊模型在主體一致性、前後連貫性等方面已經有了相當大的進步。

那麼接下來的問題是：怎麼做到的？

透過阿里官方發佈的技術報告，僅從首尾幀控制來看，其得益於在基礎架構模型上，引入了額外的條件控制分支。

具體而言，首幀與尾幀同若干零填充的中間幀拼接，構成控制視訊序列。此序列進一步與雜訊及掩碼（mask）進行拼接，最終作為擴散變換模型（DiT）的輸入。

此外，為實現畫面穩定性控制，通義萬相首尾幀生視訊模型提取了首幀和尾幀的CLIP語義特徵，並透過交叉注意力機制（Cross-Attention Mechanism）將其注入DiT的生成過程中。

憑藉這一獨特的模型架構，最終實現了流暢且精確的首尾幀變換。

當然，最後大家最關注的還是組態問題。

以國內的魔搭社區為例，他們目前已在DiffSynth-Studio專案中支援了Wan2.1首尾幀模型。

也就是說，開發者可以基於DiffSynth-Studio （一個提供全鏈路推理和訓練最佳化的開源工具）來實現便利推理。

值得注意的是，他們也透過某一參數來控制推理過程中常駐視訊記憶體的參數量。而實際推理過程所使用的視訊記憶體需求，會與這一參數、解析度、幀數有關。

他們以81幀960*960解析度的影片為例：

設定參數=None時（意味著無常駐參數限制），需要46G視訊記憶體；
設定參數=4*10** 9時，需要24G視訊記憶體，但推理速度會下降；

另外，部分網友也在第一時間分享了自己的組態狀況：

我們自己測下來也發現，僅從官網直接體驗，目前生成一個視訊實際上需要幾分鐘甚至十幾分鐘時間。

所以，大家卷質量的同時，能不能把時長打下來啊（doge）~

直接體驗入口：https://tongyi.aliyun.com/wanxiang/videoCreation

GitHub：https://github.com/Wan-Video/Wan2.1模型（魔搭社群）：https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P

（量子位元）