AI 生成人物視訊翻車？商湯推出可控人物視訊生成模型 Vimi

2024/07/09

•

商湯推出「可控」視訊生成模型 Vimi，可精確模仿人物微表情。

6 月，又是 AI 視訊生成的一個重要月份，Runway 3、Luma AI、快手可靈紛紛推出了普通使用者可用的視訊生成模型。用 AI 生成視訊，距離我們越來越近。

不過，相對於對話式機器人、AI 圖片生成這些成熟的大模型使用場景，「AI 視訊」離走出嘗鮮還有一定距離。比如，無論是在影視劇裡，還是在短影片中，視訊的最重要的場景之一就是人臉，而在網上的視訊生成測試中，最容易翻車之一的場景，也正是人臉。

下面是筆者用 Luma AI 嘗試通過一張科學家圖靈的照片生成的視訊，讓人物本身動起來相對容易，但一旦動起來，圖靈的臉很快就變成了另一個人。

在大模型和智能視覺技術領域有深厚積累的商湯，希望解決視訊生成中這種「不可控」的痛點。最近在上海的 WAIC 2024 上，推出了最新的人物 AI 視訊模型 Vimi，主打技術的「可控性」。

同一張照片，在商湯的演示下，生成是這樣的。

不僅光影和諧，且人物的一致性保持度極高。

商湯是怎麼做到的？

01 第一個人物「可控」的視訊生成模型

據極客公園瞭解，此次的可控人物 AI 視訊模型 Vimi 模型，由商湯數字文娛團隊出品。

商湯從 2016 年開始，就持續深耕在人物表情的 AI 處理上，是亞洲地區最大的特效引擎提供商。作為使用者，我們可能提起小狗濾鏡，變臉特效，只能想起抖音這樣的 C 端軟體，不過其實背後，許多這樣的特效的提供，都來自於商湯數字文娛團隊。

去年，早在 Sora 的 demo 發佈之前，他們就開始立項，進行可控人物 AI 視訊模型的研發。重點發力「人物」、「可控」兩個難點。

在視訊生成中，可控性其實一直是不少模型努力的方向。

在 Vimi 模型之前，其實市面上已經有一些模型，能夠較為可控地生成人物動作。

其中最出圈的，可能就是阿里出品的 AnimateAnyone，也就是曾經讓兵馬俑也能跳「科目三」的背後技術。

採用了姿態引導器（Pose Guider）的技術，通過 Denoising UNet 模組進行視訊的生成，AnimateAnyone 能夠讓人們在只輸入一張圖片的情況下，讓圖片做出姿態引導器所做出的動作。

簡單講，科目三的動作是被提前設定好的，而輸入照片後，AnimateAnyone 可以讓一張照片中的人物按照科目三的動作動起來。

不過很明顯可以看出，AnimateAnyone 的姿態控制，更針對大範圍的肢體動作。

而商湯糰隊的優勢，在於塑造人物表情上更加鮮活。

同樣是同時輸入一張圖片，和一個動作（可以是動畫模型的 3D 骨架動作，也可以是一段視訊），商湯的 Vimi 模型，能夠做到對臉部和上半身動作進行精準地控制。這也是目前發佈的第一個能夠對人臉和上半身做如此精準可控的模型。

商湯表示，模型訓練本身，並沒有使用特別的資料，只是採用了公開資料庫進行訓練。

而能夠在人臉方面，成為第一個精準控制人臉表情的模型，主要源於商湯多年在面部跟蹤方面的積累：「對人臉實現技術角度的精準控制，需要更精準地去跟蹤人物表情中的每一個細節，包括牙齒、耳朵、眼球、睫毛等等。細節能夠做的好，在人物的參數化上就可以做得非常的精準，之前的技術積累都是實現這個模型的前提。有了這些積累，真正訓練的時候，使用的資料量可以少許多。」

事實上，除了專注於面部的可控之外，商湯的 Vimi 模型和 AnimateAnyone 在底層架構上也不同。AnimateAnyone 使用類似 ControlNet 的方法，從圖像中的身體部位提取一些錨點，作為生成視訊每一幀的動作參考；而商湯的 Vimi 模型，將人的動作和表情做了全面的理解和抽象，將整段動作資訊作為一個整體，與生成模型對圖像和視訊資訊的特徵理解相融合，這樣生成的視訊在空間和時間上都能保持很好的整體性。不同的訓練架構，導致從生成效果來看，商湯的模型，對光影一致性的控制，效果非常優秀。

「傳統模型最大的一個問題是，它不太能合理地生成周邊的內容，包括身體的動作和環境的一些變化。而採用大模型訓練，可以整個的環境都跟著肢體的控制去變化，包括生成合理的頭髮的抖動。甚至能夠模擬鏡頭角度，比如輸入鏡頭是逐漸拉近，輸出也能有自然的逐漸拉近的效果。而原本，要做出這樣的效果，需要複雜的 3D 建模，繫結各種光效渲染才能做出來。」採訪中商湯表示。

而與專門的生成式模型比起來，可控人物 AI 視訊模型又在人物生成效果穩定多了。尤其在長視訊的情景下，能夠穩定保持人物的臉部可控。目前，團隊可以做到一分鐘以上的穩定視訊生成。

02 可控，才可用

人臉生成，是 AI 生成視訊中最難的場景之一。

原因，首先是因為人類對人臉本身就很敏感。一個細微的肌肉表情，就能被解讀出不同的含義。人們自拍經常要拍幾十張相似的照片，才能挑到合適的角度。因此涉及到人臉的一些形變，很容易就會引起我們的注意。

而其次，人臉生成本身，存在一定技術難度。人的身體，並不是一個剛性的物體——剛性物體，只要對其進行環繞拍攝，模型就能很容易學習其物理屬性。而人體本身，有許多關節，人身體上會穿柔軟的衣服，人臉周圍有毛髮，對於模型來說，學習難度就會更高。

然而對於創作者來說，人臉視訊生成卻是最不可或缺的一塊。

無論是影視作品，還是短影片作品，用人臉去傳達感情，都是重要環節，無法被替代。

而商湯佈局於這塊硬骨頭，也正是源於商湯多年在 B 端積累的客戶洞察。

商湯科技數字文娛事業部總經理欒青在接受採訪時表示：「我們和許多做動畫電影的人聊了之後，發現他們普遍想要講好一個故事。而現在的大模型，無法進入生產流程的最大問題，就是沒有一個很可控的方法，讓他們電影中的人物，真的具有表現力。最後 AI 視訊還是只能用在過場的大場景中。」

而佈局可控模型，也與商湯對於今天的大模型發展看法一脈相承。

在剛剛結束的 WAIC 上，商湯科技董事長兼 CEO 徐立提到，大模型技術走嚮應用，在商湯的認知中，有幾個核心的重要的突破點。其一是人工智慧的推理問題，要用高階邏輯知識學習來解決。二，則是即時互動性帶來流暢體驗，在 WAIC 上，商湯發佈也發佈了商湯的階段性成果「日日新 5o」模型。

而最後，很重要的一點，就是可控性。不管是文字生成、圖像生成、視訊生成，如果沒有具備可控性，AI 作為一個工具，本身能夠帶來的效能的提升就非常的有限。

而 Vimi 模型，就是商湯在可控性方面，針對使用者需求，做出的人物視訊生成大模型。

今日的創作者，無需再在 prompt 上苦下功夫，一遍遍地生成，寄希望於大模型的盲盒，能夠終於生成一個可用的人臉視訊，既花功夫，又花成本。

對於原本的影視、動畫創作者來說，Vimi 模型現在可以直接使用動畫創作者最熟悉的骨架生成動作。而對於更多隻有想法的影片創作者，自己錄製一段視訊，也能直接實現很好的生成效果。

Vimi 模型仍然在快速持續迭代升級中。目前的模型，能夠更可靠的生成的，主要是人物的上半身視訊，而進一步的迭代的方向包括臉部表情的進一步控制、身體姿態控制、手部控制等等。

再進一步，Vimi 希望能夠控制身體更多更複雜的動作，對更大的場景和多人的情景也能進行控制等等。

可控，才可用。

站在今天的時間點，我們也在 Vimi 模型身上，洞見了未來的可能性。

例如，曾經爆火的 AI 寫真生成應用，利用的是成熟的 AI 生圖技術，那麼，在人臉生成穩定的新技術後，我們是不是可以期待一波 AI 視訊寫真的爆火？

再比如，借助可控人物 AI 視訊模型，原本不熟悉視訊創作的人，是不是未來也可以低成本，低門檻地生成視訊，來講出自己想講的故事，極大地豐富未來的視訊內容？

抑或者，在不遠的未來，我們再也不用擔心明星沒有演技了。因為明星的演技，也可以使用大模型微調了。 (極客公園)