2025年5月9日上午,騰訊正式推出並開源全新的多模態客制化影片產生工具HunyuanCustom。模型基於混元視訊生成大模型(HunyuanVideo)打造,在主體一致性效果超過現有的開源方案。HunyuanCustom融合了文字、影像、音訊、視訊等多模態輸入生視訊的能力,是一款具備高度控制力和生成品質的智慧視訊創作工具。HunyuanCustom模型能實現單主體視訊生成、多主體視訊產生、單主體視訊配音、視訊局部編輯等能力,其產生的視訊與使用者輸入的參考主體能保持高度一致。其中,單主體生成能力已開源並在混元官網(https://hunyuan.tencent.com/)上線,使用者可以在「模型廣場-圖生視訊-參考生視訊」中體驗,其他能力將於5月內陸續對外開源。有了HunyuanCustom,使用者只需上傳一張包含目標人物或物件的圖片,並提供一句文字描述(例如「他正在遛狗」),HunyuanCustom 就能辨識出圖片中的身份訊息,並在完全不同的動作、服飾與場景中產生連貫自然的影片內容。除了單主體以外,這個能力同樣能實現多主體視訊的生成,使用者提供一張人物和一張物體的照片(比如一包薯片和一名男子的照片),並輸入文字描述(比如“一名男子正在游泳池旁邊,手裡拿著薯片進行展示”),即可能讓這兩個主體按要求出現在視訊裡。此外,HunyuanCustom 不止於圖像和文字的配合,還具備強大的擴展能力。在音訊驅動(單主體)模式下,使用者可以上傳人物影像並配上音訊語音,模型便可產生人物在任意場景中說話、唱歌或進行其他音訊和視訊同步表演的效果,廣泛適用於數位人直播、虛擬客服、教育演示等場景。在視訊驅動模式下,HunyuanCustom 支援將圖片中的人物或物體自然地替換或插入任意視訊片段中,進行創意植入或場景擴展,輕鬆實現視訊重構與內容增強。先前大部分的影片生成模型主要能實現文生影片和圖生影片。文生影片每次均根據本文提示詞重新生成,很難持續保持人物和場景的一致性。而影像生成視訊模型主要實現的是「讓圖片動起來」。例如,上傳一張人物照片,最終生成的影片通常只能在照片的原始服飾、姿態和場景下做出一些固定表情或動作,服裝、背景和姿態幾乎無法修改。但在部分場景下,創作者希望保持人物一致的情況下,改變人物所在的環境和動作。先前的視訊生成模型無法實現,多模態視訊生成模型HunyuanCustom則可以很好地滿足創作者的需求,透過引入身份增強機制和多模態融合模組,真正實現了「圖像提供身份,文字定義一切」。HunyuanCustom可以滿足影片創作者、短片部落客、電商從業人員、廣告創意人等不同使用者和場景的需求。例如,在廣告場景中,可以快速變換商品背景、模特兒可以快速換衣服;在電商和客服場景中,可以快速低成本製作出生動的數位人商品介紹視訊,或者製作特定穿著的數位人客服視訊;在影視場景中,快速製作短劇和小故事短影片。HunyuanCustom 在「可控性」和「一致性」上表現出色。 「可控性」指HunyuanCustom具有較強的控制訊號跟隨能力,包括遵循來自文字、參考主體影像和語音等多種模態訊號的控制,可較好地產生使用者需要物件、場景和動作。這主要得益於混元強大的多模態理解與文字驅動機制。透過業界領先的主體一致性建模能力,HunyuanCustom 在單人、非人物體、多主體互動等多種場景,都能保持身份特徵在視訊全程的一致性與連貫性。人物不會“變臉”,物體不會“漂移”。同時,HunyuanCustom 具備極高的影片產生品質。得益於騰訊混元影片大模型的強大能力,該模型在人物細節還原、動作流暢性、光影真實度等方面都達到業界領先水準。無論是產生虛擬數位人、打造品牌廣告視訊,或是進行創意視覺表達,HunyuanCustom都能提供高水準輸出。 (元透社)