字節跳動，重磅發佈！

2025/02/06

•

【導讀】字節跳動推OmniHuman：可從單張照片生成逼真全身動態視訊

初創公司掀起AI浪潮的同時，頭部網際網路企業在AI賽道的步伐同樣沒有停歇！

2月6日，字節跳動數字人團隊推出了新的多模態數字人方案OmniHuman，其可以對任意尺寸和人物佔比的單張圖片結合一段輸入的音訊進行視訊生成，生成的人物視訊效果生動，具有非常高的自然度。

字節推出全新AI數字人模型

字節跳動公司研究人員開發了一種名為OmniHuman-1的人工智慧模型，能夠從單張圖像生成逼真全身動態視訊，效果令人驚嘆。

該模型能夠通過一張圖片配合音訊或視訊，生成非常自然的會說話、唱歌的人類動作視訊。在生成動畫時能夠保持極高的真實感，能夠精確捕捉到人類的面部表情、身體動作、手勢變化、物體互動等細節。

其支援各種不同類型輸入（如單一的人物圖片和音訊、視訊等訊號），生成非常逼真的真人視訊動畫，涵蓋從面部表情到全身動作，無論是說話、唱歌、跳舞等，超越了以往僅能動畫面部或上半身的AI模型。

據瞭解，該模型採用基於DiT架構的多模態運動條件混合訓練策略，解決高品質資料稀缺問題。這項技術的核心在於，它結合了文字、音訊和人體動作等多種輸入，通過一種稱為“全條件”訓練的創新方法，使得AI能夠從更大、更豐富的資料集中學習。

從評測結果而言，通過與多個已存在的模型定量對比，OmniHuman演算法在多項評估指標上展現出顯著優勢。

研究團隊指出，OmniHuman經過超過18700小時的人類視訊資料訓練，表現出了顯著的進步。通過引入多種條件訊號（例如文字、音訊和姿勢），這項技術不僅提升了視訊生成的質量，還有效減少了資料的浪費。

“OmniHuman通過引入多模態條件驅動和全條件訓練策略，成功解決了人類動畫生成領域長期存在的資料擴展和泛化能力問題。這一發展出現在AI視訊生成技術競爭日益激烈的背景下，Google、Meta和微軟等公司也在積極追逐類似技術。”有業內人士指出。

數字人規模明年或將達百億元

當下，全球數字人進入高產時代，相關產業規模不斷擴大，網際網路巨頭紛紛下場佈局。

目前，除百度、騰訊、阿里巴巴等網際網路公司，華為雲、京東雲、字節跳動、科大訊飛、商湯科技、小冰公司等廠商都已參與到虛擬數字人生產中。

天眼查資料顯示，截至2024年9月底，中國與數字人相關的企業數量已達114.4萬家，僅2024年前五個月就新增註冊企業17.4萬餘家，顯示出數字人產業的市場潛力與活力。

浙商證券認為，數字人有望成為AI大模型的服務入口，在幫助企業實現降本增效的同時，實現toB服務在toC側的變現閉環。

IDC最新發佈的報告顯示，中國虛擬數字人市場規模呈現高速增長趨勢，預計到2026年將達102.4億元。

智研諮詢認為，隨著AI技術不斷進步，智能驅動型虛擬數字人將成為市場主流。虛擬數字人的擬人化程度為其核心特徵及競爭力所在，虛擬數字人包括真人驅動型與人工智慧驅動型，其中真人驅動型虛擬數字人仍離不開現實真人，其動作捕捉、音視訊合成等均需要中之人配合完成，擬人化程度更高。目前智能驅動型虛擬數字人受限於技術、裝置因素，擬人逼真程度不及真人驅動型。

未來隨著自然語言處理、深度學習演算法等AI技術的不斷髮展與突破，智能驅動型虛擬數字人感知能力、表達能力與認知能力都將得到大幅提升，且成本也將進一步下滑。

在性能與成本優勢不斷顯現下，能夠實現自我認知和進化的智能驅動型虛擬數字人將逐步取代真人驅動型虛擬數字人，成為市場主流，廣泛地應用在各個領域。尤其是AIGC技術的興起，將助力智能驅動型數字人個性化定製及智能化互動能力再上新台階。 (中國基金報)