萬字梳理：阿里、騰訊等8家中國網路大廠的50款大模型及應用，能否全面超越GPT-4？

2024/03/12

•

自美國OpenAI公司推出的ChatGPT風靡全球，並引發新一輪人工智慧浪潮，國內外科技巨頭爭相佈局大模型領域。

此次，鈦媒體AGI梳理了2023年至今，阿里、百度、字節、騰訊、華為、小紅書、美圖、科大訊飛、三六零8家互聯網科技公司在AI 領域的最新技術成果，共包含50款AI大模型及AI應用，以幫助讀者快速了解網路大廠在AI領域的最新技術動向。

阿里巴巴 2024年3月

中國版“Sora”，文生視訊框架—— AtomoVideo

產品介紹： AtomoVideo是阿里巴巴推出的一個高保真影像視訊生成框架，該框架利用高品質的資料集和訓練策略，保持了時間性、運動強度、一致性和穩定性，並具有高靈活性，可應用於長序列視訊預測任務。

因與Open AI先前推出的文生視訊模型Sora功能相似，AtomoVideo也被稱為「中國版Sora」。

產品功能：使用者只需上傳一張照片就能產生對應的影片。據悉AtomoVideo的核心在於多粒度影像注入技術，這項技術使得生成的影片對於給定的影像具有更高的保真度，能夠更好地保留原始影像的細節和特徵，從而使得生成的影片更加逼真。

另外，AtomoVideo的架構也具有很高的靈活性，它可以靈活地擴展到視訊幀預測任務，透過迭代生成實現長序列預測，使得AtomoVideo在處理長序列的視訊預測任務時，也能夠保持良好的效能。

目前，阿里只發布了AtomoVideo的論文，程式碼，試玩頁面還未公佈。

適用人群或場景：影片創作者、影視拍攝

論文網址：https://arxiv.org/abs/2403.01800

電商人的AIGC創作平台－繪蛙

產品介紹：繪蛙是阿里AI電商團隊針對淘寶、電商達人推出的一款可以產生文案和圖片的智慧創作平台，旨在提升電商行銷效率。

產品功能：主要是AI文案產生和AI圖片生成。在AI文案中，商家可以實現單商品種草、小紅書爆文改寫、穿搭分享等。以爆文改寫為例，商家只要輸入參考筆記內容，然後加入種草商品賣點、人設、筆記話題，即可產生小紅書風格文案。

AI生圖中，使用者可以透過選擇商品、選擇模特兒和選擇參考圖來產生自己想要的商品圖片，支持自己上傳模特圖，也有自備的數位模特庫可供使用，可以客製化專屬自己的AI模特，幫助商家節省商品拍攝和模特兒成本。

適用族群：淘寶、天貓店家、帶貨主播、電商達人

上線時間：未知

體驗網址：https://www.ihuiwa.com/（需邀請碼）

AI 圖片-音訊-視訊模型— EMO

產品介紹： EMO是阿里巴巴推出的AI圖片-音訊視訊模型，該模型採用了Stable Diffusion 的生成能力和Audio2Video 擴散模型，能夠產生富有表現力的人像影片。

不同於OpenAI 的文生視頻模型Sora，EMO 主攻的是直接以圖+音頻生成視頻方向，能夠直接從給定的圖像和音頻，剪輯生成一段帶有豐富人物表情的人物頭部視頻。

產品功能：用戶只需要上傳一張照片和一段任意音頻，EMO就可以根據圖片和音頻產生一段會說話唱歌的AI視頻。影片中人物具備豐富流暢的臉部表情，能做到人物開口說話和唱歌時和和音頻保持一致，最長時間可達1分30秒左右。

例如，你可以上傳一張高啟強的照片＋一段羅翔老師的音頻，就能得到一段「高啟強普法」影片。或者，你可以上傳一張蒙娜麗莎的照片，讓蒙娜麗莎為你唱現代歌曲，唱rap等。

適用人群：有演講需求人群、電商主播、視訊自媒體及講師等

GitHub：https://github.com/HumanAIGC/EMO

論文網址：https://arxiv.org/abs/2402.17485

專案首頁: https://humanaigc.github.io/emote-portrait-alive/

2024年1月

性能堪比Gemini Ultra的多模態大模型—Qwen-VL-Max

產品介紹： Qwen-VL是阿里推出的開源多模態視覺模型，2024年1月，繼Plus版本之後，阿里又推出了Qwen-VL-Max版本。

產品功能：基礎能力方面，Qwen-VL-Max能夠準確描述和識別圖片訊息，並根據圖片進行資訊推理和擴展創作。這項特性使得此模型在多個權威評測中表現出色，整體表現堪比GPT-4V和Gemini Ultra。

視覺推理方面，Qwen-VL-Max可以理解並分析複雜的圖片訊息，包括識人、答案、創作和寫程式碼等任務。同時模型也具備視覺定位功能，可依畫面指定區域進行問答。

此外，Qwen-VL-Max在影像文字處理方面也取得了顯著進步，中英文文字辨識能力顯著提高，支援百萬像素以上的高清解析度圖和極端寬高比的影像，不僅能完整復現密集文本，還能從表格和文件中提取資訊。

體驗網址： https://huggingface.co/spaces/Qwen/Qwen-VL-Max

AI 生成3D動畫工具－Motionshop

產品介紹： Motionshop是阿里巴巴智慧計算研究院推出的AI角色動畫框架，該框架利用視訊處理、角色檢測/分割/追蹤、姿態分析、模型提取和動畫渲染等多種技術，使得動態視訊中的主角能夠輕鬆跨越現實與虛擬的界限，一鍵變身為3D角色模型且不改變影片中的其他場景與人物。

產品功能：用戶只需上傳視頻，AI便能智慧識別視頻中的主要人物，並將其無縫轉換為生動的3D角色模型。同時保持影片中人物動作同步與真實感，能精確復刻原影片中人物的動作細節，確保3D角色的動作流暢自然，提供高度逼真的視覺效果。此外，Motionshop能將現實世界的人物與3D虛擬角色得以完美融合，創造出跨越現實與虛擬界線的全新體驗，為影片內容增添無限可能。

適用人群或場景：影片內容生產者、影視拍攝

專案首頁: https://aigc3d.github.io/motionshop/

能讓圖片開口說話、唱歌的模型框架－DreamTalk

產品介紹： DreamTalk是由清華大學、阿里巴巴和華中科大共同開發的一個可以讓人物照片開口說話、唱歌的模型框架。

產品功能：上傳一張照片和音頻，DreamTalk能夠生成人物臉部動作看起來很真實的高質量視頻，而且嘴唇動作能和音頻都能一一對應。同時DreamTalk也支援多種語言，無論是中文、英文或其他語言都能很好地同步。

據悉，DreamTalk 由三個關鍵組件組成：降噪網路、風格感知唇部專家和風格預測器。透過三種技術結合的方式，DreamTalk 能夠產生具有多種說話風格的逼真說話臉孔，並實現準確的嘴唇動作。

適用人群或場景：演講、產品解說、開會，直播、電商、線上教學等

專案首頁: https://dreamtalk-project.github.io/

論文地址: https://arxiv.org/pdf/2312.09767.pdfGithub

網址: https://github.com/ali-vilab/dreamtalk

2023年12月

可控制影片生成框架－DreamMoving

產品介紹： DreaMoving是一種基於擴散模型打造的可控影片生成框架，透過圖文就能製作高品質人類跳舞影片。

產品功能：使用者只需上傳一張人像，以及一段提示詞，就能生成對應的視頻，而且改變提示詞，生成的人物的背景和身上的衣服也會跟著變化。簡單來說就是，一張圖、一句話就能讓任何人或角色在任何場景裡跳舞。

適用人群或場景：娛樂主播、影片製作

論文連結：https://arxiv.org/pdf/2311.17117.pdf

專案地址：https://humanaigc.github.io/animate-anyone/

體驗網址：https://huggingface.co/spaces/xunsong/Moore-AnimateAnyone

2023年11月

文生視訊模型—— I2VGen-XL

產品介紹： I2VGen-XL是阿里雲推出的一款高清影像生成視訊模型，這款模型的核心組件由兩個部分構成，用於解決語義一致性和清晰度問題。

產品功能：使用者只需上傳一張圖片，即可產生一段解析度為1280*720的高畫質影片。由於在大規模混合視訊和影像資料上進行了預訓練，並在少量高品質資料集上進行了微調，這些資料集具有廣泛的分佈和多樣的類別，這使得I2VGen-XL展示了良好的泛化能力，適用於不同類型的資料。

此外，為了提高視訊質量，該研究訓練了一個單獨的VLDM，專門處理高品質、高解析度數據，並對第一階段生成的視訊採用SDEdit 引入的雜訊去噪過程。

在影片產生效果方面，與Gen2、Pika 生成效果相比， I2VGen-XL 產生的影片動作更加豐富，主要表現在更真實、更多樣的動作，而Gen-2 和Pika 產生的影片似乎更接近靜態。

使用人群及場景：影片內容創作者、影視製作

專案網址：https://i2vgen-xl.github.io/

論文網址：https://arxiv.org/abs/2311.04145

Github：https://arxiv.org/abs/2311.04145

開源的圖像到影片動畫合成框架—AnimateAnyone

產品介紹： Animate Anyone是一款能將靜態影像轉換為角色影片的模型框架。該框架在擴散模型的基礎之上，引入了ReferenceNet、Pose Guider姿態引導器和時序生成模組等技術，以實現照片動起來時保持一致性、可控性和穩定性，輸出高質量的動態化視頻。

產品功能：角色視訊生成，利用驅動訊號從靜態影像生成逼真的角色視訊；擴散模型支持，借助擴散模型的力量，提供高品質的動畫效果；ReferenceNet設計，透過空間注意力合併詳細特徵，保持外觀特徵的一致性；姿勢指導器，引入高效的姿勢指導器，確保角色動作的可控性和連續性；平滑過渡：採用有效的時間建模方法，保證視訊幀之間的平滑過渡。

目前，Animate Anyone已在GitHub上斬獲了近1.3萬個星標，並在國內外引起了熱烈討論。

適用人群或場景：時尚產業，展示服裝、造型；影片內容創作者、電商、舞者

論文連結：https://arxiv.org/pdf/2311.17117.pdf

專案連結： https://humanaigc.github.io/animate-anyone/

2023年4-7月

通義系列大模型－通義千問、通義萬相和通義聽悟

產品介紹：通義千問是阿里自研的AI 大語言模型，可以幫助使用者解決生活和工作上的問題，提供智慧問答服務。2023年10月31日，通義千問2.0正式發布，阿里也隨之推出通義千問App。相較於1.0版本，通義千問2.0在複雜指令理解、文學創作、通用數學、知識記憶、幻覺抵禦等能力上均有顯著提升。

通義萬相是阿里通義大模型家族中的一種AI繪畫大模型，可輔助人類進行圖片創作。基於阿里研發的組合式生成模型Composer，通義萬相提出了基於擴散模型的「組合式生成」框架，透過對配色、佈局、風格等影像設計元素進行拆解和組合，提供了高度可控性和極大自由度的影像生成效果。

通義聽悟是是依托通義千問大模型和音視頻AI模型的AI助手，旨在幫助用戶及客戶在泛音視頻內容場景下提升信息生產、整理、挖掘、洞察效率。

產品功能：通義千問具備多輪對話、文案創作、邏輯推理、多模態理解及多語言支援等功能。使用者可以就任何問題與其對話互動，例如可以問他生活類常識、說故事、寫作文或文案、解答數學題等，但通義千問不具備多模態能力，不具備圖像生成功能。

通義萬相主要功能有三個，分別是文生圖、相似圖生成和風格遷移。在基礎文生圖功能中，可依使用者提示詞生成水彩、扁平插畫、二次元、油畫、3D卡通畫等風格圖像；相似圖片產生功能中，使用者上傳任意圖片後，即可進行創意發散，產生內容、風格相似的AI畫作。此外模型也支援影像風格遷移，使用者上傳原圖和風格圖，可自動把原圖處理為指定的風格圖。

通義聽悟融合了十多項AI 功能，面向線上線下各種泛音視訊場景，通義聽悟可以提供音視頻內容的即時字幕/ 轉寫、多語言翻譯、內容理解/ 摘要，涵蓋全文摘要、章節速覽、發言總結等高階AI 功能。

適用人群或場景：通義千問適用人群較為廣泛，通義萬相適用於藝術繪畫創作，設計師、動漫愛好者；通義聽悟可應用於智能客服、智能家居、智能音箱、智能穿戴設備等領域。

通義千問體驗網址：https://tongyi.aliyun.com/qianwen/

通義萬相體驗網址：https://tongyi.aliyun.com/wanxiang/

通義聽悟體驗網址：https://tingwu.aliyun.com/home

百度2024年1月

統一模態視訊生成系統－UniVG

產品介紹： UniVG是百度推出的統一模態視訊生成系統，其獨特之處在於針對高自由度和低自由度兩種任務採用不同的生成方式，以更好地平衡兩者之間的關係。

產品功能：使用者只需提供一張圖片或一段文字，就能產生一段流暢的視頻，與早期的AI視頻生成工具相比，UniVG所產生的每一幀畫面都更加穩定、連貫。

據悉，UniVG系統引入了「多條件交叉注意力」技術，用於高自由度視訊生成，以產生與輸入影像或文字語義一致的影片。而在低自由度視訊生成方面，採用了「偏置高斯雜訊」的方法，相較於傳統的完全隨機高斯雜訊更能有效地保留輸入條件的原始內容。

適用人群及場景：影片內容創作者

專案網址： https://top.aibase.com/tool/univg

專案示範頁面: https://univg-baidu.github.io/

統一影像生成框架—UNIMO-G

產品介紹：百度推出的UNIMO-G統一影像生成框架，透過多模態條件擴散實現文字到影像生成，克服了文字描述簡潔性對產生複雜細節影像的挑戰。

產品功能：使用者只要給一張圖，然後給出各種提示詞，UNIMO-G就能根據提示詞在圖像基礎上按照提示生成對應圖像，例如上傳一張馬斯克圖像，輸入提示詞給他穿上警服，就能得到穿著警服的馬斯克圖像。

據了解，UNIMO-G的核心組件包括多模態大語言模型和基於編碼的多模態輸入生成影像的條件去噪擴散網路。這個框架也採用了精心設計的資料處理管道，涉及語言基礎和影像分割，以建構多模態提示。

在測試中，UNIMO-G在文字到影像生成和零樣本主題驅動合成方面表現卓越，特別是在處理包含多個影像實體的複雜多模態提示時，產生高保真影像的效果顯著。

適用人群及場景：藝術創作者、漫畫愛好者、攝影師

專案網址：https://top.aibase.com/tool/unimo-g

論文網址：https://arxiv.org/pdf/2401.13388.pdf

2023年3月

文心大模型系列產品－文心一言、文心一格與文心千帆

產品介紹：文心大模型是百度於2019年推出的自然語言處理大模型。此模型基於ERNIE系列模型具備跨模態、跨語言的深度語意理解與生成能力。2023年10月，文心大模型4.0 版本發布，實現基礎模型的全面升級，理解、生成、邏輯、記憶四大能力顯著提升，綜合能力可直接對標GPT-4。

文心一言是百度基於文心大模型打造的生成式AI產品，與阿里的」通義千問」類似，可以進行任何內容的問答對話，可作為生活中的智能小助手。

文心一格是百度基於文心大模型推出的AI藝術創作平台，可以產生多樣化AI創意圖片，輔助創意設計。

文心千帆是百度旗下企業級大模型生產平台，提供包括文心一言在內的大模型服務及第三方大模型服務，也提供大模型開發應用的整套工具鏈。

產品功能：文心一言具有文學創作、商業文案創作、數理邏輯推算、中文理解、音訊、圖像生成等多模態生成能力。例如使用者可以用文心一言解答任何生活及工作問題，幫助使用者撰寫任何領域的文案，解答數學邏輯題，用語音說故事等。

文心一格的主要功能就是影像產生功能。使用者只需要輸入一句話或提示詞，文心一格就能按照指示自動生成圖像，且用戶可以追加更詳細的提示詞對圖像進一步優化或改變圖像風格等。同時文心一格還具有二次編輯圖片和圖片疊加功能，例如可以塗抹掉圖像中不滿意的部分，讓模型重新調整生成。或給出兩張圖片，模型會自動產生一張疊加後的創意圖。此外，文心一格也推出了海報創作、圖片擴充和提升圖片清晰度等功能，提供多種生圖服務滿足用戶需求。

文心千帆主要功能有兩個：其一是文心千帆以文心一言為核心，為企業提供大模型服務，幫助客戶改造產品和生產流程。其二，作為一個大模型生產平台，企業可以在文心千帆上基於任何開源或閉源的大模型，開發自己的專屬大模型。

適用人群及場景：文心一言受眾群廣泛，文心一格適合有繪畫創作和圖像設計需求群。文心千帆主要面向企業級B端客戶。

體驗地址：

文心一言：https://yiyan.baidu.com/

文心一格：https://yige.baidu.com/creation

文心千帆：https://cloud.baidu.com/product/wenxinworkshop

位元組跳動 2024年2月

位元組版DALL·E文生圖模型——SDXL-Lightning

產品介紹： SDXL-Lightning是一款由位元組跳動開發的開源免費的文生圖模型，可根據文字快速產生對應的高解析度影像。

產品功能：使用者在SDXL-Lightning上輸入提示詞，然後選擇推理步驟（選擇範圍為1步—8步），等待數秒即可產生一張高畫質影像。

與以往的文生圖模型相比，SDXL-Lightning的生成速度有顯著提高，能夠在最少步驟內完成文字到1024px解析度影像的生成，適用於需要快速反應的應用場景。

SDXL-Lightning的生成速度之所以能夠顯著提升，主要是因為它透過結合漸進式蒸餾和對抗式蒸餾的方法，解決了擴散模型在生成過程中存在的速度慢和計算成本高的問題，同時保持生成影像的高品質和多樣性，避免了傳統蒸餾方法中存在的影像模糊問題。

使用SDXL-Lightning模型，可在幾秒鐘之內產生高達1024像素解析度的影像。目前，該模型已經在Hugging Face平台上開源，並且下載量超過2200次，登上了Hugging Face流行趨勢第三名，超越了gemma-2b，僅次於最新的谷歌gemma-7b，以及stabilityai/stable -cascade。

適用人群或場景：影片內容創作者、影視製作

體驗網址：https://huggingface.co/spaces/AP123/SDXL-Lightning

文生影片模型—Boximator

產品介紹： Boximator是位元組跳動推出的一款文生影片模型。與Gen-2、Pink1.0等模型不同的是，Boximator可以透過文字精準控制產生影片中人物或物件的動作。

產品功能：與Open AI發布的文生影片模型類似，Boximator也是透過使用者給予文字描述或提示，就能依照指示產生對應的影片。據了解，為了實現對影片中物件、人物的動作控制，Boximator使用了「軟框」和「硬框」兩種約束方法。

硬框可精確定義目標物件的邊界框。使用者可以在圖片中畫出感興趣的對象，Boximator會將其視為硬框約束，在之後的幀中精準定位該對象的位置。

軟框定義一個物件可能存在的區域，形成一個寬鬆的邊界框。物件需要停留在這個區域內，但位置可以有一定變化，實現適度的隨機性。

兩類框都包含目標物件的ID，用於在不同訊框中追蹤相同物件。此外，框還包含座標、類型等資訊的編碼。

不過，據字節跳動相關人士稱，Boximator是視頻生成領域控制對象運動的技術方法研究項目，目前還無法作為完善的產品落地，距離國外領先的視頻生成模型在畫面質量、保真率、視頻時長等方面還有很大差距。

適用人群或場景：短影片創作者、影視製作

論文地址: https://arxiv.org/abs/2402.01566

專案地址: https://boximator.github.io/

文生圖AIGC工具－Dreamina

產品介紹：Dreamina是位元組跳動旗下的AIGC工具，可根據使用者的文字提示產生創意圖片。

產品功能：使用者只需輸入一段文字，Dreamina即可產生四個由AI產生的創意影像。同時Dreamina支援多種圖像風格，包括抽象、寫實等，以滿足不同使用者的美感需求。此外，Dreamina還具備影像調整功能，使用者可以對生成的圖片進行修整，包括調整圖片的大小比例和選擇不同的模板類型。這種靈活性使得使用者可以根據個人喜好或特定需求調整生成的圖像。

適用人群或場景：藝術創作者、漫畫愛好者

體驗網址：https://dreamina.jianying.com/ai-tool/platform