阿里開源超強多模態模型!70億參數干翻Google,看一眼秒出食譜,嘮嗑更像人,還能視訊聊天

更強大的模型還在路上。



智東西3月27日報導,今天,阿里巴巴通義千問發佈了新一代端到端多模態旗艦模型Qwen2.5-Omni-7B。這一模型能夠即時處理文字、圖像、音訊和視訊等多種輸入形式,並通過即時流式響應同時生成文字與自然語音合成輸出。

該模型現已在Hugging Face、魔搭、DashScope和GitHub上開源,採用寬鬆的Apache 2.0開源協議,模型論文也全面開源,詳解了背後的技術細節。同時,使用者可以在Demo中體驗互動功能,或是在Qwen Chat中像打電話或視訊通話一樣與Qwen聊天。



千問團隊稱,Qwen2.5-Omni採用了全新的Thinker-Talker架構,支援跨模態理解和流式文字、語音響應,支援分塊輸入和即時輸出。

在與同等規模的模型進行基準測試比較時,Qwen2.5-Omni表現出一定優勢,並超過了Gemini 1.5 Pro和GPT-4o-mini等閉源模型。

Qwen2.5-Omni在音訊能力上優於類似大小的Qwen2-Audio,並與Qwen2.5-VL-7B保持同等水平。在權威多模態理解測試OmniBench上,Qwen2.5-Omni獲得了SOTA表現,超越Gemini 1.5 Pro,提升幅度達30.8%。

Qwen2.5-Omni在端到端語音指令跟隨方面表現出與文字輸入處理類似的效果,在MMLU通用知識理解和GSM8K數學推理等基準測試獲得了不錯的成績。

開源地址:

https://huggingface.co/Qwen/Qwen2.5-Omni-7B

論文地址:

https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf

Demo體驗:

https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo



4月1-2日,智東西聯合主辦的2025中國生成式AI大會將舉行。50+位嘉賓將在開幕式、GenAI應用論壇、大模型峰會、DeepSeek R1與推理模型技術研討會、AI智能體技術研討會、具身智能大模型技術研討會帶來報告、演講、對話和討論。掃碼申請主會場觀眾票或購票參會。


01.全模態即時互動,看一眼食材秒出食譜

在部落格文章中,千問團隊放出了多個Qwen2.5-Omni在現實世界多模態場景中的測試案例。

目前,Qwen2.5-Omni共有Cherry和Ethan兩種語音可供選擇。Cherry音色對應的是女聲,Ethan音色對應的是男聲。從聽感來看,這兩種語音真實、自然,會在說話時加入停頓、語氣詞等內容。

Qwen2.5-Omni能在場景中即時處理、分析多模態內容。

例如,在下廚時,可以拿著食材詢問通義應該如何處理,或是環視廚房裡的調料,看究竟應該用那些調料,可謂是廚房小白福音了。

Qwen2.5-Omni能聽懂音樂,判斷歌曲是什麼風格,採用了何種音調,並提出對原創歌曲歌詞、節奏等方面的意見。

在繪畫時,Qwen2.5-Omni可以根據草圖判斷繪畫內容,還能給出畫面的構圖建議。

此外,Qwen2.5-Omni還可以在戶外場景判斷天氣、在學習場景中輔助解題、論文閱讀,具備較好的通用多模態能力。



02.自研端到端架構,獲得多模態理解基準測試SOTA

Qwen2.5-Omni採用Thinker-Talker雙核架構。Thinker模組如同大腦,負責處理文字、音訊、視訊等多模態輸入,生成高層語義表徵及對應文字內容。

Talker模組則類似發聲器官,以流式方式接收Thinker即時輸出的語義表徵與文字,流暢合成離散語音單元。

Thinker基於Transformer解碼器架構,融合音訊/圖像編碼器進行特徵提取;Talker則採用雙軌自回歸Transformer解碼器設計,在訓練和推理過程中直接接收來自Thinker的高維表徵,並共享全部歷史上下文資訊,形成端到端的統一模型架構。



千問團隊還提出了一種新的位置編碼技術,稱為TMRoPE(Time-aligned Multimodal RoPE),通過時間軸對齊實現視訊與音訊輸入的同步。

在多項基準測試中,Qwen2.5-Omni在包括圖像,音訊,音視訊等各種模態下的表現都優於類似大小的單模態模型以及閉源模型。

值得一提的是,在多模態理解基準測試OmniBench上,Qwen2.5-Omni達到了SOTA表現,其得分為56.13%,超過第2名Gemini 1.5 Pro的42.91%。



在視訊到文字任務上,Qwen2.5-Omni也超過了原本的開源SOTA模型和GPT-4o-mini。



在其他基準測試中,如語音識別(Common Voice)、翻譯(CoVoST2)、音訊理解(MMAU)、圖像推理(MMMU、MMStar)、視訊理解(MVBench)以及語音生成(Seed-tts-eval和主觀自然聽感),Qwen2.5-Omni的成績均超過了Qwen家族的其他單模態模型。



03.結語:更強大的Qwen2.5-Omni還在路上

Qwen2.5-Omni-7B一經發佈便獲得海內外使用者的關注,有不少網友已經開啟了催更模式,比如增加對小語種的支援、開發千問海外App,或是與智能眼鏡等硬體結合。

據千問團隊介紹,未來,他們還會發佈能力更強、速度更快的模型,並擴展其多模態輸出能力,涵蓋圖像、視訊和音樂等多種形式。 (智東西)