阿里一夜扔出三個開源王炸!猛刷32項開源SOTA

阿里持續發力多模態大模型。

智東西9月23日消息,深夜,阿里通義大模型團隊連放三個大招:開源原生全模態大模型Qwen3-Omni、語音生成模型Qwen3-TTS、圖像編輯模型Qwen-Image-Edit-2509更新

Qwen3-Omni能無縫處理文字、圖像、音訊和視訊等多種輸入形式,並通過即時流式響應同時生成文字與自然語音輸出。其在36項音訊及音視訊基準測試中斬獲32項開源SOTA與22項總體SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等閉源強模型,同時其圖像和文字性能也在同尺寸模型中達到SOTA水平。

Qwen3-TTS支援17種音色與10種語言,在語音穩定性與音色相似度評估中超越SeedTTS、GPT-4o-Audio-Preview等主流產品。

Qwen-Image-Edit-2509的首要更新是支援多圖編輯,可以拼接不同圖片中的人物+人物、人物+物體等。

▲阿里開源首頁

阿里開源了Qwen3-Omni-30B-A3B-Instruct(指令跟隨)、Qwen3-Omni-30B-A3B-Thinking(推理)和通用音訊字幕器Qwen3-Omni-30B-A3B-Captioner。

Hugging Face開源地址:
https://huggingface.co/Qwen

GitHub開源地址:
https://github.com/QwenLM/Qwen3-Omni

01. 支援119種語言互動能隨意定製、修改人設

在通義千問國際版網站上,只需點選輸入框右下角,即可喚起視訊通話功能。目前該功能仍處於Beta測試階段。

我們在實際測試中發現,網頁端的視訊互動體驗尚不穩定,因此轉而使用通義千問國際版App進行進一步體驗。在App中,Qwen-Omni-Flash的視訊響應延遲較低,幾乎達到無感水平,接近真人面對面交流的流暢度。

Qwen-Omni-Flash具備良好的世界知識儲備,我們通過識別啤酒品牌、植物等畫面進行測試,模型均能給出精準回答。

官方部落格提到,Qwen3-Omni支援119種文字語言互動、19種語音理解語言與10種語音生成語言,延遲方面純模型端到端音訊對話延遲低至211ms,視訊對話延遲低至507ms,還能支援30分鐘音訊理解。但在實際使用中,當模型輸出英語、西班牙語等外語時,仍可察覺其發音帶有明顯的普通話語調特徵,不夠自然地道

而在粵語互動場景下,Qwen-Omni-Flash仍會不時夾雜普通話詞彙,一定程度上影響了對話的沉浸感。

官方演示的幾個Demo中,展示了西班牙語、法語、日語的互動效果。

該模型可以分析義大利餐廳的菜單,然後用法語為朋友推薦義大利面,其回覆提到了經典的義大利面,並結合菜單的說明進行了簡要介紹。

Qwen3-Omni還能查看網站內容,為使用者總結這是巴塞隆納畢加索博物館的官方網站,提到五座建築以及相關街道的歷史背景等。

日語交流場景中,模型可以分析視訊中人物所處的環境,以及他們交流的內容是什麼。

Qwen3-Omni支援system prompt隨意定製,可以修改回覆風格、人設等。

演示中,模型扮演的角色是廣東幼兒園老師,通過模型的特點總結圖為小朋友講解Qwen3-Omni,其涵蓋了圖片中模型的四個特點,還用了小朋友更容易理解的比喻。

多人互動場景中,Qwen3-Omni也能分析人物的性別、說話的語氣、內容等

例如下面這段談話中,既有說四川話的女生邀請朋友來玩,還有說普通話的男生失戀了,以及另外的男生被偷狗等不同事件,Qwen3-Omni被問到那個女生說的什麼方言、說了什麼,其問答分析出了是四川話,進行了自我介紹、發出邀請、讚美家鄉。

讓模型分析視訊中那個人最開心,Qwen3-Omni認為是最後一個說話的小王,重點分析了他的語氣和豎大拇指的動作。

此外,Qwen3-Omni還支援分析音樂風格、元素,以及對視訊中畫面進行推理,如當其分析出視訊中的使用者是在解數學題,還會對這道題進行解答。

02. 22項測試達SOTA預訓練不降智

Qwen3-Omni在全方位性能評估中,單模態任務表現與參數規模相當的Qwen系列單模態模型持平,在音訊任務中表現更好。

該模型在36項音視訊基準測試中,32項取得開源領域最佳性能,22項達到SOTA水平,性能超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等閉源模型,在語音識別與指令跟隨任務中達到Gemini-2.5-Pro相同水平。


其部落格提到,Qwen3-Omni採用Thinker-Talker架構,Thinker負責文字生成、Talker專注於流式語音Token生成,直接接收來自Thinker的高層語義表徵。

為實現超低延遲流式生成,Talker通過自回歸方式預測多碼本序列:在每一步解碼中,MTP模組輸出當前幀的殘差碼本,隨後Code2Wav合成對應波形,實現逐幀流式生成。

其創新架構設計的要點包括,音訊編碼器採用了基於2000萬小時音訊資料訓練的AuT模型,具備通用音訊表徵能力;Thinker與Talker均採用MoE架構,支援高並行與快速推理。

同時,研究人員在文字預訓練早期混合單模態與跨模態資料,可實現各模態混訓性能相比純單模態訓練性能不下降,同時顯著增強跨模態能力。

AuT、Thinker、Talker+Code2wav採用全流程全流式,支援首幀Token直接流式解碼為音訊輸出。

此外,Qwen3-Omni支援function call,實現與外部工具/服務的高效整合。

03. 發佈文字轉語音模型多項基準測試達SOTA

阿里通義還發佈了文字轉語音模型Qwen3-TTS-Flash

其主要特點包括:

中英穩定性:Qwen3-TTS-Flash的中英穩定性在seed-tts-eval test set上,取得了SOTA的表現,超越SeedTTS、MiniMax、GPT-4o-Audio-Preview;

多語言穩定性和音色相似度上,Qwen3-TTS-Flash在MiniMax TTS multilingual test set上,WER在中文、英文、義大利語、法語達到SOTA,顯著低於MiniMax、ElevenLabs、GPT-4o-Audio-Preview,英文、義大利語、法語的說話人相似度顯著超越MiniMax、ElevenLabs、GPT-4o-Audio-Preview。

高表現力:Qwen3-TTS-Flash具備高表現力的擬人音色,能夠穩定、可靠地輸出高度遵循輸入文字的音訊。

豐富的音色和語種:Qwen3-TTS-Flash提供17種音色選擇,每一種音色均支援10種語言。

多方言支援:Qwen3-TTS-Flash支援方言生成,包括普通話、閩南語、吳語、粵語、四川話、北京話、南京話、天津話和陝西話。

語氣適應:經過海量資料訓練,Qwen3-TTS-Flash能夠根據輸入文字自動調節語氣。

高魯棒性:Qwen3-TTS-Flash能夠自動處理複雜文字,抽取關鍵資訊,對複雜和多樣化的文字格式具有很強的魯棒性。

快速生成:Qwen3-TTS-Flash具有極低首包延遲,單並行首包模型延遲低至97ms。

在具體性能方面,在MiniMax TTS multilingual test set上,Qwen3-TTS-Flash在中文、英文、義大利語和法語的WER均達到了SOTA,顯著低於MiniMax、ElevenLabs和GPT-4o-Audio-Preview。在說話人相似度方面,Qwen3-TTS-Flash在英文、義大利語和法語均超過了上述模型,在多語言的語音穩定性和音色相似度上展現出了卓越的表現。

研究人員引入了多項架構升級和加速策略,使得模型實現更低的首包延遲和更快的生成速度。

04. 圖像編輯模型更新支援多圖編輯

阿里此次還推出了圖像編輯模型Qwen-Image-Edit-2509的月度迭代版本

相比於8月發佈的Qwen-Image-Edit,Qwen-Image-Edit-2509的主要特性包括:

多圖編輯支援:對於多圖輸入,Qwen-Image-Edit-2509基於Qwen-Image-Edit結構,通過拼接方式進一步訓練,從而提供“人物+人物”、“人物+商品”,“人物+場景”等多種玩法。

單圖一致性增強:對於單圖輸入,Qwen-Image-Edit-2509提高了一致性,主要體現在以下方面:人物編輯一致性增強,包括增強人臉ID保持,支援各種形象照片、姿勢變換;商品編輯一致性增強,包括增強商品ID保持,支援商品海報編輯;文字編輯一致性增強,除了支援文字內容修改外,還支援多種文字的字型、色彩、材質編輯。

原生支援ControlNet,包括深度圖、邊緣圖、關鍵點圖等。

05. 結語:多模態賽道發力!阿里通義家族模型加速擴員

此次三大模型的新進展進一步強化了通義在多模態生成領域的競爭力,其中Qwen3-TTS-Flash在多說話人能力、多語言支援、多方言適配以及文字處理魯棒性等方面實現了性能突破,且與Qwen3-Omni結合實現了大模型語音表現的更新。

阿里通義大模型的團隊在部落格中提到,對於Qwen3-Omni未來他們將沿多個技術方向持續推進模型升級,包括多說話人ASR、視訊OCR、音視訊主動學習等核心能力建設,並強化基於智能體的工作流與函數呼叫支援。

阿里在多模態大模型領域持續發力,且部分性能全面超越競品,未來或許能在更多實際應用場景中推動落地。 (智東西)