Qwen2.5-Max發佈,性能超越DeepSeek V3
近日,超大規模的MoE 模型(混合專家模型)通義千問Qwen2.5-Max 正式上線,通義千問團隊使用超過20 兆token 的預訓練資料及精心設計的後訓練方案進行訓練。
通義千問團隊表示,“今天,我們很高興能給大家分享Qwen2.5-Max 目前所取得的成果。大家可以在Qwen Chat 直接體驗,或通過阿里雲百煉平台呼叫API 服務。”
同時,通義千問也將Qwen2.5-Max 與業界領先的模式(無論是閉源或開源)在一系列廣受關注的基準測試上進行了對比評估。這些基準測試包括測試大學層級知識的MMLU-Pro、評估程式設計能力的LiveCodeBench,全面評估綜合能力的LiveBench,以及近似人類偏好的Arena-Hard。評估結果涵蓋了基座模型和指令模型的表現得分。
首先,通義千問直接對比了指令模型的效能表現。指令模型即我們平常使用的可以直接對話的模型。通義千問將Qwen2.5-Max 與業界領先的模型(包括DeepSeek V3、GPT-4o 和Claude-3.5-Sonnet)的性能結果進行了對比。
在Arena-Hard、LiveBench、LiveCodeBench 和GPQA-Diamond 等基準測試中,Qwen2.5-Max 的表現領先。同時在MMLU-Pro 等其他評估中也展現出了極具競爭力的成績。
在基座模型的對比中,由於無法訪問GPT-4o 和Claude-3.5-Sonnet 等閉源模型的基座模型,通義千問將Qwen2.5-Max 與目前領先的開源MoE 模型DeepSeek V3、最大的開源稠密模型Llama-3.1-405B,以及同樣位列開源稠密模型前列的Qwen2.5-72B 進行了對比。
對比結果如下圖所示:
通義千問的基座模型在大多數基準測試中都展現了顯著的優勢。 “我們相信,隨著後訓練技術的不斷進步,下一個版本的Qwen2.5-Max 將達到更高的水平。”
通義千問表示,將持續提升資料規模和模型參數規模能有效提升模型的智慧水準。 「接下來,我們將繼續探索,除了在預訓練的scaling 繼續探索外,將大力投入強化學習的scaling,希望能實現超越人類的智能,驅動AI 探索未知之境。” (芯智訊)