Qwen2.5-Max發佈，性能超越DeepSeek V3

2025/01/31

•

近日，超大規模的MoE 模型（混合專家模型）通義千問Qwen2.5-Max 正式上線，通義千問團隊使用超過20 兆token 的預訓練資料及精心設計的後訓練方案進行訓練。

通義千問團隊表示，“今天，我們很高興能給大家分享Qwen2.5-Max 目前所取得的成果。大家可以在Qwen Chat 直接體驗，或通過阿里雲百煉平台呼叫API 服務。”

同時，通義千問也將Qwen2.5-Max 與業界領先的模式（無論是閉源或開源）在一系列廣受關注的基準測試上進行了對比評估。這些基準測試包括測試大學層級知識的MMLU-Pro、評估程式設計能力的LiveCodeBench，全面評估綜合能力的LiveBench，以及近似人類偏好的Arena-Hard。評估結果涵蓋了基座模型和指令模型的表現得分。

首先，通義千問直接對比了指令模型的效能表現。指令模型即我們平常使用的可以直接對話的模型。通義千問將Qwen2.5-Max 與業界領先的模型（包括DeepSeek V3、GPT-4o 和Claude-3.5-Sonnet）的性能結果進行了對比。

在Arena-Hard、LiveBench、LiveCodeBench 和GPQA-Diamond 等基準測試中，Qwen2.5-Max 的表現領先。同時在MMLU-Pro 等其他評估中也展現出了極具競爭力的成績。

在基座模型的對比中，由於無法訪問GPT-4o 和Claude-3.5-Sonnet 等閉源模型的基座模型，通義千問將Qwen2.5-Max 與目前領先的開源MoE 模型DeepSeek V3、最大的開源稠密模型Llama-3.1-405B，以及同樣位列開源稠密模型前列的Qwen2.5-72B 進行了對比。

對比結果如下圖所示：

通義千問的基座模型在大多數基準測試中都展現了顯著的優勢。 “我們相信，隨著後訓練技術的不斷進步，下一個版本的Qwen2.5-Max 將達到更高的水平。”

通義千問表示，將持續提升資料規模和模型參數規模能有效提升模型的智慧水準。「接下來，我們將繼續探索，除了在預訓練的scaling 繼續探索外，將大力投入強化學習的scaling，希望能實現超越人類的智能，驅動AI 探索未知之境。” （芯智訊）