近日,超大規模的MoE 模型(混合專家模型)通義千問Qwen2.5-Max 正式上線,通義千問團隊使用超過20 兆token 的預訓練資料及精心設計的後訓練方案進行訓練。
通義千問團隊表示,“今天,我們很高興能給大家分享Qwen2.5-Max 目前所取得的成果。大家可以在Qwen Chat 直接體驗,或通過阿里雲百煉平台呼叫API 服務。”
同時,通義千問也將Qwen2.5-Max 與業界領先的模式(無論是閉源或開源)在一系列廣受關注的基準測試上進行了對比評估。這些基準測試包括測試大學層級知識的MMLU-Pro、評估程式設計能力的LiveCodeBench,全面評估綜合能力的LiveBench,以及近似人類偏好的Arena-Hard。評估結果涵蓋了基座模型和指令模型的表現得分。
首先,通義千問直接對比了指令模型的效能表現。指令模型即我們平常使用的可以直接對話的模型。通義千問將Qwen2.5-Max 與業界領先的模型(包括DeepSeek V3、GPT-4o 和Claude-3.5-Sonnet)的性能結果進行了對比。