昨晚,杭州大模型又雙叒不睡,給大夥兒 拜 年 啦~
就在春晚直播進行時,阿裡通義Qwen發佈新春節禮第三彈:
Qwen2.5-Max來襲,多個基準測試中超越當紅炸子雞DeepSeek V3。
Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond等基準統統拿下,Qwen2.5-Max整體表現優於DeepSeek V3、Llama-3.1-405B以及閉源模型GPT-4o,和Claude-3.5-Sonnet也能比一比。
基座模型對比中,Qwen2.5-Max同樣超越DeepSeek V3、Llama-3.1-405B,在針對模型知識理解和推理能力的MMLU-Pro等基準上均表現不凡。
更令AI社區關注的是,Qwen2.5-Max同DeepSeek V3一樣是超大規模的MoE模型,經超20兆token的預訓練資料及精心設計SFT+RLHF後訓練方案訓練而成。
Qwen2.5-Max這份春節禮包被網友們齊刷刷收入囊中。前有DeepSeek,還有阿里通義Qwen,網友們不忘艾特奧特曼:
祝大家新年快樂,特別祝Sam。
阿里研究員在模型發佈後也都還不睡,紛紛當起了自個兒的自來水。
阿里高級演算法專家林俊暘開麥:
Qwen2.5-Max在基準測試中表現良好,希望大家可以試試看,新年快樂!
之前曾自曝阿里大模型員工996作息表的Binyuan Hui也再次現身:
外面的煙花照亮了天空,我卻坐在電腦跟前。
下面是Qwen2.5-Max在四個使用場景上的演示。
首先是聯網搜尋功能,輸出的每句話來源出處都有標註,整體運行也很絲滑。
程式碼能力上,Qwen2.5-Max能夠幫助使用者完成各種可視化創作,一句話就能做出下面這樣旋轉的球體:
有網友改造了一下,讓球體內部有三個彈跳的黃色小球。
結果只嘗試了一次就成功了,而且三個小球始終在大球內部運動,能正確處理碰撞:
Qwen2.5-Max也有Artifacts功能,同樣一句話,能開發各種小應用、小遊戲。
比如製作一個掃雷小遊戲,秒秒鐘“啪”一下直接就能玩:
另外Qwen2.5-Max數單詞中的特定字母數量也不在話下。
現在,Qwen2.5-Max已在Qwen Chat中上線。
此外也有Hugging Face的Demo可玩,還上線了Any Chat,並且可通過阿里雲服務使用API。
感興趣的童鞋趕緊試試吧~ (量子位)