#2025年度報告
9小時
•
中文大模型基準測評2025年年度報告
簡單的歸納總結,中國的大模型完成了從“可被使用”遞進到“易於使用得有成效”的跨越行為,此刻正撞擊著“卓越”的大門。然而,大門裡面跟大門外面,乃是兩個不一樣的世界。海外的模型把控著精確性、穩定性和高端閉源市場的定價權力;中國的模型靠著開源生態、工程方面的最佳化以及性價比達到極致的特性,於應用階層打開了切口。這並非是一場零和博弈,而是兩條路徑出現了分化。在Kimi-K2.5-Thinking於程式碼生成任務裡實現對GPT-5.2(high)的超越之際,它證實了國內模型能夠取得局部勝利;然而在Claude-Opus-4.5-Reasoning憑藉51.10分在精確指令遵循方面完勝各方之時,它同樣警示著:通用人工智慧的王冠,還有多枚寶石未曾被摘取。(TOP行業報告)