VibeThinker-3B,30億參數,在程式設計和數學推理上的得分直接撞進了Gemini 3 Pro、GPT-5 high、Claude Opus 4.5這些前沿大模型的區間。AIME 2026數學競賽94.3分,LeetCode最新未公開周賽通過率96.1%。這個成績出自新浪微博團隊,基於Qwen2.5-Coder-3B建構。但爭議也在這裡。測試集是否完全公開,社區正在復現,過擬合風險暫時沒法排除。
對長期盯著算力部署和模型選型的人來說,這個成績當然好看。但真正讓人停一下的是:如果小參數真能把推理能力壓縮到這個程度,那算力部署的預算分配和模型選型邏輯,可能都得重新算一遍。
小模型的推理成績單:資料不會說謊
VibeThinker-3B 的測試成績,放在當前模型生態裡看,確實反常。這個數字在 3B 參數等級上,有點離譜。AIME 2026 數學競賽它拿了 94.3 分,HMMT 2025 拿了 89.3 分,LiveCodeBench v6(Pass@1)上則是 80.2 分。在 2026 年 4 月 25 日至 5 月 31 日期間,LeetCode 最新未公開的周賽和雙周賽中,它取得了 96.1% 的通過率。不過,這些分數來自公開測試集,社區還在驗證資料有沒有被篩選過。這類任務有一個硬前提:答案必須可驗證,反饋訊號才清晰。