AIMO2最終結果出爐了!輝達團隊NemoSkills拔得頭籌,以14B小模型破解了34道奧數題,完勝DeepSeek R1。
第二屆人工智慧數學奧林匹克競賽(AIMO2)開獎了!
身為大賽顧問委員會的一員,陶哲軒激動地宣佈了最新的結果-輝達團隊AI成功破解了34題(共50題)。
這一次,50道測試題維持了與AIMO1相同「數值答案」形式基礎上,進一步提升了「抗暴力破解」的難度。
這場由Kaggle主辦的AI競賽,參賽者必須使用開源LLM,在規定的有限算力條件下,用AI完成解題。
不過,目前最終成績仍處於稽核階段,但現有資料已能確定大機率的勝者。
輝達深度學習研究員分享,團隊只用了14B小模型,就拿下了比賽第一名。
讓人驚喜的是,微調後的14B竟然超越了405B的DeepSeek R1。
那麼,他們是如何做到的呢?
AIMO2每年都會評選5位得獎者,第一名便是輝達團隊-NemoSkills。
為了讓大家更直觀地對這個分數有一個認識:主辦方使用了DeepSeek R1 405B在同一個測試資料上,進行了無限計算/時間的測試。
結果發現,R1-405B得分僅20分左右。
而輝達微調出的14B模型,以更小參數規模,以及時間和硬體限制下拿下了驚人的34分。
這款模型便是Qwen-14B,在數百萬合成數學測試集上進行了微調,能夠支援CoT推理。
最大的亮點是高度優化的推理,只使用了4個L4 GPU,在短短5小時內解決了50個問題中的34個。
目前,他們尚未提交解決方案,所以一些技術細節還無法窺探。
這個團隊總共由7個人組成,他們分別是Christof Henkel、Darragh Hanley、Ivan Sorokin、Benedikt Schifferer、Igor Gitman、Shubham Toshniwal和Ivan Moshkov。
除了輝達,還有那些團隊取得了精彩的表現?
第二名是來自清華和微軟的三人團隊,分別是清華大學研究助理教授Foxfi Ning、微軟的高級研究員Zinan Lin以及清華學子yiyouyc。
在公開排行榜上, 他們得分34/50(排名第一),在私人排行榜上得分31/50(排名第二)。
最關鍵的是,他們是目前Top-5中唯一公開解決方法的參賽團隊。
本次比賽要求同時優化效率和推理性能。
目前,排名前5中,只有排名第二的參賽團隊公佈瞭解決方法。
他們的最終解決方案由三個主要部分組成:
第一部分:推理導向訓練 - 提升模型的推理能力 階段1 - SFT(監督微調)和階段2 - DPO(資料增強優化)使用精選資料。
第二部分:效率優化 - 提升推理效率 選擇合適的推理引擎、權重量化、KV緩存量化。
第三部分:推理時策略 - 改善效率與推理表現的權衡 設計有效的提示語、進行自一致性聚合、在樣本/問題等級進行早停以及調整一些啟髮式超參數。
訓練指令碼基於Light-R1項目。
在本地驗證方面,用了AIME 2025測試集(30個問題)以及參考集(10個問題),評估了平均樣本精準率和通過自一致性聚合的精準率,以獲得參賽團隊試驗解決方案的初步判斷。
第三名,Nokron,AI得分30,4年前加入Kggle。
第四名,Søren Ravn Andersen,AI得分29,10年前加入Kaggle。
第五名,來自浙江杭州的匿名選手,AI得分29,6年前加入了Kaggle。
AIMO是什麼來頭?
這是第二屆AIMO進步獎競賽,第一屆的AIMO進步獎於2024年7月由Project Numina團隊贏得。
這次競賽增加了獎金池,提供了全新的題目資料集,為參賽者提供更多算力支援,並更新了關於使用開源大語言模型(LLM)的規則。
數學推理能力是人工智慧發展的關鍵里程碑,也是解決許多複雜問題的基石,例如工程奇蹟或複雜的金融模型。
然而,目前的人工智慧在這方面的能力還比較有限。
人工智慧數學奧林匹克(AIMO)是一個總金額高達1000萬美元的基金,旨在激勵開發能夠與國際數學奧林匹克(IMO)頂尖人類選手錶現相當的開源AI模型。
本屆競賽包含110道數學題目,涵蓋代數、組合數學、幾何和數論。
相較於第一屆,題目難度有所提升,大約達到國家奧林匹克競賽的水平。
這些題目也被設計為「對AI來說特別難」,需要較強的數學推理能力,並且已經針對當前開源大語言模型的能力進行了測試。
為了避免訓練資料與測試資料混淆的問題,競賽採用了由國際解題團隊創作的全新數學題目。
參賽者的提交將根據預測結果與真實答案(ground-truth labels)的精確率進行評估。
簡單來說,排名依據是預測答案與真實答案之間完全匹配的比例。
在這場比賽中,每個真實答案都是0到999之間的整數。
本次競賽總獎金達到了211.7152萬美元
排名前五團隊的獎金:
總體進步獎:
提交必須透過Notebook完成。提交按鈕在提交後啟動需滿足以下條件:
(新智元)