IMO 主席正式宣佈:Google DeepMind在國際數學奧賽拿下金牌!

剛剛,Google DeepMind 終於宣佈,他們的Gemini Deep Think模型在2025年國際數學奧林匹克競賽(IMO)中取得了金牌水平的成績。

雖然比OpenAI 來得晚了一些,但要厚道許多。

這次AI 終於實現了質的飛躍:在規定時間內,用自然語言解決世界上最難的數學題了。

但在DeepMind正式宣佈這個消息之前,還有一段戲劇性的插曲。

OpenAI「截胡」

據知情人士透露,DeepMind其實在7月19日周五下午就已經拿下了IMO金牌,但因為內部驗證流程,計畫等到周一才正式發佈。

結果呢?

OpenAI在周六凌晨1點就搶先發佈了他們的成績,瞬間搶走了所有聚光燈。

Jasper(@zjasper666)指出:

在這個遊戲裡,速度大於官僚主義。錯過時機,就失去了話語權。

更讓人玩味的是,據Mikhail Samin透露,IMO組織方原本要求AI公司等到閉幕式後一周再公佈成績,不要搶走孩子們的風頭。

但OpenAI並沒有與IMO合作測試他們的模型,所以可能「不知道」這個約定。

OpenAI的Noam Brown後來澄清說,他們確實在閉幕式結束後才發佈,並且提前通知了一位組織者。

不過據IMO協調員反映,OpenAI在閉幕晚會前就發佈了,這被認為是「粗魯和不恰當的」。

不過,Sam Altman和OpenAI 再懂不過的是,在這場AI 競賽中,「注意力就是你所需要的一切」

Deep Think:從形式語言到自然語言的跨越

拋開OAI 的插曲,讓我們回到技術本身。

國際數學奧林匹克競賽是全球最負盛名的青年數學競賽,自1959年以來每年舉辦一次。每個參賽國派出6名頂尖的大學預科數學家,在4.5小時內解決6道極其困難的題目,涉及代數、組合學、幾何和數論。

今年,Gemini Deep Think在同樣的時間限制下,完美解決了6道題中的5道,獲得35分(滿分42分),達到了金牌標準。

這意味著什麼?

去年,DeepMind的AlphaProof和AlphaGeometry 2組合系統雖然也取得了銀牌成績(28分),但需要專家先將題目從自然語言翻譯成Lean等形式語言,而且計算時間長達兩到三天

今年的Gemini完全不同:它直接用英語讀題,直接用英語寫證明,全程端到端,而且在規定的4.5小時內完成。

IMO主席Gregor Dolinar教授評價道:

我們可以確認,Google DeepMind已經達到了這個備受期待的里程碑,獲得了35分——金牌分數。他們的解答在許多方面都令人驚嘆。IMO評分員發現這些解答清晰、精準,而且大部分都很容易理解。

Deep Think的技術細節

那麼,Gemini是如何做到的呢?

Deep Think採用了一種增強推理模式,專門用於解決複雜問題。這個模式融入了DeepMind最新的研究技術,包括平行思考能力——

模型可以同時探索和組合多種可能的解決方案,而不是沿著單一的思維鏈前進。

為了充分發揮Deep Think的推理能力,研究團隊還:

  • 使用新穎的強化學習技術進行訓練,讓模型能夠利用更多的多步推理、問題解決和定理證明資料
  • 為Gemini提供了一個精選的高品質數學問題解答庫
  • 在指令中加入瞭解決IMO問題的一般提示和技巧

值得注意的是,DeepMind這次參與了IMO的官方評估流程,他們的成績是由IMO協調員使用與學生解答相同的標準進行評分和認證的。

技術還是行銷?

網友們對這次「搶先發佈」事件的看法各不相同。

Think_Different_(@ThinkDi92468945)指出:

這不僅僅是速度問題。我打賭OpenAI的模型用了更少的計算資源+更少的專門/針對性方法。

soyboy(@soyboy)也持類似觀點:

DeepMind用的是專門為此設計的模型,而OpenAI用的是通用模型。所以無論如何,他們能宣稱的東西都會更少。

Krishna Kaasyap(@krishnakaasyap)則提出了不同看法:

他們會開源自己的答案,最有創意的答案將經得起時間的考驗。如果DeepMind的答案確實有創意,DeepMind可以實現另一個AlphaGo的「第37手」,讓這種先發優勢變得無效。

社區反應激烈

消息一出,馬斯克就回應:「Imagine」(想像一下),並稱:這雖然是個重要的里程碑,但對AI 來說,這將很快變得微不足道。

還有開發者趁機調侃Grok:「這是真的嗎?你覺得你能拿金牌嗎?

各路網友也紛紛發表看法。

有人調侃道,既然能解5道題,為什麼不是6道?

是不是在考慮包容性問題?

有網友則認為DeepMind 和OpenAI 都進行了新的RL 微調:

也有人指出,目前還沒有公開可用的模型能做到這一點,並展示了數學競技場的排行榜截圖:

即將向更多人開放

Google DeepMind表示,他們將向一批可信的測試者(包括數學家)開放這個Deep Think模型,然後再向Google AI Ultra訂閱使用者推出。

雖然今年的方法完全基於Gemini的自然語言能力,但DeepMind也在繼續推進AlphaGeometry和AlphaProof等形式系統。

他們相信,結合自然語言流暢性和嚴格推理(包括形式語言中的驗證推理)的AI代理,將成為數學家、科學家、工程師和研究人員的寶貴工具。

[1] Google DeepMind IMO 2025結果公告: https://goo.gle/imo-2025-results

[2] Gemini解題方案PDF文件: https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf

[3] MathArena AI數學能力排行榜: https://matharena.ai/

[4] Noam Brown關於發佈時間的澄清: https://x.com/polynoamial/status/1947024171860476264

[5] Harmonic公司關於IMO約定的聲明: https://x.com/harmonicmath/status/1947023450578763991

[6] Gemini模型系列: https://goo.gle/models/gemini/

[7] AlphaProof項目: https://goo.gle/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

[8] AlphaGeometry項目: https://goo.gle/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

[9] Google AI Studio: https://aistudio.google.com/prompts/new_chat

[10] Gemini聊天介面: https://gemini.google.com/ (AGI Hunt)