IMO 主席正式宣佈：Google DeepMind在國際數學奧賽拿下金牌！

2025/07/22

•

剛剛，Google DeepMind 終於宣佈，他們的Gemini Deep Think模型在2025年國際數學奧林匹克競賽（IMO）中取得了金牌水平的成績。

雖然比OpenAI 來得晚了一些，但要厚道許多。

這次AI 終於實現了質的飛躍：在規定時間內，用自然語言解決世界上最難的數學題了。

但在DeepMind正式宣佈這個消息之前，還有一段戲劇性的插曲。

OpenAI「截胡」

據知情人士透露，DeepMind其實在7月19日周五下午就已經拿下了IMO金牌，但因為內部驗證流程，計畫等到周一才正式發佈。

結果呢？

OpenAI在周六凌晨1點就搶先發佈了他們的成績，瞬間搶走了所有聚光燈。

Jasper(@zjasper666)指出：

在這個遊戲裡，速度大於官僚主義。錯過時機，就失去了話語權。

更讓人玩味的是，據Mikhail Samin透露，IMO組織方原本要求AI公司等到閉幕式後一周再公佈成績，不要搶走孩子們的風頭。

但OpenAI並沒有與IMO合作測試他們的模型，所以可能「不知道」這個約定。

OpenAI的Noam Brown後來澄清說，他們確實在閉幕式結束後才發佈，並且提前通知了一位組織者。

不過據IMO協調員反映，OpenAI在閉幕晚會前就發佈了，這被認為是「粗魯和不恰當的」。

不過，Sam Altman和OpenAI 再懂不過的是，在這場AI 競賽中，「注意力就是你所需要的一切」。

Deep Think：從形式語言到自然語言的跨越

拋開OAI 的插曲，讓我們回到技術本身。

國際數學奧林匹克競賽是全球最負盛名的青年數學競賽，自1959年以來每年舉辦一次。每個參賽國派出6名頂尖的大學預科數學家，在4.5小時內解決6道極其困難的題目，涉及代數、組合學、幾何和數論。

今年，Gemini Deep Think在同樣的時間限制下，完美解決了6道題中的5道，獲得35分（滿分42分），達到了金牌標準。

這意味著什麼？

去年，DeepMind的AlphaProof和AlphaGeometry 2組合系統雖然也取得了銀牌成績（28分），但需要專家先將題目從自然語言翻譯成Lean等形式語言，而且計算時間長達兩到三天。

今年的Gemini完全不同：它直接用英語讀題，直接用英語寫證明，全程端到端，而且在規定的4.5小時內完成。

IMO主席Gregor Dolinar教授評價道：

我們可以確認，Google DeepMind已經達到了這個備受期待的里程碑，獲得了35分——金牌分數。他們的解答在許多方面都令人驚嘆。IMO評分員發現這些解答清晰、精準，而且大部分都很容易理解。

Deep Think的技術細節

那麼，Gemini是如何做到的呢？

Deep Think採用了一種增強推理模式，專門用於解決複雜問題。這個模式融入了DeepMind最新的研究技術，包括平行思考能力——

模型可以同時探索和組合多種可能的解決方案，而不是沿著單一的思維鏈前進。

為了充分發揮Deep Think的推理能力，研究團隊還：

使用新穎的強化學習技術進行訓練，讓模型能夠利用更多的多步推理、問題解決和定理證明資料
為Gemini提供了一個精選的高品質數學問題解答庫
在指令中加入瞭解決IMO問題的一般提示和技巧

值得注意的是，DeepMind這次參與了IMO的官方評估流程，他們的成績是由IMO協調員使用與學生解答相同的標準進行評分和認證的。

技術還是行銷？

網友們對這次「搶先發佈」事件的看法各不相同。

Think_Different_(@ThinkDi92468945)指出：

這不僅僅是速度問題。我打賭OpenAI的模型用了更少的計算資源+更少的專門/針對性方法。

soyboy(@soyboy)也持類似觀點：

DeepMind用的是專門為此設計的模型，而OpenAI用的是通用模型。所以無論如何，他們能宣稱的東西都會更少。

Krishna Kaasyap(@krishnakaasyap)則提出了不同看法：

他們會開源自己的答案，最有創意的答案將經得起時間的考驗。如果DeepMind的答案確實有創意，DeepMind可以實現另一個AlphaGo的「第37手」，讓這種先發優勢變得無效。

社區反應激烈

消息一出，馬斯克就回應：「Imagine」（想像一下），並稱：這雖然是個重要的里程碑，但對AI 來說，這將很快變得微不足道。

還有開發者趁機調侃Grok：「這是真的嗎？你覺得你能拿金牌嗎？」

各路網友也紛紛發表看法。

有人調侃道，既然能解5道題，為什麼不是6道？

是不是在考慮包容性問題？

有網友則認為DeepMind 和OpenAI 都進行了新的RL 微調：

也有人指出，目前還沒有公開可用的模型能做到這一點，並展示了數學競技場的排行榜截圖：

即將向更多人開放

Google DeepMind表示，他們將向一批可信的測試者（包括數學家）開放這個Deep Think模型，然後再向Google AI Ultra訂閱使用者推出。

雖然今年的方法完全基於Gemini的自然語言能力，但DeepMind也在繼續推進AlphaGeometry和AlphaProof等形式系統。

他們相信，結合自然語言流暢性和嚴格推理（包括形式語言中的驗證推理）的AI代理，將成為數學家、科學家、工程師和研究人員的寶貴工具。

[1] Google DeepMind IMO 2025結果公告: https://goo.gle/imo-2025-results

[2] Gemini解題方案PDF文件: https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf

[3] MathArena AI數學能力排行榜: https://matharena.ai/

[4] Noam Brown關於發佈時間的澄清: https://x.com/polynoamial/status/1947024171860476264

[5] Harmonic公司關於IMO約定的聲明: https://x.com/harmonicmath/status/1947023450578763991

[6] Gemini模型系列: https://goo.gle/models/gemini/

[7] AlphaProof項目: https://goo.gle/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

[8] AlphaGeometry項目: https://goo.gle/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

[9] Google AI Studio: https://aistudio.google.com/prompts/new_chat

[10] Gemini聊天介面: https://gemini.google.com/ (AGI Hunt)

科技