#數學奧林匹克
人工智慧(AI)挑戰國際數學奧林匹克競賽,但輸給了世界上最聰明的高中生
近日,史上最聰明的人工智慧(AI)模型參加了第66屆國際數學奧林匹克競賽(International Mathematical Olympiad, 簡稱IMO)。但是,AI 輸給了世界上最聰明的青少年。最終成績,中國隊以總分231分的優勢摘得團體冠軍,6名隊員全部斬獲金牌;美國隊的6名成員斬獲五金一銀,總成績位列中國隊之後,排名第二。圖片來源:ELENA SCOTTI/WSJ, ISTOCK每年,數百名來自全球各地的頂尖高中生都會齊聚國際數學奧林匹克競賽。2025年,來自112個國家及地區的選手參與,共641名學生同台競技。除了這些才華橫溢的青少年,還有Google(Google) DeepMind,以及其他從事AI業務的公司,也參與了這項比賽。他們都是為了一場對推理、邏輯和創造力的終極考驗而來。以艱苦卓絕著稱的IMO考試為期兩天,每天給學生三道難度遞增的題目,並有超過四小時的解題時間。這些問題涵蓋代數、幾何、數論和組合數學——如果你不是數學奇才,就別想解答這些題目了。僅僅是試圖理解題意,就足以讓你的大腦經歷一場高強度鍛鍊。這是人類最後一次戰勝AI的比賽嗎?由於這些問題既複雜又非常規,這項年度數學競賽已成為衡量AI逐年進展的有用基準。在這個飛速發展的時代,這些頂尖的研究實驗室夢想著有朝一日它們的系統能強大到足以達到IMO金牌的標準。這枚奧數金牌也成了AI領域“四分鐘跑完一英里”的里程碑。但此前沒人知道它們何時能達到、甚至能否達到這一里程碑——直到現在。2025年的國際數學奧林匹克競賽吸引了來自世界各地的高中生參加。圖片來源:International Mathematical Olympiad這個不可思議的事情發生在今年7月。一個來自GoogleDeepMind的AI模型在IMO競賽中完美解出了六道題中的五道,獲得了金牌分數。另一個戲劇性的轉折是,儘管沒有參加正式賽事,OpenAI也宣稱獲得了金牌。這兩家公司將它們的成就描述為邁向未來的巨大飛躍,儘管它們尚未完全達到那個水平。事實上,這次令人難忘的賽事中最引人注目的部分是,有26名學生在這次IMO考試中的得分超過了AI系統。其中就有美國隊的四位明星選手,包括來自加利福尼亞州、兩度摘金的Qiao (Tiger) Zhang,以及為紐澤西州帶回個人連續第三枚金牌的Alexander Wang。Wang由此成為有史以來獲獎最多的青年數學家之一,而且他正在就讀高中最後一年,明年還能在IMO上再爭奪一枚金牌。但一年後,他可能要面對一個完全不同的局面了。“我認為AI明年真的有可能拿到滿分了,” Wang說。“那將是瘋狂的進步,” Zhang說。“我對此的看法是五五開。”那麼,鑑於這種可能性,這屆IMO會被銘記為人類最後一次戰勝AI的比賽嗎?“很可能如此,”GoogleDeepMind團隊的負責人Thang Luong說。DeepMind對決OpenAI直到不久前,在澳大利亞發生的事情,聽起來還像考拉做微積分一樣不大可能。但在2024年,當DeepMind專為數學打造的模型解出四道題,以28分的成績摘得銀牌,離金牌僅一分之遙時,這件不可思議的事開始讓人覺得幾乎是必然的了。2025年,IMO正式邀請了一批精選的科技公司來參賽,讓它們做跟學生們一樣的題目,並由協調員用同樣的評分標準為它們的解答打分。這些科技公司此前就對這項挑戰躍躍欲試了。AI模型經過海量資訊的訓練,因此能夠掌握已有的人類解題方式。但它們在處理從未見過的問題時可能會遇到困難。巧合的是,IMO的流程就是專門為了提出那些原創和非常規的問題而設計的。IMO總裁格雷戈爾·多利納爾(Gregor Dolinar)說,這些問題除了要新穎,還得是有趣和優美的。他說,如果一道被考慮列入比賽的題目與“世界上任何地方發表過的任何其他問題”相似,它就會被淘汰。到學生參加考試時,幾百道建議題目的大名單已經被精簡到六道。與此同時,DeepMind團隊不斷改進它將帶到IMO的AI系統,這就是Google先進的推理模型Gemini Deep Think的一個未發佈版本,並且在比賽前的幾天裡還在進行微調。這項工作由高級研究科學家Thang Luong領導,高中時,他曾差一點就入選越南隊參加IMO。2024年,他終於來到了IMO,代表的是Google。在他今年重返賽場前,DeepMind的高管曾問及奪金的可能性。他告訴他們,預期還會是銅牌或銀牌。當DeepMind的模型在第一天就解答了所有三道題時,他調整了自己的預期。這些解法的簡潔、優雅和極高的可讀性令數學家們驚嘆不已。第二天,當Luong和他的同事們意識到他們的AI模型又攻克了兩道證明題時,他們也意識到這足以獲得金牌了。他們用一種其他獎牌得主無法做到的方式來慶祝這一里程碑式的成就:他們打開了一瓶威士忌。為了讓焦點集中在學生們身上,參加IMO的公司同意在本月晚些時候再公佈它們的成績。但奧賽閉幕式一結束,就有一家公司宣佈其AI模型摘得了金牌——不是DeepMind。是OpenAI。OpenAI並未參加IMO的正式賽事,但該公司把全部六道題都交給了其最新的實驗性推理模型,並請來往屆獎牌得主為證明過程評分。與DeepMind的系統一樣,OpenAI的系統也完美地解出了五道題,在42分的總分中得到35分,達到了金牌標準。在OpenAI通過社交媒體慶祝勝利後,資訊禁令被解除,DeepMind也向世界公佈了自己的勝利,並稱其表現得到了IMO的認證。就在不久前,還很難想像AI領域的競爭對手們會以如此方式爭奪榮耀。在2021年,一位名叫Alexander Wei的博士生參與了一項研究,他被要求預測AI到2025年7月時(也就是現在)的數學水平。當他看到其他人的預測時,他認為他們都過於樂觀了。結果證明,那些預測的樂觀程度還遠遠不夠。現在,他本人就活生生地證明了自己錯得有多離譜:Wei正是負責OpenAI參與IMO項目的研究科學家。比AI系統所取得的成就更令人震撼的是AI取得成就的方式。Google稱其成果是一項重大進步,但這並不是因為DeepMind獲得了金牌而非銀牌。去年,DeepMind還需要將問題翻譯成用於數學證明的電腦程式語言。而今年,DeepMind完全在“自然語言”環境下運行,沒有任何人工干預。一年前,DeepMind還需要幾天的計算時間,而今年DeepMind在IMO規定的四個半小時內就輕鬆完成了考試。你可能會覺得這一切都非常可怕,並把AI視為競爭對手。而這些AI模型背後的人類則將AI視為輔助工具。“這或許可以成為一種新型計算器,” Luong說,“為下一代數學家賦能。”第六題是道真正的難題說到下一代,IMO金牌得主們已經被AI搶了風頭。那麼,讓我們重新把焦點放到他們身上。Qiao Zhang是洛杉磯一名17歲的學生,即將前往麻省理工學院(MIT)學習數學和電腦科學。他小時候隨家人從中國移居美國,父母給了他兩個美國名字供他選擇。他在老虎和大象之間選擇了前者。圖為參加國際數學奧林匹克競賽的美國隊,Alexander Wang(右四)和頭戴小貓熊玩偶的Tiger Zhang均在其中。圖片來源:Mathematical Association of America他的數學競賽生涯始於二年級,當時他參加了一項名為“袋鼠數學競賽”(Math Kangaroo)的比賽。本月,他參加在澳大利亞一家酒店旁舉行的數學奧林匹克競賽,給他的參賽生涯劃上了句號,而酒店旁邊就有真正的袋鼠。考試時他坐在桌前,拿著筆和大量草稿紙,花費了他最長時間的是第六題。這是一道組合數學領域的題目,該領域以棘手著稱,是處理離散對象的計數、排列和組合的數學分支。這道題無疑是今年考試中最難的一道。解題需要人類所能調動而機器(至少目前還)無法具備的獨創性、創造力和直覺。他說:“如果AI模型能解出第六題,我真的會感到有點害怕。”註:答案是2,112。 製圖來源:國際數學奧林匹克競賽第六題確實難倒了DeepMind和OpenAI的模型,但這道題不單單對AI是個難題。在630名學生選手中,也有569人在這道題上得了零分。只有六人獲得了七分的滿分。Zhang為自己獲得四分的部分解答感到自豪,這比幾乎所有其他人都多了四分。在今年的IMO中,有72名選手摘金而歸。但對一些人來說,獎牌並非他們唯一的收穫。Zhang就是其中之一,他還帶著另一份紀念品離開:戰勝了AI模型。曾幾何時,這些早慧的數學專業學生長大後會成為教授。(或者總統,羅馬尼亞新當選的總統曾是兩屆IMO金牌得主,且都獲得了滿分。)雖然許多數學天才仍然選擇投身於學術界,但也有一些人被演算法交易公司和避險基金招募,在那裡,他們的量化頭腦得到了前所未有的重視。曾是IMO金牌得主的Junehyuk Jung,現在是布朗大學(Brown University)的副教授,也是DeepMind的客座研究員,參與了這個金牌模型的研發工作。在經歷了或許是歷史上最重要的一場數學競賽後,他對各種形式的智能都充滿信心。不過,Jung認為像第六題這樣的難題,至少在未來十年內仍會讓AI束手無策。他說:“有些事情AI會做得很好,但仍會有一些事情是人類能做得更好的。” 但是,未來,AI或許將在數學上碾壓凡人。因此,第66屆國際數學奧林匹克競賽,還不是AI與人類的最後一戰。 (道瓊斯風險合規)
IMO 主席正式宣佈:Google DeepMind在國際數學奧賽拿下金牌!
剛剛,Google DeepMind 終於宣佈,他們的Gemini Deep Think模型在2025年國際數學奧林匹克競賽(IMO)中取得了金牌水平的成績。雖然比OpenAI 來得晚了一些,但要厚道許多。這次AI 終於實現了質的飛躍:在規定時間內,用自然語言解決世界上最難的數學題了。但在DeepMind正式宣佈這個消息之前,還有一段戲劇性的插曲。OpenAI「截胡」據知情人士透露,DeepMind其實在7月19日周五下午就已經拿下了IMO金牌,但因為內部驗證流程,計畫等到周一才正式發佈。結果呢?OpenAI在周六凌晨1點就搶先發佈了他們的成績,瞬間搶走了所有聚光燈。Jasper(@zjasper666)指出:在這個遊戲裡,速度大於官僚主義。錯過時機,就失去了話語權。更讓人玩味的是,據Mikhail Samin透露,IMO組織方原本要求AI公司等到閉幕式後一周再公佈成績,不要搶走孩子們的風頭。但OpenAI並沒有與IMO合作測試他們的模型,所以可能「不知道」這個約定。OpenAI的Noam Brown後來澄清說,他們確實在閉幕式結束後才發佈,並且提前通知了一位組織者。不過據IMO協調員反映,OpenAI在閉幕晚會前就發佈了,這被認為是「粗魯和不恰當的」。不過,Sam Altman和OpenAI 再懂不過的是,在這場AI 競賽中,「注意力就是你所需要的一切」。Deep Think:從形式語言到自然語言的跨越拋開OAI 的插曲,讓我們回到技術本身。國際數學奧林匹克競賽是全球最負盛名的青年數學競賽,自1959年以來每年舉辦一次。每個參賽國派出6名頂尖的大學預科數學家,在4.5小時內解決6道極其困難的題目,涉及代數、組合學、幾何和數論。今年,Gemini Deep Think在同樣的時間限制下,完美解決了6道題中的5道,獲得35分(滿分42分),達到了金牌標準。這意味著什麼?去年,DeepMind的AlphaProof和AlphaGeometry 2組合系統雖然也取得了銀牌成績(28分),但需要專家先將題目從自然語言翻譯成Lean等形式語言,而且計算時間長達兩到三天。今年的Gemini完全不同:它直接用英語讀題,直接用英語寫證明,全程端到端,而且在規定的4.5小時內完成。IMO主席Gregor Dolinar教授評價道:我們可以確認,Google DeepMind已經達到了這個備受期待的里程碑,獲得了35分——金牌分數。他們的解答在許多方面都令人驚嘆。IMO評分員發現這些解答清晰、精準,而且大部分都很容易理解。Deep Think的技術細節那麼,Gemini是如何做到的呢?Deep Think採用了一種增強推理模式,專門用於解決複雜問題。這個模式融入了DeepMind最新的研究技術,包括平行思考能力——模型可以同時探索和組合多種可能的解決方案,而不是沿著單一的思維鏈前進。為了充分發揮Deep Think的推理能力,研究團隊還:使用新穎的強化學習技術進行訓練,讓模型能夠利用更多的多步推理、問題解決和定理證明資料為Gemini提供了一個精選的高品質數學問題解答庫在指令中加入瞭解決IMO問題的一般提示和技巧值得注意的是,DeepMind這次參與了IMO的官方評估流程,他們的成績是由IMO協調員使用與學生解答相同的標準進行評分和認證的。技術還是行銷?網友們對這次「搶先發佈」事件的看法各不相同。Think_Different_(@ThinkDi92468945)指出:這不僅僅是速度問題。我打賭OpenAI的模型用了更少的計算資源+更少的專門/針對性方法。soyboy(@soyboy)也持類似觀點:DeepMind用的是專門為此設計的模型,而OpenAI用的是通用模型。所以無論如何,他們能宣稱的東西都會更少。Krishna Kaasyap(@krishnakaasyap)則提出了不同看法:他們會開源自己的答案,最有創意的答案將經得起時間的考驗。如果DeepMind的答案確實有創意,DeepMind可以實現另一個AlphaGo的「第37手」,讓這種先發優勢變得無效。社區反應激烈消息一出,馬斯克就回應:「Imagine」(想像一下),並稱:這雖然是個重要的里程碑,但對AI 來說,這將很快變得微不足道。還有開發者趁機調侃Grok:「這是真的嗎?你覺得你能拿金牌嗎?」各路網友也紛紛發表看法。有人調侃道,既然能解5道題,為什麼不是6道?是不是在考慮包容性問題?有網友則認為DeepMind 和OpenAI 都進行了新的RL 微調:也有人指出,目前還沒有公開可用的模型能做到這一點,並展示了數學競技場的排行榜截圖:即將向更多人開放Google DeepMind表示,他們將向一批可信的測試者(包括數學家)開放這個Deep Think模型,然後再向Google AI Ultra訂閱使用者推出。雖然今年的方法完全基於Gemini的自然語言能力,但DeepMind也在繼續推進AlphaGeometry和AlphaProof等形式系統。他們相信,結合自然語言流暢性和嚴格推理(包括形式語言中的驗證推理)的AI代理,將成為數學家、科學家、工程師和研究人員的寶貴工具。[1] Google DeepMind IMO 2025結果公告: https://goo.gle/imo-2025-results[2] Gemini解題方案PDF文件: https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf[3] MathArena AI數學能力排行榜: https://matharena.ai/[4] Noam Brown關於發佈時間的澄清: https://x.com/polynoamial/status/1947024171860476264[5] Harmonic公司關於IMO約定的聲明: https://x.com/harmonicmath/status/1947023450578763991[6] Gemini模型系列: https://goo.gle/models/gemini/[7] AlphaProof項目: https://goo.gle/discover/blog/ai-solves-imo-problems-at-silver-medal-level/[8] AlphaGeometry項目: https://goo.gle/discover/blog/ai-solves-imo-problems-at-silver-medal-level/[9] Google AI Studio: https://aistudio.google.com/prompts/new_chat[10] Gemini聊天介面: https://gemini.google.com/ (AGI Hunt)