近日,史上最聰明的人工智慧(AI)模型參加了第66屆國際數學奧林匹克競賽(International Mathematical Olympiad, 簡稱IMO)。
但是,AI 輸給了世界上最聰明的青少年。
最終成績,中國隊以總分231分的優勢摘得團體冠軍,6名隊員全部斬獲金牌;美國隊的6名成員斬獲五金一銀,總成績位列中國隊之後,排名第二。
每年,數百名來自全球各地的頂尖高中生都會齊聚國際數學奧林匹克競賽。2025年,來自112個國家及地區的選手參與,共641名學生同台競技。
除了這些才華橫溢的青少年,還有Google(Google) DeepMind,以及其他從事AI業務的公司,也參與了這項比賽。
他們都是為了一場對推理、邏輯和創造力的終極考驗而來。
以艱苦卓絕著稱的IMO考試為期兩天,每天給學生三道難度遞增的題目,並有超過四小時的解題時間。
這些問題涵蓋代數、幾何、數論和組合數學——如果你不是數學奇才,就別想解答這些題目了。僅僅是試圖理解題意,就足以讓你的大腦經歷一場高強度鍛鍊。
由於這些問題既複雜又非常規,這項年度數學競賽已成為衡量AI逐年進展的有用基準。在這個飛速發展的時代,這些頂尖的研究實驗室夢想著有朝一日它們的系統能強大到足以達到IMO金牌的標準。
這枚奧數金牌也成了AI領域“四分鐘跑完一英里”的里程碑。
但此前沒人知道它們何時能達到、甚至能否達到這一里程碑——直到現在。
這個不可思議的事情發生在今年7月。
一個來自GoogleDeepMind的AI模型在IMO競賽中完美解出了六道題中的五道,獲得了金牌分數。
另一個戲劇性的轉折是,儘管沒有參加正式賽事,OpenAI也宣稱獲得了金牌。
這兩家公司將它們的成就描述為邁向未來的巨大飛躍,儘管它們尚未完全達到那個水平。
事實上,這次令人難忘的賽事中最引人注目的部分是,有26名學生在這次IMO考試中的得分超過了AI系統。
其中就有美國隊的四位明星選手,包括來自加利福尼亞州、兩度摘金的Qiao (Tiger) Zhang,以及為紐澤西州帶回個人連續第三枚金牌的Alexander Wang。Wang由此成為有史以來獲獎最多的青年數學家之一,而且他正在就讀高中最後一年,明年還能在IMO上再爭奪一枚金牌。
但一年後,他可能要面對一個完全不同的局面了。
“我認為AI明年真的有可能拿到滿分了,” Wang說。
“那將是瘋狂的進步,” Zhang說。“我對此的看法是五五開。”
那麼,鑑於這種可能性,這屆IMO會被銘記為人類最後一次戰勝AI的比賽嗎?
“很可能如此,”GoogleDeepMind團隊的負責人Thang Luong說。
直到不久前,在澳大利亞發生的事情,聽起來還像考拉做微積分一樣不大可能。
但在2024年,當DeepMind專為數學打造的模型解出四道題,以28分的成績摘得銀牌,離金牌僅一分之遙時,這件不可思議的事開始讓人覺得幾乎是必然的了。
2025年,IMO正式邀請了一批精選的科技公司來參賽,讓它們做跟學生們一樣的題目,並由協調員用同樣的評分標準為它們的解答打分。
這些科技公司此前就對這項挑戰躍躍欲試了。AI模型經過海量資訊的訓練,因此能夠掌握已有的人類解題方式。但它們在處理從未見過的問題時可能會遇到困難。
巧合的是,IMO的流程就是專門為了提出那些原創和非常規的問題而設計的。
IMO總裁格雷戈爾·多利納爾(Gregor Dolinar)說,這些問題除了要新穎,還得是有趣和優美的。他說,如果一道被考慮列入比賽的題目與“世界上任何地方發表過的任何其他問題”相似,它就會被淘汰。到學生參加考試時,幾百道建議題目的大名單已經被精簡到六道。
與此同時,DeepMind團隊不斷改進它將帶到IMO的AI系統,這就是Google先進的推理模型Gemini Deep Think的一個未發佈版本,並且在比賽前的幾天裡還在進行微調。
這項工作由高級研究科學家Thang Luong領導,高中時,他曾差一點就入選越南隊參加IMO。2024年,他終於來到了IMO,代表的是Google。在他今年重返賽場前,DeepMind的高管曾問及奪金的可能性。
他告訴他們,預期還會是銅牌或銀牌。
當DeepMind的模型在第一天就解答了所有三道題時,他調整了自己的預期。這些解法的簡潔、優雅和極高的可讀性令數學家們驚嘆不已。第二天,當Luong和他的同事們意識到他們的AI模型又攻克了兩道證明題時,他們也意識到這足以獲得金牌了。
他們用一種其他獎牌得主無法做到的方式來慶祝這一里程碑式的成就:他們打開了一瓶威士忌。
為了讓焦點集中在學生們身上,參加IMO的公司同意在本月晚些時候再公佈它們的成績。但奧賽閉幕式一結束,就有一家公司宣佈其AI模型摘得了金牌——不是DeepMind。
是OpenAI。
OpenAI並未參加IMO的正式賽事,但該公司把全部六道題都交給了其最新的實驗性推理模型,並請來往屆獎牌得主為證明過程評分。與DeepMind的系統一樣,OpenAI的系統也完美地解出了五道題,在42分的總分中得到35分,達到了金牌標準。
在OpenAI通過社交媒體慶祝勝利後,資訊禁令被解除,DeepMind也向世界公佈了自己的勝利,並稱其表現得到了IMO的認證。
就在不久前,還很難想像AI領域的競爭對手們會以如此方式爭奪榮耀。
在2021年,一位名叫Alexander Wei的博士生參與了一項研究,他被要求預測AI到2025年7月時(也就是現在)的數學水平。當他看到其他人的預測時,他認為他們都過於樂觀了。
結果證明,那些預測的樂觀程度還遠遠不夠。現在,他本人就活生生地證明了自己錯得有多離譜:Wei正是負責OpenAI參與IMO項目的研究科學家。
比AI系統所取得的成就更令人震撼的是AI取得成就的方式。
Google稱其成果是一項重大進步,但這並不是因為DeepMind獲得了金牌而非銀牌。
去年,DeepMind還需要將問題翻譯成用於數學證明的電腦程式語言。而今年,DeepMind完全在“自然語言”環境下運行,沒有任何人工干預。
一年前,DeepMind還需要幾天的計算時間,而今年DeepMind在IMO規定的四個半小時內就輕鬆完成了考試。
你可能會覺得這一切都非常可怕,並把AI視為競爭對手。而這些AI模型背後的人類則將AI視為輔助工具。
“這或許可以成為一種新型計算器,” Luong說,“為下一代數學家賦能。”
說到下一代,IMO金牌得主們已經被AI搶了風頭。
那麼,讓我們重新把焦點放到他們身上。
Qiao Zhang是洛杉磯一名17歲的學生,即將前往麻省理工學院(MIT)學習數學和電腦科學。他小時候隨家人從中國移居美國,父母給了他兩個美國名字供他選擇。他在老虎和大象之間選擇了前者。
他的數學競賽生涯始於二年級,當時他參加了一項名為“袋鼠數學競賽”(Math Kangaroo)的比賽。本月,他參加在澳大利亞一家酒店旁舉行的數學奧林匹克競賽,給他的參賽生涯劃上了句號,而酒店旁邊就有真正的袋鼠。
考試時他坐在桌前,拿著筆和大量草稿紙,花費了他最長時間的是第六題。這是一道組合數學領域的題目,該領域以棘手著稱,是處理離散對象的計數、排列和組合的數學分支。
這道題無疑是今年考試中最難的一道。解題需要人類所能調動而機器(至少目前還)無法具備的獨創性、創造力和直覺。
他說:“如果AI模型能解出第六題,我真的會感到有點害怕。”
第六題確實難倒了DeepMind和OpenAI的模型,但這道題不單單對AI是個難題。在630名學生選手中,也有569人在這道題上得了零分。只有六人獲得了七分的滿分。Zhang為自己獲得四分的部分解答感到自豪,這比幾乎所有其他人都多了四分。
在今年的IMO中,有72名選手摘金而歸。但對一些人來說,獎牌並非他們唯一的收穫。Zhang就是其中之一,他還帶著另一份紀念品離開:戰勝了AI模型。
曾幾何時,這些早慧的數學專業學生長大後會成為教授。(或者總統,羅馬尼亞新當選的總統曾是兩屆IMO金牌得主,且都獲得了滿分。)
雖然許多數學天才仍然選擇投身於學術界,但也有一些人被演算法交易公司和避險基金招募,在那裡,他們的量化頭腦得到了前所未有的重視。
曾是IMO金牌得主的Junehyuk Jung,現在是布朗大學(Brown University)的副教授,也是DeepMind的客座研究員,參與了這個金牌模型的研發工作。在經歷了或許是歷史上最重要的一場數學競賽後,他對各種形式的智能都充滿信心。
不過,Jung認為像第六題這樣的難題,至少在未來十年內仍會讓AI束手無策。他說:“有些事情AI會做得很好,但仍會有一些事情是人類能做得更好的。” 但是,未來,AI或許將在數學上碾壓凡人。
因此,第66屆國際數學奧林匹克競賽,還不是AI與人類的最後一戰。 (道瓊斯風險合規)