數學專業，危！菲爾茲獎得主親測ChatGPT 5.5 Pro，17分鐘出論文級成果

2026/05/11

•

如果AI的數學水平繼續按目前速度發展，我們（數學研究者）很快會面臨一場危機。

數學最高獎菲爾茲獎得主——Timothy Gowers，在最新體驗到ChatGPT 5.5 Pro後，替學生們拉響了紅色警報。

其對博士生的影響，尤為緊迫。

事情是這樣的，這位劍橋大學的數學大牛，最近搞到了尊貴的 5.5 Pro「優速通」權限。

拿到新玩具後，Gowers隨手把幾道加法數論的公開難題丟給了AI，想瞅瞅怎麼個事。

但接下來發生的事，完全超出了他的預料。

不到兩個小時，小GPT獨立完成了一項他認為「完全夠格寫進博士論文」的數學成果。

全程，Gowers教授沒有提供任何數學層面的指導。

唯一需要他做的事就是：

嗯你這個想法不錯，你展開試試？

可以啊，能不能幫我寫成LaTeX預印本格式？

這一刻，Gowers 真切地感受到了當代年輕人那種窒息的焦慮——

當AI已經能獨立攻克這種水平的難題，正在讀博的年輕數學家們，該何去何從？

連他都給不出清晰的答案。

唯一能做的，就是儘可能快地為學生們找到新出路。

在AGI真的來臨之前，重新找到數學學習的真正價值，然後迅速轉向。

對學生負有責任的數學系，應該緊急為此做好準備。

但先別焦慮，因為另一位菲爾茲獎得主——陶哲軒，有很多想跟大家說的。

畢竟，他可謂是AI和數學交界線的先鋒了，前段時間還聯合創立了一個AI4S組織，就是想幫助年輕人尋找AI時代新出路。

無獨有偶，陶哲軒剛剛也發出了自己的最新感悟：

數學證明的「消化」問題，才是AI時代人類數學家最不可替代的價值所在。

兩位當世最頂尖的數學家，面對同一場風暴，給出了不同角度的思考。

不過，相比陶哲軒，Gowers這次的reaction或許更有看頭。

畢竟陶哲軒已經是「AI老玩家」了hh，相對來說比較淡定。

Gowers這次是真有點「癱軟」了（bushi），直接怒發了一篇超級長文。

真的很長很長……

以下是整理好的，更方便大家閱讀的版本。

Enjoy。

菲爾茲獎得主的ChatGPT 5.5 Pro數學實驗

故事的起點，其實是一篇挺有意思的論文。

加法數論大佬Mel Nathanson寫了篇論文，裡面列了一堆關於整數集合求和性質的公開問題。

這類問題的特點是方向明確，難度適中，數量又多，本來是留給剛入門的博士生練手、沖第一篇頂刊的黃金素材。

結果被Gowers拿來為難ChatGPT 5.5 Pro了。

他丟給AI的問題大概是這樣的：

給定一個整數集合A，已知它有k個元素（|A|=k），也知道它的二重求和集（簡單說就是集合裡所有元素兩兩相加得到的新集合，記為2A）有多少個元素，那A的直徑最小能是多少？

Nathanson自己已經證明了一個指數級的上界（2^k-1），但一直懷疑還能最佳化。

ChatGPT 5.5 Pro思考了17分鐘零5秒。

然後它給出了一個二次上界的構造，而且是理論上最優的。

它的核心思路是用Sidon集（一種求和集大小最大化的特殊集合）和等差數列做組合構造。

咱通俗點說，就像搭積木，AI選了兩種特殊積木。

一種叫Sidon集，裡面任意兩個不同元素的和都不一樣，能讓求和集規模最大化。

另一種是咱們上學都學過的等差數列，把這兩種積木巧妙組合起來，就搭出了滿足條件的最小直徑集合。

Nathanson原本的證明用了歸納法，本質上也在做類似組合積木的事，但用的是2的冪次這種效率較低的Sidon集。

但就像用大積木搭小房子，難免浪費空間，所以才得到了指數級的大直徑。

ChatGPT 5.5 Pro則是直接換了一種已知的更高效Sidon集。

這種集合的直徑是二次的（簡單說就是k個元素的話，直徑大概是k²等級），比指數級（2^k）小了不止一個數量級，相當於用精緻的小積木精準搭房，空間利用率直接拉滿。

可能有朋友會說，這不就是把已有的數學工具重新拼了一下嗎？

還真沒錯。

但Gowers自己也承認，相當多的人類數學研究，本質上也是在組合已有的知識和證明技巧。

關鍵在於，Nathanson本人沒有想到這一步，而ChatGPT想到了。

Gowers接著又問了一個相關的升級版問題——

把二重求和集換成限制求和集，也就是這個集合裡的元素兩兩相加時，要求兩個元素不能是同一個，其他條件不變，還能不能找到最小直徑？

這個問題毫無懸念也被解決了。

然後他讓ChatGPT把兩個結果合併寫成一篇學術筆記，47分鐘後，一份標準的LaTeX預印本就出來了。

然後事情開始變得更有意思，Gowers又上了難度，問了一般情形下k重求和集的直徑問題。

這個問題要難得多，因為對於一般的k，我們甚至不完全知道那些求和集大小是可以被實現的，連基本的構造框架都缺。

不過好在麻省理工學院（MIT）的學生Isaac Rajagopal已經做了開創性工作，他證明了h重求和集直徑的指數級依賴關係。

Gowers想看看GPT 5.5 Pro能不能在Isaac的基礎上做改進，沒想到，AI直接上演了兩連跳操作，還獨創了k-解離集合構造。

接下來發生的事，按時間線捋一下:

第一輪，ChatGPT思考了16分41秒，基於解離集合的創新思路把上界從指數級改進到了亞指數級。
第二輪，Gowers讓它寫成預印本，花了47分39秒。
第三輪，Isaac本人看了，認為論證看起來是對的，而且論證邏輯嚴謹，k-解離集合的運用很巧妙。
第四輪，Gowers貪心了，問ChatGPT能不能進一步推到多項式界。
第五輪，ChatGPT思考了13分33秒，提出微調k-解離集合可以做到，但有幾個技術細節需要驗證。
第六輪，Gowers讓它自己驗證，9分12秒後搞定核心卡點。
第七輪，寫成預印本，31分40秒。
第八輪，Isaac再次審閱，判斷結論基本成立。而且他特別指出，不只是逐行正確，在思路層面也是對的，也就是說ChatGPT確實貢獻了新的想法。

而整個過程，Gowers的數學輸入為零。

他做的全部工作就是當一個項目經理（數學版）——

提出需求，確認方向，要求交付。

數學本身，全是ChatGPT在做。

AI提高了數學博士生入門門檻

這件事如果只是一個酷炫的demo，倒也還好。

但Gowers看到的是兩個正在逼近的危機。

首先，一個很現實的問題是，這個AI搞出來的結果該怎麼處理？

如果是人類數學家做出來的，這完全夠得上發表。

但現在主要工作是AI完成的——

arXiv已經明確拒絕AI生成內容，傳統期刊顯然也不會接受。

那它該放在那？

Gowers自己提了一個設想，也許應該建一個專門的AI數學成果倉庫，有一定的稽核流程。

比如需要人類數學家確認正確性，或者經過形式化證明助手驗證，但也不要讓稽核本身變成巨大的工作量。

坦率的講，這個問題目前沒有答案，所以現在這個成果就掛在Gowers的部落格上，靠一個連結存在著。

成果歸屬問題之外，才是Gowers真正焦慮的地方——

數學培養體系被釜底抽薪。

訓練博士生做研究，最經典的路徑就是給新手一個難度適中的公開問題入門。

Nathanson論文裡的那些問題，原本就是完美的素材。

但現在，ChatGPT 5.5 Pro兩個小時就解決了。

這直接把入門門檻抬高了，因為以前你只需要證明一個沒人證過的東西，現在你得證明一個AI也證不了的東西。

Gowers倒也沒有完全悲觀，他給出了兩個緩衝空間。

一個是，博士生也可以用AI。

未來科研門檻可以不再是硬剛「AI解不出的題」，而是在人機協作下，做出AI單獨做不到的成果。

Gowers自己最近也在大量做這種人機協作的數學研究，他說AI確實能提供有用的貢獻，但還沒到能獨立產生game-changing想法的地步。

另一個是，AI最容易突破的其實是組合數學。

因為組合學本質上是從問題出發的反向推理，而其他數學分支更多是從想法出發的正向探索。

後者需要判斷什麼觀察是有趣的、什麼方向值得深入，這種審美判斷對AI來說可能更難，目前仍是人類佔優。

但他也特意強調以上都只適用於當下的AI，大模型迭代太快，現在的判斷可能幾個月就過時。

而且還扎心了一波：

如果一個人做數學的目的是把自己的名字永遠刻在某個定理或定義上，追求「冠名永生」，那這種時代紅利可能很快就會徹底消失，對所有人都一樣。

Gowers用一個思想實驗點透本質：

假設一個數學家通過和AI長時間對話解決了一個重大問題，數學家起了引導作用，但主要想法和全部技術工作都是AI完成的，我們會認為這是這位數學家的重大成就嗎？

Gowers的答案是：不會。

既然如此，那AI時代學數學還有什麼意義？

Gowers說，就像優秀的程式設計師比普通人更擅長Vibe coding，真正做過研究的數學家也會更擅長和AI協作。因為你對問題解決過程本身的理解越深，你用AI的能力就越強。

數學本身是一種高度可遷移的底層思維能力，未來數學研究者或許失去了獨享定理冠名的學術榮譽，但沉澱的思維功底，會是AI時代最好的個人底氣。

陶哲軒的三層金字塔

其實吧，關於AI對數學研究的衝擊，陶哲軒看到的很早很早。

今天，他提出了一個「金字塔」，將數學問題的解決拆分為三個組成部分

證明生成：構造出一個完整的證明。
證明驗證：確認證明是正確的。
證明消化：真正理解這個證明在說什麼，為什麼是對的，它揭示了什麼更深的結構。

前兩個，AI正在以驚人的速度實現自動化。

但第三個——消化——遠遠沒有被解決。

這將引發一種前所未有的「認知過載」：

證明像不要錢一樣被大量生成，甚至機器都能幫你驗算完了，但沒有人真正消化它們。

陶哲軒稱其為「證明消化不良」（proof indigestion）。

對此，或許會有人提議：

那就把第三步也自動化掉嘛，訓練AI用更好的數學寫作風格來呈現證明，讓它更容易被理解。

但陶哲軒的意思是，盲目最佳化「可讀性」指標，可能反而讓最終產物變得更差。

他用烹飪作類比。

我們咀嚼食物，是為了幫助消化。烹飪技術可以讓食物更嫩，減少咀嚼的需要。

但如果你決定徹底最佳化消化過程、把「需要咀嚼的量」到最低，那邏輯上的最優解就是——把所有食物丟進攪拌機，通過管子直接灌進胃裡。

這在技術上確實解決了消化問題。但沒人想這麼吃飯，不管身體還是精神都會出大問題的。

吃飯的價值從來不只是攝入營養。

感官體驗，還有社交場景，還有咀嚼本身帶來的滿足感……這些附加產物，才是人類最享受的東西。

最佳化掉所有摩擦，你得到的不是更好的飲食，而是一根飼料管。

數學也一樣。

分清楚什麼是數學學習中，「必須」經歷的摩擦。

有些證明中的「難度」，是人為製造的。

措辭不清晰、結構混亂……這些「人工難度」，用AI讀論文確實可以消除，就像把一塊肉醃製一下再上桌。

但還有一種，屬於「自然難度」。

它本來就應該是難的。

讀者需要「咀嚼」它，才能獲得真正的理解，並在這一過程中迸發新的靈感。

這就像陶哲軒之前在播客說的，他會故意在日程表中空出一段時間，用來「不期而遇」。

看到這裡，有人可能還會說：讓AI解決一切，繼續最佳化評判標準，把「自然難度」也納入考量不就好了？

但事實上，不是所有問題都能被當做一個「最佳化問題」——只要無限迭代，到最後得到的結果，就一定是我們想要的。

人類對待食物思路就不是這樣。

米其林大廚手工製作的料理，至今仍然比機器加工的食品更受珍視，即使後者安全、好看、易消化、方便、口味也不差。

不是說加工食品沒有用處。

只是，沒有人會認真地提議，用它來完全取代人類的烹飪藝術。

這叫「煙火氣」，是必須人類去賦予的。

不要掉進攪拌機

兩位菲爾茲獎得主，面對同一場風暴，看到的是不同的東西。

Gowers看到的是危機。

那些原本為年輕數學家準備的「入門賽道」，正在被AI碾平。培養體系的地基在動搖，學術發表的規則在失效。

新人的路在何方？

對此，陶哲軒其實也沒有答案，他給出的，是邊界。

AI能生成證明、能驗證證明，但「消化」，至少目前，還是獨屬於人類。

不是AI做不到，而是……

我們不能交出去。

這不是單純的知識型任務，「消化」這件事，觸及到智能本身。

這真是個屬於「意義」的時代。

AI正在一步步把我們逼到牆角，一次又一次無止境地追問：

到底什麼才是獨屬於人類的、最珍貴的東西？

在數學領域，這個東西可能是陶哲軒所說的那種有益的「自然難度」。

那些必須靠自己咀嚼、煎熬地探索，才能真正變成你一部分的知識。

或許，其他領域同樣如此。

攪拌機可以把一切打碎。

但有些東西，永遠需要人親自去做。

不要淪為駭客帝國裡，被插著管子的生物電池。 (量子位)

科技

寫程式也一樣，只有目的去掉中間，反而變得不好改，而人好改的，機器反而需要時間消化，因為通常會用複雜的元件和規格，「人工難度」有其價值

2026/05/14