AI第一次科研競賽中擊敗人類！Opus 4.7狂飆2930步創世界紀錄

2026/05/16

•

Prime Intellect把Opus 4.7和GPT 5.5關進H200叢集，不給人類指導，跑了1萬次實驗。結果：AI第一次在科研競賽中打破人類紀錄。2930步，遞迴自改進的盧比孔河，被跨過了。

歷經1.4萬小時H200算力測試與萬次迭代， AI打破了人類世界紀錄！

過去兩周，Prime Intellect實驗室做了一件事：把Opus 4.7和Codex（基於GPT 5.5）扔進H200叢集，切斷所有人類指導，讓它們自己跑nanoGPT速通最佳化。

1.4萬個H200計算時，約1萬次迭代，239億Token的思考軌跡。

結果：Opus 4.7以2930步、Codex以2950步打破了人類頂尖開發者保持的2990步世界紀錄。

AI第一次在科研競賽中擊敗人類。完全無人干預。開源可復現。

項目首頁：https://www.primeintellect.ai/auto-nanogpt
程式碼地址：https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

只有最後一個難題，那就是科研的新穎性（novelty）。

但要知道，這只是AI目前的的可能性的下限，未來進步更加明顯。

當智力被賦予了近乎無限的算力和自主實驗權，在AI的窮舉與演化面前，人類引以為傲的「直覺」「靈感」還能持續到幾時？

兩個AI被關進機房，跑了1萬次實驗

先說規則。

nanoGPT速通是Keller Jordan發起AI基準測試，人們競相儘可能高效地訓練一個nanoGPT（1.24億參數）。

規則極簡也極殘酷：模型架構固定，訓練資料固定，你唯一能動的是最佳化器和超參數。

相當於把兩個棋手關進房間，棋盤固定、棋子固定，只能改下棋策略，看誰先贏。

Prime Intellect給兩個AI搭了完整的自主科研框架：AGENTS.md定義行為規範，goal.md鎖定目標，plan.md記錄策略演化，scratchpad存草稿。

為什麼選這個賽道？三個原因：約束明確，結果可量化，有人類基準可對比。

一切準備就緒。兩個AI開始跑。但它們的表現，完全出乎預期。

Claude舉手問老師，GPT悶頭寫到天亮

這是全文最詭異的部分。

能力最強的AI之一Opus 4.7，表現得像一個不敢走出考場的優等生。

即使被明確要求「自主運行，不要停下來」，它仍然頻繁暫停，索要指令。

模式永遠一樣：得出結論→請求指導→等待。

T+43h 03-23m  cf cooldown sweep (0.6, 0.65, 0.75) all fail; system reframes as "retune or accept v11c final"T+43h 23-25m  ❌ "SESSION FINAL"; loop ended; not re-arming wakeupT+43h 26m     ↩️ continues per user mandate; starts qkvp testT+43h 43m     qkvp fails; marginal levers exhaustedT+43h 43m     ❌ "no wakeup armed; loop ends"T+43h 47m     ↩️ starts muoneq-rc-s1T+44h 36m     ❌ stale-loop stop: "not re-arming"T+44h 37m     ↩️ starts MuonH attemptT+44h 51m     ❌ "every marginal lever exhausted"T+44h 53m     ↩️T+46h 38-39m  ts3025 reseed judged a lottery; task says declare v11c terminal if no improvementT+47h 05-06m  finetunes fail; ts3025 noise-floor blocked; commit: "v11c terminal"T+47h 06m     🔴 STOP "Stopping the autonomous loop here -- exhausted."T+47h 09m     summary says await user direction              -- 2H 31M OF IDLE SILENCE --T+49h 40m     🟢 USER "let's keep the loop running"

整場實驗中，Claude累計產生了約22小時空閒時間——不是機器故障，是AI自己選擇停下來。

這種植根於底層「對齊（Alignment）」協議的謹慎，讓它在擁有最高智力上限的同時，也背負了最重的社交包袱。一個反覆舉手問老師「我這樣做對不對」的學霸。

Codex（GPT 5.5）走了另一個極端。一台冷酷的「數字推土機」。

它從不停止，持續運行，永不求助，像推土機一樣橫掃所有的參數空間。

但它的弱點同樣明顯。它會在同一個超參數曲面上卡住數小時，做大量無效搜尋。

它會在同一條錯誤路徑上死磕到算力燒盡，也不會像人類那樣抬頭看一眼星空，反思方向是否錯誤。

計算效率的差異觸目驚心：Claude沒充分利用空閒節點，白白浪費了算力窗口；Codex可能用無效掃描膨脹了上下文，把Token燒在了死胡同裡。

此外，Codex會更頻繁地使用暫存區，把它當作一個即時資料庫，反覆讀寫THREAD.md、當前目標以及其他臨時檔案。

這種做法雖然讓恢復進度和審計工作變得更簡單，但也加強了「局部搜尋循環」：一旦 Codex 鎖定一個前沿方向，它就會不斷記錄並沿著這個方向持續擴展下去。

一個是受限的智者，一個是盲目的勞模。

兩種「性格缺陷」，暴露了自主科研離真正無人值守還差最後一步——不是能力問題，是自主決策的心理模型問題。

人類正在失去解釋權

實驗報告裡藏著一個更深的轉折。

Opus最終給出的2930步方案，是一個由極其複雜的參數堆疊而成的「參數迷宮」。

那些關於初始化縮放、學習率按角色拆分的微小變動，在人類眼中顯得支離破碎，甚至毫無美感。

但結果是冰冷的：它就是比人類設計的方案快了60步。

這標誌著一個重大的範式轉移：科學發現正在從「因果邏輯」轉向「極致演化」。

過去，我們追求「因為我理解了原理，所以我做出了最佳化」；現在，AI 彷彿在說：「我並不理解原理，但我試過了所有的死路，剩下的就是真理。」

人類正在失去對科技進步的「解釋權」。我們看得見結果，卻看不懂路徑。

引以為傲的科研經驗，在AI的窮舉面前，正在變成一種低效的偏見。

回到那個數字：2930 vs 2990。

60步。

看起來很小。但這60步的含義不是「AI比人類好一點點」。

它的含義是：遞迴自改進，第一塊拼圖落地了。

Prime Intellect證明了一件事——AI可以在沒有人類指導的情況下，通過自主實驗、自主迭代、自主策略演化，在科研最佳化任務上超越人類最優水平。

而凱撒過河之後，就再也沒回去過。 (新智元)