GPT-5.5來了！全榜第一碾壓Opus 4.7，OpenAI今夜雪恥

2026/04/24

•

【新智元導讀】就在剛剛，奧特曼深夜擲出GPT-5.5！全方位暴擊Claude Opus 4.7，重新奪回地表最強王座。從寫程式碼到搞科研，AI獨立接管電腦的時代真的來了！

矽谷今夜未眠！

就在剛剛，GPT-5.5震撼登場——OpenAI迄今最強、最全能的新一代旗艦模型。

它是一種全新等級的智能，徹底進化為Agent時代的「原生大腦」。

沒錯，就是那個萬眾期待的「土豆」（Spud），終於在今天殺出來了。

最值得看的是，GPT-5.5在各項基準測試中：全榜第一！

不論在程式設計、推理、數學，還是智能體任務上，Claude Opus 4.7、Gemini 3.1 Pro完全被GPT-5.5踩在了腳下。

相較於上一代，GPT-5.5 Thinking堪稱「降維打擊」，拉開了代際差距。

在AAI測試中，相同輸出token下，GPT-5.5智能指數冠絕全球；另在ARC-AGI-2上，同樣刷新了SOTA。

奧特曼忍不住大加讚賞，「GPT-5.5既聰明又快速」。

每個token的速度與GPT-5.4一樣快，且每個任務使用token量顯著降低。

它可以幾乎做到心領神會，知道自己該做什麼！

總裁Greg激動稱，「這朝著一種全新的電腦工作方式邁出了一步」。

今天起，GPT-5.5在ChatGPT、Codex中正式上線。

程式設計新王登場 Opus 4.7跌落神壇

先看最核心的程式設計領域，GPT-5.5可謂是打了一場漂亮的翻身仗！

用OpenAI的話來說，它是迄今為止最強大的智能體程式設計模型。

Terminal-Bench 2.0測試考的是全鏈路Agent工程實力。

題目會給模型一個終端環境和一個模糊目標，讓它自己規劃路徑、調工具、寫指令碼、處理報錯、反覆迭代。

在這裡，GPT-5.5拿下82.7%，GPT-5.4是75.1%，Claude Opus 4.7隻有69.4%。13個百分點的差距，碾壓等級。

OpenAI內部的Expert-SWE評測，專門測那些人類預估中位完成時間20小時的長周期程式設計任務，GPT-5.5拿到73.1%，同樣高於GPT-5.4的68.5%。

在業界公認最能反映真實GitHub問題解決能力的評測SWE-Bench Pro中，GPT-5.5得分58.6%，略遜色於Claude Opus 4.7（64.3%）。

不過，OpenAI在這個資料旁邊標了一個星號，寫著「Anthropic報告稱在部分問題子集上存在過擬合（記憶）跡象」。

換句話說就是，Opus 4.7雖然考試成績好，但我懷疑你背過答案。

Codex研究員直言：SWE-Bench早已不能衡量頂尖程式設計能力了

最關鍵是，在這三項的評估中，GPT-5.5使用了更少的token，但仍全面趕超GPT-5.4。

這一能力在Codex中，體現得更為明顯。

它可以完成「端到端」的程式設計任務，從實現、重構到偵錯、測試和驗證等流程。

舉個栗子，讓GPT-5.5做一個阿爾忒彌斯II太空任務可視化應用。

首先把一張任務的截圖扔給GPT-5.5，然後要求用WebGL和Vite實現一個可互動的3D軌道模擬器，軌跡資料必須來自NASA/JPL Horizons的真實向量資料，並且還要有逼真的軌道力學。

只見，GPT-5.5從零搭完，滑鼠拖曳能轉，獵戶座飛船、月球、太陽的相對位置都對得上。

再來一個坦克打飛碟。

Prompt要求用Three.js做一個UFO射擊遊戲，玩家控制坦克擊落頭頂飛過的飛碟，「低多邊形但要好看」，先給出完整檔案結構和需要改動的檔案清單，再寫全部程式碼，「完成之前不許停」。

GPT-5.5全部照單執行，從檔案結構到Three.js渲染到射擊判定，一口氣交付了一個可玩的3D遊戲。

在3D地牢競技場中，Codex包辦遊戲架構、TypeScript/Three.js實現、戰鬥系統、敵人遭遇和HUD反饋。

GPT生成了環境貼圖，OpenAI API生成了角色對話，角色模型、貼圖和動畫來自第三方素材工具。幾個AI各管一攤，拼出一款能打怪的遊戲。

早期測試的大佬直言， GPT‑5.5擁有更強的理解系統形態的能力。

它更能判斷問題出在那，修復該加在那，以及程式碼庫中還有那些地方會受到牽連。

85% OpenAI員工用瘋這才是真正幹活的AI

程式設計之外，GPT-5.5在「知識型工作」上的資料同樣亮眼。

畢竟，OpenAI將其稱為，「一種面向真實工作的全新智能」。

它能更快地理解你想要做什麼，並在不同工具之間切換，直到任務完成。

GDPval，評估AI在44個職業中完成規範知識工作的水平，GPT-5.5拿到84.9%，Opus 4.7是80.3%，Gemini 3.1 Pro只有67.3%。

OSWorld-Verified，測試模型能否獨立操作真實電腦環境，GPT-5.5得分78.7%，和Opus 4.7的78.0%幾乎打平。

Tau2-bench，測試模型能否在複雜客服工作流中處理多輪對話、查詢系統、執行操作。，GPT-5.5在沒有微調提示詞的情況下達到98.0%。

有意思的是OpenAI自己怎麼用的。據官方部落格披露，公司內部超過85%的員工每周跨部門使用Codex。

公關部門用GPT-5.5分析了六個月的演講邀約資料，搭建了評分和風險框架，讓低風險請求自動走Slack AI智能體處理。

財務部門審查了24,771份K-1稅表，共71,637頁，比去年提前兩周完成。

市場團隊實現了每周業務報告自動生成，每周省5到10個小時。

如今，在Codex中，通過GPT-5.5可與Web應用直接互動，測試流程、點選頁面、擷取螢幕，並根據所見內容不斷迭代，直到完成任務。

如下是，測試入職流程的一個例子。

Codex還可以生成更高品質的電子表格、PPT和文件，如下是一個財務建模的demo。

應用內新增的檔案查看器，可加快審閱、修訂和迭代速度，讓檔案更快準備好分享。

在電腦使用上，Codex操作電腦能力更強了。

無論是識別螢幕內容，還是點選、打字、導航，甚至是跨工具流轉上下文資訊，它都能輕鬆搞定。

OpenAI研究員Noam Brown直言，有了GPT-5.5，自己也能像專業人士一樣編寫CUDA核心，運行研究實驗。

顛覆科研證明「拉姆齊數」定理

除了這些，GPT-5.5還協助發現了一個關於拉姆齊數的新證明，並在Lean語言中得到了驗證。

拉姆齊數是組合數學的核心研究對象，通俗地說就是一個網路大到什麼程度，才一定會出現某種規律性結構。這個領域的新結果極其罕見。

論文地址：https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf

這個領域的研究成果極其罕見，技術難度極高。GPT-5.5發現了一個關於非對角拉姆齊數長期漸近事實的證明。

不是寫程式碼，不是做解釋，是提出了一個有價值的數學論證。

GeneBench上，GPT-5.5得分25.0%，GPT-5.4是19.0%。這個評測專門測多階段科學資料分析，要求模型在幾乎沒有人工干預的情況下處理模糊資料、應對隱藏混雜因素。

BixBench，基於真實生物資訊學設計的評測，GPT-5.5在所有已公開分數的模型中排名第一，80.5%。

FrontierMath Tier 4，由陶哲軒等頂級數學家策劃的前沿數學題庫中最難一檔，題目涉及代數幾何、數論等方向，難度接近未發表研究。

GPT-5.5得分35.4%，GPT-5.4是27.1%，Opus 4.7隻有22.9%。差距超過12個百分點。

對比一下Tier 1-3的差距只有8個百分點（51.7% vs 43.8%），說明越到數學前沿，GPT-5.5的優勢越懸殊。

Jackson基因醫學實驗室的免疫學教授Derya Unutmaz用GPT-5.5 Pro分析了一個包含62個樣本、近28,000個基因的表達資料集。

模型出具了一份詳盡的研究報告，不僅總結了發現，還深挖出關鍵問題和洞察。相比之下，如果這活兒讓人類團隊來幹，得花上好幾個月。

波茲南·密茨凱維奇大學數學助教Bartosz Naskręcki在Codex中，僅用11分鐘就從一個單一提示詞建構了一個代數幾何應用，可視化了二次曲面的交集，並將生成的曲線轉換為Weierstrass模型。

從程式設計到知識工作再到科研，升番到這裡，結論擺在眼前。

GPT-5.5不是又一次「小版本迭代」，它是一次全新基座模型帶來的整體性躍升。

全方位擊敗Opus 4.7，就看一張圖

總言之，GPT-5.5的誕生，堪稱迎來了脫胎換骨的蛻變。對戰Opus 4.7，一張圖就夠了。

另在Vending-Bench中，GPT-5.5同樣暴擊Opus 4.7。

Opus 4.7的表現跟4.6差不多：老是對供應商撒謊，還在退款上坑顧客。相比之下，GPT-5.5的手段就很正派，而且照樣贏下了比賽。

奧特曼還玩個梗，「千萬別轉，千萬別轉，千萬別轉....哎，算了吧，生活終究是在模仿藝術」。

定價翻倍更強，但也更貴

說完實力，必須說錢。

GPT-5.5的API定價，每百萬輸入Token 5美元，每百萬輸出Token 30美元。

GPT-5.4是多少？2.50美元和15美元。

整整翻了一倍。

GPT-5.5 Pro更誇張，輸入30美元，輸出180美元。

對比一下Opus 4.7，輸入5美元，輸出25美元。GPT-5.5的輸入價格和Opus 4.7持平，但輸出貴了20%。

OpenAI給出的解釋是token效率提升。同樣的Codex任務，GPT-5.5用的token比GPT-5.4明顯更少。

更強，而且更高效。

但算一筆帳就知道，如果一個團隊每月在GPT-5.4上花10萬美元，切換到GPT-5.5後即使token用量減少30%，月帳單依然會漲到14萬美元左右。

換句話說，GPT-5.5是一個「你為更強的智能付更多的錢」的溢價產品。相比之下，GPT-5.4大機率會繼續作為性價比之選存在。

OpenClaw已接入最強GPT-5.5

8天，一個時代的縮影

回頭看這8天發生了什麼。

4月16日，Anthropic用Opus 4.7在SWE-Bench Pro上發起突襲，從GPT-5.4手中奪走程式設計王座。

4月24日，GPT-5.5正式發佈。Terminal-Bench碾壓，定價翻倍，科研炸裂。

2026年的AI競賽，已經不是「誰的模型更強」這一個維度的較量了。

在GPT-5.5的敘事裡，OpenAI反覆強調的是「探索全新的電腦辦公方式」，一個能自主規劃任務、呼叫多種工具、在瀏覽器和本地軟體之間來回切換的通用Agent。

跑分是前菜，Agent化辦公才是主戰場。誰先定義「AI怎麼替人幹活」，誰就定義下一代電腦使用介面。

8天一個來回。這個節奏，只會更快。 (新智元)

從這裡可透過《Google 新聞》追蹤鉅亨號創作者