【新智元導讀】就在剛剛,奧特曼深夜擲出GPT-5.5!全方位暴擊Claude Opus 4.7,重新奪回地表最強王座。從寫程式碼到搞科研,AI獨立接管電腦的時代真的來了!
矽谷今夜未眠!
就在剛剛,GPT-5.5震撼登場——OpenAI迄今最強、最全能的新一代旗艦模型。
它是一種全新等級的智能,徹底進化為Agent時代的「原生大腦」。
沒錯,就是那個萬眾期待的「土豆」(Spud),終於在今天殺出來了。
最值得看的是,GPT-5.5在各項基準測試中:全榜第一!
不論在程式設計、推理、數學,還是智能體任務上,Claude Opus 4.7、Gemini 3.1 Pro完全被GPT-5.5踩在了腳下。
相較於上一代,GPT-5.5 Thinking堪稱「降維打擊」,拉開了代際差距。
在AAI測試中,相同輸出token下,GPT-5.5智能指數冠絕全球;另在ARC-AGI-2上,同樣刷新了SOTA。
奧特曼忍不住大加讚賞,「GPT-5.5既聰明又快速」。
每個token的速度與GPT-5.4一樣快,且每個任務使用token量顯著降低。
它可以幾乎做到心領神會,知道自己該做什麼!
總裁Greg激動稱,「這朝著一種全新的電腦工作方式邁出了一步」。
今天起,GPT-5.5在ChatGPT、Codex中正式上線。
程式設計新王登場 Opus 4.7跌落神壇
先看最核心的程式設計領域,GPT-5.5可謂是打了一場漂亮的翻身仗!
用OpenAI的話來說,它是迄今為止最強大的智能體程式設計模型。
Terminal-Bench 2.0測試考的是全鏈路Agent工程實力。
題目會給模型一個終端環境和一個模糊目標,讓它自己規劃路徑、調工具、寫指令碼、處理報錯、反覆迭代。
在這裡,GPT-5.5拿下82.7%,GPT-5.4是75.1%,Claude Opus 4.7隻有69.4%。13個百分點的差距,碾壓等級。
OpenAI內部的Expert-SWE評測,專門測那些人類預估中位完成時間20小時的長周期程式設計任務,GPT-5.5拿到73.1%,同樣高於GPT-5.4的68.5%。
在業界公認最能反映真實GitHub問題解決能力的評測SWE-Bench Pro中,GPT-5.5得分58.6%,略遜色於Claude Opus 4.7(64.3%)。
不過,OpenAI在這個資料旁邊標了一個星號,寫著「Anthropic報告稱在部分問題子集上存在過擬合(記憶)跡象」。
換句話說就是,Opus 4.7雖然考試成績好,但我懷疑你背過答案。
Codex研究員直言:SWE-Bench早已不能衡量頂尖程式設計能力了
最關鍵是,在這三項的評估中,GPT-5.5使用了更少的token,但仍全面趕超GPT-5.4。
這一能力在Codex中,體現得更為明顯。
它可以完成「端到端」的程式設計任務,從實現、重構到偵錯、測試和驗證等流程。
舉個栗子,讓GPT-5.5做一個阿爾忒彌斯II太空任務可視化應用。
首先把一張任務的截圖扔給GPT-5.5,然後要求用WebGL和Vite實現一個可互動的3D軌道模擬器,軌跡資料必須來自NASA/JPL Horizons的真實向量資料,並且還要有逼真的軌道力學。
只見,GPT-5.5從零搭完,滑鼠拖曳能轉,獵戶座飛船、月球、太陽的相對位置都對得上。
再來一個坦克打飛碟。
Prompt要求用Three.js做一個UFO射擊遊戲,玩家控制坦克擊落頭頂飛過的飛碟,「低多邊形但要好看」,先給出完整檔案結構和需要改動的檔案清單,再寫全部程式碼,「完成之前不許停」。
GPT-5.5全部照單執行,從檔案結構到Three.js渲染到射擊判定,一口氣交付了一個可玩的3D遊戲。
在3D地牢競技場中,Codex包辦遊戲架構、TypeScript/Three.js實現、戰鬥系統、敵人遭遇和HUD反饋。
GPT生成了環境貼圖,OpenAI API生成了角色對話,角色模型、貼圖和動畫來自第三方素材工具。幾個AI各管一攤,拼出一款能打怪的遊戲。
早期測試的大佬直言, GPT‑5.5擁有更強的理解系統形態的能力。
它更能判斷問題出在那,修復該加在那,以及程式碼庫中還有那些地方會受到牽連。
85% OpenAI員工用瘋 這才是真正幹活的AI
程式設計之外,GPT-5.5在「知識型工作」上的資料同樣亮眼。
畢竟,OpenAI將其稱為,「一種面向真實工作的全新智能」。
它能更快地理解你想要做什麼,並在不同工具之間切換,直到任務完成。
GDPval,評估AI在44個職業中完成規範知識工作的水平,GPT-5.5拿到84.9%,Opus 4.7是80.3%,Gemini 3.1 Pro只有67.3%。
OSWorld-Verified,測試模型能否獨立操作真實電腦環境,GPT-5.5得分78.7%,和Opus 4.7的78.0%幾乎打平。
Tau2-bench,測試模型能否在複雜客服工作流中處理多輪對話、查詢系統、執行操作。,GPT-5.5在沒有微調提示詞的情況下達到98.0%。
有意思的是OpenAI自己怎麼用的。據官方部落格披露,公司內部超過85%的員工每周跨部門使用Codex。
公關部門用GPT-5.5分析了六個月的演講邀約資料,搭建了評分和風險框架,讓低風險請求自動走Slack AI智能體處理。
財務部門審查了24,771份K-1稅表,共71,637頁,比去年提前兩周完成。
市場團隊實現了每周業務報告自動生成,每周省5到10個小時。
如今,在Codex中,通過GPT-5.5可與Web應用直接互動,測試流程、點選頁面、擷取螢幕,並根據所見內容不斷迭代,直到完成任務。
如下是,測試入職流程的一個例子。
Codex還可以生成更高品質的電子表格、PPT和文件,如下是一個財務建模的demo。
應用內新增的檔案查看器,可加快審閱、修訂和迭代速度,讓檔案更快準備好分享。
在電腦使用上,Codex操作電腦能力更強了。
無論是識別螢幕內容,還是點選、打字、導航,甚至是跨工具流轉上下文資訊,它都能輕鬆搞定。
OpenAI研究員Noam Brown直言,有了GPT-5.5,自己也能像專業人士一樣編寫CUDA核心,運行研究實驗。
顛覆科研 證明「拉姆齊數」定理
除了這些,GPT-5.5還協助發現了一個關於拉姆齊數的新證明,並在Lean語言中得到了驗證。
拉姆齊數是組合數學的核心研究對象,通俗地說就是一個網路大到什麼程度,才一定會出現某種規律性結構。這個領域的新結果極其罕見。
這個領域的研究成果極其罕見,技術難度極高。GPT-5.5發現了一個關於非對角拉姆齊數長期漸近事實的證明。
不是寫程式碼,不是做解釋,是提出了一個有價值的數學論證。
GeneBench上,GPT-5.5得分25.0%,GPT-5.4是19.0%。這個評測專門測多階段科學資料分析,要求模型在幾乎沒有人工干預的情況下處理模糊資料、應對隱藏混雜因素。
BixBench,基於真實生物資訊學設計的評測,GPT-5.5在所有已公開分數的模型中排名第一,80.5%。
FrontierMath Tier 4,由陶哲軒等頂級數學家策劃的前沿數學題庫中最難一檔,題目涉及代數幾何、數論等方向,難度接近未發表研究。
GPT-5.5得分35.4%,GPT-5.4是27.1%,Opus 4.7隻有22.9%。差距超過12個百分點。
對比一下Tier 1-3的差距只有8個百分點(51.7% vs 43.8%),說明越到數學前沿,GPT-5.5的優勢越懸殊。
Jackson基因醫學實驗室的免疫學教授Derya Unutmaz用GPT-5.5 Pro分析了一個包含62個樣本、近28,000個基因的表達資料集。
模型出具了一份詳盡的研究報告,不僅總結了發現,還深挖出關鍵問題和洞察。相比之下,如果這活兒讓人類團隊來幹,得花上好幾個月。
波茲南·密茨凱維奇大學數學助教Bartosz Naskręcki在Codex中,僅用11分鐘就從一個單一提示詞建構了一個代數幾何應用,可視化了二次曲面的交集,並將生成的曲線轉換為Weierstrass模型。
從程式設計到知識工作再到科研,升番到這裡,結論擺在眼前。
GPT-5.5不是又一次「小版本迭代」,它是一次全新基座模型帶來的整體性躍升。
全方位擊敗Opus 4.7,就看一張圖
總言之,GPT-5.5的誕生,堪稱迎來了脫胎換骨的蛻變。對戰Opus 4.7,一張圖就夠了。
另在Vending-Bench中,GPT-5.5同樣暴擊Opus 4.7。
Opus 4.7的表現跟4.6差不多:老是對供應商撒謊,還在退款上坑顧客。相比之下,GPT-5.5的手段就很正派,而且照樣贏下了比賽。
奧特曼還玩個梗,「千萬別轉,千萬別轉,千萬別轉....哎,算了吧,生活終究是在模仿藝術」。
定價翻倍 更強,但也更貴
說完實力,必須說錢。
GPT-5.5的API定價,每百萬輸入Token 5美元,每百萬輸出Token 30美元。
GPT-5.4是多少?2.50美元和15美元。
整整翻了一倍。
GPT-5.5 Pro更誇張,輸入30美元,輸出180美元。
對比一下Opus 4.7,輸入5美元,輸出25美元。GPT-5.5的輸入價格和Opus 4.7持平,但輸出貴了20%。
OpenAI給出的解釋是token效率提升。同樣的Codex任務,GPT-5.5用的token比GPT-5.4明顯更少。
更強,而且更高效。
但算一筆帳就知道,如果一個團隊每月在GPT-5.4上花10萬美元,切換到GPT-5.5後即使token用量減少30%,月帳單依然會漲到14萬美元左右。
換句話說,GPT-5.5是一個「你為更強的智能付更多的錢」的溢價產品。相比之下,GPT-5.4大機率會繼續作為性價比之選存在。
8天,一個時代的縮影
回頭看這8天發生了什麼。
4月16日,Anthropic用Opus 4.7在SWE-Bench Pro上發起突襲,從GPT-5.4手中奪走程式設計王座。
4月24日,GPT-5.5正式發佈。Terminal-Bench碾壓,定價翻倍,科研炸裂。
2026年的AI競賽,已經不是「誰的模型更強」這一個維度的較量了。
在GPT-5.5的敘事裡,OpenAI反覆強調的是「探索全新的電腦辦公方式」,一個能自主規劃任務、呼叫多種工具、在瀏覽器和本地軟體之間來回切換的通用Agent。
跑分是前菜,Agent化辦公才是主戰場。誰先定義「AI怎麼替人幹活」,誰就定義下一代電腦使用介面。
8天一個來回。這個節奏,只會更快。 (新智元)
