GPT-5.5 發佈！Claude Code 連夜治好降智，「奧特曼癱倒」喜提續集

2026/04/24

•

據外媒 Business Insider 報導，Anthropic 在私募二級市場的估值已突破 1 兆美元。作為參照，OpenAI 今年 3 月末最新一輪融資的估值，仍停留在 8520 億美元。

除了業內老生常談的「AI 泡沫論」，這組對比資料也表明了曾經穩坐頭把交椅的 OpenAI，如今正在直面被追趕、被超越的壓力，但沒有讓我們等待多久，OpenAI 的反擊旋即而至。

就在剛剛，GPT-5.5 正式發佈，同步亮相的還有面向更高階任務的 GPT-5.5 Pro 版本。

如果用一句話總結 GPT-5.5 的核心設計思路，那就是讓使用者把一團雜亂、多步驟的複雜任務直接拋給模型，由它自主規劃路徑、呼叫工具、校驗結果、消解歧義，並一路推進。

看似只是 0.1 的版本號迭代，在推理效率上卻判若大版本更新—— 同樣的 Codex 任務，GPT-5.5 消耗的 token 顯著更少，既更聰明，也更省。

吐槽了一個多月，偏偏等到 GPT-5.5 發佈，Anthropic 才想起要解決降智問題

GPT-5.5 登場，不講武德的屠榜

GPT-5.5 的紙面成績非常可觀。

在知名第三方評測機構 Artificial Analysis 的綜合智能指數榜單上，OpenAI 憑藉 GPT-5.5 系列拿下了第一名和第二名，前六席中包攬了四席，競爭對手幾乎毫無招架之力。

基準測試結果顯示，在 Terminal-Bench 2.0（測試複雜命令列工作流）上，GPT-5.5 達到 82.7%，GPT-5.4 為 75.1%，Claude Opus 4.7 為 69.4%。

在 SWE-Bench Pro（評估真實 GitHub 問題解決能力）上，GPT-5.5 達到 58.6%，能在單次運行中端到端完成更多工，超過 GPT-5.4 的 57.7%。

在 OpenAI 內部的 Expert-SWE 評測上，任務的人類預計完成時間中位數為 20 小時，GPT-5.5 達到 73.1%，GPT-5.4 為 68.5%。且在三項評測上，GPT-5.5 均以更少 token 完成任務。

只不過，OpenAI 這次也玩起了腳註裡的小心思，用一行小字暗戳戳質疑 Claude Opus 4.7 部分成績的可信度。但網友 Deedy 對此並不買帳，在他看來，這行備註更像是轉移注意力 —— 畢竟 OpenAI 自己也沒能拿出一套更透明的公開基準，正面佐證 GPT-5.5 的實力。

在智能體編碼、computer use（電腦使用）、知識工作和早期科學研究等領域，GPT-5.5 的提升尤為顯著。

早期測試者反饋，GPT-5.5 在理解大型程式碼庫整體結構方面明顯更強，能主動預判潛在問題，提前考慮測試和審查需求，無需額外提示。

知名評測博主、Every 創始人 Dan Shipper 分享了一個具體案例：他的應用上線後出現問題，自己偵錯數天未果，最終請來工程師重寫了部分系統。他用 GPT-5.5 重現這一場景，結果模型給出了與工程師相同的解決思路，而 GPT-5.4 則無能為力。

Cursor 聯合創始人 Michael Truell 表示，GPT-5.5 比 GPT-5.4 更聰明、更有韌性，工具呼叫更可靠，面對複雜長期任務時能堅持更久而不中途停下。

更誇張的是，一位輝達工程師在早期體驗後直言：「失去 GPT-5.5 的存取權，感覺就像是我的肢體被截肢了一樣。」

（哈？？）不過，考慮到奧特曼看完 GPT-5 演示之後，直接「眩暈無力、癱倒在地」，而且這件事到今天也沒有一個正經解釋，輝達工程師這句話，好像也沒那麼誇張了。

而在知識工作場景，GPT-5.5 也有著出色的表現。

在衡量模型橫跨 44 種職業知識工作能力的 GDPval 評測中，GPT-5.5 獲勝或打平比例達 84.9%，GPT-5.4 為 83.0%，Claude Opus 4.7 為 80.3%，Gemini 3.1 Pro 僅 67.3%。
在 OSWorld-Verified（測試模型能否自主操作真實電腦環境）上，GPT-5.5 達到 78.7%，GPT-5.4 為 75.0%，Claude Opus 4.7 為 78.0%。
在 Tau2-bench Telecom（測試複雜客服工作流）上，GPT-5.5 在無提示詞調整的情況下達到 98.0%，GPT-5.4 為 92.8%，差距相當明顯。
在其他專項評測上，GPT-5.5 在 FinanceAgent v1.1 達到 60.0%，內部投行建模任務達到 88.5%，OfficeQA Pro 達到 54.1%（Claude Opus 4.7 為 43.6%，Gemini 3.1 Pro 僅為 18.1%）。
在 BixBench（圍繞真實生物資訊學和資料分析設計）上，GPT-5.5 達到 80.5%，GPT-5.4 為 74.0%，在已發佈分數的模型中排名第一。在 GeneBench（測試遺傳學和定量生物學的多階段資料分析）上，GPT-5.5 達到 25.0%，GPT-5.4 為 19.0%，Pro 版本達到 33.2%。這些任務通常對應科學專家數天的工作量。

OpenAI 內部有超過 85% 的員工每周使用 Codex，覆蓋軟體工程、財務、傳播、市場、資料科學和產品管理等部門。

財務團隊用 GPT-5.5 審查了 24771 份 K-1 稅務檔案，共計 71637 頁，最終比上一年提前兩周完成。傳播團隊打造了一套自動化 Slack 機器人，負責處理低風險請求自動處理，市場團隊的一名員工則用它自動生成每周業務報告，每周節省 5 到 10 小時。

此外，GPT-5.5 的一大亮點還在於推理基礎設施的協同升級。

GPT-5.5 與 NVIDIA GB200 和 GB300 NVL72 系統聯合設計和訓練。其中一項關鍵改進是負載平衡和分區策略，Codex 分析了數周的生產流量資料，編寫了自訂啟髮式演算法來動態最佳化分區和負載平衡，最終將 token 生成速度提升了超過 20%。

OpenAI 還指出，GPT-5.5 本身也參與了改進自身推理基礎設施的過程。

GPT-5.5 即日起向 ChatGPT Plus、Pro、Business、Enterprise 使用者開放，Codex 支援最高 400K 上下文窗口，並提供 1.5 倍速的 Fast 模式（費用為標準價格的 2.5 倍）。GPT-5.5 Pro 則面向 ChatGPT 的 Pro、Business 和 Enterprise 使用者推出。

API 版本即將上線，標準定價為每百萬輸入 token 5 美元、每百萬輸出 token 30 美元，上下文窗口為 1M token。批次處理和彈性定價為標準價格的一半，優先處理模式為標準價格的 2.5 倍。

GPT-5.5 Pro 的 API 定價為每百萬輸入 token 30 美元、每百萬輸出 token 180 美元。OpenAI 表示，由於 token 效率的提升，大多數使用者的實際使用成本不會有明顯增加。閉口不提 Claude Opus 4.7，卻句句都在內涵。

OpenAI 要做 AI 時代的超級入口

沒有那一款模型能收穫一邊倒的評價，GPT-5.5 同樣如此。網友 @chetaslua 用一條提示詞在 Codex 中生成了一個帶有風效應物理引擎的完整網站，物理互動和介面設計一併到位，感嘆「這是我第一次覺得 ChatGPT 可以成為解決一切問題的首選 AI 工具」。

網友 @petergostev 讓模型生成了一個包含倫敦地標和季節變化的玩具鐵路場景，與 GPT-5.4 的輸出對比後，他的結論是「GPT-5.5 更有野心、一致性更強，錯誤更少」，並在更複雜的應用遷移任務中讓模型連續工作數小時，沒有出現卡殼。

當然，吐槽的聲音同樣存在。網友 @arrakis_ai 發現，GPT-5.5 在遇到複雜佈局時有時會直接生成一張圖片了事，處理圖示需求時會從頭硬寫 SVG 而不呼叫現成庫，同時頻繁暫停追問使用者，執行力反而不如從前果斷。

文筆方面，我的個人體驗也有類似感受。GPT-5.5 確實比前代更會組織語言了，至少已經能說點人話，但依然有一股怪味：「我就在這裡，不躲，不藏，不繞，不逃，穩穩地接住你」。

並且，不少網友也注意到，OpenAI 在基準測試榜單上也動了些行銷的心思。

網友 Haider 認為，GPT-5.5 和 Mythos 的差距沒有預想的那麼懸殊，而 Mythos 定價是 GPT-5.5 的兩倍，且不公開發售。他的判斷是，下一代 GPT 趕上 Mythos 應該問題不大。

據外媒 Techcrunch 報導，面對記者關於「GPT-5.5 是否具備類似 Mythos 能力」的刺探時，OpenAI 技術人員 Mia Glaese 給出了一個滴水不漏卻暗藏鋒芒的回答：「我們在網路安全方面有著長期且強有力的戰略，並且已經完善了一套持久的、安全推出模型的方法。」

話外之音已經十分明朗：單一的強大模型終究只是過客。真到了拼數字防禦和企業級落地的深水區，OpenAI 的生態壁壘，才是 B 端客戶唯一穩妥的安全牌。

而隨著 GPT-5.5 的登場，OpenAI 的野心已經足夠清晰：他們不再滿足於做一個聰明的聊天機器人，而是要親手打造一個吞噬一切工作流的「AI 超級應用（Super app）」。

在接受外媒採訪時，OpenAI 總裁 Greg Brockman 用了一個詞「自主性（Agentic）」來形容這次模型的進步跨越。與前代模型 GPT-5.4 版本相比，GPT-5.5 消耗的 Token 更少，但思考速度更快、邏輯更清晰，開始展現出主動解決複雜問題的能力。

這正是邁向超級應用的堅實底座。

奧特曼今晚異常興奮，還更換頭像了

所謂超級應用，便是將 ChatGPT、Codex 與 AI 瀏覽器深度融合為統一服務。想像未來的工作流：人們不必再在瀏覽器、程式碼編輯器、資料分析工具之間反覆切換。只需對著這個超級應用下達一個宏觀指令，GPT-5.5 就能自主在後台打開網頁蒐集資料、編寫爬蟲程式碼、清洗資料，最終直接交付一份完整的分析報告。

當然，猶如 Claude 與 Claude Code 的強繫結，OpenAI 也意在替 Codex 的增長勢頭加一把火。最近，奧特曼表示，Codex 活躍使用者在突破 300 萬不到兩周後便直逼 400 萬大關，OpenAI 隨之重設速率限制，以「量大管飽」的姿態收割開發者生態。

一方面，憑藉 GPT-5.5 與 GPT-Image-2 的強勢表現，正面回擊了 Anthropic 在估值預期上的壓力；另一方面，則利用 Codex 的生態粘性緊鎖開發者陣地，穩步構築起橫跨 C 端消費與 B 端企業級服務的完整服務體系。

攻守之勢異也，今年以來被詬病掉隊的 OpenAI，終於重新找回兩年前的進攻節奏，並將精力放在了踏踏實實打磨產品上。 (APPSO)