GPT-5.3-Codex 發佈:首個自我訓練的模型

今天,可算是又炸了一輪啊……讓不讓人睡覺了!

就在過去一小時內,OpenAI 發佈了 GPT-5.3-Codex,Anthropic 發佈了 Opus 4.6(100萬 context)Claude Opus 4.6 發佈,跑分霸榜,價格不變

兩顆重磅炸彈,幾乎同時落地。

建立在這些模型之上的 Agent 們,接下來怕是要起飛了。

而就在 Anthropic 放出 Claude Opus 4.6 的同一天,OpenAI 緊跟著扔出了 GPT-5.3-Codex,號稱迄今為止最強的 agentic coding 模型。

Sam Altman 本人也第一時間發了推:

GPT-5.3-Codex 來了!
最強編碼性能(57% SWE-Bench Pro,76% TerminalBench 2.0,64% OSWorld)。任務執行中可即時引導,工作過程中提供即時更新。更快!相同任務的 token 消耗不到 5.2-Codex 的一半,每個 token 的速度還快了 25% 以上!電腦使用能力也很強。

那這個 GPT-5.3-Codex 到底強在那呢?且往下看。

自己訓自己

GPT-5.3-Codex 有一個很「離譜」的特點:它參與了自己的創造過程。

OpenAI 團隊在訓練過程中,就用早期版本的 GPT-5.3-Codex 來 debug 自己的訓練、管理自己的部署、診斷測試結果和評估。換句話說,這個模型幫著把自己「生」出來了。

OpenAI 的研究團隊用 Codex 來監控和偵錯這次發佈的訓練過程。

它不僅能排查基礎設施問題,還能追蹤訓練過程中的模式變化,對互動質量做深度分析,提出修復建議,甚至為研究員建構可視化應用來精確理解模型行為的差異。

工程團隊也在用 Codex 最佳化和適配 GPT-5.3-Codex 的運行環境。

當出現影響使用者的邊界情況時,團隊成員直接讓 Codex 去定位 context 渲染的 bug,排查快取命中率低的根因。在發佈期間,GPT-5.3-Codex 還在幫團隊動態擴縮 GPU 叢集以應對流量高峰,保持延遲穩定。

有一位資料科學家用 GPT-5.3-Codex 建構了新的資料管道,做出了比標準儀表盤工具豐富得多的可視化結果,然後和 Codex 一起分析,三分鐘內就從數千個資料點中提煉出了關鍵洞察。

全面屠榜

GPT-5.3-Codex 在多個基準測試上刷新了紀錄:

SWE-Bench Pro 拿下 56.8%,這是一個衡量真實世界軟體工程能力的嚴格評估。和只測 Python 的 SWE-Bench Verified 不同,SWE-Bench Pro 覆蓋了四種程式語言,更抗資料污染,也更貼近工業場景。GPT-5.2-Codex 是 56.4%,GPT-5.2 是 55.6%。

Terminal-Bench 2.0 達到 77.3%,遠超 GPT-5.2-Codex 的 64.0%。這個基準測試衡量的是 coding agent 所需的終端操作能力。

OSWorld-Verified 拿下 64.7%,而 GPT-5.2-Codex 只有 38.2%。OSWorld 是一個在視覺桌面環境中完成生產力任務的 agentic 電腦使用基準,這個提升幅度可以說是「斷崖式領先」了。

GDPval 上以 70.9% 的勝率或平局率持平 GPT-5.2。GDPval 是 OpenAI 在 2025 年發佈的評估,衡量模型在 44 個職業的知識工作任務上的表現,包括做簡報、處理電子表格等。

網路安全 CTF 挑戰 達到 77.6%,GPT-5.2-Codex 是 67.4%。

SWE-lancer IC Diamond 拿到 81.4%,超過 GPT-5.2-Codex 的 76.0%。

而且值得注意的是,GPT-5.3-Codex 完成這些任務所消耗的 token 比任何之前的模型都要少。又強又省,這才是真本事。

不只是寫程式碼

GPT-5.3-Codex 的定位已經不僅僅是一個程式碼生成工具了。

OpenAI 稱:從寫程式碼的 agent,變成了幾乎能做開發者和專業人士在電腦上做的一切事情的 agent。

軟體工程師、設計師、產品經理、資料科學家做的遠不止寫程式碼。

GPT-5.3-Codex 被設計為支援軟體生命周期中的所有工作:debug、部署、監控、寫 PRD、編輯文案、使用者研究、測試、指標分析等等。它的 agentic 能力甚至超越了軟體領域,能幫你做幻燈片、分析電子表格中的資料。

OpenAI 結合了前沿編碼能力、美學改進和壓縮能力,做出了一個能在數天內從零建構高度功能化的複雜遊戲和應用的模型。

為了測試長時間運行的 agentic 能力,他們讓 GPT-5.3-Codex 建構了兩款遊戲:一個賽車遊戲的第二版和一個潛水遊戲,使用的只是通用的跟進提示,比如「fix the bug」或「improve the game」,GPT-5.3-Codex 就在數百萬 token 的互動中自主迭代。

在網頁開發方面,GPT-5.3-Codex 也比前代更懂你的意圖。

簡單或不夠詳細的提示,現在會默認生成功能更完善、預設值更合理的網站,給你一個更強的起點去實現想法。比如讓兩代模型分別建構一個落地頁,GPT-5.3-Codex 會自動把年度方案顯示為折算後的月價格讓折扣更直觀,還會做一個自動輪播的使用者評價元件,而不是只放一條。

開箱即用的完成度明顯更高了。

邊幹活邊對話

隨著模型能力越來越強,瓶頸已經從「agent 能做什麼」轉移到了「人類如何方便地與多個平行工作的 agent 互動、指導和監督」。

GPT-5.3-Codex 在這方面做了一個關鍵改進:互動式協作。

以前你給 Codex 一個任務,然後等它給你最終結果。現在不一樣了,GPT-5.3-Codex 會在工作過程中頻繁給你更新,讓你即時瞭解關鍵決策和進展。

你可以隨時提問、討論方案、調整方向,而不會丟失上下文。

它會告訴你它在幹什麼,回應你的反饋,從頭到尾都讓你參與其中。

更像是和一位同事協作,而不是給一台機器下命令。

在 Codex 應用中可以通過 Settings > General > Follow-up behavior 開啟這個功能。

首個「高能力」安全評級

GPT-5.3-Codex 是 OpenAI 在 Preparedness Framework 下首個被評為網路安全相關任務「高能力」的模型,也是他們首個直接訓練來識別軟體漏洞的模型

雖然沒有確鑿證據表明它能端到端地自動化網路攻擊,但 OpenAI 採取了預防性措施,部署了迄今最全面的網路安全安全端,包括安全訓練、自動化監控、高級能力的可信訪問以及包含威脅情報的執行管道。

因為網路安全天然是雙重用途的,OpenAI 採取了「基於證據、迭代推進」的方法,加速防禦者發現和修復漏洞的能力,同時減緩濫用。

具體措施包括:

  • 推出 Trusted Access for Cyber 試點項目,加速網路防禦研究。
  • 擴大 Aardvark(安全研究 agent)的私有 beta 測試,作為 Codex Security 產品套件的首個產品。
  • 與開源維護者合作,為 Next.js 等廣泛使用的項目提供免費程式碼庫掃描,上周就有安全研究員用 Codex 發現了 Next.js 的漏洞並已披露。

在 2023 年發起的 100 萬美元網路安全資助計畫的基礎上,OpenAI 還承諾投入 1000 萬美元的 API 額度,用於加速網路防禦,特別是針對開放原始碼軟體和關鍵基礎設施系統。

可用性

GPT-5.3-Codex 現已向所有 ChatGPT 付費使用者開放,覆蓋 Codex 可用的所有平台:應用、CLI、IDE 擴展和網頁端。API 訪問正在安全地推進中。

速度方面,比 GPT-5.2-Codex 快了 25%,token 消耗則不到前代的一半

GPT-5.3-Codex 是與 NVIDIA GB200 NVL72 系統協同設計、訓練和部署的。

方向變了

OpenAI 在文章最後說到:

GPT-5.3-Codex 讓 Codex 從「寫程式碼」走向了「用程式碼作為工具來操作電腦、端到端地完成工作」。

最初聚焦於成為最好的 coding agent,現在已經演變成了一個更通用的電腦協作者,擴展了誰能建構以及用 Codex 能做什麼的邊界。

同一天,Anthropic 發 Opus 4.6,OpenAI 發 GPT-5.3-Codex。兩家在 agentic coding 這條賽道上的軍備競賽,已經進入白熱化了。

cli 中也已經能用了:

而方向也越來越清晰:不是讓模型寫更多程式碼,而是讓模型用程式碼去搞定一切。

而另一個值得注意的是:GPT 5.3 Codex 今日正式發佈,而數小時前同時發佈的還有人工智慧代理平台 Frontier。

這種發布周期的縮短意味著什麼呢?

OpenAI 在近 6 個月內發佈了 5 個主要版本/更新,而此前 15 個月總共才只發佈了 7 個版本。

對於日益複雜的模型,根據 OpenAI 自己的發佈公告,越來越多地使用#AI生成的程式碼來建構,這要麼是因為真正的功能程式碼開發改進而帶來的速度提升,要麼是因為在競爭壓力下通過更多的質量保證而實現的加速。

這次的 GPT-5.3-Codex,可還是參與了自己的訓練過程的……

有意思。 (AGI Hunt)