OpenAI深夜放出「程式設計核彈」:GPT-5-Codex 正式發佈,能獨立爆肝7 小時

OpenAI 剛剛推出了 GPT-5-Codex ——這是在 GPT-5 基礎上專門為軟體工程最佳化的版本,也是 Codex 有史以來最大的一次升級,感覺這是全面對標Claude code的一個更新,但又與Claude code不同

這次更新的核心變化主要有三點:

1.GPT-5-Codex 模型上線:專門訓練於真實世界的複雜工程任務,包括從零搭建項目、大規模重構、生成測試、偵錯和程式碼審查,實現了計算資源的動態調度,可以獨立完成長達7小時的複雜重構任務

2.工具全面升級:Codex CLI 重新設計、IDE 外掛支援 VS Code 等主流環境、GitHub 整合更深,雲端和本地環境無縫切換

3.程式碼審查能力強化:能自動在 PR 中發現關鍵漏洞、減少無效評論,直接提出並實現修改建議。

OpenAI四月首次推出 Codex CLI,五月推出 Codex web ,兩周前將 Codex 統一為一個由 ChatGPT 帳戶連接的單一產品體驗,能夠在本地環境和雲端之間無縫切換工作,而不會丟失上下文。現在,Codex 可以在開發的任何地方工作(終端或 IDE、在網頁上、在 GitHub 中, ChatGPT iOS 應用中)

現在可以在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 訂閱方案中使用,使用額度根據方案不同而異,Business 和 Enterprise 方案還提供購買額外積分或共享積分池的選項。GPT-5-Codex 計畫很快通過 API 提供,詳情請看 ChatGPT 使用限制

https://developers.openai.com/codex/pricing

終端體驗:

$ npm i -g @openai/codex

以下是詳細資訊:

此次升級的核心是全新的 GPT-5-Codex 模型。作為 GPT-5 的一個特殊版本,它專為 agentic coding 進行了深度最佳化。GPT-5-Codex 的訓練資料聚焦於真實世界的軟體工程場景,使其能夠勝任從零建構完整項目、加入功能與測試、偵錯、執行大規模程式碼重構,乃至進行嚴謹程式碼審查等全方位任務

本次更新還統一了 Codex 的產品體驗。使用者現在可以通過單一的 ChatGPT 帳戶,在本地環境和雲端之間無縫切換工作,而無需擔心上下文丟失。Codex 已深度整合到開發者日常的全流程中,覆蓋終端、IDE、網頁、GitHub,甚至 ChatGPT iOS 應用。功能已包含在 ChatGPT Plus、Pro、Business、Edu 及 Enterprise 方案中

此次升級的目標是打造一個能深刻理解使用者工作上下文、與開發者並肩作戰、並能可靠地為團隊分擔任務的程式設計隊友

GPT-5-Codex本體

GPT-5-Codex 經過專門訓練,具備更強的可引導性,能更精準地遵循 AGENTS.md 檔案中的指令,並生成更高品質的程式碼。開發者只需簡單描述需求,即可獲得符合預期的成果,無需再為編碼風格或程式碼整潔度編寫冗長的指令

1. 在關鍵基準測試中表現卓越

GPT-5-Codex 的強大能力在多個行業標準和內部基準測試中得到了驗證

在SWE-bench Verified (n=500)基準測試中,GPT-5-Codex 的精準率達到 74.5%,超越了 GPT-5 的 72.8%

在極具挑戰性的程式碼重構任務(涵蓋 Python, Go, OCaml 等語言)上,其性能提升尤為顯著,精準率從 33.9% 大幅躍升至 51.3%。一個典型的例子是,它成功處理了一個來自 Gitea 的 Pull Request,該任務涉及修改 232 個檔案和 3,541 行程式碼

2. 動態調整思考時間,兼顧速度與深度

GPT-5-Codex 的一個關鍵特性是它能根據任務的複雜性動態調整計算資源。對於定義明確的小請求或即時聊天,其響應會非常迅速;而對於大型重構等複雜任務,它會投入更長的時間進行持久、獨立的執行。測試結果顯示,GPT-5-Codex 能夠連續獨立工作超過7個小時,不斷迭代實現方案、修複測試失敗,並最終成功交付

這種效率也體現在tokens生成上。根據 OpenAI 內部員工流量資料顯示,對於簡單任務(token生成量最低的10%),GPT-5-Codex 比 GPT-5 減少了93.7%的token。而對於需要深度推理的複雜任務(token生成量最高的10%),它會投入更多資源,token生成量增加了102.2%,以確保高品質的輸出

3. 更精準、更高品質的程式碼審查

GPT-5-Codex 經過專門訓練,擅長髮現程式碼中的關鍵缺陷。它會導航程式碼庫,梳理依賴關係,並運行程式碼和測試來驗證正確性。評估結果顯示:

不正確評論大幅減少:由 GPT-5-Codex 提出的不正確評論比例從 13.7% 驟降至 4.4%

高影響力評論顯著增加:其提出的高影響力評論比例從 39.4% 提升至 52.4%

更聚焦重點:它平均每個 PR 提出的評論數更少(從1.32降至0.93),這意味著它更專注於提出關鍵、有價值的建議,避免了資訊過載

此外,GPT-5-Codex 在前端任務中也非常強,能夠建立美觀的桌面和移動應用。具備多模態能力,可以接收使用者提供的圖像或截圖作為輸入,在雲端工作中直觀地檢查其進度,並向使用者展示其工作的截圖

需要注意的是: 與通用模型 GPT-5 不同,官方建議僅在 Codex 或類似的代理式程式設計環境中使用

Codex 生態系統全面更新

為使 Codex 成為更出色的結對程式設計師,其整個生態系統也獲得了全面更新

1. 全新 Codex CLI

OpenAI 依據社區的反饋,對開放原始碼的 Codex CLI 進行了重建。現在,它支援:

附加和分享圖像:直接在 CLI 中傳送截圖、線框圖和設計稿,以建立清晰的設計共識

智能任務跟蹤:對於複雜工作,Codex 會生成一個待辦事項列表來跟蹤進度

強大的工具集:整合了網頁搜尋、MCP 等工具,以連接外部系統,且工具使用更加精準

最佳化的終端 UI:工具呼叫和程式碼差異(diffs)的展示格式更清晰易讀

簡化的審批模式:提供唯讀、自動(工作區外需審批)和完全訪問三種模式,並支援壓縮對話狀態以管理長會話。詳情請看 Codex CLI 快速入門

https://developers.openai.com/codex/cli

2. Codex IDE 擴展

Codex 現已深入整合到開發者的 IDE 中,支援 VS Code、Cursor 及其他 VS Code 分支

利用本地上下文:Codex 能利用使用者已打開的檔案和選中的程式碼,讓使用者用更短的提示獲得更快、更精準的結果

無縫雲端協作:使用者可以在 IDE 內建立雲端任務、跟蹤進度、審查結果,甚至直接在 IDE 中打開雲端任務進行最後修改,Codex 會全程保持上下文同步。詳情請看 IDE 擴展快速入門

https://developers.openai.com/codex/ide

3. Codex 雲

雲端代理現在更貼近開發工作流,讓使用者無需離開編輯器或 GitHub 即可委派任務

性能大幅提升:通過容器快取技術,新任務和後續操作的中位完成時間縮短了90%

自動化環境設定:Codex 會自動掃描並執行項目中的設定指令碼(如 pip install),以配置運行環境和依賴

可視化工作流:與 CLI 類似,使用者可以使用圖像分享設計規範或UI錯誤。Codex 可以在自己的瀏覽器中建構、迭代,並附上最終成果的截圖到任務或 GitHub PR 中。詳情請看官方檔案

https://developers.openai.com/codex/cloud

4. 智能程式碼審查

Codex 的程式碼審查遠超傳統的靜態分析工具。它能理解 PR 的真實意圖,結合整個程式碼庫和依賴關係進行推理,並執行程式碼和測試來驗證行為

自動化審查流程:為 GitHub 倉庫開啟後,Codex 會在 PR 從草稿變為就緒時自動進行審查並行布分析報告

互動式修復:如果 Codex 建議修改,使用者可以直接在 PR 評論區要求它來實施

按需觸發:使用者也可以通過 @codex review 或更具體的指令(如 @codex review for security vulnerabilities)來隨時請求審查

在 OpenAI 內部,Codex 已經審查了其絕大多數的 PR,每天捕獲數百個問題,極大地提升了團隊的開發速度和信心

https://developers.openai.com/codex/cloud/code-review

安全

沙盒環境:默認情況下,無論本地還是雲端,Codex 都在停用了網路訪問的沙盒中運行,以防止有害操作和提示注入攻擊

權限控制:在執行潛在危險操作前,Codex 會請求使用者許可。開發者可以根據風險承受能力自訂安全設定,例如在雲端限制網路訪問到受信任的域,或在 CLI/IDE 中審批高權限命令

透明與可追溯:Codex 會提供引用、終端日誌和測試結果,幫助使用者理解它的工作過程。官方始終建議將 Codex 視為輔助審查工具,而非人類審查的替代品

與 OpenAI 對 GPT-5 的方法一致,GPT-5-Codex 在生物和化學領域被視為高能力模型,並已實施了嚴格的安全措施來最小化相關風險。 (AI寒武紀)