OpenAI深夜放出「程式設計核彈」：GPT-5-Codex 正式發佈，能獨立爆肝7 小時

2025/09/16

•

OpenAI 剛剛推出了 GPT-5-Codex ——這是在 GPT-5 基礎上專門為軟體工程最佳化的版本，也是 Codex 有史以來最大的一次升級，感覺這是全面對標Claude code的一個更新，但又與Claude code不同

這次更新的核心變化主要有三點：

1.GPT-5-Codex 模型上線：專門訓練於真實世界的複雜工程任務，包括從零搭建項目、大規模重構、生成測試、偵錯和程式碼審查，實現了計算資源的動態調度，可以獨立完成長達7小時的複雜重構任務

2.工具全面升級：Codex CLI 重新設計、IDE 外掛支援 VS Code 等主流環境、GitHub 整合更深，雲端和本地環境無縫切換

3.程式碼審查能力強化：能自動在 PR 中發現關鍵漏洞、減少無效評論，直接提出並實現修改建議。

OpenAI四月首次推出 Codex CLI，五月推出 Codex web ，兩周前將 Codex 統一為一個由 ChatGPT 帳戶連接的單一產品體驗，能夠在本地環境和雲端之間無縫切換工作，而不會丟失上下文。現在，Codex 可以在開發的任何地方工作（終端或 IDE、在網頁上、在 GitHub 中， ChatGPT iOS 應用中）

現在可以在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 訂閱方案中使用，使用額度根據方案不同而異，Business 和 Enterprise 方案還提供購買額外積分或共享積分池的選項。GPT-5-Codex 計畫很快通過 API 提供，詳情請看 ChatGPT 使用限制

https://developers.openai.com/codex/pricing

終端體驗：

$ npm i -g @openai/codex

以下是詳細資訊：

此次升級的核心是全新的 GPT-5-Codex 模型。作為 GPT-5 的一個特殊版本，它專為 agentic coding 進行了深度最佳化。GPT-5-Codex 的訓練資料聚焦於真實世界的軟體工程場景，使其能夠勝任從零建構完整項目、加入功能與測試、偵錯、執行大規模程式碼重構，乃至進行嚴謹程式碼審查等全方位任務

本次更新還統一了 Codex 的產品體驗。使用者現在可以通過單一的 ChatGPT 帳戶，在本地環境和雲端之間無縫切換工作，而無需擔心上下文丟失。Codex 已深度整合到開發者日常的全流程中，覆蓋終端、IDE、網頁、GitHub，甚至 ChatGPT iOS 應用。功能已包含在 ChatGPT Plus、Pro、Business、Edu 及 Enterprise 方案中

此次升級的目標是打造一個能深刻理解使用者工作上下文、與開發者並肩作戰、並能可靠地為團隊分擔任務的程式設計隊友

GPT-5-Codex本體

GPT-5-Codex 經過專門訓練，具備更強的可引導性，能更精準地遵循 AGENTS.md 檔案中的指令，並生成更高品質的程式碼。開發者只需簡單描述需求，即可獲得符合預期的成果，無需再為編碼風格或程式碼整潔度編寫冗長的指令

1. 在關鍵基準測試中表現卓越

GPT-5-Codex 的強大能力在多個行業標準和內部基準測試中得到了驗證

在SWE-bench Verified (n=500)基準測試中，GPT-5-Codex 的精準率達到 74.5%，超越了 GPT-5 的 72.8%

在極具挑戰性的程式碼重構任務（涵蓋 Python, Go, OCaml 等語言）上，其性能提升尤為顯著，精準率從 33.9% 大幅躍升至 51.3%。一個典型的例子是，它成功處理了一個來自 Gitea 的 Pull Request，該任務涉及修改 232 個檔案和 3,541 行程式碼

2. 動態調整思考時間，兼顧速度與深度

GPT-5-Codex 的一個關鍵特性是它能根據任務的複雜性動態調整計算資源。對於定義明確的小請求或即時聊天，其響應會非常迅速；而對於大型重構等複雜任務，它會投入更長的時間進行持久、獨立的執行。測試結果顯示，GPT-5-Codex 能夠連續獨立工作超過7個小時，不斷迭代實現方案、修複測試失敗，並最終成功交付

這種效率也體現在tokens生成上。根據 OpenAI 內部員工流量資料顯示，對於簡單任務（token生成量最低的10%），GPT-5-Codex 比 GPT-5 減少了93.7%的token。而對於需要深度推理的複雜任務（token生成量最高的10%），它會投入更多資源，token生成量增加了102.2%，以確保高品質的輸出

3. 更精準、更高品質的程式碼審查

GPT-5-Codex 經過專門訓練，擅長髮現程式碼中的關鍵缺陷。它會導航程式碼庫，梳理依賴關係，並運行程式碼和測試來驗證正確性。評估結果顯示：

不正確評論大幅減少：由 GPT-5-Codex 提出的不正確評論比例從 13.7% 驟降至 4.4%。

高影響力評論顯著增加：其提出的高影響力評論比例從 39.4% 提升至 52.4%

更聚焦重點：它平均每個 PR 提出的評論數更少（從1.32降至0.93），這意味著它更專注於提出關鍵、有價值的建議，避免了資訊過載

此外，GPT-5-Codex 在前端任務中也非常強，能夠建立美觀的桌面和移動應用。具備多模態能力，可以接收使用者提供的圖像或截圖作為輸入，在雲端工作中直觀地檢查其進度，並向使用者展示其工作的截圖

需要注意的是： 與通用模型 GPT-5 不同，官方建議僅在 Codex 或類似的代理式程式設計環境中使用

Codex 生態系統全面更新

為使 Codex 成為更出色的結對程式設計師，其整個生態系統也獲得了全面更新

1. 全新 Codex CLI

OpenAI 依據社區的反饋，對開放原始碼的 Codex CLI 進行了重建。現在，它支援：

附加和分享圖像：直接在 CLI 中傳送截圖、線框圖和設計稿，以建立清晰的設計共識

智能任務跟蹤：對於複雜工作，Codex 會生成一個待辦事項列表來跟蹤進度

強大的工具集：整合了網頁搜尋、MCP 等工具，以連接外部系統，且工具使用更加精準

最佳化的終端 UI：工具呼叫和程式碼差異（diffs）的展示格式更清晰易讀

簡化的審批模式：提供唯讀、自動（工作區外需審批）和完全訪問三種模式，並支援壓縮對話狀態以管理長會話。詳情請看 Codex CLI 快速入門

2. Codex IDE 擴展

Codex 現已深入整合到開發者的 IDE 中，支援 VS Code、Cursor 及其他 VS Code 分支

利用本地上下文：Codex 能利用使用者已打開的檔案和選中的程式碼，讓使用者用更短的提示獲得更快、更精準的結果

無縫雲端協作：使用者可以在 IDE 內建立雲端任務、跟蹤進度、審查結果，甚至直接在 IDE 中打開雲端任務進行最後修改，Codex 會全程保持上下文同步。詳情請看 IDE 擴展快速入門

3. Codex 雲

雲端代理現在更貼近開發工作流，讓使用者無需離開編輯器或 GitHub 即可委派任務

性能大幅提升：通過容器快取技術，新任務和後續操作的中位完成時間縮短了90%

自動化環境設定：Codex 會自動掃描並執行項目中的設定指令碼（如 pip install），以配置運行環境和依賴

可視化工作流：與 CLI 類似，使用者可以使用圖像分享設計規範或UI錯誤。Codex 可以在自己的瀏覽器中建構、迭代，並附上最終成果的截圖到任務或 GitHub PR 中。詳情請看官方檔案

https://developers.openai.com/codex/cloud

4. 智能程式碼審查

Codex 的程式碼審查遠超傳統的靜態分析工具。它能理解 PR 的真實意圖，結合整個程式碼庫和依賴關係進行推理，並執行程式碼和測試來驗證行為

自動化審查流程：為 GitHub 倉庫開啟後，Codex 會在 PR 從草稿變為就緒時自動進行審查並行布分析報告

互動式修復：如果 Codex 建議修改，使用者可以直接在 PR 評論區要求它來實施

按需觸發：使用者也可以通過 @codex review 或更具體的指令（如 @codex review for security vulnerabilities）來隨時請求審查

在 OpenAI 內部，Codex 已經審查了其絕大多數的 PR，每天捕獲數百個問題，極大地提升了團隊的開發速度和信心

https://developers.openai.com/codex/cloud/code-review

安全

沙盒環境：默認情況下，無論本地還是雲端，Codex 都在停用了網路訪問的沙盒中運行，以防止有害操作和提示注入攻擊

權限控制：在執行潛在危險操作前，Codex 會請求使用者許可。開發者可以根據風險承受能力自訂安全設定，例如在雲端限制網路訪問到受信任的域，或在 CLI/IDE 中審批高權限命令

透明與可追溯：Codex 會提供引用、終端日誌和測試結果，幫助使用者理解它的工作過程。官方始終建議將 Codex 視為輔助審查工具，而非人類審查的替代品

與 OpenAI 對 GPT-5 的方法一致，GPT-5-Codex 在生物和化學領域被視為高能力模型，並已實施了嚴格的安全措施來最小化相關風險。 (AI寒武紀)