OpenAI最強程式設計模型登場！連續幹活24小時，一次處理幾百萬token

2025/11/20

•

Token效率的提升有望轉化為使用成本的下降。

智東西11月20日報導，今天，OpenAI發佈了其最新的智能體程式設計模型GPT‑5.1‑Codex‑Max，這一模型基於OpenAI最新的推理模型打造，專門面向軟體工程、研究、數學等複雜任務進行訓練。

與此同時，OpenAI還將GPT-5 Pro升級為GPT-5.1 Pro，據說這一模型在寫作、資料分析等方面的能力比前一代模型更強。不過，OpenAI並未披露更多GPT-5.1 Pro的細節。

GPT‑5.1‑Codex‑Max能在單一任務中連貫地處理上百萬個token，跨多個上下文窗口運行。這得益於一項叫做壓縮（compaction）的技術：模型在接近上下文窗口限制時會自動壓縮上下文，保留重要資訊，並賦予對話新的上下文窗口，直到任務完成。

這一模型是由OpenAI研究科學家Noam Brown牽頭完成的，他在OpenAI專門從事測試時計算，也就是推理的研究。

OpenAI認為，能夠持續進行連貫工作，是邁向更通用、更可靠AI系統的基礎能力。GPT-5.1-Codex-Max可以獨立工作數小時。在OpenAI的內部評估中，GPT-5.1-Codex-Max甚至可以針對同一任務連續工作24小時，持續迭代實現，修複測試失敗，最終交付成功的結果。

性能方面，GPT‑5.1‑Codex‑Max在多個程式設計基準測試中評測優於前代GPT‑5.1‑Codex。該模型還是OpenAI訓練的首個適用於在Windows環境裡進行程式設計操作的模型。

推理效率上，GPT‑5.1‑Codex‑Max在中等推理強度下完成任務時，所使用的思考token比GPT‑5.1‑Codex少約30%，但仍能取得更高精準性。

對於不那麼敏感延遲但追求質量的任務，還可以開啟超高強度推理，讓模型花更多時間思考，輸出更優解。

OpenAI預計，這種token效率的提升，可以為開發者帶來實際的成本節省。

目前，GPT-5.1-Codex-Max現已在Codex中提供，可用於CLI、IDE擴展、雲端和程式碼審查，API訪問也即將推出。

OpenAI分享了GPT-5.1-Codex-Max打造的多個網頁。根據提示詞，GPT-5.1-Codex-Max直接打造了一個完全運行在瀏覽器中的CartPole（倒立擺）強化學習沙箱。

使用者不僅可以觀看倒立擺的動態，還能通過內建的策略梯度控製器直接訓練模型，讓AI在實驗中不斷最佳化策略。

它提供了神經網路可視化功能，在訓練或推理時，使用者可以即時觀察模型的權重和啟動狀態，直觀理解決策機制。

此外，應用介面清晰展示了每個回合的步數和獎勵，並記錄了上一次存活時間及歷史最佳存活時間，讓訓練過程和成果一目瞭然。

在成功實現類似功能的前提下，GPT-5.1-Codex-Max所使用的token數量為27k，而GPT-5.1-Codex的用量為37k。

GPT-5.1-Codex-Max還開發出一個太陽系重力的模擬器。這一應用的目標是讓使用者直接觀察天體的運動軌跡，通過拖曳、點選與操控介面元素，直觀理解軌道、速度與引力之間的關係。

這一網頁的功能運行流暢，提示詞中的功能都得到了不錯的實現。使用者可點選畫布放置帶質量的天體，再次點選即可為測試設定初速度向量，借此建構出任意的簡易行星系統。

介面提供用於調節中心天體質量與整體時間縮放因子的滑塊，允許使用者觀察同一軌道結構在不同物理條件下的演化過程。

GPT-5.1-Codex-Max打造的下一個案例，可幫助使用者直觀、動態的方式理解光在兩種介質介面上的折射規律——斯涅爾定律（Snell’s Law）。

使用者可以通過左右滑塊調節介質1與介質2的折射率。折射率改變時，介面即時更新折射角度，呈現不同光學環境下的光線偏折情況。

也有不少網友分享了自己的使用體驗。這位網友試著讓昨天發佈的Gemini 3 Pro和GPT-5.1-Codex-Max對決，提示詞是建立一個鵜鶘騎自行車的SVG。

可以看到，GPT-5.1-Codex-Max打造的鵜鶘、自行車等元素明顯包含更多細節，也更逼真。

英國定製化賀卡公司Moonpig的AI部門負責人Peter Gostev分享，自己試著讓GPT-5.1-Codex-Max打造了一個金門大橋模擬器，他稱這絕對是自己從類似提示詞中獲得的最好的效果。

與GPT-5.1-Pro相比，Gostev認為GPT-5.1-Codex-Max明顯更勤快，而且速度也更快。要讓GPT-5.1-Pro完成類似的效果，需要不斷指出問題，給出明確要求，GPT-5.1-Codex-Max則更有主動性。

AI工程師Peter Dedene分享，自己體驗時發現，GPT-5.1-Codex-Max盯著問題看了5分鐘，決定以後再處理，自己以前從沒見過Codex這麼做。在他看來，模型似乎已經擁有意識了。

不過，需要注意的是，隨著模型能力的持續提升，安全性也成為一大挑戰。OpenAI稱GPT-5.1-Codex-Max尚未在內部的Preparedness Framework中達到“高等級網路安全能力”，不過其安全能力已經是業內迄今為止最強大的。

目前，Codex系列模型默認運行在高度隔離的安全沙箱中，檔案寫入僅限自身工作空間，網路訪問被關閉，除非開發者主動啟用。這些措施可減少提示詞注入（prompt injection）等風險。

OpenAI希望通過漸進式部署的方法從真實世界收集反饋，並及時更新模型的安全防護。

從GPT-5.1-Codex-Max可以看出，新一代程式設計模型已不再是簡單的程式碼生成器，而是能夠持續工作、自動偵錯、主動規劃的程式設計智能體。其長時推理、上下文壓縮、自我修復等能力，讓模型能獨立完成項目級任務。

隨著運行成本下降、安全沙箱強化、能力全面增強，未來的軟體開發方式也可能出現變化，從“寫程式碼”轉向“描述需求+稽核結果”，智能體有望承擔更多實現與迭代工作。 (智東西)