Token效率的提升有望轉化為使用成本的下降。
智東西11月20日報導,今天,OpenAI發佈了其最新的智能體程式設計模型GPT‑5.1‑Codex‑Max,這一模型基於OpenAI最新的推理模型打造,專門面向軟體工程、研究、數學等複雜任務進行訓練。
與此同時,OpenAI還將GPT-5 Pro升級為GPT-5.1 Pro,據說這一模型在寫作、資料分析等方面的能力比前一代模型更強。不過,OpenAI並未披露更多GPT-5.1 Pro的細節。
GPT‑5.1‑Codex‑Max能在單一任務中連貫地處理上百萬個token,跨多個上下文窗口運行。這得益於一項叫做壓縮(compaction)的技術:模型在接近上下文窗口限制時會自動壓縮上下文,保留重要資訊,並賦予對話新的上下文窗口,直到任務完成。
這一模型是由OpenAI研究科學家Noam Brown牽頭完成的,他在OpenAI專門從事測試時計算,也就是推理的研究。
OpenAI認為,能夠持續進行連貫工作,是邁向更通用、更可靠AI系統的基礎能力。GPT-5.1-Codex-Max可以獨立工作數小時。在OpenAI的內部評估中,GPT-5.1-Codex-Max甚至可以針對同一任務連續工作24小時,持續迭代實現,修複測試失敗,最終交付成功的結果。
性能方面,GPT‑5.1‑Codex‑Max在多個程式設計基準測試中評測優於前代GPT‑5.1‑Codex。該模型還是OpenAI訓練的首個適用於在Windows環境裡進行程式設計操作的模型。
推理效率上,GPT‑5.1‑Codex‑Max在中等推理強度下完成任務時,所使用的思考token比GPT‑5.1‑Codex少約30%,但仍能取得更高精準性。
對於不那麼敏感延遲但追求質量的任務,還可以開啟超高強度推理,讓模型花更多時間思考,輸出更優解。
OpenAI預計,這種token效率的提升,可以為開發者帶來實際的成本節省。
目前,GPT-5.1-Codex-Max現已在Codex中提供,可用於CLI、IDE擴展、雲端和程式碼審查,API訪問也即將推出。
OpenAI分享了GPT-5.1-Codex-Max打造的多個網頁。根據提示詞,GPT-5.1-Codex-Max直接打造了一個完全運行在瀏覽器中的CartPole(倒立擺)強化學習沙箱。
使用者不僅可以觀看倒立擺的動態,還能通過內建的策略梯度控製器直接訓練模型,讓AI在實驗中不斷最佳化策略。
它提供了神經網路可視化功能,在訓練或推理時,使用者可以即時觀察模型的權重和啟動狀態,直觀理解決策機制。
此外,應用介面清晰展示了每個回合的步數和獎勵,並記錄了上一次存活時間及歷史最佳存活時間,讓訓練過程和成果一目瞭然。
在成功實現類似功能的前提下,GPT-5.1-Codex-Max所使用的token數量為27k,而GPT-5.1-Codex的用量為37k。
GPT-5.1-Codex-Max還開發出一個太陽系重力的模擬器。這一應用的目標是讓使用者直接觀察天體的運動軌跡,通過拖曳、點選與操控介面元素,直觀理解軌道、速度與引力之間的關係。
這一網頁的功能運行流暢,提示詞中的功能都得到了不錯的實現。使用者可點選畫布放置帶質量的天體,再次點選即可為測試設定初速度向量,借此建構出任意的簡易行星系統。
介面提供用於調節中心天體質量與整體時間縮放因子的滑塊,允許使用者觀察同一軌道結構在不同物理條件下的演化過程。
GPT-5.1-Codex-Max打造的下一個案例,可幫助使用者直觀、動態的方式理解光在兩種介質介面上的折射規律——斯涅爾定律(Snell’s Law)。
使用者可以通過左右滑塊調節介質1與介質2的折射率。折射率改變時,介面即時更新折射角度,呈現不同光學環境下的光線偏折情況。
也有不少網友分享了自己的使用體驗。這位網友試著讓昨天發佈的Gemini 3 Pro和GPT-5.1-Codex-Max對決,提示詞是建立一個鵜鶘騎自行車的SVG。
可以看到,GPT-5.1-Codex-Max打造的鵜鶘、自行車等元素明顯包含更多細節,也更逼真。
英國定製化賀卡公司Moonpig的AI部門負責人Peter Gostev分享,自己試著讓GPT-5.1-Codex-Max打造了一個金門大橋模擬器,他稱這絕對是自己從類似提示詞中獲得的最好的效果。
與GPT-5.1-Pro相比,Gostev認為GPT-5.1-Codex-Max明顯更勤快,而且速度也更快。要讓GPT-5.1-Pro完成類似的效果,需要不斷指出問題,給出明確要求,GPT-5.1-Codex-Max則更有主動性。
AI工程師Peter Dedene分享,自己體驗時發現,GPT-5.1-Codex-Max盯著問題看了5分鐘,決定以後再處理,自己以前從沒見過Codex這麼做。在他看來,模型似乎已經擁有意識了。
不過,需要注意的是,隨著模型能力的持續提升,安全性也成為一大挑戰。OpenAI稱GPT-5.1-Codex-Max尚未在內部的Preparedness Framework中達到“高等級網路安全能力”,不過其安全能力已經是業內迄今為止最強大的。
目前,Codex系列模型默認運行在高度隔離的安全沙箱中,檔案寫入僅限自身工作空間,網路訪問被關閉,除非開發者主動啟用。這些措施可減少提示詞注入(prompt injection)等風險。
OpenAI希望通過漸進式部署的方法從真實世界收集反饋,並及時更新模型的安全防護。
從GPT-5.1-Codex-Max可以看出,新一代程式設計模型已不再是簡單的程式碼生成器,而是能夠持續工作、自動偵錯、主動規劃的程式設計智能體。其長時推理、上下文壓縮、自我修復等能力,讓模型能獨立完成項目級任務。
隨著運行成本下降、安全沙箱強化、能力全面增強,未來的軟體開發方式也可能出現變化,從“寫程式碼”轉向“描述需求+稽核結果”,智能體有望承擔更多實現與迭代工作。 (智東西)