#雲端整合
OpenAI 發佈 GPT-5.1-Codex-Max,反擊 Gemini 3 Pro
OpenAI 於 2025 年 11 月 19 日發佈了 GPT-5.1-Codex-Max,本質上是在原有 GPT-5.1-Codex 之上,對“長程編碼任務”和 agent 化工作流做的一次定向升級:底層換成新版推理基座模型,訓練資料更貼近真實軟體工程過程,包括 PR 建立、程式碼審查、前端開發和技術問答,並在訓練階段顯式針對 Codex CLI 和 Windows 環境做了適配。官方同時將其設為 Codex 系列默認模型,經由 Codex CLI、IDE 外掛、雲端整合和程式碼評審等通道提供給現有使用者,API 計畫稍後開放。基準表現與長程任務能力從已公開的基準資料看,Codex-Max 相對上一代 Codex 的提升是具體且可量化的,而不是“版本號一加、能力翻倍”式的包裝。公開資料與社區整理結果顯示,它在 SWE-Lancer IC SWE 上從 66.3% 提升到約 79.9%,在 SWE-Bench Verified 上從 73.7% 升至 77.9%,Terminal-Bench 2.0 則從 52.8% 提升到 58.1%。這些測試運行在較高推理檔位,並結合所謂“compaction”機制:當上下文臨近極限時自動壓縮會話,僅保留關鍵要點,以便在單一任務中跨越百萬級 token。OpenAI 在產品文案和系統卡中反覆強調,Codex-Max 在內部環境下可以連續工作 24 小時以上,完成多階段重構、測試驅動迭代和自主演進式偵錯。這說明在 Codex 受控環境中,模型在多輪失敗和自我修正中仍能保持相對穩定的策略,而不僅僅是一次性給出答案。但這類長程任務的表現目前主要來自廠商自證和少量早期使用者反饋,在更複雜的企業程式碼庫和 CI/CD 流水線下能否復現,仍需要時間檢驗。OpenAI 同時表示,在中等推理強度下,Codex-Max 在保持或略微提升精準率的情況下,思考 token 消耗比上一代減少約 30%,理論上可以在不犧牲質量的前提下降低時延和成本。這些數字目前仍以官方披露為主,第三方系統化驗證尚不充分,更穩妥的做法是將其視為趨勢性訊號,而非精確定價依據。與 Gemini 3 Pro 的能力對比與 Gemini 3 Pro 的關係,比單純比較“誰更強”要複雜得多。DeepMind 的官方材料顯示,在 LiveCodeBench Pro 這類偏演算法競賽風格的基準上,Gemini 3 Pro 的 Elo 在 2400+ 區間,顯著高於此前的 GPT-5.1 系列;在若干長程、工具使用與博弈類任務中,Gemini 3 Pro 也有相對明顯的領先,被普遍視為“複雜推理 + 多模態 + agent 組合任務”上的強項。過去幾天的技術部落格與評測大多據此認為,Gemini 3 Pro 在“複雜推理 + 多模態 + agentic 任務”上,對 GPT-5.1 形成了階段性優勢。Codex-Max 引入後,這種對比出現了一些局部反轉。根據 OpenAI 自身資料和早期評測,在 SWE-Bench Verified 和 Terminal-Bench 2.0 這兩類更貼近真實工程和終端操作的基準上,Codex-Max 相對上一代 GPT-5.1-Codex 有明顯提升,並在部分設定下略高於當前公開版本的 Gemini 3 Pro。不過,這些對比往往使用不同 agent、不同終端環境和不同推理檔位,嚴格意義上的“同場雙盲”樣本並不多,目前更適合解讀為:在若干具體編碼基準上,兩者已進入“互有勝負”的狀態,而不是誰絕對壓制誰。更現實的判斷是:在日常“寫業務程式碼、修缺陷、補測試”這類任務中,兩者都足夠強,差異更可能體現在長任務穩定性、對特定平台和框架的適配程度,以及與現有工具鏈的整合深度。Codex-Max 更像是在 OpenAI / Codex 生態內部,把“工程 agent”這條線補足到不落於人,而 Gemini 3 Pro 則持續押注於“多模態 + 高階推理 + 超長上下文”的整體能力版圖。價格策略與“長任務經濟性”在經濟性方面,兩家目前採用的策略並不完全相同。Gemini 3 Pro 的 API 定價較為透明:在 200k token 內,每百萬輸入約 2 美元、輸出約 12 美元;超過 200k 之後分別翻倍到 4 美元和 18 美元,明顯通過價格對超長上下文收取溢價,同時在宣傳中頻繁強調“100 萬 token 上下文”的賣點。相比之下,OpenAI 尚未單獨公佈 Codex-Max 的 API 價格,而是強調通過 compaction 和思考 token 最佳化來降低有效成本,即在模型內部結構和推理策略上做文章,而不是在價格表上人為劃分“短上下文”和“長上下文”檔位。對真正會跑長任務的團隊而言,最終帳單會同時受兩類因素影響:模型本身的 token 效率,以及平台對長上下文的計費方式。現階段,大致可以預期 Gemini 3 Pro 在極長上下文、多模態場景的成本會相對更高,而 Codex-Max 在純文字 / 程式碼長任務中的“性價比”則需要依賴未來更多第三方使用資料來判斷。工具鏈與開發流程的策略差異從產品路線看,兩家在“工程 agent”問題上的回答明顯不同。OpenAI 的選擇,是儘量不觸碰開發者的主戰場:Codex-Max 深度嵌入 Codex CLI、傳統 IDE 外掛、雲端整合與程式碼評審流程,尊重現有的 Git / CI/CD 流程,只在原有流水線上引入更強的自動化能力。這種路徑的現實意義在於,企業不必在 IDE、原始碼託管或 CI 系統上做大幅遷移,只需要在權限和審計層面逐步提高對 agent 的信任度。Gemini 3 Pro 則試圖配合 Antigravity 直接重構開發環境。Antigravity 的設計圍繞多 agent 管理、Artifacts 記錄(計畫、執行證據、測試結果)以及自動UI 操作展開,把“agent 作為一等公民”的假設寫進 IDE 形態。這意味著,選擇這一路線的團隊,在獲得更激進自動化可能性的同時,也要面對 IDE 層級的範式遷移成本。短期內,OpenAI 路線的落地阻力顯然更小;但如果 Antigravity 這種模式在部分大廠內部證明有效,長期對開發工具和雲平台格局的衝擊可能更直接。安全、治理與不確定性在安全治理方面,OpenAI 的系統卡指出,GPT-5.1-Codex-Max 在網路安全方向已經“非常有能力”,但尚未達到其內部定義的“高能力”閾值,在生物安全方向則按高能力模型管理,配套更嚴格的使用限制和監控。為降低長程 agent 帶來的額外風險,OpenAI 在 Codex 產品層疊加了沙箱執行、可配置的網路訪問,以及行為監控與速率限制等機制。這些措施能在多大程度上覆蓋真實企業環境下的濫用場景,目前仍缺乏足夠公開案例,只能說方向合理,但效果有待觀察。Gemini 3 Pro 在官方材料中同樣強調安全評估與企業級控制選項,但在具體編碼任務下的攻擊能力、越權操作風險等方面披露更為克制,外部公開資料主要來自綜合評估和少量第三方測試。對有合規壓力的組織來說,一旦開始認真嘗試 24 小時等級的自治編碼任務,技術問題之外,很快會面臨審計、責任界定甚至監管層面的額外要求,這部分目前基本還處在“實踐先於規範”的階段。初步判斷與現實決策點綜合來看,GPT-5.1-Codex-Max 更像一場經過精心選擇發佈時間的防守反擊:在 Gemini 3 Pro 通過一系列基準與多模態能力佔據敘事高地之後,OpenAI 把“編碼專用”這一子類重新拉回到一個至少不落下風的位置,並在 SWE-Bench、Terminal-Bench 等對開發者更敏感的指標上爭取了部分優勢。然而,無論是 Codex-Max 還是 Gemini 3 Pro,目前都更適合被視為“強力助手 + 局部自治 agent”,距離可以完全接管軟體工程流水線、在企業環境中大規模無監督運轉,還有明顯距離。在這種背景下,對真正需要做技術選型的團隊來說,現在去糾結某個單一基準上差一兩個百分點的勝負意義有限,更現實的決策維度可能包括:現有工具鏈與那個生態的耦合程度更深,組織內開發者對那一套平台更熟悉,在安全與審計層面能接受怎樣的自治邊界,以及是否有意願為 Antigravity 這類新範式額外付出一輪遷移成本。至於長程 agent 是否真能在實戰項目中穩定跑完 24 小時以上任務,這件事大機率只能交給未來一兩年的真實項目和內部 A/B 測試來給答案。 (InfraNative)