OpenAI深夜雙王炸！GPT-5.1 Pro緊急發佈，降維打擊Gemini 3

2025/11/20

•

【新智元導讀】今天，是OpenAI的主場，同一天祭出兩大殺器——GPT-5.1 Pro和GPT-5.1-Codex-Max。最強編碼模型首次採用「壓縮」機制，在數百萬token上連續程式設計超24小時。

AI圈一日一更的頻率，真的是有點跟不住了....

前兩天，先是Grok 4.1、Gemini 3 Pro發佈，今天OpenAI GPT-5.1 Pro也靜默登場了！

沒有一篇博文，僅有兩句話官宣。

眾所周知，GPT-5.1主打「情商智商」雙強，Pro無疑將這兩大優勢推向更高層次。

同一天，OpenAI全新王牌程式碼模型GPT-5.1-Codex-Max，已經在Codex平台正式上線了！

從命名上不難看出，它是基於GPT-5.1搭載，並在軟體、工程、數學、研究等智能體任務專門訓練。

由此，GPT-5.1-Codex-Max能力更強、反應更快，而且用起來更省token。

新模型是專為「長時間、高強度」的開發任務而設計。

就這麼說吧，它能連續自主工作超24小時，一口氣處理數百萬token，直接交付成果的那種。

這恰恰印證了，Scaling Law還在永續。

這是因為，GPT-5.1-Codex-Max是OpenAI首個「原生支援壓縮」機制的模型，可以跨越多個上下文工作。

這下，像項目重構、深度偵錯、多小時智能體循環這些任務，它都能穩穩接住。

目前，GPT-5.1 Pro已向所有Pro訂閱使用者推出。

GPT-5.1-Codex-Max已在Codex 中支援CLI、IDE 擴展、雲端和程式碼審查使用，API介面也將很快上線。

2025年臨近收官，AI終極對決一觸即發，GPT-5.1 Pro與Gemini 3 Pro之間，勝負之手將落於誰家？

OpenAI最強程式設計模型

這次的GPT-5.1-Codex-Max，那可是在「真實戰場」上煉出來的！

諸如在PR建立、程式碼審查、前端開發、問答等工程師常見任務中，全部做過專門訓練。

在多項前沿編碼評測中，它都輕鬆超越了OpenAI此前所有模型。

還有在SWE-bench Verified上的評估結果中，GPT-5.1-Codex-Max拿下了77.9%的高分。

GPT-5.1-Codex-Max不僅跑分高，實際體驗更是大升級！

它是OpenAI首個可以在Windows環境中運行的模型，訓練中還針對Codex CLI協作場景做了最佳化，更好用了。

思考token暴降30%

不僅如此，GPT-5.1-Codex-Max用起來也更省錢了。

在同樣「medium」（中等）推理強度下，它不光表現比GPT-5.1-Codex更好，而且思考過程所用的token量減少約30%。

對於不敏感於延遲的任務，新增的「Extra High」（xhigh）推理強度，可花費更多時間獲得優質答案。

不過，日常使用的話，OpenAI還是推薦medium。

token省下來了，這就意味著在實際開發中，成本可以大幅降低，可謂開發者的福音。

下面這些demo中，清晰呈現了GPT-5.1-Codex-Max和GPT-5.1-Codex使用token差異。即便是token減少，前者在前端設計中的功能和顏值都不輸以往。

比如，讓它們生成一個瀏覽器應用——即可互動的CartPole強化學習沙盒，需要包括小型策略梯度控製器、指標面板，以及一個SVG網路可視化器。

上：GPT-5.1-Codex-Max；下：GPT-5.1-Codex

GPT-5.1-Codex-Max僅用27k思考token完成了任務，而且程式碼更加精簡。

這個demo要求的是，做一個太陽係引力井沙盒，需要可視化物體在2D引力勢場中的運動，並支拖動平移檢視、環繞觀察場景。

上：GPT-5.1-Codex-Max；下：GPT-5.1-Codex

GPT-5.1-Codex-Max同樣用了更少的token，和更精煉的程式碼完成了任務。

GPT-5.1-Codex-Max這麼強，是因為採用了一套全新機制。

狂跑一天，全是「壓縮」

「壓縮」機制讓GPT-5.1-Codex-Max突破限制，處理那些因上下文太長而原本無法完成的任務。

比如，複雜重構和長時間智能體循環。

它會自動整理歷史內容，篩選保留最關鍵的上下文，從而實現在長時間跨度內連貫性。

在Codex中，當接近上下文上限時，GPT-5.1-Codex-Max會自動執行會話壓縮，刷新上下文，並多次重複這一過程直到任務完成。

下面這個案例中，GPT-5.1-Codex-Max正在自主重構Codex CLI的開源倉庫。

可以看到，當上下文快滿時，它會自動壓縮釋放空間，從而在不丟失進度情況下完成任務。

視訊已經過剪輯和加速處理，以便更清楚地展示過程

內部測試顯示，GPT-5.1-Codex-Max能連續自主工作超24小時。

在此期間，可以不斷迭代實現、修複測試失敗，並最終交付可用成果。

這種長時間、連貫的任務能力，是邁向更通用、更可靠AI系統的通用基石。

在METR評估中，GPT-5.1-Codex-Max長程任務能力，成為了新的SOTA。

在OpenAI內部，已有95%工程師每周都在用Codex，自從引入之後，團隊的Pull Request數量提升約70%。

現在，GPT-5.1-Codex-Max搭配著持續升級的CLI、IDE 擴展、雲整合與程式碼審查工具，程式設計效率直接起飛。

一些網友試用第一手感覺，瞬間驚豔了。

GPT-5.1 Pro上線，首測來了

至於GPT-5.1 Pro，正如開篇所說，OpenAI只是在版本更新日誌裡寫了兩段介紹。

雖然官方沒有單開一篇部落格，但提前拿到內測資格的大佬們，都非常興奮地在第一時間放出了自己的體驗感受。

對於GPT-5.1迭代後的性能，Epoch AI三方評估後稱，幾乎與GPT-5實力相當。

它們在high（高）推理模式下，能力指數（ECI）得分均151。

傑克森實驗室教授、人類免疫學家Derya Unutmaz表示，性能相較之前明顯提升了一個檔次的GPT-5.0 Pro，是他現在最喜愛的模型。

在下面的例子中，他分別向5.0和5.1 Pro詢問了免疫學領域最重要的未解之謎，並要求這兩個模型深入淺出地剖析每個問題，以便讓沒有免疫學學位的人也能理解其重要性。

其中，前兩個回覆來自GPT-5.1 Pro，接下來的兩個較短回覆來自GPT-5.0。

可以看到，GPT-5.1 Pro明顯更勝一籌，因為它能讓沒有免疫學背景的人更輕鬆地理解這些解釋，並且清晰地闡明了這些問題的重要性和潛在價值。

對比而言，GPT-5.1 Pro在清晰度和洞察力方面都有質的提升。它的回答在保持深度的同時，內容更完整自洽、更形象生動、也更易於理解。

雖然GPT-5.0的回覆在內容上也同樣出色，但剖析得不夠透徹。

GPT-5.1 Pro

GPT-5.0

HyperWrite AI的CEO Matt Shumer也在一篇超級長的體驗報告中表示：GPT-5.1 Pro是目前最好的「大腦」，雖然很慢，但深思熟慮。

對於大多數日常工作，Gemini 3更好；畢竟在一個獨立的介面中等待10分鐘才能得到答案顯然並不理想。
但對於任何需要深入思考、規劃和研究的任務，以及任何必須一次性做對的事情，GPT-5.1 Pro更好。

反應較慢，但聰明得離譜

它不僅比大多數人類更擅長推理，而且在處理真正棘手的難題時，也比其他任何模型都要聰明。

預計幾天內，就會出現它解決了一些人們認為當今AI系統力所不及的問題的例子。

指令遵循能力是最大的亮點

它真的會嚴格執行你的要求，而不會跑偏。

對於嚴肅的編碼任務，它給人的感覺不那麼像一個「助手」，而更像是一個依據規格說明書工作的外包工程師（那怕你的規格說明書有點模糊）。

前端和使用者體驗設計，以及寫作，都是弱項

不管是創意寫作，還是設計漂亮的UI，Gemini 3都要更勝一籌。

但最大的弱點還是介面

它只能在ChatGPT中使用，無法整合到IDE裡，也無法連接到其他工具鏈中。這一點與GPT-5 Pro如出一轍。 (新智元)

從這裡可透過《Google 新聞》追蹤鉅亨號創作者