OpenAI深夜雙王炸!GPT-5.1 Pro緊急發佈,降維打擊Gemini 3

【新智元導讀】今天,是OpenAI的主場,同一天祭出兩大殺器——GPT-5.1 Pro和GPT-5.1-Codex-Max。最強編碼模型首次採用「壓縮」機制,在數百萬token上連續程式設計超24小時。

AI圈一日一更的頻率,真的是有點跟不住了....

前兩天,先是Grok 4.1、Gemini 3 Pro發佈,今天OpenAI GPT-5.1 Pro也靜默登場了!

沒有一篇博文,僅有兩句話官宣。

眾所周知,GPT-5.1主打「情商智商」雙強,Pro無疑將這兩大優勢推向更高層次。

同一天,OpenAI全新王牌程式碼模型GPT-5.1-Codex-Max,已經在Codex平台正式上線了!

從命名上不難看出,它是基於GPT-5.1搭載,並在軟體、工程、數學、研究等智能體任務專門訓練。

由此,GPT-5.1-Codex-Max能力更強、反應更快,而且用起來更省token。

新模型是專為「長時間、高強度」的開發任務而設計。

就這麼說吧,它能連續自主工作超24小時,一口氣處理數百萬token,直接交付成果的那種。

這恰恰印證了,Scaling Law還在永續。

這是因為,GPT-5.1-Codex-Max是OpenAI首個「原生支援壓縮」機制的模型,可以跨越多個上下文工作。

這下,像項目重構、深度偵錯、多小時智能體循環這些任務,它都能穩穩接住。

目前,GPT-5.1 Pro已向所有Pro訂閱使用者推出。

GPT-5.1-Codex-Max已在Codex 中支援CLI、IDE 擴展、雲端和程式碼審查使用,API介面也將很快上線。

2025年臨近收官,AI終極對決一觸即發,GPT-5.1 Pro與Gemini 3 Pro之間,勝負之手將落於誰家?

OpenAI最強程式設計模型

這次的GPT-5.1-Codex-Max,那可是在「真實戰場」上煉出來的!

諸如在PR建立、程式碼審查、前端開發、問答等工程師常見任務中,全部做過專門訓練。

在多項前沿編碼評測中,它都輕鬆超越了OpenAI此前所有模型。

還有在SWE-bench Verified上的評估結果中,GPT-5.1-Codex-Max拿下了77.9%的高分。

GPT-5.1-Codex-Max不僅跑分高,實際體驗更是大升級!

它是OpenAI首個可以在Windows環境中運行的模型,訓練中還針對Codex CLI協作場景做了最佳化,更好用了。

思考token暴降30%

不僅如此,GPT-5.1-Codex-Max用起來也更省錢了。

在同樣「medium」(中等)推理強度下,它不光表現比GPT-5.1-Codex更好,而且思考過程所用的token量減少約30%。

對於不敏感於延遲的任務,新增的「Extra High」(xhigh)推理強度,可花費更多時間獲得優質答案。

不過,日常使用的話,OpenAI還是推薦medium。

token省下來了,這就意味著在實際開發中,成本可以大幅降低,可謂開發者的福音。

下面這些demo中,清晰呈現了GPT-5.1-Codex-Max和GPT-5.1-Codex使用token差異。即便是token減少,前者在前端設計中的功能和顏值都不輸以往。

比如,讓它們生成一個瀏覽器應用——即可互動的CartPole強化學習沙盒,需要包括小型策略梯度控製器、指標面板,以及一個SVG網路可視化器。


上:GPT-5.1-Codex-Max;下:GPT-5.1-Codex

GPT-5.1-Codex-Max僅用27k思考token完成了任務,而且程式碼更加精簡。

這個demo要求的是,做一個太陽係引力井沙盒,需要可視化物體在2D引力勢場中的運動,並支拖動平移檢視、環繞觀察場景。


上:GPT-5.1-Codex-Max;下:GPT-5.1-Codex

GPT-5.1-Codex-Max同樣用了更少的token,和更精煉的程式碼完成了任務。

GPT-5.1-Codex-Max這麼強,是因為採用了一套全新機制。

狂跑一天,全是「壓縮」

「壓縮」機制讓GPT-5.1-Codex-Max突破限制,處理那些因上下文太長而原本無法完成的任務。

比如,複雜重構和長時間智能體循環。

它會自動整理歷史內容,篩選保留最關鍵的上下文,從而實現在長時間跨度內連貫性。

在Codex中,當接近上下文上限時,GPT-5.1-Codex-Max會自動執行會話壓縮,刷新上下文,並多次重複這一過程直到任務完成。

下面這個案例中,GPT-5.1-Codex-Max正在自主重構Codex CLI的開源倉庫。

可以看到,當上下文快滿時,它會自動壓縮釋放空間,從而在不丟失進度情況下完成任務。

視訊已經過剪輯和加速處理,以便更清楚地展示過程

內部測試顯示,GPT-5.1-Codex-Max能連續自主工作超24小時。

在此期間,可以不斷迭代實現、修複測試失敗,並最終交付可用成果。

這種長時間、連貫的任務能力,是邁向更通用、更可靠AI系統的通用基石。

在METR評估中,GPT-5.1-Codex-Max長程任務能力,成為了新的SOTA。

在OpenAI內部,已有95%工程師每周都在用Codex,自從引入之後,團隊的Pull Request數量提升約70%。

現在,GPT-5.1-Codex-Max搭配著持續升級的CLI、IDE 擴展、雲整合與程式碼審查工具,程式設計效率直接起飛。

一些網友試用第一手感覺,瞬間驚豔了。


GPT-5.1 Pro上線,首測來了

至於GPT-5.1 Pro,正如開篇所說,OpenAI只是在版本更新日誌裡寫了兩段介紹。

雖然官方沒有單開一篇部落格,但提前拿到內測資格的大佬們,都非常興奮地在第一時間放出了自己的體驗感受。

對於GPT-5.1迭代後的性能,Epoch AI三方評估後稱,幾乎與GPT-5實力相當。

它們在high(高)推理模式下,能力指數(ECI)得分均151。

傑克森實驗室教授、人類免疫學家Derya Unutmaz表示,性能相較之前明顯提升了一個檔次的GPT-5.0 Pro,是他現在最喜愛的模型。

在下面的例子中,他分別向5.0和5.1 Pro詢問了免疫學領域最重要的未解之謎,並要求這兩個模型深入淺出地剖析每個問題,以便讓沒有免疫學學位的人也能理解其重要性。

其中,前兩個回覆來自GPT-5.1 Pro,接下來的兩個較短回覆來自GPT-5.0。

可以看到,GPT-5.1 Pro明顯更勝一籌,因為它能讓沒有免疫學背景的人更輕鬆地理解這些解釋,並且清晰地闡明了這些問題的重要性和潛在價值。

對比而言,GPT-5.1 Pro在清晰度和洞察力方面都有質的提升。它的回答在保持深度的同時,內容更完整自洽、更形象生動、也更易於理解。

雖然GPT-5.0的回覆在內容上也同樣出色,但剖析得不夠透徹。

GPT-5.1 Pro
GPT-5.0

HyperWrite AI的CEO Matt Shumer也在一篇超級長的體驗報告中表示:GPT-5.1 Pro是目前最好的「大腦」,雖然很慢,但深思熟慮。

  • 對於大多數日常工作,Gemini 3更好;畢竟在一個獨立的介面中等待10分鐘才能得到答案顯然並不理想。
  • 但對於任何需要深入思考、規劃和研究的任務,以及任何必須一次性做對的事情,GPT-5.1 Pro更好。
  • 反應較慢,但聰明得離譜

它不僅比大多數人類更擅長推理,而且在處理真正棘手的難題時,也比其他任何模型都要聰明。

預計幾天內,就會出現它解決了一些人們認為當今AI系統力所不及的問題的例子。

  • 指令遵循能力是最大的亮點

它真的會嚴格執行你的要求,而不會跑偏。

對於嚴肅的編碼任務,它給人的感覺不那麼像一個「助手」,而更像是一個依據規格說明書工作的外包工程師(那怕你的規格說明書有點模糊)。

  • 前端和使用者體驗設計,以及寫作,都是弱項

不管是創意寫作,還是設計漂亮的UI,Gemini 3都要更勝一籌。

  • 但最大的弱點還是介面

它只能在ChatGPT中使用,無法整合到IDE裡,也無法連接到其他工具鏈中。這一點與GPT-5 Pro如出一轍。 (新智元)