GPT-5.2來了！首個「專家級」AI復仇成功，牛馬打工人終於得救了

2025/12/12

•

OpenAI十周年，那個地表最強的AI，又回來了！新一代GPT-5.2「全家桶」直接把GoogleGemini 3 Pro踩在腳下，專業實力更是堪比人類專家。

剛剛，OpenAI深夜炸場！

GPT-5.2震撼發佈，全球AI王座再次易主。

一共3款模型，今日全部上線：

GPT‑5.2 Instant（即時版）
GPT‑5.2 Thinking（思考版）
GPT‑5.2 Pro（專業版）

作為地表最強通用模型，GPT-5.2專為解決那些讓人頭禿的「高難度知識型工作」而生。

在OpenAI公佈的基準測試中，它幾乎對Gemini 3 Pro實現了全方位碾壓！

相比上一代，GPT-5.2在通用智能、超長文字理解、Agent工具呼叫以及視覺能力上，都實現了無死角的全面進化：

SWE-Bench Pro：狂砍55.6%高分；
LMArena程式碼競技場：僅次於Claude Opus 4.5，穩坐全球第二把交椅；
ARC-AGI-2：GPT-5.2 Pro以52.9%的絕對優勢登頂全球第一；
GDPval：覆蓋44種職業知識，表現直接超越人類行業專家。

一句話總結：讓它從頭到尾（端到端）搞定複雜的現實世界任務，目前沒有任何模型比它更強。

除了更強的能力之外，GPT-5.2還有更長的上下文，以及更新的知識！

40萬上下文窗口：輕鬆吞吐超長文字與複雜對話；
12.8萬最大輸出長度：深度長文生成不再中斷；
知識庫更新至2025年8月31日：掌握最新世界動態；
推理Token支援：專攻複雜邏輯與多步推理。

當然，在性能狂飆的同時，價格也是水漲船高。

相比GPT-5/5.1，GPT-5.2的輸入輸出價格貴了整整40%！

更強的推理、更快的速度，以及更高的價格，這一切似乎都在暗示——

OpenAI這次不僅升級了模型規模，背後的算力成本恐怕也達到了新的量級。

這一次，那叫一個專業！

一個月前，GPT-5.1以「情商智商雙高」的姿態登場，就迎面撞上了GoogleGemini 3這個強勁對手。

此次更新正值媒體報導OpenAI內部進入「紅色程式碼」緊急狀態。

但OpenAI高管向媒體表示，不應將GPT-5.2視為對Gemini 3的回應。OpenAI應用CEO對記者說：

我們宣佈進入「紅色程式碼」緊急狀態是為了向內部發出一個訊號，我們想要集中力量辦大事，這是一個確定優先事項和非優先事項的好辦法。

總的來說，我們用於開發ChatGPT的資源增加了，我認為這有助於該模型的發佈，但並不是它在這周發佈的唯一原因。

這一次，GPT-5.2主打一個專業知識型AI，正所謂「打工人的最佳工作模型」。

OpenAI華人研究員Yu Bai稱，「別看這只是一個小版本數迭代，那可是能力的一大躍升」。

那些人類專家耗費4-8小時完成的任務，在人類評估中，GPT-5.2的勝率高達70.9%。

GPT‑5.2不負眾望，在多項實際任務中表現得都更加出色——

建立電子表格、製作簡報、編寫程式碼、感知圖像、理解長上下文、使用工具、處理複雜的多步驟項目。

此前OpenAI的一份報告稱，ChatGPT每天能為企業使用者平均節省40–60分鐘，而重度使用者則表示每周能省下超過10小時。

總之，AI搞定「專業工作」才是硬道理！

擊敗人類專家，打工人狂喜

目前，GPT‑5.2 Thinking是用於現實世界專業用途的最佳模型。

在GDPval上，GPT‑5.2 Thinking創下了新的SOTA，並且是歷史第一個表現超過人類專家水平的模型。

根據人類專家的評判，GPT‑5.2 Thinking在GDPval知識工作任務中，70.9%的情況下擊敗或打平了頂尖行業專業人士。

在完成GDPval任務時，其速度比專家專業人士還要快11倍，成本還低於1%。

這表明，當與人類監督相結合時，GPT‑5.2可以有效輔助完成專業工作。

換句話說，無論是幫會計整理財報，替產品經理做PPT，還是給程式設計師當輔助寫碼的小助手，GPT-5.2都更得心應手。

在GDPval中，模型需要完成涵蓋美國GDP貢獻最大的前9個行業的44種職業的定義明確的工作。任務要求提供實際的工作成果，例如銷售簡報、會計電子表格、緊急護理時間表、製造圖表或短影片

在ChatGPT中，GPT‑5.2 Thinking擁有GPT‑5 Thinking所沒有的新工具。

此外，在針對初級投資銀行分析師電子表格建模的內部測試中，GPT-5.2 Thinking的平均每任務得分比GPT‑5.1高出9.3%，從59.1%上升到68.4%。

並排比較顯示，GPT‑5.2 Thinking生成的電子表格和PPT在複雜度和格式上都有所改進。

如下所示，一眼望去這種高難度的複雜表，GPT‑5.2 Thinking一句話生成，堪稱「人力資源規劃器」。

包括股權結構表，GPT-5.2 Thinking以資深銀行分析師的角色，完成了所有計算，且過程清晰可查。

而GPT-5.1 Thinking不僅錯誤地計算了種子輪、A輪和B輪的清算優先權，且大部分行都留白了，導致最終的股權回報計算出錯；而且還錯誤地在表頭行中插入了計算公式。

針對項目管理，GPT-5.2 Thinking以每項任務、時間為軸，給出了可視化直觀的總結。

相較之下，GPT-5.1 Thinking看著特別粗糙。

程式設計破紀錄，吞噬全端開發

當然了，在程式設計上，GPT-5.2也是王者中的王者！

在對現實世界軟體工程基準SWE-Bench Pro上，GPT‑5.2 Thinking創下了55.6%的新紀錄。

與僅測試Python的SWE-bench Verified不同，SWE-Bench Pro測試四種程式語言，具有更強的抗資料污染能力（contamination-resistant），並更具挑戰性、多樣性和工業相關性。

在SWE-Bench Pro中，模型會被給予一個程式碼庫，並且必須生成一個補丁來解決一個現實的軟體工程任務

在SWE-bench Verified上，GPT‑5.2 Thinking拿下了80%的高分。

這意味著，它可以更可靠地偵錯生產環境程式碼、實現功能請求、重構大型程式碼庫，並以更少的人工干預端到端地發佈修復。

在前端軟體工程方面，GPT‑5.2 Thinking也優於GPT‑5.1 Thinking。

早期測試者發現，它是全端工程師的強大日常夥伴，在前端開發和複雜或非常規UI工作（特別是涉及3D元素的工作）方面明顯更強。

接下來就讓我們看看，僅憑一段提示詞，GPT‑5.2都能做出些什麼來：

海浪模擬

Prompt: Create a single-page app in a single HTML file with the following requirements:- Name: Ocean Wave Simulation- Goal: Display realistic animated waves.- Features: Change wind speed, wave height, lighting.- The UI should be calming and realistic.

節日賀卡製作器

Prompt: Create a single-page app, in a single HTML file, that demonstrates a warm and fun holiday card! The card should be interactive and enjoyable for kids!- Have variety of items kids can drop in the UI; a few should be already placed by default- Also have fun sound interactions- Place many cute and fun stuff as much as possible- Animation like snowdrop should be used nicely

打字雨遊戲

Prompt: Create a single-page app in a single HTML file with the following requirements:- Name: Typing Rain- Goal: Type falling words before they reach the bottom.- Features: Increasing difficulty, accuracy tracker, score.- The UI should be the city background with animated raindrop words.

幻覺少，更清醒

GPT‑5.2 Thinking比GPT‑5.1 Thinking的幻覺更少。

在一組去標識化的ChatGPT查詢中，前者包含錯誤的回答相對減少了30%。

對於專業人士來說，這意味著在使用新模型進行研究、寫作、分析和決策支援時錯誤更少，在日常知識工作中更加可靠。

在長上下文推理方面，GPT‑5.2 Thinking樹立了新的行業標準。

在OpenAI MRCRv2上，新模型取得了領先的性能，基準OpenAI MRCRv2用於測試模型整合分佈在長文件中資訊。

諸如深度文件分析之類的現實世界任務，需要跨越數十萬個Token的相關資訊，而在這類任務上，GPT‑5.2 Thinking 比GPT‑5.1 Thinking精準得多。

特別是，它是OpenAI的第一個在4種MRCR變體（高達256kToken）上達到接近100%精準率的模型。

實際上，這足以讓專業人士用GPT‑5.2處理長文件，如報告、合同、研究論文、成績單和多檔案項目，而且同時在數十萬個Token之間保持連貫性和精準性。

也就是說，GPT‑5.2特別適合深度分析、綜合和複雜的多源工作流。

針對超出最大上下文窗口思考的任務，GPT‑5.2 Thinking相容OpenAI新的Responses「/compact」端點，這擴展了模型的有效上下文窗口。

這讓GPT‑5.2Thinking可以處理原本受限於上下文長度的更多工具密集型、長期運行的工作流。

視覺實力翻倍，秒懂複雜圖

GPT‑5.2 Thinking是OpenAI目前最強的視覺模型，在圖表推理和軟體介面理解方面的錯誤率大約減少了一半。

對於日常專業使用，這意味著該模型可以更準確地解讀儀表板、產品截圖、技術圖表和視覺報告，可支援金融、營運、工程、設計和客戶支援等以視覺資訊為核心的工作流。

與以前的模型相比，GPT‑5.2 Thinking對圖像中元素的位置有更強的掌握，這有助於完成相對佈局對解決問題起關鍵作用的任務。

在下面的示例中，模型被要求識別圖像輸入中的元件（在本例中為主機板）並返回帶有大致邊界框的標籤。

即使在低品質圖像上，GPT‑5.2也能識別主要區域並放置與每個元件的真實位置大致匹配的框，而GPT‑5.1僅標記了幾個部分，並且對其空間排列的理解要弱得多。

端到端工作流，重塑了

GPT‑5.2 Thinking展示了其在長多輪任務中可靠使用工具的能力，在Tau2-bench Telecom上創造了98.7%的新紀錄。

對於延遲敏感的用例，GPT‑5.2 Thinking在reasoning.effort='none'（無推理）下的表現也更好，大幅優於GPT‑5.1和GPT‑4.1。

對於專業人士來說，這轉化為更強的端到端工作流——例如解決客戶支援案例、從多個系統中提取資料、運行分析以及生成最終輸出，且步驟之間的中斷更少。

比如，當詢問一個需要多步解決的複雜客戶服務問題時，GPT-5.2可以更有效地協調多個智能體之間的完整工作流。

在下面的案例中，一位旅客報告了航班延誤、錯失轉機、需要在紐約過夜以及醫療座位要求。

GPT‑5.2管理了整個任務鏈——重新預訂、特殊協助座位和賠償，提供了比GPT‑5.1更完整的結果。

Prompt：我的航班從巴黎到紐約延誤了，我錯過了去奧斯汀的轉機。我的託運行李也不見了，我需要在紐約過夜。由於醫療原因，我還需要一個特殊的前排座位。你能幫我嗎？

獨立完成證明，顛覆科研範式

OpenAI的願景之一是AI加速科學研究，造福所有人。

為此，OpenAI一直與科學家合作並聽取他們的意見，探索AI如何加速他們的工作，已經取得了一些早期的合作實驗。

連結：https://cdn.openai.com/pdf/a3f3f76c-98bd-47a5-888f-c52c932a8942/colt-monotonicity-problem.pdf

而GPT‑5.2 Pro和GPT‑5.2 Thinking堪稱世界上輔助和加速科學家工作的最佳模型。

在研究生水平基準測試GPQA Diamond上，GPT‑5.2 Pro達到了93.2%，緊隨其後的是GPT‑5.2 Thinking，為92.4%。

在專家級數學評估FrontierMath (Tier 1–3)上，GPT‑5.2 Thinking創下了新紀錄，解決了40.3%的問題。

我們開始看到AI模型以切實的方式有意義地加速數學和科學的進步。

例如，在最近使用GPT‑5.2 Pro的工作中，研究人員探索了統計學習理論中的一個開放性問題。

這一成果已記錄在新論文《關於最大似然估計量的學習曲線單調性》（On Learning-Curve Monotonicity for Maximum Likelihood Estimators）中。

論文地址：https://cdn.openai.com/pdf/a3f3f76c-98bd-47a5-888f-c52c932a8942/colt-monotonicity-problem.pdf

這篇論文的特別之處在於，AI完成了證明，而人類負責驗證和寫作。

作者並沒有先想好策略再讓模型去填空，也沒有提供中間論點或證明大綱。相反，他們要求GPT-5.2 Pro直接去解決這個開放性問題，然後由人類進行仔細的驗證，包括由外部學科專家進行的審查和確認。

隨後，作者還問了一些簡單的後續問題，看看這個思路能延伸多遠。GPT-5.2 Pro將結果從原始問題擴展到了更高維度的設定以及其他常見的統計模型。

在這個過程中，人類的角色始終聚焦在驗證和清晰的寫作上，而不是負責搭建數學推導的框架。

推理AI湧現出流體智能

在衡量通用推理能力的基準測試ARC-AGI-1（Verified）上，GPT‑5.2 Pro是第一個跨越90%門檻的模型。

相比去年o3‑preview的87%，GPT‑5.2還將實現這一性能的成本降低了約390倍。

在更難的ARC-AGI-2（Verified）上，GPT‑5.2 Thinking創下了思維鏈模型的新紀錄，得分52.9%。

GPT‑5.2 Pro表現更高，達到54.2%，進一步擴展了模型推理新穎、抽象問題的能力。

這些評估的改進反映了GPT‑5.2在複雜技術任務上更強的多步推理能力、更高的定量精準性和更可靠的問題解決能力。

進步之快，讓主辦方驚訝，感嘆推理AI已展示出真正的「流體智力」。

生物醫學工程師及科學家、免疫學家Derya教授驚呼，這就是AGI！

此外，OpenAI不僅發佈了多項基準測試分數，還引用了Box、Notion、Windsurf和Zoom等早期測試方的評價。

GPT‑5.2全家桶，三大殺手級AI

總的來說，在日常使用中，GPT‑5.2給人的感受——更有條理，更可靠，與之交談很愉快。

那麼，「全家桶」中三款模型，分別具備怎樣的特點？

GPT‑5.2 Instant：專為日常辦公和學習而打造

它就像是全能辦公助理，不僅繼承了GPT-5.1自然溫暖的對話風格，更在速度、實用性上全面升級。

因此，Instant版是日常工作和學習的快速、能幹的「主力軍」，具體來說：

更清晰的解釋，突出顯示關鍵資訊
改進了操作指南和逐步指導
更強的技術寫作和翻譯能力
更好的學習和職業指導支援

GPT‑5.2 Thinking ：專為更深度的工作而設計

GPT‑5.2 Thinking就像是深度思考時的「第二大腦」，專為解決那些需要長思考的複雜任務而生。

尤其是，專業攻堅程式設計、總結長文件、回答關於上傳檔案的問題，還能一步步搞定燒腦數學和邏輯問題。

同時，以更清晰的結構和更有用的細節支援規劃和決策。

業界領先的長上下文推理能力
表格建立、分析、格式化方面有顯著增強
在PPT製作上已有初步成果

GPT-5.2 Pro

當遇到棘手、高難度的問題時，GPT-5.2 Pro是最聰明、最值得信賴的模型。

可以說，它就是那種「慢工出細活」的頂級專家。

早期測試已經發現，它處理起來主要錯誤更少，尤其在程式設計這類複雜挑戰中，展現出的能力也明顯更強。

在程式設計等複雜領域表現更強
是幫助科學家加速研究的最佳模型

性價比更高

付費ChatGPT使用者從今天開始優先使用GPT‑5.2（Instant、Thinking和Pro），Plus、Pro、Go、Business、Enterprise任意套餐即可。

為了儘可能保持ChatGPT的流暢和可靠，OpenAI決定逐步部署GPT‑5.2。

在ChatGPT中，GPT‑5.1仍將在舊版模型下供付費使用者使用三個月，之後將被停用。

在API平台中，GPT‑5.2系列新模型可以在Responses API和Chat Completions API中以上圖對應形式使用。

開發者現在可以在GPT‑5.2 Pro中設定推理參數，並且GPT‑5.2 Pro和GPT‑5.2 Thinking現在都支援新的第五種推理強度xhigh，用於質量最重要的任務。

GPT‑5.2的定價為1.75美元/百萬輸入Token，14美元/百萬輸出Token，快取輸入有90%的折扣。

在多個智能體評估中，儘管GPT‑5.2的每Token成本更高，但GPT‑5.2由於更高的Token效率，性價比反而更高。

One More Thing

今天，OpenAI還搞了一波回憶殺，帶大家回顧了這十年走的路。

十年前的今天，2015年12月11日，OpenAI正式成立。

這十年，他們取得了太多太多突破性的成就——

2016年，開源強化學習平台OpenAI Gym，成為學界、工業界RL研究的基礎工具；

2017年，發表了Transformer核心理念的先驅研究：Learning to Remember Rare Events；

2018年，預訓練語言模型GPT誕生，標誌著大模型革命的開始；

2019年，1.5B參數GPT-2出世，自然語言爆發式迭代；

2020年，175B參數GPT-3引爆全網，超大規模模型時代來臨；

2021年，Codex & DALL·E相繼發佈，程式碼與圖像生成開啟；

2022年，ChatGPT（GPT-3.5）真正引爆了全世界大模型革命，再之後的大事記大家都知道了。

奧特曼表示，「過去的十年非常精彩，OpenAI的工作比我想像的還要特別」。

他劇透，還有一個聖誕「小禮物」，下周就會上線。大家猜一猜，會是什麼呢？ (新智元)

科技