剛剛，OpenAI迎10周年，發GPT-5.2，重點是和白領搶工作

2025/12/12

•

8大榜點選敗Gemini 3 Pro，打平71%人類專家，數學競賽滿分。

智東西12月12日報導，今日凌晨，正值OpenAI十周年生日，OpenAI正式推出其迄今最強模型GPT-5.2，並同步上線ChatGPT與API體系。

本次更新包含GPT-5.2 Instant、Thinking與Pro三個版本，將從今日起陸續向Plus、Pro、Business與Enterprise等付費方案使用者開放，Free與Go使用者預計將於明日獲得存取權。同時，GPT-5.2也已納入API與Codex中供開發者呼叫。

現有的GPT-5.1將在ChatGPT中繼續作為過渡版本向付費使用者提供三個月，之後將正式下線。OpenAI官方稱，GPT-5.2屬於其持續改進模型系列的一部分，後續仍將圍繞過度拒絕、響應延遲等已知問題進行迭代最佳化。

在API端，GPT-5.2 Thinking對應gpt-5.2，Instant對應gpt-5.2-chat-latest，Pro對應gpt-5.2-pro，開發者可直接呼叫。

在價格方面，GPT-5.2的呼叫價格較上一代上調，輸入端1.75美元/百萬tokens（約合人民幣12.35元/百萬tokens）、輸出端14美元/百萬tokens（約合人民幣98.81元/百萬tokens）。GPT-5.2 Pro的定價為21美元與168美元/百萬tokens（約合人民幣148元與1185元/百萬tokens），並首次支援第五檔推理強度xhigh。

OpenAI聯合創始人兼CEO Sam Altman在社交平台X上公佈了GPT-5.2在多項前沿基準上的成績：SWE-Bench Pro達到55.6%，ARC-AGI-2為52.9%，Frontier Math為40.3%。

這些基準主要用於衡量模型在複雜程式碼修復、通用推理與高難度數學任務中的表現，GPT-5.2在高階任務上的穩定性進一步提升。

根據OpenAI官方部落格，GPT-5.2在涵蓋44個職業的明確知識工作任務中，表現均優於行業專業人士。相比GPT-5.1 Thinking，GPT-5.2 Thinking在應對知識型任務、程式設計、科學問題、數學、抽象推理的多項能力均大幅提升，尤其是在頂尖數學競賽AIME 2025拿到滿分成績，在OpenAI專業工作基準測試GDPval中戰勝或打平70.9%的人類專家。

OpenAI團隊成員Yann Dubois也在社交平台X平台上發帖稱，GPT-5.2 Thinking的設計重點放在“經濟價值較高的任務”（如編碼、表格與演示文件）。

此外，在SWE-Bench Pro、GPQA Diamond等8項基準測試中，GPT-5.2 Thinking的分數均超過GoogleGemini 3 Pro和Anthropic Claude Opus 4.5。

值得一提的是，GPT-5.2在處理多模態任務方面的能力明顯提升，大有追上Gemini的架勢。“頂流”AI程式設計助手Cursor第一時間宣佈上新GPT-5.2。

與此同時，微軟董事長兼CEO Satya Nadella宣佈，GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系。

在GPT-5.2的發佈會上，OpenAI應用業務負責人Fidji Simo也確認，外界關注已久的ChatGPT“成人模式（adult mode）”預計將在2026年第一季度上線。Fidji Simo稱，在推出該模式前，OpenAI希望確保年齡預測模型足夠成熟，能夠準確識別未成年使用者，同時避免誤判成年人。

目前，該年齡預測模型已在部分國家進行早期測試，主要用於自動應用不同的內容限制與安全策略。

01. 專業任務能力躍升

首次達到“專家級”評分

根據OpenAI官方披露，GPT-5.2 Thinking在覆蓋44類職業任務的GDPval評測中，首次達到“專家級”表現——在70.9%的對比中戰勝或持平行業專業人士。GPT-5.2 Pro進一步提升至74.1%。在僅統計“明確勝出”的任務中，GPT-5.2 Thinking為49.8%，Pro則達到60%。

這一評測覆蓋銷售演示、預算模型、營運排班、製造流程圖等多類真實業務成果。GPT-5.2在這些任務的生成速度約為人工專家的11倍，成本為其1%以下。

在投研類任務中，GPT-5.2 Thinking在內部評測的投行三表模型與槓桿收購模型等場景中的平均得分為68.4%，較GPT-5.1 Thinking的59.1%有明確提升，GPT-5.2 Pro得分進一步增長至71.7%。

02. 程式碼、工具呼叫與長鏈路任務

全面升級

在程式碼能力方面，GPT-5.2 Thinking在更嚴格的SWE-bench Pro（跨四種語言、強調真實工程難度）中取得55.6%，在SWE-bench Verified中更是達到80%，均顯著領先GPT-5.1的50.8%與76.3%。在SWE-Lancer IC Diamond任務中，GPT-5.2 Thinking取得74.6%（GPT-5.1為69.7%）。

與此同時，GPT-5.2出現在AI基準平台Imarena.ai（Arena）排行榜中，並在WebDev測試中取得1486分，位列第二，僅落後榜首3分，領先Claude-opus-4-5與Gemini-3-pro等主流模型。另一個版本GPT-5.2則以1399分排在第六。

根據Arena說明，GPT-5.2此前在內部以“robin”和“robin-high”為代號進行測試，其分數與GPT-5-medium僅相差1分，目前仍為初步結果，未來有望隨著測試量積累而進一步穩定。

從評測維度來看，Arena主要衡量模型在可部署Web應用情境下的端到端編碼能力，GPT-5.2已反映出其在複雜任務鏈條上的實用性。

在事實精準性方面，GPT-5.2 Thinking在基於ChatGPT查詢的無錯誤回答率（開啟搜尋模式下）達到93.9%，較GPT-5.1的91.2%有所改善，在無搜尋情況下也從87.3%提升至88%。

另一個關鍵變化來自工具呼叫與長鏈路任務的可靠性提升。

GPT-5.2 Thinking在Tau-2 Bench Telecom中達到98.7%的最高得分，在零推理模式下也大幅領先上一代，在更高噪聲的Retail場景中精準率從77.9%提升至82%。在更通用的工具鏈評估BrowseComp中，GPT-5.2 Thinking達到65.8%，Pro版本達到77.9%，亦高於GPT-5.1的50.8%。

OpenAI提到，GPT-5.2 Thinking和Pro均支援第五檔推理強度xhigh，適用於長流程、多步驟、高精度的專業任務場景。

03. 在長上下文與視覺理解

GPT-5.2全面增強

在長上下文能力上，GPT-5.2 Thinking在OpenAI MRCRv2中全面領先上一代，在8 needles測試中從4k到256k的範圍內均保持遠高於GPT-5.1的表現，其中在4k–8k長度下達98.2%，在128k–256k長度下仍保持77.0%，而GPT-5.1同期為29.6%–47.8%區間。

在其他長文場景中，BrowseComp Long Context（128k/256k）中，GPT-5.2 Thinking分別達到92.0%與89.8%。GraphWalks任務中，GPT-5.2 Thinking在bfs與parents子集分別達到94.0%與89.0%，相比GPT-5.1的76.8%與71.5%顯著提升。

在視覺理解上，GPT-5.2 Thinking在CharXiv科學圖表推理任務中無工具模式下為82.1%，開啟Python工具後進一步提升至88.7%。在ScreenSpot-Pro介面理解中，GPT-5.2 Thinking取得86.3%，遠高於GPT-5.1的64.2%。在視訊類、多模態綜合難度更高的Video MMMU中，也從82.9%提升至85.9%。

在視覺能力上，GPT-5.2在ScreenSpot-Pro（介面理解）中達到86.3%的精準率，相比GPT-5.1有明顯提升。在CharXiv科學圖表推理任務中，也實現了準確率的大幅增長。這使其在處理科研圖表、營運儀表盤、產品介面截圖等專業視覺輸入時更加可靠。

04. 微軟全家桶同步升級

GPT-5.2成為新一代“生產力模型”

隨著GPT-5.2發佈，微軟董事長兼CEO Satya Nadella也在社交平台X平台上宣佈，GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系，並作為新的“默認推理模型”服務更多工作流場景。

在Microsoft 365 Copilot中，使用者已經可以通過模型選擇器啟用GPT-5.2，用於會議記錄分析、文件推理、市場研究與戰略規劃等高複雜度任務。Nadella稱，將模型與使用者工作資料結合後，GPT-5.2能夠更充分發揮推理優勢。

在GitHub Copilot中，GPT-5.2適用於長上下文推理與複雜程式碼庫審查，重點覆蓋跨檔案關係分析、依賴追蹤與重建構議等工程類使用場景。

此外，GPT-5.2還同步進入Microsoft Foundry與Copilot Studio，開發者可在建構自動化流程、企業內部Agent或自主開發時直接呼叫GPT-5.2模型。面向消費者端的Copilot也將隨後啟動分階段更新，逐步替換當前版本。

從微軟生態的覆蓋面來看，GPT-5.2已被定位為“默認生產力模型”，在不同產品線之間以自動模型選擇的方式服務更廣泛的開發、寫作與分析任務。

此外，頂流AI程式設計助手Cursor也已第一時間火速上線GPT-5.2，並同步沿用OpenAI官方API價格。

05. 結語：GPT-5.2的能力邊界

正向“穩定、實用”收攏

從多項公開基準測試到Arena針對Web應用端到端能力的評測結果，GPT-5.2展現出的整體能力向穩定可用和任務完成度方向收攏。

隨著Instant、Thinking與Pro組成的多檔能力體系的開放，GPT-5.2在不同工作流中被切分為更清晰的使用場景。而在微軟生態中的全面接入，也進一步強化了這一變化的方向。無論是在M365 Copilot中承擔跨文件推理，還是在GitHub Copilot中處理長上下文程式碼鏈路，GPT-5.2都開始參與到更高頻、更具體的任務流程中。

除了推出面向專業工作和智能體的前沿模型外，OpenAI還宣佈已經與迪士尼達成授權協議，允許Sora 2使用者在生成並分享的圖片中使用迪士尼角色。迪士尼將向OpenAI投資10億美元（約合人民幣71億元），並擁有未來增持股份的選擇權。 (智東西)