台北時間12月12日凌晨,OpenAI把剛剛發佈的GPT-5.2定義為“迄今為止功能最強大的專業知識工作模型系列”。OpenAI給出的官方文件明確指出,GPT-5.2 的設計初衷在於“創造更大的經濟價值”。相較前代,它在電子表格處理、簡報製作、程式碼編寫、圖像感知、長文字理解及複雜多步項目執行等方面,均實現了全面性能躍升。為了驗證其在真實業務環境中的價值,OpenAI引入了GDPval基準測試,該測試覆蓋了9大行業、44類職業的1320個真實業務場景。官方資料顯示,GPT-5.2 Pro在高達74.1%的任務中表現超越或持平人類專家。多家早期合作企業,如Notion、Databricks和Cognition,也從測試中觀察到模型在長鏈條推理、資料分析和程式碼審查等任務中的錯誤率顯著下降,一致性與穩定性得到明顯改善,使其更適合作為“公司級智能體”的核心引擎。就在一周多前,奧特曼在給員工的私人資訊中宣佈進入“紅色警戒”狀態,調集更多資源投入 ChatGPT。行業對於GPT-5.2的預期為,硬剛Gemini 3,奪回SOTA。但是,這次GPT-5.2的發佈,並沒有看出“應戰”的火藥味和心虛的“不服感”。Gemini 3 被 Google 定義為“新一代智能時代的起點”,核心是多模態推理 + 代理能力 + 搜尋和 Workspace 場景的深度融合。而GPT-5.2清晰明確指向專業知識場景,強調“經濟價值”。定位區別清晰。GPT-5.2的官方說明文件讀下來,整體感覺是,有點無聊,但OpenAI更有商業戰略定力了。OpenAI應用業務首席執行長菲吉·西莫(Fidji Simo)在新聞發佈會上也表示:“我們宣佈了‘紅色警報’,旨在向公司發出明確訊號,即我們希望將資源集中在一個特定領域,這也是界定公司優先事項的一種方式。”西莫同時否認了GPT-5.2系列模型的發佈是受“紅色警報”行動影響而匆忙提前的,她強調,公司為這款新模型的發佈已經進行了數月的準備工作。在經歷了數月準備後推出的GPT-5.2,核心看點完全圍繞著“創造更大的經濟價值“展開:三級模型矩陣: 推出 Instant(極速)、Thinking(深度思考)、Pro(最強解難) 三個版本,以滿足從日常輕量對話到複雜科研的不同需求。“打工人”實戰能力質變: 基於全新的 GDPval 基準,GPT-5.2 Pro 在 74.1% 的真實職業任務(如投行建模、PPT製作)中勝過或持平人類專家,效率提升 11 倍,標誌著從“對話”轉向“交付”。邏輯與推理的“封頂”表現: 數學能力在 AIME 2025 中拿下滿分(100%),並在 ARC-AGI-1 抽象推理測試中首次突破 90%,展示了恐怖的通用智能水平。Agentic Coding 的飛躍: 在更難的 SWE-Bench Pro程式碼測試中顯著提升,被開發者評價為“自 GPT-5 以來最大的智能躍升”,尤其擅長複雜的多步驟工具呼叫和長流程任務。“完美”的超長上下文: 解決了“大海撈針”的痛點,在 256k長度下的多資訊點檢索(4-needle)精準率接近 100%,配合更強的視覺空間理解能力,大幅提升了處理長文件和複雜圖表的可靠性。01 包含三款模型,比GPT-5.1更貴本次發佈包含三款模型:GPT-5.2 Instant(最佳化響應速度)、GPT-5.2 Thinking(深度推理)、GPT-5.2 Pro(高端版本)。Instant主要用於日常任務主力,主打速度與輕量推理;Thinking用於深度邏輯推理與複雜項目,更適用於企業工作流;Pro面向研究與最高品質輸出,推理鏈條最強、錯誤率最低。OpenAI 選擇了“比 5.1 昂貴、但仍低於其他前沿模型”的策略,為GPT-5.2系列模型推出分層API定價策略。其中GPT-5.2 Instant與GPT-5.2 Thinking採用統一計費標準,輸入單價為每百萬tokens 1.75美元,輸出單價為每百萬tokens 14美元;高端版本 GPT-5.2 Pro定價更高,輸入單價達每百萬tokens 21美元,輸出單價為每百萬tokens 168美元。儘管Pro等高端版本的單次token單價更高,但OpenAI強調,GPT-5.2系列在真實智能體任務中具備更高的token使用效率,因此在部分企業場景中,完成同等質量任務的整體成本反而可能降低。官方同時說明,Pro版本在實際使用中能顯著減少“推理廢話”,輸出內容更緊湊精煉,這一特性也將進一步幫助使用者控制使用費用。圖:GPT-5.2系列模型的定價同時,ARC Prize(ARC-AGI)被業界公認為目前最難、也是最能體現 AI “通用智能(AGI)”水平的基準測試。根據ArcPrize的測算,GPT-5.2的性價比繼續提升,一年內效率提升了約390倍。GPT-5.2系列已向Plus、Pro、Edu、Business、Enterprise使用者陸續開放,並同步上線API。面向工程與程式設計師群體的GPT-5.2 Codex將在未來數周內推出,進一步針對程式設計任務做專項最佳化。02 核心直指專業知識工作與企業級應用的能力提升GPT-5.2系列模型的核心定位是“提升專業工作效率”與“增強長期任務一致性”。根據官方披露的資料,GPT-5.2系列模型在多項關鍵評估基準上取得了當前公開模型中的最高成績。圖:GPT-5.2基準評測概覽OpenAI官方表示,GPT-5.2聚焦於提升企業使用者的專業工作流效率,包括表格處理、簡報生成、程式碼編寫、圖像理解、工具呼叫、多檔案工程任務處理等能力。GPT-5.2的文字生成結構相較以往更清晰,邏輯鏈條更穩定,特別是在軟體說明文件、技術手冊生成、長篇報告編寫等領域,模型內部的“結構化寫作傾向”更加明顯。圖:GPT-5.1、GPT-5.2製表效果對比GPT-5.2 Thinking在面向專業知識與實際工作的GDPval任務集中達到了可與行業平均專業人員相匹敵的水準,在所有對比任務中“勝出或持平”的佔比達到70.9%。在等效任務中,GPT-5.2 Thinking 的完成速度超過專業人士11倍以上,同時成本低於1%。在真實企業環境中,多家早期合作夥伴測試表明模型在複雜推理鏈條與工具呼叫一致性上實現明顯改進:Notion、Box、Shopify:觀察到更穩健的長鏈條推理,在複雜介面和資料庫操作中錯誤率下降Databricks、Hex:資料智能體任務的 SQL/資料分析鏈路顯著更一致Cognition、Warp:認為其程式碼審查和定位缺陷能力達到當前模型的領先水平此外,OpenAI特別強調GPT-5.2在“多工具編排任務”中表現更穩定,能夠在單次會話中處理二十多個工具呼叫步驟,並在系統提示(system prompt)顯著簡化的情況下維持高一致性。這一點使其更適合作為“公司級智能體核心大腦”。03 編碼、事實性與長文字處理全面進步,支撐企業複雜開發需求為了支撐企業級的複雜開發需求,GPT-5.2 Thinking在軟體工程能力上實現了飛躍。GPT-5.2 Thinking在SWE-Bench Pro嚴格評測中取得55.6%精準率,在Python專項SWE-Bench Verified評測中達到 80%。這意味著GPT-5.2在自動化偵錯生產系統、重構大型程式碼庫、理解遺留系統以及處理複雜功能需求方面,已接近部分自動化程式碼助手的可部署標準。圖:GPT-5.2 Thinking在SWE-Bench Pro的跑分GPT-5.2在前端開發(尤其是現代 UI、WebGL/Three.js、複雜 3D 介面)方面也加入了專門最佳化,提升了對元件結構、事件繫結和佈局邏輯的理解能力。圖:GPT-5.2 Thinking在匿名真實查詢集合上的錯誤率降低在事實性方面,GPT-5.2 Thinking在匿名真實查詢集合上的錯誤率相較上一代下降約30%。OpenAI強調,GPT-5.2在面對模糊或資訊不完整的查詢時,會更主動給出依據來源或使用結構化推理路徑,以降低誤導性回答的機率。圖:GPT-5.2 Thinking在長上下文推理方面的表現在長上下文推理方面,GPT-5.2 Thinking支援最高256k tokens輸入,並在“四針(4-needle)”檢索任務中實現接近100%精準率,超過已有商用模型的水平。該模型還在長文件問答、合同審查、多檔案工程跨引用等任務中表現出更高穩定性。若任務長度超過上下文窗口,模型可配合Responses/compact介面,通過“摘要性迭代檢索”進一步擴展可處理規模。04 智能體工具呼叫與視覺理解大幅增強企業工作流往往涉及跨系統的複雜操作。在智能體任務方面,GPT-5.2 Thinking在Tau2-bench Telecom多輪客服任務的工具呼叫測試中取得98.7%完成度,該評測覆蓋訂票、退款、延誤補償、物品遺失與跨系統調度等場景,反映其可承擔更高自治度的流程任務。OpenAI表示,GPT-5.2的“工具決策粒度”更加穩定,推理鏈條更可控,在連續20~40步的任務中不易出現跳步、誤呼叫或不必要呼叫等問題,使其更適合作為長流程自動化智能體(Autonomous Agent)的執行核心。圖:在CharXiv(科研圖表推理)中精準率提升約8個百分點在視覺能力方面,GPT-5.2 Thinking的圖表推理和介面理解能力顯著增強。其軟體介面識別錯誤率減少約一半,在CharXiv(科研圖表推理)中精準率提升約8個百分點。OpenAI同時對模型加入了大規模軟體 UI資料訓練,使其更準確理解控制項、菜單層級與介面邏輯關係。圖:GPT-5.2 Thinking在圖像中元素的位置把握上更強與之前的模型相比,GPT-5.2 Thinking在圖像中元素的位置把握上更強,這有助於解決相對佈局在問題中起關鍵作用的任務。在示例中,即使是低品質的圖像,GPT-5.2也能識別出主要區域,並放置大致與每個元件真實位置相符的框,而GPT-5.1僅能標註少數幾個部分,並且對它們的空間排列理解明顯較弱。05 科學推理、數學能力與抽象智能的進展圖:GPT-5.2 Pro在GPQA Diamond中的表現GPT-5.2 Pro在GPQA Diamond(研究生難度的大規模科學知識測試)中取得93.2%精準率,在現有同行測試中位居前列。圖:GPT-5.2 Thinking在FrontierMath測試中的表現在FrontierMath(涵蓋多步驟數學推理及高難度證明問題)中,GPT-5.2 Thinking取得40.3%正確率,相較上一代有顯著提升。OpenAI披露,一支科研團隊已使用GPT-5.2 Pro協助探索統計學習理論中的一個開放問題,模型提出的證明在後續人工稽核中被證實成立。在ARC-AGI系列評測方面,GPT-5.2 Thinking在ARC-AGI-2(Verified)中從上一代的17.6%提升至52.9%,被視為該模型在“抽象智能”“非模式記憶”“類比推理能力”上的重要進展。GPT-5.2 Pro在 ARC-AGI-1中也超過90%,成為首個達成該水平的主流模型。圖:心理健康評估在安全策略方面,GPT-5.2 延續“safe completion”訓練框架,重點強化心理健康、風險傾向、敏感身份類對話場景的表現。OpenAI還正式宣佈開始部署年齡預測系統,可在疑似未成年使用者使用模型時自動切換到受限模式與額外安全過濾。06 寫在最後在發完幾條“兜售”GPT-5.2的帖子之後,SamAltman還發佈了一條“情緒價值貼”——過去的十年十分精彩;在OpenAI工作比我想像的還要特別。和一條彩蛋帖“下周我們還會送您一些小小的聖誕禮物”,暗示可能還要新的模型(產品)發佈。就在幾個小時前,OpenAI 獲得迪士尼10 億美元的投資意向。ChatGPT以後可以理直氣壯的合成“米老鼠”了。ChatGPT火爆三年後,SOTA模型不斷刷新Benchmark已經不能帶給行業興奮點,但是每次OpenAI更新新模型的情緒價值仍在。同時,這家站在AGI浪尖的獨角獸,必須開始背負更多的商業期待,也要解決一個又一個現實中的“米老鼠問題”。 (騰訊科技)