#GPT-5.2
GPT-5.2來了!首個「專家級」AI復仇成功,牛馬打工人終於得救了
OpenAI十周年,那個地表最強的AI,又回來了!新一代GPT-5.2「全家桶」直接把GoogleGemini 3 Pro踩在腳下,專業實力更是堪比人類專家。剛剛,OpenAI深夜炸場!GPT-5.2震撼發佈,全球AI王座再次易主。一共3款模型,今日全部上線:GPT‑5.2 Instant(即時版)GPT‑5.2 Thinking(思考版)GPT‑5.2 Pro(專業版)作為地表最強通用模型,GPT-5.2專為解決那些讓人頭禿的「高難度知識型工作」而生。在OpenAI公佈的基準測試中,它幾乎對Gemini 3 Pro實現了全方位碾壓!相比上一代,GPT-5.2在通用智能、超長文字理解、Agent工具呼叫以及視覺能力上,都實現了無死角的全面進化:SWE-Bench Pro:狂砍55.6%高分;LMArena程式碼競技場:僅次於Claude Opus 4.5,穩坐全球第二把交椅;ARC-AGI-2:GPT-5.2 Pro以52.9%的絕對優勢登頂全球第一;GDPval:覆蓋44種職業知識,表現直接超越人類行業專家。一句話總結:讓它從頭到尾(端到端)搞定複雜的現實世界任務,目前沒有任何模型比它更強。完整評測結果除了更強的能力之外,GPT-5.2還有更長的上下文,以及更新的知識!40萬上下文窗口:輕鬆吞吐超長文字與複雜對話;12.8萬最大輸出長度:深度長文生成不再中斷;知識庫更新至2025年8月31日:掌握最新世界動態;推理Token支援:專攻複雜邏輯與多步推理。當然,在性能狂飆的同時,價格也是水漲船高。相比GPT-5/5.1,GPT-5.2的輸入輸出價格貴了整整40%!更強的推理、更快的速度,以及更高的價格,這一切似乎都在暗示——OpenAI這次不僅升級了模型規模,背後的算力成本恐怕也達到了新的量級。這一次,那叫一個專業!一個月前,GPT-5.1以「情商智商雙高」的姿態登場,就迎面撞上了GoogleGemini 3這個強勁對手。此次更新正值媒體報導OpenAI內部進入「紅色程式碼」緊急狀態。但OpenAI高管向媒體表示,不應將GPT-5.2視為對Gemini 3的回應。OpenAI應用CEO對記者說:我們宣佈進入「紅色程式碼」緊急狀態是為了向內部發出一個訊號,我們想要集中力量辦大事,這是一個確定優先事項和非優先事項的好辦法。總的來說,我們用於開發ChatGPT的資源增加了,我認為這有助於該模型的發佈,但並不是它在這周發佈的唯一原因。這一次,GPT-5.2主打一個專業知識型AI,正所謂「打工人的最佳工作模型」。OpenAI華人研究員Yu Bai稱,「別看這只是一個小版本數迭代,那可是能力的一大躍升」。那些人類專家耗費4-8小時完成的任務,在人類評估中,GPT-5.2的勝率高達70.9%。GPT‑5.2不負眾望,在多項實際任務中表現得都更加出色——建立電子表格、製作簡報、編寫程式碼、感知圖像、理解長上下文、使用工具、處理複雜的多步驟項目。此前OpenAI的一份報告稱,ChatGPT每天能為企業使用者平均節省40–60分鐘,而重度使用者則表示每周能省下超過10小時。擴展閱讀:OpenAI最新報告曝光!前5%精英效率暴漲16倍,普通人卻被悄悄淘汰總之,AI搞定「專業工作」才是硬道理!擊敗人類專家,打工人狂喜目前,GPT‑5.2 Thinking是用於現實世界專業用途的最佳模型。在GDPval上,GPT‑5.2 Thinking創下了新的SOTA,並且是歷史第一個表現超過人類專家水平的模型。根據人類專家的評判,GPT‑5.2 Thinking在GDPval知識工作任務中,70.9%的情況下擊敗或打平了頂尖行業專業人士。在完成GDPval任務時,其速度比專家專業人士還要快11倍,成本還低於1%。這表明,當與人類監督相結合時,GPT‑5.2可以有效輔助完成專業工作。換句話說,無論是幫會計整理財報,替產品經理做PPT,還是給程式設計師當輔助寫碼的小助手,GPT-5.2都更得心應手。在GDPval中,模型需要完成涵蓋美國GDP貢獻最大的前9個行業的44種職業的定義明確的工作。任務要求提供實際的工作成果,例如銷售簡報、會計電子表格、緊急護理時間表、製造圖表或短影片在ChatGPT中,GPT‑5.2 Thinking擁有GPT‑5 Thinking所沒有的新工具。此外,在針對初級投資銀行分析師電子表格建模的內部測試中,GPT-5.2 Thinking的平均每任務得分比GPT‑5.1高出9.3%,從59.1%上升到68.4%。並排比較顯示,GPT‑5.2 Thinking生成的電子表格和PPT在複雜度和格式上都有所改進。如下所示,一眼望去這種高難度的複雜表,GPT‑5.2 Thinking一句話生成,堪稱「人力資源規劃器」。包括股權結構表,GPT-5.2 Thinking以資深銀行分析師的角色,完成了所有計算,且過程清晰可查。而GPT-5.1 Thinking不僅錯誤地計算了種子輪、A輪和B輪的清算優先權,且大部分行都留白了,導致最終的股權回報計算出錯;而且還錯誤地在表頭行中插入了計算公式。針對項目管理,GPT-5.2 Thinking以每項任務、時間為軸,給出了可視化直觀的總結。相較之下,GPT-5.1 Thinking看著特別粗糙。程式設計破紀錄,吞噬全端開發當然了,在程式設計上,GPT-5.2也是王者中的王者!在對現實世界軟體工程基準SWE-Bench Pro上,GPT‑5.2 Thinking創下了55.6%的新紀錄。與僅測試Python的SWE-bench Verified不同,SWE-Bench Pro測試四種程式語言,具有更強的抗資料污染能力(contamination-resistant),並更具挑戰性、多樣性和工業相關性。在SWE-Bench Pro中,模型會被給予一個程式碼庫,並且必須生成一個補丁來解決一個現實的軟體工程任務在SWE-bench Verified上,GPT‑5.2 Thinking拿下了80%的高分。這意味著,它可以更可靠地偵錯生產環境程式碼、實現功能請求、重構大型程式碼庫,並以更少的人工干預端到端地發佈修復。在前端軟體工程方面,GPT‑5.2 Thinking也優於GPT‑5.1 Thinking。早期測試者發現,它是全端工程師的強大日常夥伴,在前端開發和複雜或非常規UI工作(特別是涉及3D元素的工作)方面明顯更強。接下來就讓我們看看,僅憑一段提示詞,GPT‑5.2都能做出些什麼來:海浪模擬Prompt: Create a single-page app in a single HTML file with the following requirements:- Name: Ocean Wave Simulation- Goal: Display realistic animated waves.- Features: Change wind speed, wave height, lighting.- The UI should be calming and realistic.節日賀卡製作器Prompt: Create a single-page app, in a single HTML file, that demonstrates a warm and fun holiday card! The card should be interactive and enjoyable for kids!- Have variety of items kids can drop in the UI; a few should be already placed by default- Also have fun sound interactions- Place many cute and fun stuff as much as possible- Animation like snowdrop should be used nicely打字雨遊戲Prompt: Create a single-page app in a single HTML file with the following requirements:- Name: Typing Rain- Goal: Type falling words before they reach the bottom.- Features: Increasing difficulty, accuracy tracker, score.- The UI should be the city background with animated raindrop words.幻覺少,更清醒GPT‑5.2 Thinking比GPT‑5.1 Thinking的幻覺更少。在一組去標識化的ChatGPT查詢中,前者包含錯誤的回答相對減少了30%。對於專業人士來說,這意味著在使用新模型進行研究、寫作、分析和決策支援時錯誤更少,在日常知識工作中更加可靠。數十萬token極限挑戰,精準率100%在長上下文推理方面,GPT‑5.2 Thinking樹立了新的行業標準。在OpenAI MRCRv2上,新模型取得了領先的性能,基準OpenAI MRCRv2用於測試模型整合分佈在長文件中資訊。諸如深度文件分析之類的現實世界任務,需要跨越數十萬個Token的相關資訊,而在這類任務上,GPT‑5.2 Thinking 比GPT‑5.1 Thinking精準得多。特別是,它是OpenAI的第一個在4種MRCR變體(高達256kToken)上達到接近100%精準率的模型。實際上,這足以讓專業人士用GPT‑5.2處理長文件,如報告、合同、研究論文、成績單和多檔案項目,而且同時在數十萬個Token之間保持連貫性和精準性。也就是說,GPT‑5.2特別適合深度分析、綜合和複雜的多源工作流。針對超出最大上下文窗口思考的任務,GPT‑5.2 Thinking相容OpenAI新的Responses「/compact」端點,這擴展了模型的有效上下文窗口。這讓GPT‑5.2Thinking可以處理原本受限於上下文長度的更多工具密集型、長期運行的工作流。視覺實力翻倍,秒懂複雜圖GPT‑5.2 Thinking是OpenAI目前最強的視覺模型,在圖表推理和軟體介面理解方面的錯誤率大約減少了一半。對於日常專業使用,這意味著該模型可以更準確地解讀儀表板、產品截圖、技術圖表和視覺報告,可支援金融、營運、工程、設計和客戶支援等以視覺資訊為核心的工作流。與以前的模型相比,GPT‑5.2 Thinking對圖像中元素的位置有更強的掌握,這有助於完成相對佈局對解決問題起關鍵作用的任務。在下面的示例中,模型被要求識別圖像輸入中的元件(在本例中為主機板)並返回帶有大致邊界框的標籤。即使在低品質圖像上,GPT‑5.2也能識別主要區域並放置與每個元件的真實位置大致匹配的框,而GPT‑5.1僅標記了幾個部分,並且對其空間排列的理解要弱得多。端到端工作流,重塑了GPT‑5.2 Thinking展示了其在長多輪任務中可靠使用工具的能力,在Tau2-bench Telecom上創造了98.7%的新紀錄。對於延遲敏感的用例,GPT‑5.2 Thinking在reasoning.effort='none'(無推理)下的表現也更好,大幅優於GPT‑5.1和GPT‑4.1。對於專業人士來說,這轉化為更強的端到端工作流——例如解決客戶支援案例、從多個系統中提取資料、運行分析以及生成最終輸出,且步驟之間的中斷更少。比如,當詢問一個需要多步解決的複雜客戶服務問題時,GPT-5.2可以更有效地協調多個智能體之間的完整工作流。在下面的案例中,一位旅客報告了航班延誤、錯失轉機、需要在紐約過夜以及醫療座位要求。GPT‑5.2管理了整個任務鏈——重新預訂、特殊協助座位和賠償,提供了比GPT‑5.1更完整的結果。Prompt: 我的航班從巴黎到紐約延誤了,我錯過了去奧斯汀的轉機。我的託運行李也不見了,我需要在紐約過夜。由於醫療原因,我還需要一個特殊的前排座位。你能幫我嗎?獨立完成證明,顛覆科研範式OpenAI的願景之一是AI加速科學研究,造福所有人。為此,OpenAI一直與科學家合作並聽取他們的意見,探索AI如何加速他們的工作,已經取得了一些早期的合作實驗。連結:https://cdn.openai.com/pdf/a3f3f76c-98bd-47a5-888f-c52c932a8942/colt-monotonicity-problem.pdf而GPT‑5.2 Pro和GPT‑5.2 Thinking堪稱世界上輔助和加速科學家工作的最佳模型。在研究生水平基準測試GPQA Diamond上,GPT‑5.2 Pro達到了93.2%,緊隨其後的是GPT‑5.2 Thinking,為92.4%。在專家級數學評估FrontierMath (Tier 1–3)上,GPT‑5.2 Thinking創下了新紀錄,解決了40.3%的問題。我們開始看到AI模型以切實的方式有意義地加速數學和科學的進步。例如,在最近使用GPT‑5.2 Pro的工作中,研究人員探索了統計學習理論中的一個開放性問題。這一成果已記錄在新論文《關於最大似然估計量的學習曲線單調性》(On Learning-Curve Monotonicity for Maximum Likelihood Estimators)中。論文地址:https://cdn.openai.com/pdf/a3f3f76c-98bd-47a5-888f-c52c932a8942/colt-monotonicity-problem.pdf這篇論文的特別之處在於,AI完成了證明,而人類負責驗證和寫作。作者並沒有先想好策略再讓模型去填空,也沒有提供中間論點或證明大綱。相反,他們要求GPT-5.2 Pro直接去解決這個開放性問題,然後由人類進行仔細的驗證,包括由外部學科專家進行的審查和確認。隨後,作者還問了一些簡單的後續問題,看看這個思路能延伸多遠。GPT-5.2 Pro將結果從原始問題擴展到了更高維度的設定以及其他常見的統計模型。在這個過程中,人類的角色始終聚焦在驗證和清晰的寫作上,而不是負責搭建數學推導的框架。推理AI湧現出流體智能在衡量通用推理能力的基準測試ARC-AGI-1(Verified)上,GPT‑5.2 Pro是第一個跨越90%門檻的模型。相比去年o3‑preview的87%,GPT‑5.2還將實現這一性能的成本降低了約390倍。在更難的ARC-AGI-2(Verified)上,GPT‑5.2 Thinking創下了思維鏈模型的新紀錄,得分52.9%。GPT‑5.2 Pro表現更高,達到54.2%,進一步擴展了模型推理新穎、抽象問題的能力。這些評估的改進反映了GPT‑5.2在複雜技術任務上更強的多步推理能力、更高的定量精準性和更可靠的問題解決能力。進步之快,讓主辦方驚訝,感嘆推理AI已展示出真正的「流體智力」。生物醫學工程師及科學家、免疫學家Derya教授驚呼,這就是AGI!此外,OpenAI不僅發佈了多項基準測試分數,還引用了Box、Notion、Windsurf和Zoom等早期測試方的評價。GPT‑5.2全家桶,三大殺手級AI總的來說,在日常使用中,GPT‑5.2給人的感受——更有條理,更可靠,與之交談很愉快。那麼,「全家桶」中三款模型,分別具備怎樣的特點?GPT‑5.2 Instant:專為日常辦公和學習而打造它就像是全能辦公助理,不僅繼承了GPT-5.1自然溫暖的對話風格,更在速度、實用性上全面升級。因此,Instant版是日常工作和學習的快速、能幹的「主力軍」,具體來說:更清晰的解釋,突出顯示關鍵資訊改進了操作指南和逐步指導更強的技術寫作和翻譯能力更好的學習和職業指導支援GPT‑5.2 Thinking :專為更深度的工作而設計GPT‑5.2 Thinking就像是深度思考時的「第二大腦」,專為解決那些需要長思考的複雜任務而生。尤其是,專業攻堅程式設計、總結長文件、回答關於上傳檔案的問題,還能一步步搞定燒腦數學和邏輯問題。同時,以更清晰的結構和更有用的細節支援規劃和決策。業界領先的長上下文推理能力表格建立、分析、格式化方面有顯著增強在PPT製作上已有初步成果GPT-5.2 Pro當遇到棘手、高難度的問題時,GPT-5.2 Pro是最聰明、最值得信賴的模型。可以說,它就是那種「慢工出細活」的頂級專家。早期測試已經發現,它處理起來主要錯誤更少,尤其在程式設計這類複雜挑戰中,展現出的能力也明顯更強。在程式設計等複雜領域表現更強是幫助科學家加速研究的最佳模型性價比更高付費ChatGPT使用者從今天開始優先使用GPT‑5.2(Instant、Thinking和Pro),Plus、Pro、Go、Business、Enterprise任意套餐即可。為了儘可能保持ChatGPT的流暢和可靠,OpenAI決定逐步部署GPT‑5.2。在ChatGPT中,GPT‑5.1仍將在舊版模型下供付費使用者使用三個月,之後將被停用。在API平台中,GPT‑5.2系列新模型可以在Responses API和Chat Completions API中以上圖對應形式使用。開發者現在可以在GPT‑5.2 Pro中設定推理參數,並且GPT‑5.2 Pro和GPT‑5.2 Thinking現在都支援新的第五種推理強度xhigh,用於質量最重要的任務。GPT‑5.2的定價為1.75美元/百萬輸入Token,14美元/百萬輸出Token,快取輸入有90%的折扣。在多個智能體評估中,儘管GPT‑5.2的每Token成本更高,但GPT‑5.2由於更高的Token效率,性價比反而更高。One More Thing今天,OpenAI還搞了一波回憶殺,帶大家回顧了這十年走的路。十年前的今天,2015年12月11日,OpenAI正式成立。這十年,他們取得了太多太多突破性的成就——2016年,開源強化學習平台OpenAI Gym,成為學界、工業界RL研究的基礎工具;2017年,發表了Transformer核心理念的先驅研究:Learning to Remember Rare Events;2018年,預訓練語言模型GPT誕生,標誌著大模型革命的開始;2019年,1.5B參數GPT-2出世,自然語言爆發式迭代;2020年,175B參數GPT-3引爆全網,超大規模模型時代來臨;2021年,Codex & DALL·E相繼發佈,程式碼與圖像生成開啟;2022年,ChatGPT(GPT-3.5)真正引爆了全世界大模型革命,再之後的大事記大家都知道了。奧特曼表示,「過去的十年非常精彩,OpenAI的工作比我想像的還要特別」。他劇透,還有一個聖誕「小禮物」,下周就會上線。大家猜一猜,會是什麼呢? (新智元)
剛剛,OpenAI迎10周年,發GPT-5.2,重點是和白領搶工作
8大榜點選敗Gemini 3 Pro,打平71%人類專家,數學競賽滿分。智東西12月12日報導,今日凌晨,正值OpenAI十周年生日,OpenAI正式推出其迄今最強模型GPT-5.2,並同步上線ChatGPT與API體系。本次更新包含GPT-5.2 Instant、Thinking與Pro三個版本,將從今日起陸續向Plus、Pro、Business與Enterprise等付費方案使用者開放,Free與Go使用者預計將於明日獲得存取權。同時,GPT-5.2也已納入API與Codex中供開發者呼叫。▲圖源:X平台現有的GPT-5.1將在ChatGPT中繼續作為過渡版本向付費使用者提供三個月,之後將正式下線。OpenAI官方稱,GPT-5.2屬於其持續改進模型系列的一部分,後續仍將圍繞過度拒絕、響應延遲等已知問題進行迭代最佳化。在API端,GPT-5.2 Thinking對應gpt-5.2,Instant對應gpt-5.2-chat-latest,Pro對應gpt-5.2-pro,開發者可直接呼叫。▲圖源:OpenAI官方部落格在價格方面,GPT-5.2的呼叫價格較上一代上調,輸入端1.75美元/百萬tokens(約合人民幣12.35元/百萬tokens)、輸出端14美元/百萬tokens(約合人民幣98.81元/百萬tokens)。GPT-5.2 Pro的定價為21美元與168美元/百萬tokens(約合人民幣148元與1185元/百萬tokens),並首次支援第五檔推理強度xhigh。▲圖源:OpenAI官方部落格OpenAI聯合創始人兼CEO Sam Altman在社交平台X上公佈了GPT-5.2在多項前沿基準上的成績:SWE-Bench Pro達到55.6%,ARC-AGI-2為52.9%,Frontier Math為40.3%。▲圖源:X平台這些基準主要用於衡量模型在複雜程式碼修復、通用推理與高難度數學任務中的表現,GPT-5.2在高階任務上的穩定性進一步提升。根據OpenAI官方部落格,GPT-5.2在涵蓋44個職業的明確知識工作任務中,表現均優於行業專業人士。相比GPT-5.1 Thinking,GPT-5.2 Thinking在應對知識型任務、程式設計、科學問題、數學、抽象推理的多項能力均大幅提升,尤其是在頂尖數學競賽AIME 2025拿到滿分成績,在OpenAI專業工作基準測試GDPval中戰勝或打平70.9%的人類專家。▲圖源:OpenAI官方部落格OpenAI團隊成員Yann Dubois也在社交平台X平台上發帖稱,GPT-5.2 Thinking的設計重點放在“經濟價值較高的任務”(如編碼、表格與演示文件)。▲圖源:X平台此外,在SWE-Bench Pro、GPQA Diamond等8項基準測試中,GPT-5.2 Thinking的分數均超過GoogleGemini 3 Pro和Anthropic Claude Opus 4.5。▲圖源:OpenAI值得一提的是,GPT-5.2在處理多模態任務方面的能力明顯提升,大有追上Gemini的架勢。“頂流”AI程式設計助手Cursor第一時間宣佈上新GPT-5.2。與此同時,微軟董事長兼CEO Satya Nadella宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系。▲圖源:X平台在GPT-5.2的發佈會上,OpenAI應用業務負責人Fidji Simo也確認,外界關注已久的ChatGPT“成人模式(adult mode)”預計將在2026年第一季度上線。Fidji Simo稱,在推出該模式前,OpenAI希望確保年齡預測模型足夠成熟,能夠準確識別未成年使用者,同時避免誤判成年人。目前,該年齡預測模型已在部分國家進行早期測試,主要用於自動應用不同的內容限制與安全策略。01.專業任務能力躍升首次達到“專家級”評分根據OpenAI官方披露,GPT-5.2 Thinking在覆蓋44類職業任務的GDPval評測中,首次達到“專家級”表現——在70.9%的對比中戰勝或持平行業專業人士。GPT-5.2 Pro進一步提升至74.1%。在僅統計“明確勝出”的任務中,GPT-5.2 Thinking為49.8%,Pro則達到60%。這一評測覆蓋銷售演示、預算模型、營運排班、製造流程圖等多類真實業務成果。GPT-5.2在這些任務的生成速度約為人工專家的11倍,成本為其1%以下。在投研類任務中,GPT-5.2 Thinking在內部評測的投行三表模型與槓桿收購模型等場景中的平均得分為68.4%,較GPT-5.1 Thinking的59.1%有明確提升,GPT-5.2 Pro得分進一步增長至71.7%。▲圖源:OpenAI官方部落格▲GPT-5.1 Thinking與GPT-5.2 Thinking效果對比02.程式碼、工具呼叫與長鏈路任務全面升級在程式碼能力方面,GPT-5.2 Thinking在更嚴格的SWE-bench Pro(跨四種語言、強調真實工程難度)中取得55.6%,在SWE-bench Verified中更是達到80%,均顯著領先GPT-5.1的50.8%與76.3%。在SWE-Lancer IC Diamond任務中,GPT-5.2 Thinking取得74.6%(GPT-5.1為69.7%)。▲圖源:OpenAI官方部落格與此同時,GPT-5.2出現在AI基準平台Imarena.ai(Arena)排行榜中,並在WebDev測試中取得1486分,位列第二,僅落後榜首3分,領先Claude-opus-4-5與Gemini-3-pro等主流模型。另一個版本GPT-5.2則以1399分排在第六。根據Arena說明,GPT-5.2此前在內部以“robin”和“robin-high”為代號進行測試,其分數與GPT-5-medium僅相差1分,目前仍為初步結果,未來有望隨著測試量積累而進一步穩定。從評測維度來看,Arena主要衡量模型在可部署Web應用情境下的端到端編碼能力,GPT-5.2已反映出其在複雜任務鏈條上的實用性。在事實精準性方面,GPT-5.2 Thinking在基於ChatGPT查詢的無錯誤回答率(開啟搜尋模式下)達到93.9%,較GPT-5.1的91.2%有所改善,在無搜尋情況下也從87.3%提升至88%。▲圖源:OpenAI官方部落格另一個關鍵變化來自工具呼叫與長鏈路任務的可靠性提升。GPT-5.2 Thinking在Tau-2 Bench Telecom中達到98.7%的最高得分,在零推理模式下也大幅領先上一代,在更高噪聲的Retail場景中精準率從77.9%提升至82%。在更通用的工具鏈評估BrowseComp中,GPT-5.2 Thinking達到65.8%,Pro版本達到77.9%,亦高於GPT-5.1的50.8%。▲圖源:OpenAI官方部落格OpenAI提到,GPT-5.2 Thinking和Pro均支援第五檔推理強度xhigh,適用於長流程、多步驟、高精度的專業任務場景。03.在長上下文與視覺理解GPT-5.2全面增強在長上下文能力上,GPT-5.2 Thinking在OpenAI MRCRv2中全面領先上一代,在8 needles測試中從4k到256k的範圍內均保持遠高於GPT-5.1的表現,其中在4k–8k長度下達98.2%,在128k–256k長度下仍保持77.0%,而GPT-5.1同期為29.6%–47.8%區間。在其他長文場景中,BrowseComp Long Context(128k/256k)中,GPT-5.2 Thinking分別達到92.0%與89.8%。GraphWalks任務中,GPT-5.2 Thinking在bfs與parents子集分別達到94.0%與89.0%,相比GPT-5.1的76.8%與71.5%顯著提升。▲圖源:OpenAI官方部落格在視覺理解上,GPT-5.2 Thinking在CharXiv科學圖表推理任務中無工具模式下為82.1%,開啟Python工具後進一步提升至88.7%。在ScreenSpot-Pro介面理解中,GPT-5.2 Thinking取得86.3%,遠高於GPT-5.1的64.2%。在視訊類、多模態綜合難度更高的Video MMMU中,也從82.9%提升至85.9%。在視覺能力上,GPT-5.2在ScreenSpot-Pro(介面理解)中達到86.3%的精準率,相比GPT-5.1有明顯提升。在CharXiv科學圖表推理任務中,也實現了準確率的大幅增長。這使其在處理科研圖表、營運儀表盤、產品介面截圖等專業視覺輸入時更加可靠。▲圖源:OpenAI官方部落格04.微軟全家桶同步升級GPT-5.2成為新一代“生產力模型”隨著GPT-5.2發佈,微軟董事長兼CEO Satya Nadella也在社交平台X平台上宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系,並作為新的“默認推理模型”服務更多工作流場景。在Microsoft 365 Copilot中,使用者已經可以通過模型選擇器啟用GPT-5.2,用於會議記錄分析、文件推理、市場研究與戰略規劃等高複雜度任務。Nadella稱,將模型與使用者工作資料結合後,GPT-5.2能夠更充分發揮推理優勢。在GitHub Copilot中,GPT-5.2適用於長上下文推理與複雜程式碼庫審查,重點覆蓋跨檔案關係分析、依賴追蹤與重建構議等工程類使用場景。此外,GPT-5.2還同步進入Microsoft Foundry與Copilot Studio,開發者可在建構自動化流程、企業內部Agent或自主開發時直接呼叫GPT-5.2模型。面向消費者端的Copilot也將隨後啟動分階段更新,逐步替換當前版本。▲圖源:X平台從微軟生態的覆蓋面來看,GPT-5.2已被定位為“默認生產力模型”,在不同產品線之間以自動模型選擇的方式服務更廣泛的開發、寫作與分析任務。此外,頂流AI程式設計助手Cursor也已第一時間火速上線GPT-5.2,並同步沿用OpenAI官方API價格。▲圖源:Cursor05.結語:GPT-5.2的能力邊界正向“穩定、實用”收攏從多項公開基準測試到Arena針對Web應用端到端能力的評測結果,GPT-5.2展現出的整體能力向穩定可用和任務完成度方向收攏。隨著Instant、Thinking與Pro組成的多檔能力體系的開放,GPT-5.2在不同工作流中被切分為更清晰的使用場景。而在微軟生態中的全面接入,也進一步強化了這一變化的方向。無論是在M365 Copilot中承擔跨文件推理,還是在GitHub Copilot中處理長上下文程式碼鏈路,GPT-5.2都開始參與到更高頻、更具體的任務流程中。除了推出面向專業工作和智能體的前沿模型外,OpenAI還宣佈已經與迪士尼達成授權協議,允許Sora 2使用者在生成並分享的圖片中使用迪士尼角色。迪士尼將向OpenAI投資10億美元(約合人民幣71億元),並擁有未來增持股份的選擇權。 (智東西)
GPT-5.2 凌晨發佈:這一次,OpenAI 不想做題,只想幫你搞錢!
GPT-5.2 終於發佈了!雖然我已經以 Gemini 為主,但 GPT 的每次更新仍然受到極大的關注(包括我)。這次到底更新了些啥?簡單來說,各項指標超越 Gemini 3 Pro,讓 OpenAI 又重回了王座。但,並沒有形成那種“外星人降臨”的碾壓優勢。不過,細節裡全是魔鬼。我們具體來扒一扒。OpenAI 官方開篇定調非常高,直接說 GPT-5.2 是迄今為止功能最強大的專業知識工作模型。啥叫專業知識工作模型?把官方那堆技術黑話翻譯一下,意思就是:它不再滿足於當你的陪聊對象,它現在想做你的“腦力合夥人”。這一次,OpenAI 顯然是急了,它甚至不屑於跟你談什麼“通用智能”的夢想,而是把“搞錢”這兩個字寫在了臉上。它這次的技能點,全點在了打工人的痛點上:做表(Excel)、畫餅(PPT)、寫程式碼,以及那些讓人頭禿的長文件。它就是為了創造“經濟價值”而生的 。到底有多強?聊聊 GDPval。為了證明自己“值錢”,OpenAI 甚至拋棄了那些傳統的 MMLU 考試分數。他們拋出了一個聽起來就充滿金錢味道的新指標:GDPval。 (這名字一聽就是奔著生產總值GDP去的)可能很多人沒聽說過這個評測集。 這是 OpenAI 專門為了衡量“真實世界打工能力”搞出來的。他們在 44 個核心職業(律師、市場經理、工程師等)裡,找了一幫平均工齡 14 年的資深專家,出了 1320 道真實的“地獄級工作任務” 。注意,不是做選擇題。 是讓你真的去改合同、寫全案 PPT、最佳化生產線圖紙。這些任務,人類專家平均要花 7 個小時才能做完 。結果呢?經過雙盲測試,GPT-5.2 在 70.9% 的情況下,幹得比這些人類專家更好,或者至少打個平手 。圖:在 GDPval 中,模型嘗試完成涵蓋美國 GDP 貢獻最大的九大行業中 44 個職業的特定知識工作這才是最恐怖的。它的參照系不是剛畢業的大學生,而是行業專家。 也就是說,在一個有著十幾年經驗的採購經理面前,GPT-5.2 幹出來的活兒,有七成的時候,比他幹得還好。甚至於說,GPT-5.2 Thinking 生成的電子表格和幻燈片在複雜程度和格式方面都有所提高。說白了: 以前的 GPT 是個學霸,現在的 GPT-5.2 是個熟手。那麼,它是怎麼做到這一點的?這背後其實是一場架構級的革命。OpenAI 官方直言不諱:這是自 GPT-5 以來,GPT 系列在智能體程式設計領域跨度最大的一次飛躍。圖:在SWE-Bench Pro中(在新窗口中打開)⁠ ⁠ ⁠,給定一個程式碼庫,模型必須生成一個補丁來解決一個實際的軟體工程任務。為了證明自己不是自嗨,他們這次直接拉來了 Windsurf 和 Devin 站台。 這兩位可是現在 AI 程式設計界的頂流。官方直接宣佈,GPT-5.2 將成為這兩個工具的默認核心模型 。這說明啥?說明這玩意兒已經經受住了最殘酷的生產環境考驗。但真正讓我覺得牛逼的,是背後的技術邏輯發生了質變。以前我們為了讓 AI 幹點複雜的活,得搭建一套脆弱的“多智能體系統”。就像拉了一群各懷鬼胎的實習生在開會,一個負責想,一個負責寫,一個負責改,管理起來極其麻煩,還容易崩 。而 GPT-5.2 直接解鎖了一種全新的架構:單一超級智能體(Single Mega-agent)。這就好比把那一屋子實習生全裁了,換來了一個精通 20 多種工具的全能大神 。它不僅反應更快、腦子更靈光,而且維護起來簡單了 100 倍。除了腦子好,它的“手眼”也進化了。為了配得上“超級智能體”這個稱號,OpenAI 這次給 GPT-5.2 裝上了更強的配件:1. 手更快了以前的 AI 呼叫工具(比如聯網搜素、畫圖、跑程式碼)總有種“卡頓感”。但官方這次特別強調:延遲大幅降低,而且工具呼叫能力變得極強。這意味著什麼?意味著它在多個工具之間切換,絲滑得像是在切菜。它不再是一個個蹦字的聊天機器人,而是一個能瞬間調起計算器、瀏覽器、程式碼直譯器的“快手”。嗯?2. 眼睛更尖了看一眼官方放出的演示圖: 它能直接看懂複雜的波浪模擬參數,甚至能精準識別電路板上的每一個元器件。圖:GPT 5.2 可以識別出元部件這說明它的視覺能力已經脫離了“認貓認狗”的初級階段,開始進入工業級的精細識別了。配合長上下文能力 ,不管是幾千行的程式碼屎山,還是幾十頁的複雜電路圖,它都能一口吞下,並且過目不忘。實際上,這使得專業人士能夠使用 GPT-5.2 處理長篇文件,例如報告、合同、研究論文、筆錄和多檔案項目,同時在數十萬個詞元中保持一致性和精準性。圖:GPT 5.2 的長上下文處理所以,GPT-5.2 特別適合深度分析、綜合和複雜的多源工作流程。但真正的“重頭戲”,是這個:ARC-AGI 2如果說 GDPval 是測它能不能幹活,那 ARC-AGI 2 就是測它到底有沒有腦子。老粉都知道,ARC 評測集是 AI 圈最難啃的骨頭,甚至沒有之一。它是由 Keras 之父 François Chollet 搞出來的,專門用來反死記硬背的。比如這種題目:圖:ARC AGI2 題目圖:ARC AGI2 題目以前的模型,MMLU 這種考試能拿 90 分,一碰到 ARC 這種需要“舉一反三”的智力題,立馬現原形,得分低得可憐。大家猜猜上一代的 GPT-5.1 Thinking 拿了多少分?17.6%。但這次,GPT-5.2 幹到了多少?52.9%。兄弟們,這是 3 倍的暴漲。這不是“擠牙膏”,這是直接把牙膏管踩爆了。為了讓大家有個概念,目前市面上最強的競品 Gemini 3 Pro 和 Claude,在這個榜單上的分數大約在 31% - 37% 之間(取決於版本)。也就是說,OpenAI 這一次在純智商層面,不僅甩開了對手,更是跨越了一個巨大的鴻溝。這意味著 GPT-5.2 終於突破了那層窗戶紙:它開始具備真正的通用推理能力了。它遇到沒見過的新問題,不再是去翻記憶庫裡的答案(因為根本沒有),而是像人類一樣,現場觀察規律、現場推理、現場解決。順便提一嘴,在另一個數學競賽 AIME 2025 里,GPT-5.2 直接拿了 100% 的滿分。這可是全美高中數學聯賽。 以前我們還在討論 AI 能不能及格,現在它已經把卷子做穿了。相比於它能多寫兩行程式碼,我覺得這一點,才是這次更新裡最硬核、最不容忽視的里程碑。總結一下:GPT-5.2 Instant、思考版和 Pro 版本今日開始推送,首先面向 Plus、Pro、Business 和 Enterprise 套餐使用者。免費版和 Go 使用者將於明天獲得存取權。GPT-5.2 在我心中,是一個極其合格,甚至有點“過於務實”的迭代。它沒有像過去那樣,瘋狂去捲那些虛頭巴腦的考試分數,而是把所有的技能點,都死磕在了“怎麼幫白領幹活”這件事上。它不跟你談星辰大海,只跟你談降本增效;不跟你炫耀參數,只給你看GDPval。這個點,我覺得就很酷,非常的剛需。雖然從“好玩”或者“科幻感”的角度來說,GPT-5.2 可能沒有 Gemini 3 Pro 原生多模態帶來的那種絲滑震撼。(畢竟Google同步發行了 Nano Banana Pro,期待 GPT Image 早日發佈)但如果你是為了工作,為了搞錢,為了早點下班去陪家人。那 GPT-5.2 可能是目前地表最強、也是最值得你掏錢的生產力工具 。 (AI范兒)
一文讀懂GPT-5.2 : 直指“經濟價值”,硬剛Gemini3的劇情未出現
台北時間12月12日凌晨,OpenAI把剛剛發佈的GPT-5.2定義為“迄今為止功能最強大的專業知識工作模型系列”。OpenAI給出的官方文件明確指出,GPT-5.2 的設計初衷在於“創造更大的經濟價值”。相較前代,它在電子表格處理、簡報製作、程式碼編寫、圖像感知、長文字理解及複雜多步項目執行等方面,均實現了全面性能躍升。為了驗證其在真實業務環境中的價值,OpenAI引入了GDPval基準測試,該測試覆蓋了9大行業、44類職業的1320個真實業務場景。官方資料顯示,GPT-5.2 Pro在高達74.1%的任務中表現超越或持平人類專家。多家早期合作企業,如Notion、Databricks和Cognition,也從測試中觀察到模型在長鏈條推理、資料分析和程式碼審查等任務中的錯誤率顯著下降,一致性與穩定性得到明顯改善,使其更適合作為“公司級智能體”的核心引擎。就在一周多前,奧特曼在給員工的私人資訊中宣佈進入“紅色警戒”狀態,調集更多資源投入 ChatGPT。行業對於GPT-5.2的預期為,硬剛Gemini 3,奪回SOTA。但是,這次GPT-5.2的發佈,並沒有看出“應戰”的火藥味和心虛的“不服感”。Gemini 3 被 Google 定義為“新一代智能時代的起點”,核心是多模態推理 + 代理能力 + 搜尋和 Workspace 場景的深度融合。而GPT-5.2清晰明確指向專業知識場景,強調“經濟價值”。定位區別清晰。GPT-5.2的官方說明文件讀下來,整體感覺是,有點無聊,但OpenAI更有商業戰略定力了。OpenAI應用業務首席執行長菲吉·西莫(Fidji Simo)在新聞發佈會上也表示:“我們宣佈了‘紅色警報’,旨在向公司發出明確訊號,即我們希望將資源集中在一個特定領域,這也是界定公司優先事項的一種方式。”西莫同時否認了GPT-5.2系列模型的發佈是受“紅色警報”行動影響而匆忙提前的,她強調,公司為這款新模型的發佈已經進行了數月的準備工作。在經歷了數月準備後推出的GPT-5.2,核心看點完全圍繞著“創造更大的經濟價值“展開:三級模型矩陣: 推出 Instant(極速)、Thinking(深度思考)、Pro(最強解難) 三個版本,以滿足從日常輕量對話到複雜科研的不同需求。“打工人”實戰能力質變: 基於全新的 GDPval 基準,GPT-5.2 Pro 在 74.1% 的真實職業任務(如投行建模、PPT製作)中勝過或持平人類專家,效率提升 11 倍,標誌著從“對話”轉向“交付”。邏輯與推理的“封頂”表現: 數學能力在 AIME 2025 中拿下滿分(100%),並在 ARC-AGI-1 抽象推理測試中首次突破 90%,展示了恐怖的通用智能水平。Agentic Coding 的飛躍: 在更難的 SWE-Bench Pro程式碼測試中顯著提升,被開發者評價為“自 GPT-5 以來最大的智能躍升”,尤其擅長複雜的多步驟工具呼叫和長流程任務。“完美”的超長上下文: 解決了“大海撈針”的痛點,在 256k長度下的多資訊點檢索(4-needle)精準率接近 100%,配合更強的視覺空間理解能力,大幅提升了處理長文件和複雜圖表的可靠性。01 包含三款模型,比GPT-5.1更貴本次發佈包含三款模型:GPT-5.2 Instant(最佳化響應速度)、GPT-5.2 Thinking(深度推理)、GPT-5.2 Pro(高端版本)。Instant主要用於日常任務主力,主打速度與輕量推理;Thinking用於深度邏輯推理與複雜項目,更適用於企業工作流;Pro面向研究與最高品質輸出,推理鏈條最強、錯誤率最低。OpenAI 選擇了“比 5.1 昂貴、但仍低於其他前沿模型”的策略,為GPT-5.2系列模型推出分層API定價策略。其中GPT-5.2 Instant與GPT-5.2 Thinking採用統一計費標準,輸入單價為每百萬tokens 1.75美元,輸出單價為每百萬tokens 14美元;高端版本 GPT-5.2 Pro定價更高,輸入單價達每百萬tokens 21美元,輸出單價為每百萬tokens 168美元。儘管Pro等高端版本的單次token單價更高,但OpenAI強調,GPT-5.2系列在真實智能體任務中具備更高的token使用效率,因此在部分企業場景中,完成同等質量任務的整體成本反而可能降低。官方同時說明,Pro版本在實際使用中能顯著減少“推理廢話”,輸出內容更緊湊精煉,這一特性也將進一步幫助使用者控制使用費用。圖:GPT-5.2系列模型的定價同時,ARC Prize(ARC-AGI)被業界公認為目前最難、也是最能體現 AI “通用智能(AGI)”水平的基準測試。根據ArcPrize的測算,GPT-5.2的性價比繼續提升,一年內效率提升了約390倍。GPT-5.2系列已向Plus、Pro、Edu、Business、Enterprise使用者陸續開放,並同步上線API。面向工程與程式設計師群體的GPT-5.2 Codex將在未來數周內推出,進一步針對程式設計任務做專項最佳化。02 核心直指專業知識工作與企業級應用的能力提升GPT-5.2系列模型的核心定位是“提升專業工作效率”與“增強長期任務一致性”。根據官方披露的資料,GPT-5.2系列模型在多項關鍵評估基準上取得了當前公開模型中的最高成績。圖:GPT-5.2基準評測概覽OpenAI官方表示,GPT-5.2聚焦於提升企業使用者的專業工作流效率,包括表格處理、簡報生成、程式碼編寫、圖像理解、工具呼叫、多檔案工程任務處理等能力。GPT-5.2的文字生成結構相較以往更清晰,邏輯鏈條更穩定,特別是在軟體說明文件、技術手冊生成、長篇報告編寫等領域,模型內部的“結構化寫作傾向”更加明顯。圖:GPT-5.1、GPT-5.2製表效果對比GPT-5.2 Thinking在面向專業知識與實際工作的GDPval任務集中達到了可與行業平均專業人員相匹敵的水準,在所有對比任務中“勝出或持平”的佔比達到70.9%。在等效任務中,GPT-5.2 Thinking 的完成速度超過專業人士11倍以上,同時成本低於1%。在真實企業環境中,多家早期合作夥伴測試表明模型在複雜推理鏈條與工具呼叫一致性上實現明顯改進:Notion、Box、Shopify:觀察到更穩健的長鏈條推理,在複雜介面和資料庫操作中錯誤率下降Databricks、Hex:資料智能體任務的 SQL/資料分析鏈路顯著更一致Cognition、Warp:認為其程式碼審查和定位缺陷能力達到當前模型的領先水平此外,OpenAI特別強調GPT-5.2在“多工具編排任務”中表現更穩定,能夠在單次會話中處理二十多個工具呼叫步驟,並在系統提示(system prompt)顯著簡化的情況下維持高一致性。這一點使其更適合作為“公司級智能體核心大腦”。03 編碼、事實性與長文字處理全面進步,支撐企業複雜開發需求為了支撐企業級的複雜開發需求,GPT-5.2 Thinking在軟體工程能力上實現了飛躍。GPT-5.2 Thinking在SWE-Bench Pro嚴格評測中取得55.6%精準率,在Python專項SWE-Bench Verified評測中達到 80%。這意味著GPT-5.2在自動化偵錯生產系統、重構大型程式碼庫、理解遺留系統以及處理複雜功能需求方面,已接近部分自動化程式碼助手的可部署標準。圖:GPT-5.2 Thinking在SWE-Bench Pro的跑分GPT-5.2在前端開發(尤其是現代 UI、WebGL/Three.js、複雜 3D 介面)方面也加入了專門最佳化,提升了對元件結構、事件繫結和佈局邏輯的理解能力。圖:GPT-5.2 Thinking在匿名真實查詢集合上的錯誤率降低在事實性方面,GPT-5.2 Thinking在匿名真實查詢集合上的錯誤率相較上一代下降約30%。OpenAI強調,GPT-5.2在面對模糊或資訊不完整的查詢時,會更主動給出依據來源或使用結構化推理路徑,以降低誤導性回答的機率。圖:GPT-5.2 Thinking在長上下文推理方面的表現在長上下文推理方面,GPT-5.2 Thinking支援最高256k tokens輸入,並在“四針(4-needle)”檢索任務中實現接近100%精準率,超過已有商用模型的水平。該模型還在長文件問答、合同審查、多檔案工程跨引用等任務中表現出更高穩定性。若任務長度超過上下文窗口,模型可配合Responses/compact介面,通過“摘要性迭代檢索”進一步擴展可處理規模。04 智能體工具呼叫與視覺理解大幅增強企業工作流往往涉及跨系統的複雜操作。在智能體任務方面,GPT-5.2 Thinking在Tau2-bench Telecom多輪客服任務的工具呼叫測試中取得98.7%完成度,該評測覆蓋訂票、退款、延誤補償、物品遺失與跨系統調度等場景,反映其可承擔更高自治度的流程任務。OpenAI表示,GPT-5.2的“工具決策粒度”更加穩定,推理鏈條更可控,在連續20~40步的任務中不易出現跳步、誤呼叫或不必要呼叫等問題,使其更適合作為長流程自動化智能體(Autonomous Agent)的執行核心。圖:在CharXiv(科研圖表推理)中精準率提升約8個百分點在視覺能力方面,GPT-5.2 Thinking的圖表推理和介面理解能力顯著增強。其軟體介面識別錯誤率減少約一半,在CharXiv(科研圖表推理)中精準率提升約8個百分點。OpenAI同時對模型加入了大規模軟體 UI資料訓練,使其更準確理解控制項、菜單層級與介面邏輯關係。圖:GPT-5.2 Thinking在圖像中元素的位置把握上更強與之前的模型相比,GPT-5.2 Thinking在圖像中元素的位置把握上更強,這有助於解決相對佈局在問題中起關鍵作用的任務。在示例中,即使是低品質的圖像,GPT-5.2也能識別出主要區域,並放置大致與每個元件真實位置相符的框,而GPT-5.1僅能標註少數幾個部分,並且對它們的空間排列理解明顯較弱。05 科學推理、數學能力與抽象智能的進展圖:GPT-5.2 Pro在GPQA Diamond中的表現GPT-5.2 Pro在GPQA Diamond(研究生難度的大規模科學知識測試)中取得93.2%精準率,在現有同行測試中位居前列。圖:GPT-5.2 Thinking在FrontierMath測試中的表現在FrontierMath(涵蓋多步驟數學推理及高難度證明問題)中,GPT-5.2 Thinking取得40.3%正確率,相較上一代有顯著提升。OpenAI披露,一支科研團隊已使用GPT-5.2 Pro協助探索統計學習理論中的一個開放問題,模型提出的證明在後續人工稽核中被證實成立。在ARC-AGI系列評測方面,GPT-5.2 Thinking在ARC-AGI-2(Verified)中從上一代的17.6%提升至52.9%,被視為該模型在“抽象智能”“非模式記憶”“類比推理能力”上的重要進展。GPT-5.2 Pro在 ARC-AGI-1中也超過90%,成為首個達成該水平的主流模型。圖:心理健康評估在安全策略方面,GPT-5.2 延續“safe completion”訓練框架,重點強化心理健康、風險傾向、敏感身份類對話場景的表現。OpenAI還正式宣佈開始部署年齡預測系統,可在疑似未成年使用者使用模型時自動切換到受限模式與額外安全過濾。06 寫在最後在發完幾條“兜售”GPT-5.2的帖子之後,SamAltman還發佈了一條“情緒價值貼”——過去的十年十分精彩;在OpenAI工作比我想像的還要特別。和一條彩蛋帖“下周我們還會送您一些小小的聖誕禮物”,暗示可能還要新的模型(產品)發佈。就在幾個小時前,OpenAI 獲得迪士尼10 億美元的投資意向。ChatGPT以後可以理直氣壯的合成“米老鼠”了。ChatGPT火爆三年後,SOTA模型不斷刷新Benchmark已經不能帶給行業興奮點,但是每次OpenAI更新新模型的情緒價值仍在。同時,這家站在AGI浪尖的獨角獸,必須開始背負更多的商業期待,也要解決一個又一個現實中的“米老鼠問題”。 (騰訊科技)
一文讀懂GPT-5.2 : 迎戰Gemini,號稱智能體編碼最強,趕超人類專家,Altman料1月解除紅色警報
GPT-5.2三種版本周四上線ChatGPT付費套餐,其中Instant主打快速高效,Pro是高品質回答的最智能且可靠選擇,和Thinking是最佳科學家助手模型;Thinking被稱為最佳視覺模型,刷新SWE編碼能力測試最高分,是OpenAI首個性能達到或超過人類專家的模型,GDPval職業知識測試中完成任務速度是專家的11倍以上,成本不到專家的1%。Altman稱Gemini 3對OpenAI的影響沒之前擔心的大。OpenAI周四正式發佈GPT-5.2系列模型,打響了迎戰GoogleGemini 3的第一槍。CEO Sam Altman淡化Gemini 3帶來的衝擊,預計明年1月就可以解除所謂“紅色警報”的狀態,以非常強勁的姿態重回常態GPT-5.2是OpenAI迄今最先進的人工智慧(AI)模型,針對專業工作場景進行了全面最佳化,創多個基準測試的行業記錄,其中的GPT-5.2 Thinking刷新了SWE編碼能力測試的歷史最高分,也是OpenAI首個性能達到或超過人類專家水平的模型。OpenAI應用業務的CEO Fidji Simo表示,GPT-5.2在建立電子表格、製作簡報、圖像識別、程式碼編寫和長文字理解等方面均優於前代產品,旨在"為人們創造更多經濟價值"。OpenAI的研究副總Adain Clark稱,GPT-5.2在數學推理方面的進步意味著它能更好地處理金融建模、預測和資料分析等任務。OpenAI宣佈,周四當天GPT5.2就在ChatGPT上線,面向Plus,、Pro、Go、Business和 Enterprise這些付費套餐的使用者, 共推出Instant、Thinking和Pro三個版本,API也同步開放給所有開發者。在ChatGPT中,付費使用者可使用三個版本的GPT-5.2,且在未來三個月內仍可繼續使用GPT-5.1。在API平台,GPT-5.2定價為每百萬輸入token 1.75美元、每百萬輸出token 14美元,快取輸入可享受90%折扣。雖然單token價格高於GPT-5.1,但OpenAI表示,由於模型效率更高,達到相同質量水平的總成本反而更低。新模型發佈是OpenAI對Gemini 3掀起又一輪競爭的正式回應。本周稍早媒體稱OpenAI的CEO Sam Altman最近發佈內部"紅色警報"備忘錄,要求公司將資源集中用於改進ChatGPT。幾周前,Google推出的Gemini 3因其推理和編碼能力廣受好評,迅速登上LMArena和Humanity's Last Exam等權威排行榜榜首,給OpenAI帶來壓力。評論認為,GPT-5.2 與其說是重新發明,不如說是對OpenAI最近兩次升級的整合。8月發佈的 GPT-5 是一次重設,為統一系統奠定了基礎,它可以在快速默認模型和更深入的“思考”模式之間切換。11月發佈的 GPT-5.1專注於使該系統更加友好、更具對話性,並更適合智能體和編碼任務。GPT-5.2似乎進一步提升了所有這些進步,使其成為生產應用更可靠的基礎。三個版本GPT5.2分別主打快速、深度、智能可靠對於周四提供的三個版本GPT 5.2,OpenAI分別介紹稱,Instant是快速高效的日常工作和學習助手,在資訊查詢、操作指南、技術寫作和翻譯方面均有顯著提升。,並延續了 GPT-5.1 Instant 中更親切的對話風格。早期測試者尤其注意到,GPT-5.2 的解釋更加清晰,能夠直接呈現關鍵資訊。Thinking 專為深度工作而設計,能夠幫助使用者更高效地完成更複雜的任務,尤其是在編碼、總結長篇文件、回答有關上傳檔案的問題、逐步進行數學和邏輯運算、以更清晰的框架和更有用的細節輔助規劃和決策方面。Pro是需要高品質回答難題時“最智能、最可靠”的選擇。早期測試表明,它在程式設計等複雜領域表現更出色,且重大錯誤更少。性能全面領先,多項基準測試創新高GPT-5.2在多個關鍵基準測試中刷新了行業紀錄。在GDPval測試中,該模型在涵蓋44個職業的知識工作任務上,有70.9%的表現達到或超過行業專家水平。OpenAI稱,GPT-5.2 Thinking完成這些任務的速度是專家的11倍以上,成本不到專家的1%。在編碼能力方面,GPT-5.2 Thinking在SWE-Bench Pro上取得55.6%的成績,在SWE-bench Verified上更是達到80%的新高。這一基準測試真實世界軟體工程任務,涵蓋四種程式語言。OpenAI的產品負責人Max Schwarzer表示,GPT-5.2在程式碼生成和偵錯方面取得重大進步,Windsurf和CharlieCode等編碼初創公司報告稱該模型實現了"最先進的智能體編碼性能"。OpenAI聲稱GPT-5.2 Thinking是"世界上最好的視覺模型",在圖表推理和軟體介面理解方面的錯誤率降低了約一半。在長文字處理上,該模型在OpenAI MRCRv2測試中率先在25.6萬token範圍內實現近100%的精準率,使其特別適合深度文件分析和多源資訊工作流。在科學研究領域,GPT-5.2 Pro在GPQA Diamond測試中達到93.2%的精準率,GPT-5.2 Thinking緊隨其後為92.4%。在專家級數學測試FrontierMath上,GPT-5.2 Thinking解決了40.3%的問題,創下新紀錄。OpenAI稱GPT-5.2 Pro和GPT-5.2 Thinking是"世界上最好的科學家助手模型"。Altman稱Gemini 3影響沒擔心的大面對Gemini 3帶來的競爭壓力,Altman周四接受媒體採訪時表示:“Gemini 3對我們指標的影響可能沒有我們擔心的大。”他預計,OpenAI將在明年1月前以“非常強勢的地位”退出紅色警報模式。關於紅色警報的原因,Simo在記者會上解釋稱:"我們宣佈紅色警報是為了向公司發出訊號,表明我們希望將資源集中在某個特定領域,這是明確優先事項和可降級事項的方式。" 她強調,雖然ChatGPT獲得了更多資源投入,但GPT-5.2的發佈已籌備多月,並非因紅色警報而匆忙推出。雖然Altman據稱在內部備忘錄中將圖像生成列為優先事項,但此次OpenAI的新品發佈並未包含新的圖像生成器。據報導,OpenAI計畫在明年1月發佈另一款新模型,將提供更好的圖像生成、更快的速度和更強的個性化能力,但公司周四未確認這一計畫。OpenAI還宣佈推出年齡預測軟體,以便為18歲以下使用者提供內容保護。Simo透露,公司將在明年第一季度推出"成人模式",Altman此前表示該模式可能允許"為經過驗證的成年人提供情色內容"等用途。企業客戶成為爭奪焦點GPT-5.2的發佈明確瞄準企業市場。OpenAI本周早些時候發佈的新資料顯示,過去一年其AI工具的企業使用量大幅飆升。公司稱,ChatGPT Enterprise平均使用者表示AI每天為他們節省40至60分鐘,重度使用者每周節省超過10小時。Notion、Box、Shopify、Harvey和Zoom等企業客戶觀察到,GPT-5.2展示了最先進的長周期推理和工具呼叫性能。Databricks、Hex和Triple Whale發現該模型在智能體資料科學和文件分析任務上表現出色。Cognition、Warp、Charlie Labs、JetBrains和Augment Code則表示GPT-5.2提供了最先進的智能體編碼性能。在工具呼叫方面,GPT-5.2 Thinking在Tau2-bench Telecom測試中達到98.7%的精準率,展示了其在長時間、多輪次任務中可靠使用工具的能力。在一個涉及航班延誤、轉機失敗和醫療座位需求的複雜客戶服務案例中,GPT-5.2成功協調了重新預訂、特殊協助座位和補償等全部流程。這一戰略轉向正值關鍵時刻。OpenAI已承諾在未來幾年投入超過1兆美元用於AI基礎設施建設,但如今Google正在迎頭趕上。據報導,OpenAI的推理計算支出大部分以現金支付而非使用雲積分,表明公司的計算成本已超出合作夥伴關係和積分所能補貼的範圍。對推理模型的加倍投入可能形成惡性循環:為贏得排行榜而增加計算支出,然後為大規模運行這些高成本模型而進一步增加支出。在定價策略上,雖然ChatGPT訂閱價格保持不變,但API中的GPT-5.2單token價格高於GPT-5.1,不過仍低於其他前沿模型。OpenAI目前沒有棄用GPT-5.1、GPT-5或GPT-4.1的計畫,並承諾會提前充分通知開發者任何棄用計畫。 (invest wallstreet)