一文讀懂GPT-5.2 : 迎戰Gemini,號稱智能體編碼最強,趕超人類專家,Altman料1月解除紅色警報

GPT-5.2三種版本周四上線ChatGPT付費套餐,其中Instant主打快速高效,Pro是高品質回答的最智能且可靠選擇,和Thinking是最佳科學家助手模型;Thinking被稱為最佳視覺模型,刷新SWE編碼能力測試最高分,是OpenAI首個性能達到或超過人類專家的模型,GDPval職業知識測試中完成任務速度是專家的11倍以上,成本不到專家的1%。Altman稱Gemini 3對OpenAI的影響沒之前擔心的大。

OpenAI周四正式發佈GPT-5.2系列模型,打響了迎戰GoogleGemini 3的第一槍。CEO Sam Altman淡化Gemini 3帶來的衝擊,預計明年1月就可以解除所謂“紅色警報”的狀態,以非常強勁的姿態重回常態

GPT-5.2是OpenAI迄今最先進的人工智慧(AI)模型,針對專業工作場景進行了全面最佳化,創多個基準測試的行業記錄,其中的GPT-5.2 Thinking刷新了SWE編碼能力測試的歷史最高分,也是OpenAI首個性能達到或超過人類專家水平的模型。

OpenAI應用業務的CEO Fidji Simo表示,GPT-5.2在建立電子表格、製作簡報、圖像識別、程式碼編寫和長文字理解等方面均優於前代產品,旨在"為人們創造更多經濟價值"。OpenAI的研究副總Adain Clark稱,GPT-5.2在數學推理方面的進步意味著它能更好地處理金融建模、預測和資料分析等任務。

OpenAI宣佈,周四當天GPT5.2就在ChatGPT上線,面向Plus,、Pro、Go、Business和 Enterprise這些付費套餐的使用者, 共推出Instant、Thinking和Pro三個版本,API也同步開放給所有開發者。

在ChatGPT中,付費使用者可使用三個版本的GPT-5.2,且在未來三個月內仍可繼續使用GPT-5.1。在API平台,GPT-5.2定價為每百萬輸入token 1.75美元、每百萬輸出token 14美元,快取輸入可享受90%折扣。雖然單token價格高於GPT-5.1,但OpenAI表示,由於模型效率更高,達到相同質量水平的總成本反而更低。

新模型發佈是OpenAI對Gemini 3掀起又一輪競爭的正式回應。本周稍早媒體稱OpenAI的CEO Sam Altman最近發佈內部"紅色警報"備忘錄,要求公司將資源集中用於改進ChatGPT。幾周前,Google推出的Gemini 3因其推理和編碼能力廣受好評,迅速登上LMArena和Humanity's Last Exam等權威排行榜榜首,給OpenAI帶來壓力。

評論認為,GPT-5.2 與其說是重新發明,不如說是對OpenAI最近兩次升級的整合。8月發佈的 GPT-5 是一次重設,為統一系統奠定了基礎,它可以在快速默認模型和更深入的“思考”模式之間切換。11月發佈的 GPT-5.1專注於使該系統更加友好、更具對話性,並更適合智能體和編碼任務。GPT-5.2似乎進一步提升了所有這些進步,使其成為生產應用更可靠的基礎。

三個版本GPT5.2分別主打快速、深度、智能可靠

對於周四提供的三個版本GPT 5.2,OpenAI分別介紹稱,Instant是快速高效的日常工作和學習助手,在資訊查詢、操作指南、技術寫作和翻譯方面均有顯著提升。,並延續了 GPT-5.1 Instant 中更親切的對話風格。早期測試者尤其注意到,GPT-5.2 的解釋更加清晰,能夠直接呈現關鍵資訊。

Thinking 專為深度工作而設計,能夠幫助使用者更高效地完成更複雜的任務,尤其是在編碼、總結長篇文件、回答有關上傳檔案的問題、逐步進行數學和邏輯運算、以更清晰的框架和更有用的細節輔助規劃和決策方面。

Pro是需要高品質回答難題時“最智能、最可靠”的選擇。早期測試表明,它在程式設計等複雜領域表現更出色,且重大錯誤更少。

性能全面領先,多項基準測試創新高

GPT-5.2在多個關鍵基準測試中刷新了行業紀錄。在GDPval測試中,該模型在涵蓋44個職業的知識工作任務上,有70.9%的表現達到或超過行業專家水平。OpenAI稱,GPT-5.2 Thinking完成這些任務的速度是專家的11倍以上,成本不到專家的1%。

在編碼能力方面,GPT-5.2 Thinking在SWE-Bench Pro上取得55.6%的成績,在SWE-bench Verified上更是達到80%的新高。這一基準測試真實世界軟體工程任務,涵蓋四種程式語言。OpenAI的產品負責人Max Schwarzer表示,GPT-5.2在程式碼生成和偵錯方面取得重大進步,Windsurf和CharlieCode等編碼初創公司報告稱該模型實現了"最先進的智能體編碼性能"。

OpenAI聲稱GPT-5.2 Thinking是"世界上最好的視覺模型",在圖表推理和軟體介面理解方面的錯誤率降低了約一半。在長文字處理上,該模型在OpenAI MRCRv2測試中率先在25.6萬token範圍內實現近100%的精準率,使其特別適合深度文件分析和多源資訊工作流。

在科學研究領域,GPT-5.2 Pro在GPQA Diamond測試中達到93.2%的精準率,GPT-5.2 Thinking緊隨其後為92.4%。在專家級數學測試FrontierMath上,GPT-5.2 Thinking解決了40.3%的問題,創下新紀錄。OpenAI稱GPT-5.2 Pro和GPT-5.2 Thinking是"世界上最好的科學家助手模型"。

Altman稱Gemini 3影響沒擔心的大

面對Gemini 3帶來的競爭壓力,Altman周四接受媒體採訪時表示:“Gemini 3對我們指標的影響可能沒有我們擔心的大。”他預計,OpenAI將在明年1月前以“非常強勢的地位”退出紅色警報模式。

關於紅色警報的原因,Simo在記者會上解釋稱:"我們宣佈紅色警報是為了向公司發出訊號,表明我們希望將資源集中在某個特定領域,這是明確優先事項和可降級事項的方式。" 她強調,雖然ChatGPT獲得了更多資源投入,但GPT-5.2的發佈已籌備多月,並非因紅色警報而匆忙推出。

雖然Altman據稱在內部備忘錄中將圖像生成列為優先事項,但此次OpenAI的新品發佈並未包含新的圖像生成器。據報導,OpenAI計畫在明年1月發佈另一款新模型,將提供更好的圖像生成、更快的速度和更強的個性化能力,但公司周四未確認這一計畫。

OpenAI還宣佈推出年齡預測軟體,以便為18歲以下使用者提供內容保護。Simo透露,公司將在明年第一季度推出"成人模式",Altman此前表示該模式可能允許"為經過驗證的成年人提供情色內容"等用途。

企業客戶成為爭奪焦點

GPT-5.2的發佈明確瞄準企業市場。OpenAI本周早些時候發佈的新資料顯示,過去一年其AI工具的企業使用量大幅飆升。公司稱,ChatGPT Enterprise平均使用者表示AI每天為他們節省40至60分鐘,重度使用者每周節省超過10小時。

Notion、Box、Shopify、Harvey和Zoom等企業客戶觀察到,GPT-5.2展示了最先進的長周期推理和工具呼叫性能。Databricks、Hex和Triple Whale發現該模型在智能體資料科學和文件分析任務上表現出色。Cognition、Warp、Charlie Labs、JetBrains和Augment Code則表示GPT-5.2提供了最先進的智能體編碼性能。

在工具呼叫方面,GPT-5.2 Thinking在Tau2-bench Telecom測試中達到98.7%的精準率,展示了其在長時間、多輪次任務中可靠使用工具的能力。在一個涉及航班延誤、轉機失敗和醫療座位需求的複雜客戶服務案例中,GPT-5.2成功協調了重新預訂、特殊協助座位和補償等全部流程。

這一戰略轉向正值關鍵時刻。OpenAI已承諾在未來幾年投入超過1兆美元用於AI基礎設施建設,但如今Google正在迎頭趕上。據報導,OpenAI的推理計算支出大部分以現金支付而非使用雲積分,表明公司的計算成本已超出合作夥伴關係和積分所能補貼的範圍。對推理模型的加倍投入可能形成惡性循環:為贏得排行榜而增加計算支出,然後為大規模運行這些高成本模型而進一步增加支出。

在定價策略上,雖然ChatGPT訂閱價格保持不變,但API中的GPT-5.2單token價格高於GPT-5.1,不過仍低於其他前沿模型。OpenAI目前沒有棄用GPT-5.1、GPT-5或GPT-4.1的計畫,並承諾會提前充分通知開發者任何棄用計畫。 (invest wallstreet)