一文讀懂GPT-5.2 : 迎戰Gemini，號稱智能體編碼最強，趕超人類專家，Altman料1月解除紅色警報

2025/12/12

•

GPT-5.2三種版本周四上線ChatGPT付費套餐，其中Instant主打快速高效，Pro是高品質回答的最智能且可靠選擇，和Thinking是最佳科學家助手模型；Thinking被稱為最佳視覺模型，刷新SWE編碼能力測試最高分，是OpenAI首個性能達到或超過人類專家的模型，GDPval職業知識測試中完成任務速度是專家的11倍以上，成本不到專家的1%。Altman稱Gemini 3對OpenAI的影響沒之前擔心的大。

OpenAI周四正式發佈GPT-5.2系列模型，打響了迎戰GoogleGemini 3的第一槍。CEO Sam Altman淡化Gemini 3帶來的衝擊，預計明年1月就可以解除所謂“紅色警報”的狀態，以非常強勁的姿態重回常態

GPT-5.2是OpenAI迄今最先進的人工智慧（AI）模型，針對專業工作場景進行了全面最佳化，創多個基準測試的行業記錄，其中的GPT-5.2 Thinking刷新了SWE編碼能力測試的歷史最高分，也是OpenAI首個性能達到或超過人類專家水平的模型。

OpenAI應用業務的CEO Fidji Simo表示，GPT-5.2在建立電子表格、製作簡報、圖像識別、程式碼編寫和長文字理解等方面均優於前代產品，旨在"為人們創造更多經濟價值"。OpenAI的研究副總Adain Clark稱，GPT-5.2在數學推理方面的進步意味著它能更好地處理金融建模、預測和資料分析等任務。

OpenAI宣佈，周四當天GPT5.2就在ChatGPT上線，面向Plus,、Pro、Go、Business和 Enterprise這些付費套餐的使用者, 共推出Instant、Thinking和Pro三個版本，API也同步開放給所有開發者。

在ChatGPT中，付費使用者可使用三個版本的GPT-5.2，且在未來三個月內仍可繼續使用GPT-5.1。在API平台，GPT-5.2定價為每百萬輸入token 1.75美元、每百萬輸出token 14美元，快取輸入可享受90%折扣。雖然單token價格高於GPT-5.1，但OpenAI表示，由於模型效率更高，達到相同質量水平的總成本反而更低。

新模型發佈是OpenAI對Gemini 3掀起又一輪競爭的正式回應。本周稍早媒體稱OpenAI的CEO Sam Altman最近發佈內部"紅色警報"備忘錄，要求公司將資源集中用於改進ChatGPT。幾周前，Google推出的Gemini 3因其推理和編碼能力廣受好評，迅速登上LMArena和Humanity's Last Exam等權威排行榜榜首，給OpenAI帶來壓力。

評論認為，GPT-5.2 與其說是重新發明，不如說是對OpenAI最近兩次升級的整合。8月發佈的 GPT-5 是一次重設，為統一系統奠定了基礎，它可以在快速默認模型和更深入的“思考”模式之間切換。11月發佈的 GPT-5.1專注於使該系統更加友好、更具對話性，並更適合智能體和編碼任務。GPT-5.2似乎進一步提升了所有這些進步，使其成為生產應用更可靠的基礎。

三個版本GPT5.2分別主打快速、深度、智能可靠

對於周四提供的三個版本GPT 5.2，OpenAI分別介紹稱，Instant是快速高效的日常工作和學習助手，在資訊查詢、操作指南、技術寫作和翻譯方面均有顯著提升。，並延續了 GPT-5.1 Instant 中更親切的對話風格。早期測試者尤其注意到，GPT-5.2 的解釋更加清晰，能夠直接呈現關鍵資訊。

Thinking 專為深度工作而設計，能夠幫助使用者更高效地完成更複雜的任務，尤其是在編碼、總結長篇文件、回答有關上傳檔案的問題、逐步進行數學和邏輯運算、以更清晰的框架和更有用的細節輔助規劃和決策方面。

Pro是需要高品質回答難題時“最智能、最可靠”的選擇。早期測試表明，它在程式設計等複雜領域表現更出色，且重大錯誤更少。

性能全面領先，多項基準測試創新高

GPT-5.2在多個關鍵基準測試中刷新了行業紀錄。在GDPval測試中，該模型在涵蓋44個職業的知識工作任務上，有70.9%的表現達到或超過行業專家水平。OpenAI稱，GPT-5.2 Thinking完成這些任務的速度是專家的11倍以上，成本不到專家的1%。

在編碼能力方面，GPT-5.2 Thinking在SWE-Bench Pro上取得55.6%的成績，在SWE-bench Verified上更是達到80%的新高。這一基準測試真實世界軟體工程任務，涵蓋四種程式語言。OpenAI的產品負責人Max Schwarzer表示，GPT-5.2在程式碼生成和偵錯方面取得重大進步，Windsurf和CharlieCode等編碼初創公司報告稱該模型實現了"最先進的智能體編碼性能"。

OpenAI聲稱GPT-5.2 Thinking是"世界上最好的視覺模型"，在圖表推理和軟體介面理解方面的錯誤率降低了約一半。在長文字處理上，該模型在OpenAI MRCRv2測試中率先在25.6萬token範圍內實現近100%的精準率，使其特別適合深度文件分析和多源資訊工作流。

在科學研究領域，GPT-5.2 Pro在GPQA Diamond測試中達到93.2%的精準率，GPT-5.2 Thinking緊隨其後為92.4%。在專家級數學測試FrontierMath上，GPT-5.2 Thinking解決了40.3%的問題，創下新紀錄。OpenAI稱GPT-5.2 Pro和GPT-5.2 Thinking是"世界上最好的科學家助手模型"。

Altman稱Gemini 3影響沒擔心的大

面對Gemini 3帶來的競爭壓力，Altman周四接受媒體採訪時表示：“Gemini 3對我們指標的影響可能沒有我們擔心的大。”他預計，OpenAI將在明年1月前以“非常強勢的地位”退出紅色警報模式。

關於紅色警報的原因，Simo在記者會上解釋稱："我們宣佈紅色警報是為了向公司發出訊號，表明我們希望將資源集中在某個特定領域，這是明確優先事項和可降級事項的方式。" 她強調，雖然ChatGPT獲得了更多資源投入，但GPT-5.2的發佈已籌備多月，並非因紅色警報而匆忙推出。

雖然Altman據稱在內部備忘錄中將圖像生成列為優先事項，但此次OpenAI的新品發佈並未包含新的圖像生成器。據報導，OpenAI計畫在明年1月發佈另一款新模型，將提供更好的圖像生成、更快的速度和更強的個性化能力，但公司周四未確認這一計畫。

OpenAI還宣佈推出年齡預測軟體，以便為18歲以下使用者提供內容保護。Simo透露，公司將在明年第一季度推出"成人模式"，Altman此前表示該模式可能允許"為經過驗證的成年人提供情色內容"等用途。

企業客戶成為爭奪焦點

GPT-5.2的發佈明確瞄準企業市場。OpenAI本周早些時候發佈的新資料顯示，過去一年其AI工具的企業使用量大幅飆升。公司稱，ChatGPT Enterprise平均使用者表示AI每天為他們節省40至60分鐘，重度使用者每周節省超過10小時。

Notion、Box、Shopify、Harvey和Zoom等企業客戶觀察到，GPT-5.2展示了最先進的長周期推理和工具呼叫性能。Databricks、Hex和Triple Whale發現該模型在智能體資料科學和文件分析任務上表現出色。Cognition、Warp、Charlie Labs、JetBrains和Augment Code則表示GPT-5.2提供了最先進的智能體編碼性能。

在工具呼叫方面，GPT-5.2 Thinking在Tau2-bench Telecom測試中達到98.7%的精準率，展示了其在長時間、多輪次任務中可靠使用工具的能力。在一個涉及航班延誤、轉機失敗和醫療座位需求的複雜客戶服務案例中，GPT-5.2成功協調了重新預訂、特殊協助座位和補償等全部流程。

這一戰略轉向正值關鍵時刻。OpenAI已承諾在未來幾年投入超過1兆美元用於AI基礎設施建設，但如今Google正在迎頭趕上。據報導，OpenAI的推理計算支出大部分以現金支付而非使用雲積分，表明公司的計算成本已超出合作夥伴關係和積分所能補貼的範圍。對推理模型的加倍投入可能形成惡性循環：為贏得排行榜而增加計算支出，然後為大規模運行這些高成本模型而進一步增加支出。

在定價策略上，雖然ChatGPT訂閱價格保持不變，但API中的GPT-5.2單token價格高於GPT-5.1，不過仍低於其他前沿模型。OpenAI目前沒有棄用GPT-5.1、GPT-5或GPT-4.1的計畫，並承諾會提前充分通知開發者任何棄用計畫。 (invest wallstreet)

科技