GPT-5.2 凌晨發佈:這一次,OpenAI 不想做題,只想幫你搞錢!

GPT-5.2 終於發佈了!

雖然我已經以 Gemini 為主,但 GPT 的每次更新仍然受到極大的關注(包括我)。

這次到底更新了些啥?

簡單來說,各項指標超越 Gemini 3 Pro,讓 OpenAI 又重回了王座。

但,並沒有形成那種“外星人降臨”的碾壓優勢。

不過,細節裡全是魔鬼。我們具體來扒一扒。

OpenAI 官方開篇定調非常高,直接說 GPT-5.2 是迄今為止功能最強大的專業知識工作模型。

啥叫專業知識工作模型?

把官方那堆技術黑話翻譯一下,意思就是:它不再滿足於當你的陪聊對象,它現在想做你的“腦力合夥人”。

這一次,OpenAI 顯然是急了,它甚至不屑於跟你談什麼“通用智能”的夢想,而是把“搞錢”這兩個字寫在了臉上。

它這次的技能點,全點在了打工人的痛點上:做表(Excel)、畫餅(PPT)、寫程式碼,以及那些讓人頭禿的長文件。

它就是為了創造“經濟價值”而生的 。

到底有多強?聊聊 GDPval。

為了證明自己“值錢”,OpenAI 甚至拋棄了那些傳統的 MMLU 考試分數。

他們拋出了一個聽起來就充滿金錢味道的新指標:GDPval。 (這名字一聽就是奔著生產總值GDP去的)

可能很多人沒聽說過這個評測集。 這是 OpenAI 專門為了衡量“真實世界打工能力”搞出來的。

他們在 44 個核心職業(律師、市場經理、工程師等)裡,找了一幫平均工齡 14 年的資深專家,出了 1320 道真實的“地獄級工作任務” 。

注意,不是做選擇題。 是讓你真的去改合同、寫全案 PPT、最佳化生產線圖紙。這些任務,人類專家平均要花 7 個小時才能做完 。

結果呢?經過雙盲測試,GPT-5.2 在 70.9% 的情況下,幹得比這些人類專家更好,或者至少打個平手 。


圖:在 GDPval 中,模型嘗試完成涵蓋美國 GDP 貢獻最大的九大行業中 44 個職業的特定知識工作

這才是最恐怖的。

它的參照系不是剛畢業的大學生,而是行業專家。 也就是說,在一個有著十幾年經驗的採購經理面前,GPT-5.2 幹出來的活兒,有七成的時候,比他幹得還好。

甚至於說,GPT-5.2 Thinking 生成的電子表格和幻燈片在複雜程度和格式方面都有所提高。

說白了: 以前的 GPT 是個學霸,現在的 GPT-5.2 是個熟手。

那麼,它是怎麼做到這一點的?

這背後其實是一場架構級的革命。

OpenAI 官方直言不諱:這是自 GPT-5 以來,GPT 系列在智能體程式設計領域跨度最大的一次飛躍。

圖:在SWE-Bench Pro中(在新窗口中打開)⁠ ⁠ ⁠,給定一個程式碼庫,模型必須生成一個補丁來解決一個實際的軟體工程任務。

為了證明自己不是自嗨,他們這次直接拉來了 Windsurf 和 Devin 站台。 這兩位可是現在 AI 程式設計界的頂流。

官方直接宣佈,GPT-5.2 將成為這兩個工具的默認核心模型 。

這說明啥?說明這玩意兒已經經受住了最殘酷的生產環境考驗。

但真正讓我覺得牛逼的,是背後的技術邏輯發生了質變。

以前我們為了讓 AI 幹點複雜的活,得搭建一套脆弱的“多智能體系統”。

就像拉了一群各懷鬼胎的實習生在開會,一個負責想,一個負責寫,一個負責改,管理起來極其麻煩,還容易崩 。

而 GPT-5.2 直接解鎖了一種全新的架構:單一超級智能體(Single Mega-agent)。

這就好比把那一屋子實習生全裁了,換來了一個精通 20 多種工具的全能大神 。它不僅反應更快、腦子更靈光,而且維護起來簡單了 100 倍。

除了腦子好,它的“手眼”也進化了。

為了配得上“超級智能體”這個稱號,OpenAI 這次給 GPT-5.2 裝上了更強的配件:

1. 手更快了

以前的 AI 呼叫工具(比如聯網搜素、畫圖、跑程式碼)總有種“卡頓感”。但官方這次特別強調:延遲大幅降低,而且工具呼叫能力變得極強。

這意味著什麼?

意味著它在多個工具之間切換,絲滑得像是在切菜。

它不再是一個個蹦字的聊天機器人,而是一個能瞬間調起計算器、瀏覽器、程式碼直譯器的“快手”。嗯?

2. 眼睛更尖了

看一眼官方放出的演示圖: 它能直接看懂複雜的波浪模擬參數,甚至能精準識別電路板上的每一個元器件。

圖:GPT 5.2 可以識別出元部件

這說明它的視覺能力已經脫離了“認貓認狗”的初級階段,開始進入工業級的精細識別了。

配合長上下文能力 ,不管是幾千行的程式碼屎山,還是幾十頁的複雜電路圖,它都能一口吞下,並且過目不忘。

實際上,這使得專業人士能夠使用 GPT-5.2 處理長篇文件,例如報告、合同、研究論文、筆錄和多檔案項目,同時在數十萬個詞元中保持一致性和精準性。

圖:GPT 5.2 的長上下文處理

所以,GPT-5.2 特別適合深度分析、綜合和複雜的多源工作流程。

但真正的“重頭戲”,是這個:ARC-AGI 2

如果說 GDPval 是測它能不能幹活,那 ARC-AGI 2 就是測它到底有沒有腦子。

老粉都知道,ARC 評測集是 AI 圈最難啃的骨頭,甚至沒有之一。

它是由 Keras 之父 François Chollet 搞出來的,專門用來反死記硬背的。

比如這種題目:

圖:ARC AGI2 題目


圖:ARC AGI2 題目

以前的模型,MMLU 這種考試能拿 90 分,一碰到 ARC 這種需要“舉一反三”的智力題,立馬現原形,得分低得可憐。

大家猜猜上一代的 GPT-5.1 Thinking 拿了多少分?

17.6%。

但這次,GPT-5.2 幹到了多少?52.9%。

兄弟們,這是 3 倍的暴漲。這不是“擠牙膏”,這是直接把牙膏管踩爆了。

為了讓大家有個概念,目前市面上最強的競品 Gemini 3 Pro 和 Claude,在這個榜單上的分數大約在 31% - 37% 之間(取決於版本)。

也就是說,OpenAI 這一次在純智商層面,不僅甩開了對手,更是跨越了一個巨大的鴻溝。

這意味著 GPT-5.2 終於突破了那層窗戶紙:它開始具備真正的通用推理能力了。

它遇到沒見過的新問題,不再是去翻記憶庫裡的答案(因為根本沒有),而是像人類一樣,現場觀察規律、現場推理、現場解決。

順便提一嘴,在另一個數學競賽 AIME 2025 里,GPT-5.2 直接拿了 100% 的滿分。

這可是全美高中數學聯賽。 以前我們還在討論 AI 能不能及格,現在它已經把卷子做穿了。

相比於它能多寫兩行程式碼,我覺得這一點,才是這次更新裡最硬核、最不容忽視的里程碑。

總結一下:

GPT-5.2 Instant、思考版和 Pro 版本今日開始推送,首先面向 Plus、Pro、Business 和 Enterprise 套餐使用者。

免費版和 Go 使用者將於明天獲得存取權。

GPT-5.2 在我心中,是一個極其合格,甚至有點“過於務實”的迭代。

它沒有像過去那樣,瘋狂去捲那些虛頭巴腦的考試分數,而是把所有的技能點,都死磕在了“怎麼幫白領幹活”這件事上。

它不跟你談星辰大海,只跟你談降本增效;不跟你炫耀參數,只給你看GDPval。

這個點,我覺得就很酷,非常的剛需。

雖然從“好玩”或者“科幻感”的角度來說,GPT-5.2 可能沒有 Gemini 3 Pro 原生多模態帶來的那種絲滑震撼。

(畢竟Google同步發行了 Nano Banana Pro,期待 GPT Image 早日發佈)

但如果你是為了工作,為了搞錢,為了早點下班去陪家人。那 GPT-5.2 可能是目前地表最強、也是最值得你掏錢的生產力工具 。 (AI范兒)