#OpenAi
當Google帝國反擊時:ChatGPT的8億使用者護城河還能守多久?
前些天,科技分析領域最受尊敬的聲音之一 Ben Thompson 在 Stratechery 上發表了一篇重磅文章,標題是 "Google, Nvidia, and OpenAI"。大多數解讀會聚焦在 Gemini 3 的發佈、TPU vs GPU 的技術對比,或者 OpenAI 簽了多少錢的算力合同上。但我認為這篇文章真正重要的資訊不在這裡。作為一個 AI 工程布道者,我看到的是另一件事:ChatGPT 擁有8億周活使用者,卻可能正在犯一個致命的戰略錯誤。讓我解釋一下。Ben Thompson 用《星球大戰》的"英雄之旅"敘事框架,來描述過去三年 AI 領域發生的故事。主角有兩個:OpenAI 和 Nvidia。一個靠 ChatGPT 成為增長最快的消費科技公司,一個從遊戲顯示卡公司變成 AI 時代最關鍵的基礎設施供應商。但在過去兩周,兩位英雄同時進入了"考驗之洞"——Google 帝國正在反擊。第一擊:Gemini 3 的發佈Gemini 3 在一系列基準測試中超越了 OpenAI 的最強模型。更關鍵的是,它展示了一個 OpenAI 難以複製的優勢:巨大的模型規模和海量的訓練計算。OpenAI 在 GPT-4 之後一直難以突破規模瓶頸,靠的是推理能力的技術突破來彌補,但這以時間和成本為代價。第二擊:TPU 開始外銷Google 不再把 TPU 藏著掖著了。先是和 Anthropic 簽約,然後傳聞和 Meta 在談,接著是一批從加密礦場轉型過來的新雲服務商。突然之間,Nvidia 的壟斷地位受到了實質性威脅。第三擊:結構性優勢的全面碾壓從變現能力、資料積累、基礎設施到研發投入,Google 的每一項都是壓倒性的。Ben Thompson 說了一句很重的話:你現在明白為什麼 OpenAI 當年成立時,核心恐懼就是"Google 贏下 AI"了吧。這篇文章最有價值的部分,是 Ben Thompson 對"護城河"的重新定義。傳統的護城河分析聚焦於切換成本——使用者離開你有多難。但 Thompson 指出,護城河的真正強度,和獨立使用者數量正相關。他畫了一張圖:從左到右,使用者數量從少到多;從下到上,護城河從脆弱到堅固。Nvidia 賣晶片給誰?幾個超大規模雲廠商。一個 CEO 發一道命令,就能決定繞過 CUDA 開發新的軟體棧。OpenAI 的 API 賣給誰?成千上萬的開發者。切換成本確實存在,但一個創始人決定換模型,一個團隊就能執行。ChatGPT 的使用者是誰?每周8億獨立消費者。要改變他們的習慣,只能一個人一個人地打。這是 ChatGPT 真正的護城河。Thompson 引用了他2020年分析 Google 搜尋壟斷案時的觀點:Google 最大的力量來源,恰恰是它看起來的脆弱——競爭真的只是一次點選的距離。但正因為如此,如果使用者還是選擇 Google,那就說明他們是真的想用 Google。監管可以改變很多東西,但改變不了數以億計消費者的自主選擇。這個邏輯同樣適用於 ChatGPT。這是全文最尖銳的批評。Ben Thompson 認為,ChatGPT 三年來拒絕推出廣告產品,是一種"商業上的失職"——尤其是在公司簽下超過一兆美元算力合同的背景下。他的論點不是"廣告能賺錢"這麼簡單。他的論點是:廣告會讓 ChatGPT 成為一個更好的產品。怎麼理解?首先,更多免費使用者 = 更多使用資料 = 更好的模型反饋循環。訂閱制天然有使用者規模的天花板。其次,廣告帶來的購買訊號(而不是聯盟連結)可以幫助 ChatGPT 更深入地理解每個使用者的偏好,從而提供更好的回答。第三,也是最關鍵的:廣告模式會大幅加深 OpenAI 的護城河。Thompson 指出了一個有趣的對比:Nvidia 面臨的 TPU 威脅本質上是"利潤率稀釋"——當你賣實體產品時,你必須真的向買家收費,這就會引發和更便宜替代品的比較。買家越大越精明,這個壓力就越大。但廣告模式完全相反。使用者不付費,所以你從單個使用者身上能賺的錢沒有上限。使用者越多,你的利潤率潛力越高,你能投入的資源就越多。Google 就是靠這個模式,用搜尋廣告收入養活了過去二十年所有的創新。ChatGPT 不用廣告,等於是把這個武器讓給了對手。但 OpenAI 偏偏不做。Sam Altman 在今年早些時候接受採訪時說,他對"用廣告賺一些零錢"不感興趣,更感興趣的是"讓人們為真正優秀的自動化軟體工程師或其他 Agent 付高價"。Thompson 的評價是:這種想法和僱傭 Fidji Simo(前 Facebook 廣告產品負責人、前 Instacart CEO)來當應用業務負責人的決定,是自相矛盾的。你不可能同時相信廣告只是"零錢",又認為一個靠廣告發家的人是最適合領導你應用業務的人。讀到這裡,你可能會想:這是商業分析師和投資人關心的事,跟我一個做 AI 的有什麼關係?我來說說我的看法。第一,技術領先可能不如商業模式重要。這篇文章最讓我震撼的一點是:OpenAI 可能擁有(或曾經擁有)最好的模型、最多的使用者、最強的品牌認知——但如果商業模式選錯了,這些優勢可能都會被稀釋。Google 當年創辦不到兩年就開始做廣告變現。那不是因為他們缺錢,而是因為他們明白:可持續的收入是進一步創新的燃料。OpenAI 拿了幾百億風投,簽了上兆算力合同,但核心商業模式還是訂閱。我見過太多技術團隊把"我們先做好產品再考慮商業化"當成美德。但 Thompson 的分析提醒我們:商業模式不是產品的附屬品,它是產品戰略的一部分。錯誤的商業模式會讓你在有足夠資源建立護城河之前,就被對手追上。第二,護城河的邏輯在 AI 時代變了。傳統軟體的護城河往往建立在資料鎖定、網路效應、切換成本上。但 AI 產品的護城河本質上是關於"誰擁有更多的使用者行為資料來改進模型"。這意味著,一個免費但有廣告的產品,可能比一個付費產品有更強的長期競爭力——因為前者能觸達更多使用者,收集更多反饋,形成更強的改進飛輪。對於正在做 AI 產品的團隊來說,這是一個值得深思的問題:你的商業模式是在幫你建立護城河,還是在限制你的使用者規模?第三,Google 的反擊提醒我們:大公司的"慢"可能被高估了。過去兩年,創業圈流行的敘事是:大公司太慢、太官僚、太傲慢,創業公司可以靠速度和創新打敗它們。但 Gemini 3 的發佈、TPU 的外銷、YouTube AI 功能的推進——這些都在提醒我們:當大公司真的決定全力投入時,它們的資源優勢是碾壓性的。更重要的是,大公司有一個創業公司沒有的東西:成熟的變現機器。Google 每年超過2000億美元的廣告收入,意味著它可以長期承受虧損來搶市場。OpenAI 可以嗎?最後,我想說一個更大的問題。Ben Thompson 在文章結尾寫道,他的"聚合理論"——控制需求的一方最終獲勝——正在接受終極測試。Google 是他理論中的終極主角,現在變成了對手。他的核心問題是:一個已經達到規模的聚合者,能否被資源的壓倒性投入所擊敗?尤其是當這個聚合者拒絕採用最優商業模式時?我覺得這個問題的答案,可能會定義未來十年科技行業的格局。如果 ChatGPT 最終被迫採用廣告模式,那說明聚合理論是對的——控制消費者需求的一方,最終會被市場邏輯推向最優變現策略。如果 ChatGPT 堅持訂閱模式但被 Google 超越,那說明在 AI 時代,即使是8億使用者的護城河,也擋不住一個有成熟商業模式、無限資源的對手。如果 ChatGPT 找到了某種全新的變現方式(比如 Agent 交易抽成),那可能意味著 AI 創造了新的商業模式範式。無論那種結果,這都不只是 OpenAI 一家公司的命運。這是關於 AI 產品應該如何建構、如何變現、如何建立護城河的範式之爭。作為 AI 從業者,我們每個人都在這場爭論中有自己的位置。 (LLM-X-Factors)
OpenAI最新AI報告:醫療是增長最快的領域之一,Moderna入選最佳案例!
12月8日,OpenAI發佈報告The state of enterprise AI,首次全面展示了企業應用AI的現狀。報告指出,企業採用AI的動作正在加速,尤其是在幾個關鍵行業,其中醫療保健成為增長最快的領域之一。AI醫療實現驚人增長報告顯示,企業對AI的態度從試點轉向全面部署,醫療保健行業表現尤為突出,其OpenAI客戶的年同比增長率高達8倍(8x)。在增長速度上,醫療保健僅次於科技行業(11x),位列第二,超越了製造業(7x)。雖然像金融和科技等行業在AI使用規模上仍舊保持領先,但醫療保健和製造業等行業是從較小的基數起步,目前正以最快的速度迎頭趕上,正迅速縮小與領先者的差距。深入應用:AI為醫療保健帶來的實際價值報告通過具體的企業案例,展示了AI醫療在提升效率、改善客戶體驗等方面的實際效果。例如,生物科技公司Moderna利用ChatGPT Enterprise顯著壓縮了目標產品資料(TPP)的製作周期。過去,撰寫TPP是個複雜又費時的任務,通常要花上幾周時間,還得仔細閱讀多達300頁的資料。為瞭解決這個問題,Moderna引入AI系統,幫助從大量檔案中找出關鍵資訊和假設,自動生成結構清晰的草稿,並自動標記潛在錯誤。Moderna表示,在某些情況下,原本要花幾周才能完成的核心分析工作,現在幾個小時就能搞定。團隊可以更專注於驗證方案的可靠性、做出更周全的決策,從而更快地把新藥帶給患者。又比如,醫療保險公司Oscar Health推出了面向會員的聊天機器人,幫助使用者更輕鬆地應對複雜的醫療保健系統。這些聊天機器人與Oscar自身的系統和資料深度整合,能夠訪問會員的醫療記錄、理賠資訊等,從而提供個性化的回答,並協助完成諸如尋找醫生、續開處方等常見任務。上線後,該平台已能即時解答58%的問題,並在無需人工介入的情況下處理了39%的諮詢。這不僅提升了服務效率,也為會員提供了一個統一且可靠的入口,讓他們更容易理解並順利享受醫保服務。 (智藥局)
美股AI突變!OpenAI淪為“股價毒藥”,矽谷八巨頭一夜蒸發3.8兆元市值,專家:看好Google,其擁有兩項致勝“法寶”
過去一年,“OpenAI概念股”是華爾街最硬的通貨。但從12月11日這一天開始,“魔法”失效了。甲骨文股價一度跌16%,它手裡攥著的3000億美元OpenAI訂單,在市場眼裡,可能是無法兌現的空頭支票。第二天,AI晶片巨頭博通股價大跌11%,市值蒸發2192億美元,只因它與OpenAI的合同短期內無法帶來收入。美股AI八巨頭也被拖累,市值合計一夜蒸發5470億美元(約合人民幣3.8兆元)。OpenAI已成“股價毒藥”,與它深度繫結的上市公司從10月底開始集體大跌。雖然OpenAI在成立10周年之際,緊急發佈了GPT-5.2,但不少觀點認為,OpenAI僅靠模型難以與Google的全端生態抗衡,最終會制約它的收入潛力和履約能力。博通的“煩惱”:AI訂單達730億美元為何市場只看到風險?美東時間12月11日(周四)盤後博通公佈的2025財年第四季度財報顯示,在旺盛的AI需求下,公司每股盈利達1.95美元,超出分析師預期的1.87美元;營收為180.2億美元,高於預期的174.5億美元。同時,公司預計2026財年第一季度AI晶片銷售額將達82億美元,較去年同期翻倍。財報剛披露時,股價應聲上漲3%,但在財報電話會議後迅速轉跌,盤後跌幅一度超過5%。次日,博通股價收跌11%,市值一夜蒸發2192億美元。原因在於,雖然博通目前擁有730億美元的AI產品訂單積壓,將在未來六個季度內交付,但這一數字令部分投資者失望。儘管博通CEO陳福陽隨後澄清,這一數字是“最低值”,並預期將有更多訂單湧入。更關鍵的是,陳福陽透露了兩個資訊,引發了更大的擔憂。其一,博通的AI收入毛利率低於其非AI收入毛利率;其二,預計公司與OpenAI的合同在2026年不會開始產生太多收益。根據該合同,博通將在2026年至2029年間為OpenAI提供10吉瓦的資料中心基礎設施。他表示,該交易的大部分收益將在2027年、2028年和2029年產生。市場已意識到,將OpenAI訂單轉化為實在的、高額的利潤並非易事。漫長的回報周期和低於預期的利潤率,讓博通與OpenAI的交易充滿了不確定性。甲骨文的“墜落”:5230億美元訂單如何成為達摩克利斯之劍?比博通更焦慮的是甲骨文。12月10日美股盤後,甲骨文2026財年第二季度財報顯示,總營收160.6億美元不及預期,雲業務營收80億美元雖同比增長34%,卻未達80.4億美元的分析師預期。唯一的亮點——剩餘履約義務(RPO)同比飆升438%至5230億美元,遠超FactSet分析師預期的5020億美元——反而成了風險導火索。這5230億美元中,有3000億美元來自OpenAI的一項為期五年的算力採購協議。這意味著,甲骨文的未來已與OpenAI深度捆綁。但OpenAI“支出遠超收入”的現狀,讓市場嚴重懷疑其履約能力。D.A.Davidson分析師吉爾•盧里亞(Gil Luria)估算,OpenAI需在2030年實現逾3000億美元年收入,才能覆蓋甲骨文合同對應的支出規模。吉爾•盧里亞甚至將甲骨文形容為OpenAI“畫大餅”遊戲中的一個“棋子”。此外,前置資本開支的巨額壓力,讓甲骨文的現金流狀況持續惡化。甲骨文上財季的自由現金流約為-132億美元,而市場的預期是-52億美元。公司將2026財年資本支出預期上調150億美元至500億美元。資金鏈的緊張直接反映在信用指標上,洲際交易所資料顯示,甲骨文五年期信用違約掉期(CDS)已升至2009年以來最高點,投資者對其信用質量的信心持續崩塌。截至12月12日,甲骨文五年期信用違約掉期已升至2009年以來最高點甲骨文新任聯席CEO克萊•馬古克(Clay Magouyrk)在財報電話會上試圖安撫市場,稱公司擁有超過700家AI客戶,即使OpenAI違約,也能在“數小時內”將基礎設施重新分配給其他客戶,但這也恰恰暴露了OpenAI可能“吃不下”訂單的風險。摩根士丹利表示,如果甲骨文不能緩解投資者對其大規模AI支出計畫的擔憂,2026年情況將進一步惡化。有媒體在周五報導稱,由於勞動力和材料短缺,甲骨文將推遲與OpenAI相關的資料中心建設,時間由從2027年推遲到了2028年,但甲骨文隨後否認了這一報導。甲骨文發言人Michael Egbert在一份電子郵件聲明中表示:“在協議簽署後,我們與OpenAI密切協調確定了選址及交付時間表,並達成一致意見。履行合同承諾所需的任何站點都沒有延誤,所有里程碑都在正軌上。”當“造王者”OpenAI成為“股價毒藥”甲骨文的債務危機和博通的利潤隱憂,都指向同一個風暴中心——OpenAI。曾憑ChatGPT掀起AI浪潮,如今已滿10歲的OpenAI正因擴張計畫,演變成其合作夥伴乃至整個AI行業的“毒藥”。與OpenAI深度繫結的上市公司,包括甲骨文、軟銀、微軟、輝達和CoreWeave股價從10月底開始集體大跌。Google新一代模型Gemini 3的出現,給OpenA帶來了巨大壓力。12月初,OpenAI首席執行長山姆•奧爾特曼(Sam Altman)宣佈公司進入“紅色警報”狀態,要求調動更多資源,全力提升ChatGPT能力以應對日益激烈的競爭。繼8月GPT-5、11月GPT-5.1後,OpenAI於12月11日緊急推出原定於月底發佈的GPT-5.2。四個月內三次重大更新,但業界卻認為,在對手的壓力之下,OpenAI顯得格外被動。胡延平向每經記者直言,“GPT-5.2打出來的子彈都對著Gemini 3去了,但沒有一顆落到Google的生態裡。”他指出,Google發佈Gemini 3系列產品後,市場看到OpenAI不僅模型水準不再有明顯優勢,而且未來可能難以抗衡Google的全端全生態優勢。胡延平認為,OpenAI緊急推出的GPT-5.2對扭轉不利局面有幫助,但是無法從根本上逆轉多極化趨勢和全生態競爭劣勢。而OpenAI高昂的算力成本和巨額支出承諾,與其尚未完全清晰的盈利模式形成鮮明對比。科技評論員愛德華•齊特隆(Edward Zitron)則在其評論文章中詳細拆解了OpenAI的擴張計畫,認為其完全脫離現實。愛德華估算,建設1GW資料中心需耗資約500億美元且耗時至少兩年半。按此計算,OpenAI要在未來一年內兌現與博通、AMD和輝達的多個1GW部署承諾,就需要籌集超過1000億美元的資金。而要完成其宣稱的33GW目標,總投資將是兆美元等級。至於250GW的宏偉藍圖,其成本將高達約10兆美元,相當於美國去年GDP的三分之一。匯豐銀行發佈一份研報警告稱,到2030年,OpenAI的累計自由現金流仍將為負,資金缺口高達2070億美元,必須通過額外債務、股權融資或更激進的創收手段來填補。在無法通過廣告變現且舉債艱難的背景下,其商業模式的可持續性正在經歷挑戰。美國銀行分析師賈斯汀•波斯特(Justin Post)一針見血地指出:如果OpenAI最終大獲成功,它將憑藉其強大的模型和使用者基礎,成為Google、Meta等所有合作夥伴在企業服務、廣告甚至電商領域的直接競爭對手;但如果OpenAI失敗,它那天文數字般的算力合同將變成一堆無法兌現的“白條”,讓甲骨文、CoreWeave等供應商背負巨額壞帳和大量閒置的資料中心。擁有“全端生態”“財務紀律”Google有望成為最終贏家?OpenAI的困局,恰好成就了Google的崛起。Google擁有OpenAI最稀缺的東西:現金流和完整的產業鏈。Google2026年預期資本支出佔經營性現金流的56%,在巨頭中效率最高。與OpenAI嚴重依賴外部合作的模式不同,Google走的是全端自研路線:用自家張量處理單元(TPU)晶片,支撐Google雲平台(GCP),訓練和運行Gemini系列大模型。這種垂直整合帶來了極致的成本優勢。SemiAnalysis的模型資料顯示,GoogleTPUv7在成本效率上對輝達構成了碾壓優勢,TPUv7的TCO(總擁有成本)比輝達GB200伺服器低約44%。胡延平向每經記者表示,在算力方面,隨著更高效、更有性價比且已經形成技術生態系統的GoogleTPU的崛起,輝達GPU相關生態的價值正出現“消脹”和“回呼”趨勢,這對原有體系、尤其是OpenAI循環投資的參與者的股價預期均產生負面影響。而Google手上長期被視作“內部武器”的TPU晶片,正從成本最佳化工具變為潛在的兆美元級收入新引擎。吉爾•盧里亞預測,若Google認真推進TPU對外銷售,數年內有望佔據AI晶片市場20%份額,催生一個約9000億美元規模的業務。摩根士丹利測算,Google每向第三方資料中心銷售50萬塊TPU,就可能在2027年增加約130億美元的收入。市場預估,Google明年市值有望站穩5兆美元。胡延平指出,Google可能成為全球市值最高公司,“原因有三:一是AI全端;二是軟硬體與服務全端;三是全球使用者市場。”他認為,Google擁有全球50億使用者,“全家桶”數十款產品當中月活20億的服務就有八九種,Android覆蓋30億裝置,使得“一款AI產品出來瞬間,就能擴散到全球且市場閉環,這一點是OpenAI來不及擁有的能力。(OpenAI)僅靠模型能力,不足以抗衡一個體系。” (每經頭條)
OpenAI發布GPT最新升級版本!
美國開放人工智慧研究中心(OpenAI)11日發布其人工智慧模型GPT-5的最新升級版本GPT-5.2。此版本在通用智慧、長文字處理、智能體工具呼叫和視覺等方面已顯著提升。根據該公司介紹,GPT-5.2提供Instant、Thinking和Pro三種模型,是迄今在專業知識工作領域中能力最強的模型系列,在製作電子表格、構建簡報、編寫代碼、圖像理解、長文字處理、工具使用以及處理複雜的多步驟任務等方面都有顯著提升。根據OpenAI介紹,GPT-5.2 Thinking是該公司迄今最適用於真實世界專業場景的模型。在涵蓋44種職業、用於評估明確知識型工作任務的GDPval測驗中,GPT-5.2 Thinking達到業界最新水準。評測顯示,在製作簡報、試算表等知識工作任務中,新版模式的推理能力在70.9%的情況下表現優於或持平頂尖業界專業人士。OpenAI強調,GPT-5.2同時注重效能與安全性,在GPT-5和GPT-5.1系統基礎上進一步強化了安全措施。 GPT-5.2在面對自殺、心理困擾、情緒依賴等敏感對話時能做出更穩健恰當的回應。此外,與GPT-5.1相比,GPT-5.2產生幻覺的情況更少,回答錯誤率相對降低了約30%,這意味著在運用模型進行研究、寫作、分析與決策支援時出錯更少,模型在日常知識型工作中變得更為可靠。為回應Google11月發布的人工智慧模型雙子座3的出色表現,OpenAI加快了其主要模型升級的發布速度。 OpenAI在11月剛發布GPT-5升級版本GPT-5.1,不到一個月就再次升級。業界認為,此舉凸顯了人工智慧產業目前面臨的競爭壓力。根據《CNBC》報導,迪士尼執行長艾格(Bob Iger) 周四(11 日) 表示,迪士尼宣佈對OpenAI 進行10 億美元股權投資,此舉將成為公司進入人工智慧(AI) 領域的“一條重要途徑”,對迪士尼長期業務將帶來深遠影響。艾格接受《Squawk on the Street》專訪時說:“我們希望參與Sam (Altman) 與他的團隊正在打造的願景。我們認為這是對公司而言非常好的投資。”迪士尼稍早宣佈,已與OpenAI 達成協議,未來Sora 用戶將可在AI 影片生成平台中使用迪士尼旗下超過200 個版權角色,包括米老鼠(Mickey Mouse)、黑武士(Darth Vader)、仙杜瑞拉(Cinderella) 等,授權為期三年。艾格並透露,協議初期將採取“獨家授權”,僅限OpenAI 平台使用。 (飆叔科技洞察)
GPT-5.2來了!首個「專家級」AI復仇成功,牛馬打工人終於得救了
OpenAI十周年,那個地表最強的AI,又回來了!新一代GPT-5.2「全家桶」直接把GoogleGemini 3 Pro踩在腳下,專業實力更是堪比人類專家。剛剛,OpenAI深夜炸場!GPT-5.2震撼發佈,全球AI王座再次易主。一共3款模型,今日全部上線:GPT‑5.2 Instant(即時版)GPT‑5.2 Thinking(思考版)GPT‑5.2 Pro(專業版)作為地表最強通用模型,GPT-5.2專為解決那些讓人頭禿的「高難度知識型工作」而生。在OpenAI公佈的基準測試中,它幾乎對Gemini 3 Pro實現了全方位碾壓!相比上一代,GPT-5.2在通用智能、超長文字理解、Agent工具呼叫以及視覺能力上,都實現了無死角的全面進化:SWE-Bench Pro:狂砍55.6%高分;LMArena程式碼競技場:僅次於Claude Opus 4.5,穩坐全球第二把交椅;ARC-AGI-2:GPT-5.2 Pro以52.9%的絕對優勢登頂全球第一;GDPval:覆蓋44種職業知識,表現直接超越人類行業專家。一句話總結:讓它從頭到尾(端到端)搞定複雜的現實世界任務,目前沒有任何模型比它更強。完整評測結果除了更強的能力之外,GPT-5.2還有更長的上下文,以及更新的知識!40萬上下文窗口:輕鬆吞吐超長文字與複雜對話;12.8萬最大輸出長度:深度長文生成不再中斷;知識庫更新至2025年8月31日:掌握最新世界動態;推理Token支援:專攻複雜邏輯與多步推理。當然,在性能狂飆的同時,價格也是水漲船高。相比GPT-5/5.1,GPT-5.2的輸入輸出價格貴了整整40%!更強的推理、更快的速度,以及更高的價格,這一切似乎都在暗示——OpenAI這次不僅升級了模型規模,背後的算力成本恐怕也達到了新的量級。這一次,那叫一個專業!一個月前,GPT-5.1以「情商智商雙高」的姿態登場,就迎面撞上了GoogleGemini 3這個強勁對手。此次更新正值媒體報導OpenAI內部進入「紅色程式碼」緊急狀態。但OpenAI高管向媒體表示,不應將GPT-5.2視為對Gemini 3的回應。OpenAI應用CEO對記者說:我們宣佈進入「紅色程式碼」緊急狀態是為了向內部發出一個訊號,我們想要集中力量辦大事,這是一個確定優先事項和非優先事項的好辦法。總的來說,我們用於開發ChatGPT的資源增加了,我認為這有助於該模型的發佈,但並不是它在這周發佈的唯一原因。這一次,GPT-5.2主打一個專業知識型AI,正所謂「打工人的最佳工作模型」。OpenAI華人研究員Yu Bai稱,「別看這只是一個小版本數迭代,那可是能力的一大躍升」。那些人類專家耗費4-8小時完成的任務,在人類評估中,GPT-5.2的勝率高達70.9%。GPT‑5.2不負眾望,在多項實際任務中表現得都更加出色——建立電子表格、製作簡報、編寫程式碼、感知圖像、理解長上下文、使用工具、處理複雜的多步驟項目。此前OpenAI的一份報告稱,ChatGPT每天能為企業使用者平均節省40–60分鐘,而重度使用者則表示每周能省下超過10小時。擴展閱讀:OpenAI最新報告曝光!前5%精英效率暴漲16倍,普通人卻被悄悄淘汰總之,AI搞定「專業工作」才是硬道理!擊敗人類專家,打工人狂喜目前,GPT‑5.2 Thinking是用於現實世界專業用途的最佳模型。在GDPval上,GPT‑5.2 Thinking創下了新的SOTA,並且是歷史第一個表現超過人類專家水平的模型。根據人類專家的評判,GPT‑5.2 Thinking在GDPval知識工作任務中,70.9%的情況下擊敗或打平了頂尖行業專業人士。在完成GDPval任務時,其速度比專家專業人士還要快11倍,成本還低於1%。這表明,當與人類監督相結合時,GPT‑5.2可以有效輔助完成專業工作。換句話說,無論是幫會計整理財報,替產品經理做PPT,還是給程式設計師當輔助寫碼的小助手,GPT-5.2都更得心應手。在GDPval中,模型需要完成涵蓋美國GDP貢獻最大的前9個行業的44種職業的定義明確的工作。任務要求提供實際的工作成果,例如銷售簡報、會計電子表格、緊急護理時間表、製造圖表或短影片在ChatGPT中,GPT‑5.2 Thinking擁有GPT‑5 Thinking所沒有的新工具。此外,在針對初級投資銀行分析師電子表格建模的內部測試中,GPT-5.2 Thinking的平均每任務得分比GPT‑5.1高出9.3%,從59.1%上升到68.4%。並排比較顯示,GPT‑5.2 Thinking生成的電子表格和PPT在複雜度和格式上都有所改進。如下所示,一眼望去這種高難度的複雜表,GPT‑5.2 Thinking一句話生成,堪稱「人力資源規劃器」。包括股權結構表,GPT-5.2 Thinking以資深銀行分析師的角色,完成了所有計算,且過程清晰可查。而GPT-5.1 Thinking不僅錯誤地計算了種子輪、A輪和B輪的清算優先權,且大部分行都留白了,導致最終的股權回報計算出錯;而且還錯誤地在表頭行中插入了計算公式。針對項目管理,GPT-5.2 Thinking以每項任務、時間為軸,給出了可視化直觀的總結。相較之下,GPT-5.1 Thinking看著特別粗糙。程式設計破紀錄,吞噬全端開發當然了,在程式設計上,GPT-5.2也是王者中的王者!在對現實世界軟體工程基準SWE-Bench Pro上,GPT‑5.2 Thinking創下了55.6%的新紀錄。與僅測試Python的SWE-bench Verified不同,SWE-Bench Pro測試四種程式語言,具有更強的抗資料污染能力(contamination-resistant),並更具挑戰性、多樣性和工業相關性。在SWE-Bench Pro中,模型會被給予一個程式碼庫,並且必須生成一個補丁來解決一個現實的軟體工程任務在SWE-bench Verified上,GPT‑5.2 Thinking拿下了80%的高分。這意味著,它可以更可靠地偵錯生產環境程式碼、實現功能請求、重構大型程式碼庫,並以更少的人工干預端到端地發佈修復。在前端軟體工程方面,GPT‑5.2 Thinking也優於GPT‑5.1 Thinking。早期測試者發現,它是全端工程師的強大日常夥伴,在前端開發和複雜或非常規UI工作(特別是涉及3D元素的工作)方面明顯更強。接下來就讓我們看看,僅憑一段提示詞,GPT‑5.2都能做出些什麼來:海浪模擬Prompt: Create a single-page app in a single HTML file with the following requirements:- Name: Ocean Wave Simulation- Goal: Display realistic animated waves.- Features: Change wind speed, wave height, lighting.- The UI should be calming and realistic.節日賀卡製作器Prompt: Create a single-page app, in a single HTML file, that demonstrates a warm and fun holiday card! The card should be interactive and enjoyable for kids!- Have variety of items kids can drop in the UI; a few should be already placed by default- Also have fun sound interactions- Place many cute and fun stuff as much as possible- Animation like snowdrop should be used nicely打字雨遊戲Prompt: Create a single-page app in a single HTML file with the following requirements:- Name: Typing Rain- Goal: Type falling words before they reach the bottom.- Features: Increasing difficulty, accuracy tracker, score.- The UI should be the city background with animated raindrop words.幻覺少,更清醒GPT‑5.2 Thinking比GPT‑5.1 Thinking的幻覺更少。在一組去標識化的ChatGPT查詢中,前者包含錯誤的回答相對減少了30%。對於專業人士來說,這意味著在使用新模型進行研究、寫作、分析和決策支援時錯誤更少,在日常知識工作中更加可靠。數十萬token極限挑戰,精準率100%在長上下文推理方面,GPT‑5.2 Thinking樹立了新的行業標準。在OpenAI MRCRv2上,新模型取得了領先的性能,基準OpenAI MRCRv2用於測試模型整合分佈在長文件中資訊。諸如深度文件分析之類的現實世界任務,需要跨越數十萬個Token的相關資訊,而在這類任務上,GPT‑5.2 Thinking 比GPT‑5.1 Thinking精準得多。特別是,它是OpenAI的第一個在4種MRCR變體(高達256kToken)上達到接近100%精準率的模型。實際上,這足以讓專業人士用GPT‑5.2處理長文件,如報告、合同、研究論文、成績單和多檔案項目,而且同時在數十萬個Token之間保持連貫性和精準性。也就是說,GPT‑5.2特別適合深度分析、綜合和複雜的多源工作流。針對超出最大上下文窗口思考的任務,GPT‑5.2 Thinking相容OpenAI新的Responses「/compact」端點,這擴展了模型的有效上下文窗口。這讓GPT‑5.2Thinking可以處理原本受限於上下文長度的更多工具密集型、長期運行的工作流。視覺實力翻倍,秒懂複雜圖GPT‑5.2 Thinking是OpenAI目前最強的視覺模型,在圖表推理和軟體介面理解方面的錯誤率大約減少了一半。對於日常專業使用,這意味著該模型可以更準確地解讀儀表板、產品截圖、技術圖表和視覺報告,可支援金融、營運、工程、設計和客戶支援等以視覺資訊為核心的工作流。與以前的模型相比,GPT‑5.2 Thinking對圖像中元素的位置有更強的掌握,這有助於完成相對佈局對解決問題起關鍵作用的任務。在下面的示例中,模型被要求識別圖像輸入中的元件(在本例中為主機板)並返回帶有大致邊界框的標籤。即使在低品質圖像上,GPT‑5.2也能識別主要區域並放置與每個元件的真實位置大致匹配的框,而GPT‑5.1僅標記了幾個部分,並且對其空間排列的理解要弱得多。端到端工作流,重塑了GPT‑5.2 Thinking展示了其在長多輪任務中可靠使用工具的能力,在Tau2-bench Telecom上創造了98.7%的新紀錄。對於延遲敏感的用例,GPT‑5.2 Thinking在reasoning.effort='none'(無推理)下的表現也更好,大幅優於GPT‑5.1和GPT‑4.1。對於專業人士來說,這轉化為更強的端到端工作流——例如解決客戶支援案例、從多個系統中提取資料、運行分析以及生成最終輸出,且步驟之間的中斷更少。比如,當詢問一個需要多步解決的複雜客戶服務問題時,GPT-5.2可以更有效地協調多個智能體之間的完整工作流。在下面的案例中,一位旅客報告了航班延誤、錯失轉機、需要在紐約過夜以及醫療座位要求。GPT‑5.2管理了整個任務鏈——重新預訂、特殊協助座位和賠償,提供了比GPT‑5.1更完整的結果。Prompt: 我的航班從巴黎到紐約延誤了,我錯過了去奧斯汀的轉機。我的託運行李也不見了,我需要在紐約過夜。由於醫療原因,我還需要一個特殊的前排座位。你能幫我嗎?獨立完成證明,顛覆科研範式OpenAI的願景之一是AI加速科學研究,造福所有人。為此,OpenAI一直與科學家合作並聽取他們的意見,探索AI如何加速他們的工作,已經取得了一些早期的合作實驗。連結:https://cdn.openai.com/pdf/a3f3f76c-98bd-47a5-888f-c52c932a8942/colt-monotonicity-problem.pdf而GPT‑5.2 Pro和GPT‑5.2 Thinking堪稱世界上輔助和加速科學家工作的最佳模型。在研究生水平基準測試GPQA Diamond上,GPT‑5.2 Pro達到了93.2%,緊隨其後的是GPT‑5.2 Thinking,為92.4%。在專家級數學評估FrontierMath (Tier 1–3)上,GPT‑5.2 Thinking創下了新紀錄,解決了40.3%的問題。我們開始看到AI模型以切實的方式有意義地加速數學和科學的進步。例如,在最近使用GPT‑5.2 Pro的工作中,研究人員探索了統計學習理論中的一個開放性問題。這一成果已記錄在新論文《關於最大似然估計量的學習曲線單調性》(On Learning-Curve Monotonicity for Maximum Likelihood Estimators)中。論文地址:https://cdn.openai.com/pdf/a3f3f76c-98bd-47a5-888f-c52c932a8942/colt-monotonicity-problem.pdf這篇論文的特別之處在於,AI完成了證明,而人類負責驗證和寫作。作者並沒有先想好策略再讓模型去填空,也沒有提供中間論點或證明大綱。相反,他們要求GPT-5.2 Pro直接去解決這個開放性問題,然後由人類進行仔細的驗證,包括由外部學科專家進行的審查和確認。隨後,作者還問了一些簡單的後續問題,看看這個思路能延伸多遠。GPT-5.2 Pro將結果從原始問題擴展到了更高維度的設定以及其他常見的統計模型。在這個過程中,人類的角色始終聚焦在驗證和清晰的寫作上,而不是負責搭建數學推導的框架。推理AI湧現出流體智能在衡量通用推理能力的基準測試ARC-AGI-1(Verified)上,GPT‑5.2 Pro是第一個跨越90%門檻的模型。相比去年o3‑preview的87%,GPT‑5.2還將實現這一性能的成本降低了約390倍。在更難的ARC-AGI-2(Verified)上,GPT‑5.2 Thinking創下了思維鏈模型的新紀錄,得分52.9%。GPT‑5.2 Pro表現更高,達到54.2%,進一步擴展了模型推理新穎、抽象問題的能力。這些評估的改進反映了GPT‑5.2在複雜技術任務上更強的多步推理能力、更高的定量精準性和更可靠的問題解決能力。進步之快,讓主辦方驚訝,感嘆推理AI已展示出真正的「流體智力」。生物醫學工程師及科學家、免疫學家Derya教授驚呼,這就是AGI!此外,OpenAI不僅發佈了多項基準測試分數,還引用了Box、Notion、Windsurf和Zoom等早期測試方的評價。GPT‑5.2全家桶,三大殺手級AI總的來說,在日常使用中,GPT‑5.2給人的感受——更有條理,更可靠,與之交談很愉快。那麼,「全家桶」中三款模型,分別具備怎樣的特點?GPT‑5.2 Instant:專為日常辦公和學習而打造它就像是全能辦公助理,不僅繼承了GPT-5.1自然溫暖的對話風格,更在速度、實用性上全面升級。因此,Instant版是日常工作和學習的快速、能幹的「主力軍」,具體來說:更清晰的解釋,突出顯示關鍵資訊改進了操作指南和逐步指導更強的技術寫作和翻譯能力更好的學習和職業指導支援GPT‑5.2 Thinking :專為更深度的工作而設計GPT‑5.2 Thinking就像是深度思考時的「第二大腦」,專為解決那些需要長思考的複雜任務而生。尤其是,專業攻堅程式設計、總結長文件、回答關於上傳檔案的問題,還能一步步搞定燒腦數學和邏輯問題。同時,以更清晰的結構和更有用的細節支援規劃和決策。業界領先的長上下文推理能力表格建立、分析、格式化方面有顯著增強在PPT製作上已有初步成果GPT-5.2 Pro當遇到棘手、高難度的問題時,GPT-5.2 Pro是最聰明、最值得信賴的模型。可以說,它就是那種「慢工出細活」的頂級專家。早期測試已經發現,它處理起來主要錯誤更少,尤其在程式設計這類複雜挑戰中,展現出的能力也明顯更強。在程式設計等複雜領域表現更強是幫助科學家加速研究的最佳模型性價比更高付費ChatGPT使用者從今天開始優先使用GPT‑5.2(Instant、Thinking和Pro),Plus、Pro、Go、Business、Enterprise任意套餐即可。為了儘可能保持ChatGPT的流暢和可靠,OpenAI決定逐步部署GPT‑5.2。在ChatGPT中,GPT‑5.1仍將在舊版模型下供付費使用者使用三個月,之後將被停用。在API平台中,GPT‑5.2系列新模型可以在Responses API和Chat Completions API中以上圖對應形式使用。開發者現在可以在GPT‑5.2 Pro中設定推理參數,並且GPT‑5.2 Pro和GPT‑5.2 Thinking現在都支援新的第五種推理強度xhigh,用於質量最重要的任務。GPT‑5.2的定價為1.75美元/百萬輸入Token,14美元/百萬輸出Token,快取輸入有90%的折扣。在多個智能體評估中,儘管GPT‑5.2的每Token成本更高,但GPT‑5.2由於更高的Token效率,性價比反而更高。One More Thing今天,OpenAI還搞了一波回憶殺,帶大家回顧了這十年走的路。十年前的今天,2015年12月11日,OpenAI正式成立。這十年,他們取得了太多太多突破性的成就——2016年,開源強化學習平台OpenAI Gym,成為學界、工業界RL研究的基礎工具;2017年,發表了Transformer核心理念的先驅研究:Learning to Remember Rare Events;2018年,預訓練語言模型GPT誕生,標誌著大模型革命的開始;2019年,1.5B參數GPT-2出世,自然語言爆發式迭代;2020年,175B參數GPT-3引爆全網,超大規模模型時代來臨;2021年,Codex & DALL·E相繼發佈,程式碼與圖像生成開啟;2022年,ChatGPT(GPT-3.5)真正引爆了全世界大模型革命,再之後的大事記大家都知道了。奧特曼表示,「過去的十年非常精彩,OpenAI的工作比我想像的還要特別」。他劇透,還有一個聖誕「小禮物」,下周就會上線。大家猜一猜,會是什麼呢? (新智元)
剛剛,OpenAI迎10周年,發GPT-5.2,重點是和白領搶工作
8大榜點選敗Gemini 3 Pro,打平71%人類專家,數學競賽滿分。智東西12月12日報導,今日凌晨,正值OpenAI十周年生日,OpenAI正式推出其迄今最強模型GPT-5.2,並同步上線ChatGPT與API體系。本次更新包含GPT-5.2 Instant、Thinking與Pro三個版本,將從今日起陸續向Plus、Pro、Business與Enterprise等付費方案使用者開放,Free與Go使用者預計將於明日獲得存取權。同時,GPT-5.2也已納入API與Codex中供開發者呼叫。▲圖源:X平台現有的GPT-5.1將在ChatGPT中繼續作為過渡版本向付費使用者提供三個月,之後將正式下線。OpenAI官方稱,GPT-5.2屬於其持續改進模型系列的一部分,後續仍將圍繞過度拒絕、響應延遲等已知問題進行迭代最佳化。在API端,GPT-5.2 Thinking對應gpt-5.2,Instant對應gpt-5.2-chat-latest,Pro對應gpt-5.2-pro,開發者可直接呼叫。▲圖源:OpenAI官方部落格在價格方面,GPT-5.2的呼叫價格較上一代上調,輸入端1.75美元/百萬tokens(約合人民幣12.35元/百萬tokens)、輸出端14美元/百萬tokens(約合人民幣98.81元/百萬tokens)。GPT-5.2 Pro的定價為21美元與168美元/百萬tokens(約合人民幣148元與1185元/百萬tokens),並首次支援第五檔推理強度xhigh。▲圖源:OpenAI官方部落格OpenAI聯合創始人兼CEO Sam Altman在社交平台X上公佈了GPT-5.2在多項前沿基準上的成績:SWE-Bench Pro達到55.6%,ARC-AGI-2為52.9%,Frontier Math為40.3%。▲圖源:X平台這些基準主要用於衡量模型在複雜程式碼修復、通用推理與高難度數學任務中的表現,GPT-5.2在高階任務上的穩定性進一步提升。根據OpenAI官方部落格,GPT-5.2在涵蓋44個職業的明確知識工作任務中,表現均優於行業專業人士。相比GPT-5.1 Thinking,GPT-5.2 Thinking在應對知識型任務、程式設計、科學問題、數學、抽象推理的多項能力均大幅提升,尤其是在頂尖數學競賽AIME 2025拿到滿分成績,在OpenAI專業工作基準測試GDPval中戰勝或打平70.9%的人類專家。▲圖源:OpenAI官方部落格OpenAI團隊成員Yann Dubois也在社交平台X平台上發帖稱,GPT-5.2 Thinking的設計重點放在“經濟價值較高的任務”(如編碼、表格與演示文件)。▲圖源:X平台此外,在SWE-Bench Pro、GPQA Diamond等8項基準測試中,GPT-5.2 Thinking的分數均超過GoogleGemini 3 Pro和Anthropic Claude Opus 4.5。▲圖源:OpenAI值得一提的是,GPT-5.2在處理多模態任務方面的能力明顯提升,大有追上Gemini的架勢。“頂流”AI程式設計助手Cursor第一時間宣佈上新GPT-5.2。與此同時,微軟董事長兼CEO Satya Nadella宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系。▲圖源:X平台在GPT-5.2的發佈會上,OpenAI應用業務負責人Fidji Simo也確認,外界關注已久的ChatGPT“成人模式(adult mode)”預計將在2026年第一季度上線。Fidji Simo稱,在推出該模式前,OpenAI希望確保年齡預測模型足夠成熟,能夠準確識別未成年使用者,同時避免誤判成年人。目前,該年齡預測模型已在部分國家進行早期測試,主要用於自動應用不同的內容限制與安全策略。01.專業任務能力躍升首次達到“專家級”評分根據OpenAI官方披露,GPT-5.2 Thinking在覆蓋44類職業任務的GDPval評測中,首次達到“專家級”表現——在70.9%的對比中戰勝或持平行業專業人士。GPT-5.2 Pro進一步提升至74.1%。在僅統計“明確勝出”的任務中,GPT-5.2 Thinking為49.8%,Pro則達到60%。這一評測覆蓋銷售演示、預算模型、營運排班、製造流程圖等多類真實業務成果。GPT-5.2在這些任務的生成速度約為人工專家的11倍,成本為其1%以下。在投研類任務中,GPT-5.2 Thinking在內部評測的投行三表模型與槓桿收購模型等場景中的平均得分為68.4%,較GPT-5.1 Thinking的59.1%有明確提升,GPT-5.2 Pro得分進一步增長至71.7%。▲圖源:OpenAI官方部落格▲GPT-5.1 Thinking與GPT-5.2 Thinking效果對比02.程式碼、工具呼叫與長鏈路任務全面升級在程式碼能力方面,GPT-5.2 Thinking在更嚴格的SWE-bench Pro(跨四種語言、強調真實工程難度)中取得55.6%,在SWE-bench Verified中更是達到80%,均顯著領先GPT-5.1的50.8%與76.3%。在SWE-Lancer IC Diamond任務中,GPT-5.2 Thinking取得74.6%(GPT-5.1為69.7%)。▲圖源:OpenAI官方部落格與此同時,GPT-5.2出現在AI基準平台Imarena.ai(Arena)排行榜中,並在WebDev測試中取得1486分,位列第二,僅落後榜首3分,領先Claude-opus-4-5與Gemini-3-pro等主流模型。另一個版本GPT-5.2則以1399分排在第六。根據Arena說明,GPT-5.2此前在內部以“robin”和“robin-high”為代號進行測試,其分數與GPT-5-medium僅相差1分,目前仍為初步結果,未來有望隨著測試量積累而進一步穩定。從評測維度來看,Arena主要衡量模型在可部署Web應用情境下的端到端編碼能力,GPT-5.2已反映出其在複雜任務鏈條上的實用性。在事實精準性方面,GPT-5.2 Thinking在基於ChatGPT查詢的無錯誤回答率(開啟搜尋模式下)達到93.9%,較GPT-5.1的91.2%有所改善,在無搜尋情況下也從87.3%提升至88%。▲圖源:OpenAI官方部落格另一個關鍵變化來自工具呼叫與長鏈路任務的可靠性提升。GPT-5.2 Thinking在Tau-2 Bench Telecom中達到98.7%的最高得分,在零推理模式下也大幅領先上一代,在更高噪聲的Retail場景中精準率從77.9%提升至82%。在更通用的工具鏈評估BrowseComp中,GPT-5.2 Thinking達到65.8%,Pro版本達到77.9%,亦高於GPT-5.1的50.8%。▲圖源:OpenAI官方部落格OpenAI提到,GPT-5.2 Thinking和Pro均支援第五檔推理強度xhigh,適用於長流程、多步驟、高精度的專業任務場景。03.在長上下文與視覺理解GPT-5.2全面增強在長上下文能力上,GPT-5.2 Thinking在OpenAI MRCRv2中全面領先上一代,在8 needles測試中從4k到256k的範圍內均保持遠高於GPT-5.1的表現,其中在4k–8k長度下達98.2%,在128k–256k長度下仍保持77.0%,而GPT-5.1同期為29.6%–47.8%區間。在其他長文場景中,BrowseComp Long Context(128k/256k)中,GPT-5.2 Thinking分別達到92.0%與89.8%。GraphWalks任務中,GPT-5.2 Thinking在bfs與parents子集分別達到94.0%與89.0%,相比GPT-5.1的76.8%與71.5%顯著提升。▲圖源:OpenAI官方部落格在視覺理解上,GPT-5.2 Thinking在CharXiv科學圖表推理任務中無工具模式下為82.1%,開啟Python工具後進一步提升至88.7%。在ScreenSpot-Pro介面理解中,GPT-5.2 Thinking取得86.3%,遠高於GPT-5.1的64.2%。在視訊類、多模態綜合難度更高的Video MMMU中,也從82.9%提升至85.9%。在視覺能力上,GPT-5.2在ScreenSpot-Pro(介面理解)中達到86.3%的精準率,相比GPT-5.1有明顯提升。在CharXiv科學圖表推理任務中,也實現了準確率的大幅增長。這使其在處理科研圖表、營運儀表盤、產品介面截圖等專業視覺輸入時更加可靠。▲圖源:OpenAI官方部落格04.微軟全家桶同步升級GPT-5.2成為新一代“生產力模型”隨著GPT-5.2發佈,微軟董事長兼CEO Satya Nadella也在社交平台X平台上宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系,並作為新的“默認推理模型”服務更多工作流場景。在Microsoft 365 Copilot中,使用者已經可以通過模型選擇器啟用GPT-5.2,用於會議記錄分析、文件推理、市場研究與戰略規劃等高複雜度任務。Nadella稱,將模型與使用者工作資料結合後,GPT-5.2能夠更充分發揮推理優勢。在GitHub Copilot中,GPT-5.2適用於長上下文推理與複雜程式碼庫審查,重點覆蓋跨檔案關係分析、依賴追蹤與重建構議等工程類使用場景。此外,GPT-5.2還同步進入Microsoft Foundry與Copilot Studio,開發者可在建構自動化流程、企業內部Agent或自主開發時直接呼叫GPT-5.2模型。面向消費者端的Copilot也將隨後啟動分階段更新,逐步替換當前版本。▲圖源:X平台從微軟生態的覆蓋面來看,GPT-5.2已被定位為“默認生產力模型”,在不同產品線之間以自動模型選擇的方式服務更廣泛的開發、寫作與分析任務。此外,頂流AI程式設計助手Cursor也已第一時間火速上線GPT-5.2,並同步沿用OpenAI官方API價格。▲圖源:Cursor05.結語:GPT-5.2的能力邊界正向“穩定、實用”收攏從多項公開基準測試到Arena針對Web應用端到端能力的評測結果,GPT-5.2展現出的整體能力向穩定可用和任務完成度方向收攏。隨著Instant、Thinking與Pro組成的多檔能力體系的開放,GPT-5.2在不同工作流中被切分為更清晰的使用場景。而在微軟生態中的全面接入,也進一步強化了這一變化的方向。無論是在M365 Copilot中承擔跨文件推理,還是在GitHub Copilot中處理長上下文程式碼鏈路,GPT-5.2都開始參與到更高頻、更具體的任務流程中。除了推出面向專業工作和智能體的前沿模型外,OpenAI還宣佈已經與迪士尼達成授權協議,允許Sora 2使用者在生成並分享的圖片中使用迪士尼角色。迪士尼將向OpenAI投資10億美元(約合人民幣71億元),並擁有未來增持股份的選擇權。 (智東西)
GPT-5.2 凌晨發佈:這一次,OpenAI 不想做題,只想幫你搞錢!
GPT-5.2 終於發佈了!雖然我已經以 Gemini 為主,但 GPT 的每次更新仍然受到極大的關注(包括我)。這次到底更新了些啥?簡單來說,各項指標超越 Gemini 3 Pro,讓 OpenAI 又重回了王座。但,並沒有形成那種“外星人降臨”的碾壓優勢。不過,細節裡全是魔鬼。我們具體來扒一扒。OpenAI 官方開篇定調非常高,直接說 GPT-5.2 是迄今為止功能最強大的專業知識工作模型。啥叫專業知識工作模型?把官方那堆技術黑話翻譯一下,意思就是:它不再滿足於當你的陪聊對象,它現在想做你的“腦力合夥人”。這一次,OpenAI 顯然是急了,它甚至不屑於跟你談什麼“通用智能”的夢想,而是把“搞錢”這兩個字寫在了臉上。它這次的技能點,全點在了打工人的痛點上:做表(Excel)、畫餅(PPT)、寫程式碼,以及那些讓人頭禿的長文件。它就是為了創造“經濟價值”而生的 。到底有多強?聊聊 GDPval。為了證明自己“值錢”,OpenAI 甚至拋棄了那些傳統的 MMLU 考試分數。他們拋出了一個聽起來就充滿金錢味道的新指標:GDPval。 (這名字一聽就是奔著生產總值GDP去的)可能很多人沒聽說過這個評測集。 這是 OpenAI 專門為了衡量“真實世界打工能力”搞出來的。他們在 44 個核心職業(律師、市場經理、工程師等)裡,找了一幫平均工齡 14 年的資深專家,出了 1320 道真實的“地獄級工作任務” 。注意,不是做選擇題。 是讓你真的去改合同、寫全案 PPT、最佳化生產線圖紙。這些任務,人類專家平均要花 7 個小時才能做完 。結果呢?經過雙盲測試,GPT-5.2 在 70.9% 的情況下,幹得比這些人類專家更好,或者至少打個平手 。圖:在 GDPval 中,模型嘗試完成涵蓋美國 GDP 貢獻最大的九大行業中 44 個職業的特定知識工作這才是最恐怖的。它的參照系不是剛畢業的大學生,而是行業專家。 也就是說,在一個有著十幾年經驗的採購經理面前,GPT-5.2 幹出來的活兒,有七成的時候,比他幹得還好。甚至於說,GPT-5.2 Thinking 生成的電子表格和幻燈片在複雜程度和格式方面都有所提高。說白了: 以前的 GPT 是個學霸,現在的 GPT-5.2 是個熟手。那麼,它是怎麼做到這一點的?這背後其實是一場架構級的革命。OpenAI 官方直言不諱:這是自 GPT-5 以來,GPT 系列在智能體程式設計領域跨度最大的一次飛躍。圖:在SWE-Bench Pro中(在新窗口中打開)⁠ ⁠ ⁠,給定一個程式碼庫,模型必須生成一個補丁來解決一個實際的軟體工程任務。為了證明自己不是自嗨,他們這次直接拉來了 Windsurf 和 Devin 站台。 這兩位可是現在 AI 程式設計界的頂流。官方直接宣佈,GPT-5.2 將成為這兩個工具的默認核心模型 。這說明啥?說明這玩意兒已經經受住了最殘酷的生產環境考驗。但真正讓我覺得牛逼的,是背後的技術邏輯發生了質變。以前我們為了讓 AI 幹點複雜的活,得搭建一套脆弱的“多智能體系統”。就像拉了一群各懷鬼胎的實習生在開會,一個負責想,一個負責寫,一個負責改,管理起來極其麻煩,還容易崩 。而 GPT-5.2 直接解鎖了一種全新的架構:單一超級智能體(Single Mega-agent)。這就好比把那一屋子實習生全裁了,換來了一個精通 20 多種工具的全能大神 。它不僅反應更快、腦子更靈光,而且維護起來簡單了 100 倍。除了腦子好,它的“手眼”也進化了。為了配得上“超級智能體”這個稱號,OpenAI 這次給 GPT-5.2 裝上了更強的配件:1. 手更快了以前的 AI 呼叫工具(比如聯網搜素、畫圖、跑程式碼)總有種“卡頓感”。但官方這次特別強調:延遲大幅降低,而且工具呼叫能力變得極強。這意味著什麼?意味著它在多個工具之間切換,絲滑得像是在切菜。它不再是一個個蹦字的聊天機器人,而是一個能瞬間調起計算器、瀏覽器、程式碼直譯器的“快手”。嗯?2. 眼睛更尖了看一眼官方放出的演示圖: 它能直接看懂複雜的波浪模擬參數,甚至能精準識別電路板上的每一個元器件。圖:GPT 5.2 可以識別出元部件這說明它的視覺能力已經脫離了“認貓認狗”的初級階段,開始進入工業級的精細識別了。配合長上下文能力 ,不管是幾千行的程式碼屎山,還是幾十頁的複雜電路圖,它都能一口吞下,並且過目不忘。實際上,這使得專業人士能夠使用 GPT-5.2 處理長篇文件,例如報告、合同、研究論文、筆錄和多檔案項目,同時在數十萬個詞元中保持一致性和精準性。圖:GPT 5.2 的長上下文處理所以,GPT-5.2 特別適合深度分析、綜合和複雜的多源工作流程。但真正的“重頭戲”,是這個:ARC-AGI 2如果說 GDPval 是測它能不能幹活,那 ARC-AGI 2 就是測它到底有沒有腦子。老粉都知道,ARC 評測集是 AI 圈最難啃的骨頭,甚至沒有之一。它是由 Keras 之父 François Chollet 搞出來的,專門用來反死記硬背的。比如這種題目:圖:ARC AGI2 題目圖:ARC AGI2 題目以前的模型,MMLU 這種考試能拿 90 分,一碰到 ARC 這種需要“舉一反三”的智力題,立馬現原形,得分低得可憐。大家猜猜上一代的 GPT-5.1 Thinking 拿了多少分?17.6%。但這次,GPT-5.2 幹到了多少?52.9%。兄弟們,這是 3 倍的暴漲。這不是“擠牙膏”,這是直接把牙膏管踩爆了。為了讓大家有個概念,目前市面上最強的競品 Gemini 3 Pro 和 Claude,在這個榜單上的分數大約在 31% - 37% 之間(取決於版本)。也就是說,OpenAI 這一次在純智商層面,不僅甩開了對手,更是跨越了一個巨大的鴻溝。這意味著 GPT-5.2 終於突破了那層窗戶紙:它開始具備真正的通用推理能力了。它遇到沒見過的新問題,不再是去翻記憶庫裡的答案(因為根本沒有),而是像人類一樣,現場觀察規律、現場推理、現場解決。順便提一嘴,在另一個數學競賽 AIME 2025 里,GPT-5.2 直接拿了 100% 的滿分。這可是全美高中數學聯賽。 以前我們還在討論 AI 能不能及格,現在它已經把卷子做穿了。相比於它能多寫兩行程式碼,我覺得這一點,才是這次更新裡最硬核、最不容忽視的里程碑。總結一下:GPT-5.2 Instant、思考版和 Pro 版本今日開始推送,首先面向 Plus、Pro、Business 和 Enterprise 套餐使用者。免費版和 Go 使用者將於明天獲得存取權。GPT-5.2 在我心中,是一個極其合格,甚至有點“過於務實”的迭代。它沒有像過去那樣,瘋狂去捲那些虛頭巴腦的考試分數,而是把所有的技能點,都死磕在了“怎麼幫白領幹活”這件事上。它不跟你談星辰大海,只跟你談降本增效;不跟你炫耀參數,只給你看GDPval。這個點,我覺得就很酷,非常的剛需。雖然從“好玩”或者“科幻感”的角度來說,GPT-5.2 可能沒有 Gemini 3 Pro 原生多模態帶來的那種絲滑震撼。(畢竟Google同步發行了 Nano Banana Pro,期待 GPT Image 早日發佈)但如果你是為了工作,為了搞錢,為了早點下班去陪家人。那 GPT-5.2 可能是目前地表最強、也是最值得你掏錢的生產力工具 。 (AI范兒)
一文讀懂GPT-5.2 : 直指“經濟價值”,硬剛Gemini3的劇情未出現
台北時間12月12日凌晨,OpenAI把剛剛發佈的GPT-5.2定義為“迄今為止功能最強大的專業知識工作模型系列”。OpenAI給出的官方文件明確指出,GPT-5.2 的設計初衷在於“創造更大的經濟價值”。相較前代,它在電子表格處理、簡報製作、程式碼編寫、圖像感知、長文字理解及複雜多步項目執行等方面,均實現了全面性能躍升。為了驗證其在真實業務環境中的價值,OpenAI引入了GDPval基準測試,該測試覆蓋了9大行業、44類職業的1320個真實業務場景。官方資料顯示,GPT-5.2 Pro在高達74.1%的任務中表現超越或持平人類專家。多家早期合作企業,如Notion、Databricks和Cognition,也從測試中觀察到模型在長鏈條推理、資料分析和程式碼審查等任務中的錯誤率顯著下降,一致性與穩定性得到明顯改善,使其更適合作為“公司級智能體”的核心引擎。就在一周多前,奧特曼在給員工的私人資訊中宣佈進入“紅色警戒”狀態,調集更多資源投入 ChatGPT。行業對於GPT-5.2的預期為,硬剛Gemini 3,奪回SOTA。但是,這次GPT-5.2的發佈,並沒有看出“應戰”的火藥味和心虛的“不服感”。Gemini 3 被 Google 定義為“新一代智能時代的起點”,核心是多模態推理 + 代理能力 + 搜尋和 Workspace 場景的深度融合。而GPT-5.2清晰明確指向專業知識場景,強調“經濟價值”。定位區別清晰。GPT-5.2的官方說明文件讀下來,整體感覺是,有點無聊,但OpenAI更有商業戰略定力了。OpenAI應用業務首席執行長菲吉·西莫(Fidji Simo)在新聞發佈會上也表示:“我們宣佈了‘紅色警報’,旨在向公司發出明確訊號,即我們希望將資源集中在一個特定領域,這也是界定公司優先事項的一種方式。”西莫同時否認了GPT-5.2系列模型的發佈是受“紅色警報”行動影響而匆忙提前的,她強調,公司為這款新模型的發佈已經進行了數月的準備工作。在經歷了數月準備後推出的GPT-5.2,核心看點完全圍繞著“創造更大的經濟價值“展開:三級模型矩陣: 推出 Instant(極速)、Thinking(深度思考)、Pro(最強解難) 三個版本,以滿足從日常輕量對話到複雜科研的不同需求。“打工人”實戰能力質變: 基於全新的 GDPval 基準,GPT-5.2 Pro 在 74.1% 的真實職業任務(如投行建模、PPT製作)中勝過或持平人類專家,效率提升 11 倍,標誌著從“對話”轉向“交付”。邏輯與推理的“封頂”表現: 數學能力在 AIME 2025 中拿下滿分(100%),並在 ARC-AGI-1 抽象推理測試中首次突破 90%,展示了恐怖的通用智能水平。Agentic Coding 的飛躍: 在更難的 SWE-Bench Pro程式碼測試中顯著提升,被開發者評價為“自 GPT-5 以來最大的智能躍升”,尤其擅長複雜的多步驟工具呼叫和長流程任務。“完美”的超長上下文: 解決了“大海撈針”的痛點,在 256k長度下的多資訊點檢索(4-needle)精準率接近 100%,配合更強的視覺空間理解能力,大幅提升了處理長文件和複雜圖表的可靠性。01 包含三款模型,比GPT-5.1更貴本次發佈包含三款模型:GPT-5.2 Instant(最佳化響應速度)、GPT-5.2 Thinking(深度推理)、GPT-5.2 Pro(高端版本)。Instant主要用於日常任務主力,主打速度與輕量推理;Thinking用於深度邏輯推理與複雜項目,更適用於企業工作流;Pro面向研究與最高品質輸出,推理鏈條最強、錯誤率最低。OpenAI 選擇了“比 5.1 昂貴、但仍低於其他前沿模型”的策略,為GPT-5.2系列模型推出分層API定價策略。其中GPT-5.2 Instant與GPT-5.2 Thinking採用統一計費標準,輸入單價為每百萬tokens 1.75美元,輸出單價為每百萬tokens 14美元;高端版本 GPT-5.2 Pro定價更高,輸入單價達每百萬tokens 21美元,輸出單價為每百萬tokens 168美元。儘管Pro等高端版本的單次token單價更高,但OpenAI強調,GPT-5.2系列在真實智能體任務中具備更高的token使用效率,因此在部分企業場景中,完成同等質量任務的整體成本反而可能降低。官方同時說明,Pro版本在實際使用中能顯著減少“推理廢話”,輸出內容更緊湊精煉,這一特性也將進一步幫助使用者控制使用費用。圖:GPT-5.2系列模型的定價同時,ARC Prize(ARC-AGI)被業界公認為目前最難、也是最能體現 AI “通用智能(AGI)”水平的基準測試。根據ArcPrize的測算,GPT-5.2的性價比繼續提升,一年內效率提升了約390倍。GPT-5.2系列已向Plus、Pro、Edu、Business、Enterprise使用者陸續開放,並同步上線API。面向工程與程式設計師群體的GPT-5.2 Codex將在未來數周內推出,進一步針對程式設計任務做專項最佳化。02 核心直指專業知識工作與企業級應用的能力提升GPT-5.2系列模型的核心定位是“提升專業工作效率”與“增強長期任務一致性”。根據官方披露的資料,GPT-5.2系列模型在多項關鍵評估基準上取得了當前公開模型中的最高成績。圖:GPT-5.2基準評測概覽OpenAI官方表示,GPT-5.2聚焦於提升企業使用者的專業工作流效率,包括表格處理、簡報生成、程式碼編寫、圖像理解、工具呼叫、多檔案工程任務處理等能力。GPT-5.2的文字生成結構相較以往更清晰,邏輯鏈條更穩定,特別是在軟體說明文件、技術手冊生成、長篇報告編寫等領域,模型內部的“結構化寫作傾向”更加明顯。圖:GPT-5.1、GPT-5.2製表效果對比GPT-5.2 Thinking在面向專業知識與實際工作的GDPval任務集中達到了可與行業平均專業人員相匹敵的水準,在所有對比任務中“勝出或持平”的佔比達到70.9%。在等效任務中,GPT-5.2 Thinking 的完成速度超過專業人士11倍以上,同時成本低於1%。在真實企業環境中,多家早期合作夥伴測試表明模型在複雜推理鏈條與工具呼叫一致性上實現明顯改進:Notion、Box、Shopify:觀察到更穩健的長鏈條推理,在複雜介面和資料庫操作中錯誤率下降Databricks、Hex:資料智能體任務的 SQL/資料分析鏈路顯著更一致Cognition、Warp:認為其程式碼審查和定位缺陷能力達到當前模型的領先水平此外,OpenAI特別強調GPT-5.2在“多工具編排任務”中表現更穩定,能夠在單次會話中處理二十多個工具呼叫步驟,並在系統提示(system prompt)顯著簡化的情況下維持高一致性。這一點使其更適合作為“公司級智能體核心大腦”。03 編碼、事實性與長文字處理全面進步,支撐企業複雜開發需求為了支撐企業級的複雜開發需求,GPT-5.2 Thinking在軟體工程能力上實現了飛躍。GPT-5.2 Thinking在SWE-Bench Pro嚴格評測中取得55.6%精準率,在Python專項SWE-Bench Verified評測中達到 80%。這意味著GPT-5.2在自動化偵錯生產系統、重構大型程式碼庫、理解遺留系統以及處理複雜功能需求方面,已接近部分自動化程式碼助手的可部署標準。圖:GPT-5.2 Thinking在SWE-Bench Pro的跑分GPT-5.2在前端開發(尤其是現代 UI、WebGL/Three.js、複雜 3D 介面)方面也加入了專門最佳化,提升了對元件結構、事件繫結和佈局邏輯的理解能力。圖:GPT-5.2 Thinking在匿名真實查詢集合上的錯誤率降低在事實性方面,GPT-5.2 Thinking在匿名真實查詢集合上的錯誤率相較上一代下降約30%。OpenAI強調,GPT-5.2在面對模糊或資訊不完整的查詢時,會更主動給出依據來源或使用結構化推理路徑,以降低誤導性回答的機率。圖:GPT-5.2 Thinking在長上下文推理方面的表現在長上下文推理方面,GPT-5.2 Thinking支援最高256k tokens輸入,並在“四針(4-needle)”檢索任務中實現接近100%精準率,超過已有商用模型的水平。該模型還在長文件問答、合同審查、多檔案工程跨引用等任務中表現出更高穩定性。若任務長度超過上下文窗口,模型可配合Responses/compact介面,通過“摘要性迭代檢索”進一步擴展可處理規模。04 智能體工具呼叫與視覺理解大幅增強企業工作流往往涉及跨系統的複雜操作。在智能體任務方面,GPT-5.2 Thinking在Tau2-bench Telecom多輪客服任務的工具呼叫測試中取得98.7%完成度,該評測覆蓋訂票、退款、延誤補償、物品遺失與跨系統調度等場景,反映其可承擔更高自治度的流程任務。OpenAI表示,GPT-5.2的“工具決策粒度”更加穩定,推理鏈條更可控,在連續20~40步的任務中不易出現跳步、誤呼叫或不必要呼叫等問題,使其更適合作為長流程自動化智能體(Autonomous Agent)的執行核心。圖:在CharXiv(科研圖表推理)中精準率提升約8個百分點在視覺能力方面,GPT-5.2 Thinking的圖表推理和介面理解能力顯著增強。其軟體介面識別錯誤率減少約一半,在CharXiv(科研圖表推理)中精準率提升約8個百分點。OpenAI同時對模型加入了大規模軟體 UI資料訓練,使其更準確理解控制項、菜單層級與介面邏輯關係。圖:GPT-5.2 Thinking在圖像中元素的位置把握上更強與之前的模型相比,GPT-5.2 Thinking在圖像中元素的位置把握上更強,這有助於解決相對佈局在問題中起關鍵作用的任務。在示例中,即使是低品質的圖像,GPT-5.2也能識別出主要區域,並放置大致與每個元件真實位置相符的框,而GPT-5.1僅能標註少數幾個部分,並且對它們的空間排列理解明顯較弱。05 科學推理、數學能力與抽象智能的進展圖:GPT-5.2 Pro在GPQA Diamond中的表現GPT-5.2 Pro在GPQA Diamond(研究生難度的大規模科學知識測試)中取得93.2%精準率,在現有同行測試中位居前列。圖:GPT-5.2 Thinking在FrontierMath測試中的表現在FrontierMath(涵蓋多步驟數學推理及高難度證明問題)中,GPT-5.2 Thinking取得40.3%正確率,相較上一代有顯著提升。OpenAI披露,一支科研團隊已使用GPT-5.2 Pro協助探索統計學習理論中的一個開放問題,模型提出的證明在後續人工稽核中被證實成立。在ARC-AGI系列評測方面,GPT-5.2 Thinking在ARC-AGI-2(Verified)中從上一代的17.6%提升至52.9%,被視為該模型在“抽象智能”“非模式記憶”“類比推理能力”上的重要進展。GPT-5.2 Pro在 ARC-AGI-1中也超過90%,成為首個達成該水平的主流模型。圖:心理健康評估在安全策略方面,GPT-5.2 延續“safe completion”訓練框架,重點強化心理健康、風險傾向、敏感身份類對話場景的表現。OpenAI還正式宣佈開始部署年齡預測系統,可在疑似未成年使用者使用模型時自動切換到受限模式與額外安全過濾。06 寫在最後在發完幾條“兜售”GPT-5.2的帖子之後,SamAltman還發佈了一條“情緒價值貼”——過去的十年十分精彩;在OpenAI工作比我想像的還要特別。和一條彩蛋帖“下周我們還會送您一些小小的聖誕禮物”,暗示可能還要新的模型(產品)發佈。就在幾個小時前,OpenAI 獲得迪士尼10 億美元的投資意向。ChatGPT以後可以理直氣壯的合成“米老鼠”了。ChatGPT火爆三年後,SOTA模型不斷刷新Benchmark已經不能帶給行業興奮點,但是每次OpenAI更新新模型的情緒價值仍在。同時,這家站在AGI浪尖的獨角獸,必須開始背負更多的商業期待,也要解決一個又一個現實中的“米老鼠問題”。 (騰訊科技)