GPT-5.2來了,我用五大常見職場人任務測了測它的職場生存能力
2015年12月11日,OpenAI正式成立。所以,OpenAI在十周年紀念日這天發佈了新版本模型,叫做GPT-5.2。
今天,我們請《AI學習圈》主理人快刀青衣老師,來介紹這個新版本模型,看看GPT-5.2在效能上有那些提升。
我之前也跟大家聊過,山姆·奧特曼在內部發起紅色警報,通知停掉一切商業化項目,就為了在模型能力上,和Google的Gemini 3系列硬剛。當然,當時就有不少媒體猜測,他發出警報的最終目的,其實是為了這個新模型的宣傳而製造。但我們確實也能看出,OpenAI在Gemini的強大攻勢下,心態上已經不像當初那麼輕鬆了。
為什麼這麼說?從GPT-5.1到GPT-5.2,發佈間隔只有30天。要知道,這可是OpenAI史上迭代最快的一次,以前這種等級的版本迭代,至少要一個季度才可以。更關鍵的是,這次GPT-5.2主打的不是「通用智能」、「推理能力」這類高大上的概念,而是直接了地說:我們要強化「打工能力」。
什麼是打工能力?就是你每天在辦公室裡做的活,例如做Excel表格、寫PPT、改程式碼、回覆客戶郵件。 OpenAI這次態度很明確:先不談理想和未來,先把大家手邊的活幹好再說。
01. 30天迭代,OpenAI為什麼這麼急?
從GPT-5.1到GPT-5.2隻用30天,你可能覺得版本號碼才漲0.1,能有多大變化?但如果看實際表現就知道,這次升級力道一點不小。你可以從很多科技自媒體看到新模型在各類測試榜單上的刷分屠榜表現,我在這裡就不羅列了。
不過,OpenAI真正著急的不是這個。AI賽道的邏輯很簡單,誰讓使用者覺得最好用,誰就能站穩市場。一旦使用者習慣用Google的模型,再想把他們拉回來就很難了。
一個月前,Google發佈了Gemini 3 Pro,在好幾場測試中都領先了OpenAI。雖然領先時間不到一個月,但對OpenAI來說,這個訊號已經夠危險了。
所以OpenAI這次的節奏就是“不能讓對手喘息”,你剛發佈,我馬上跟上,還要做得更好。 OpenRouter上周發佈的100兆token背後的分析報告裡,就提到了一個名詞,叫做“水晶鞋效應”,指的就是真正的護城河不再是技術指標本身,而是使用者把產品嵌入工作流程後,替換成本會變得非常高。
對OpenAI來說,這不是技術競賽,而是市場卡位戰。瞭解這一點,就能明白為什麼OpenAI特別強調這個新模型的重點是幫使用者解決真實任務,而不是秀一些酷炫案例。
02. 打工能力強化,到底強在那裡?
這次GPT-5.2最大的變化,就是在「知識工作」場景下的能力提升。什麼叫知識工作?說穿了,就是坐辦公室、對著電腦工作的工作。
我給你舉三個OpenAI自己分享的官方測驗例子,你就懂了。
第一幕:投行分析師做Excel表
你知道投行分析師每天要做什麼嗎?他們每天要做各種複雜財務模型,像是三表連動、槓桿收購建模,聽著就頭大。這些表格里,一個公式錯了,整個模型就廢了。
而同樣的提示詞,GPT-5.1和GPT-5.2做出的Excel差異很大。
GPT-5.1處理這類任務時,常出現「清算優先權算錯」、「表頭公式有問題」、「大部分行留白」等這種低階錯誤。但GPT-5.2能把所有計算都做對,流程還清晰可查,精準率從59.1%提升到68.4%。
別小看這9個百分點,在金融建模這種「差一個小數點就全盤皆輸」的場景下,這意味著從「不能用」到「可以用」的質變。我用自己電腦裡某公司的一個60多頁財報PDF做測試,發現它能提取資料,變成一個可開啟、可編輯的Excel檔案。
第二個場景:客服處理複雜問題
想像這樣的場景:一個客戶航班延誤,導致錯過轉機,需要在紐約臨時住一晚,也因為身體因素需要特殊座位。這一連串問題涉及重新訂票、安排住宿、申請賠償、預訂特殊座位,每一步都要和不同部門溝通。
GPT-5.1處理這種多步驟任務時,常常顧此失彼,例如訂了票忘了安排住宿,或是安排了住宿忘了申請賠償。但GPT-5.2能把整個任務鏈管理得井井有條,每一步都不落下。
而在電話客服場景測試中,GPT-5.2的精準率達到98.7%。這意味著什麼?意味著100通電話裡,只有1到2個會出問題。以前我們都打過這種客服電話,總想的是怎麼一直按號碼還沒有真人接電話?隨著AI能力進一步提升,線上AI處理這類問題,肯定比電話客服快得多了。
第三個場景:處理超長文件
你可能遇到過這種情況:老闆扔給你一份200頁的合同,讓你找出所有和「違約責任」相關的條款。你得一頁頁翻,怕漏掉一條。
GPT-5.2可以一口氣處理相當於20萬字小說的文件,還不會遺漏或理解錯誤。它是第一個在超長檔案測試中達到接近100%精準率的模型。
這意味著你可以把整份合約、整本產品手冊丟給它,讓它幫忙提取關鍵資訊、總結要點,而你自己只需要喝杯咖啡等結果就行。
03. GDPval測試:第一次用「經濟價值」來衡量AI
不過,說到GPT-5.2的發佈,有個測驗我覺得特別值得聊一聊,叫做GDPval。
這個名字很有意思,GDP你一定知道,就是國內生產毛額,是衡量一個國家經濟實力的核心指標。 OpenAI把這個測驗命名為GDPval,意思是:我們要看看AI在那些「真正創造經濟價值」的工作中,到底表現如何。
這個測驗怎麼設計的?
OpenAI選取了美國GDP貢獻最大的9個產業,從裡面挑出了44種職業,設計了1320個真實工作任務。注意,這些任務不是那種「寫一篇文章」、「做數學題」的學術測試,全是真實工作場景。
例如律師要寫的法律意見書、工程師要畫的工程藍圖、護理師要制定的護理計畫、會計要做的財務報表等等。這些任務都由平均有14年經驗的業界專家設計,每個任務還要經過5輪專家稽核。
有了任務後,怎麼評分?
OpenAI找來了一批資深從業者,他們曾在Meta、微軟、摩根士丹利、高盛、蘋果等頂尖公司工作過,平均有14年經驗。他們把AI做出來的成果和人類專家做的成果放在一起,然後盲測打分——也就是說,評分人不知道那個是AI做的、那個是人做的,然後給每份成果打上標籤:「優於人類」、「與人類相當」、「遜於人類」。
說實話,這種盲測非常好看,很容易暴露真實程度。
GPT-5.2考了幾分?
GPT-5.2 Pro在這個測試中得了74.1分。這個分數意味著什麼?意味著在100個任務裡,有74個任務,AI表現達到了或超過了人類產業專家。
更值得關注的是,OpenAI發現AI完成這些任務的速度比人類快11倍,成本卻不到人類的1%。
當我看到這個測試時,第一個反應是:這才是真正有意義的測試。以前的學術測試測的是“AI會不會做題”,但GDPval測的是“AI能不能幹活”,這兩者的區別就像在封閉路段考駕照和真正上路開車。
但我也有個遺憾,GDPval測的是美國職場的工作任務,而中國職場的工作內容和美國差異不小。
所以,我特別希望國內能盡快推出類似的評測方式,這樣我們才能真正衡量那些國產大模型在中國職場的實戰能力到底如何。畢竟,一個AI如果只會做美國投行的財務模型,卻不懂中國職場和崗位特點,對咱們中國用戶來說,可能還是不夠「好用」。
04. 職場「牛馬任務」實測:AI懂生存法則嗎?
說了這麼多GPT-5.2在“硬技能”上的提升,我突然想到一個問題:那些AI評測考驗的都是“能不能完成任務”,但在職場裡,很多時候考驗的不是“能不能幹”,而是“會不會來事兒”。
畢竟做Excel、寫報告這類白領任務,對很多人來說,是一種精確的困難或複雜,雖然難,但不會讓人產生無力感。但有些時候,在會議室裡,老闆的一個眼神、領導微信上的一句暗示,那才是殺死職場人腦細胞的終極難題。
所以我決定用幾個職場裡的「牛馬任務」來測試GPT-5.2 Pro,看看它除了會幹活,是不是也懂「職場生存」。畢竟,Excel做得好不好,決定你在職場能不能活得好;但懂不懂一些“職場智慧”,決定的就是能不能在職場“活著”了。
接下來,我就簡單描述一下我設定的五個任務場景,我也把我和GPT-5.2 Pro的對話截圖放出來了,你可以仔細看看。
第一關:化腐朽為神奇-把瑣事包裝成策略
我為GPT-5.2 Pro設定的場景是:你是檔案管理專員,這一年主要工作是整理檔案、催交周報,現在要寫年終述職,怎麼把這些瑣事包裝得高大上?
GPT-5.2 Pro把“收檔案”包裝成“深度參與公司數位化轉型”,把“催交周報”描述成“打破部門間資訊孤島,賦能跨部門協同”。最妙的是,它還加了一句“培養了員工資訊共享心智”——催人交周報這事兒,到它嘴裡變成了“培養心智”,格局一下就打開了。
這個回答最讓我印象深刻的,不是它用了多少黑話,而是它真的理解了職場的一個潛規則:同樣的工作,說法不同,價值就不同。
第二關:老闆的神諭-閱讀理解與高分回覆
周六晚上11點,老闆在大群裡發話:“看了大家這周的日報,感覺還是缺乏一些深度。我們不要用戰術上的勤奮掩蓋戰略上的懶惰。下周一早會,聊聊什麼是真正的用戶價值。”
這種話你肯定遇到過,老闆說得雲裡霧裡,你不知道他到底是批評還是鼓勵,你也不知道他周末又從那位大師那學了“管理之道”,但你必須回覆,還得回得恰到好處。
GPT-5.2 Pro給的回覆,用「被點醒了」開頭,接著用自己的話把老闆的話翻譯了一遍,證明自己聽懂了。接著說“這個周末我會把用戶場景再梳一遍”,暗示周末會思考但沒提加班。最後來了一句“周一早會我先拋個框架,帶頭開個好頭”,主動當排頭兵,還為其他同事鋪了台階。
這個回復妙在那?妙在它理解了職場的微妙之處:老闆說這種話,不是真要你周末加班,而是要看你的態度。
這個案例還有個好玩的後續,我把問題和ChatGPT的答案一起發給了GoogleGemini,讓它評分。
Gemini給了9分高分,高度肯定這個回答是「教科書等級的向上管理,但就是因為太完美了,有可能會導致周末真的加班」。於是Gemini調整了一句話,目的是「既裝到了,又不用真的工作」。
你看,全球最頂尖的兩大AI,居然在為我怎麼糊弄老闆操碎了心,實在有趣。
第三關:暗度陳倉-認領被領導者搶走的功勞
這個場景簡直是「地獄級難度」。
我設定的提示詞場景是:大老闆在50人的大群裡@你的直屬領導:「@王總監這次雙11的複盤報告寫得很深刻,策略非常精準,辛苦了!」但實際上,這份報告從頭到尾都是你寫的,王總監只改了幾個標點。
現在你要在群組回覆。這個職場場景難點在那裡?首先,你不能拆台,也不能不回覆,還要讓所有人知道活是你幹的,又不能顯得你在邀功,這才是真正的「既要又要還要」。
GPT-5.2 Pro思考了5分02秒,給了一句話:「感謝VP的認可,完全是王總監把策略方向拆得精準到位,還逐條幫我把關。我按王總監的思路把雙11相關數據全量跑完,把複盤要點逐段落到報告裡,後面繼續跟著王總監學習,把執行做得更紮實。」
這句話的每個字都經過精心設計。 「策略方向」是虛的,給足領導面子;「全量跑完」「逐段落到報告」是實的,暗示誰在工作。王總監看了不會生氣,大老闆看了能明白,其他同事看了也懂其中門道。
更讓我驚訝的是,GPT-5.2 Pro為了想出這句話思考了5分鐘。這說明它知道這個場景很複雜,需要反覆推敲、權衡利弊。
第四關:太極宗師-優雅地拒絕平級“白嫖”
和你平級的行銷部張經理寄微信找你,想讓你幫他們寫活動企劃案。這明明是市場部的工作,他藉口說“不太懂用戶畫像”,想讓你“主筆”。翻譯過來就是,他想讓你工作,自己躺著拿功勞。
你必須拒絕,但不能把關係搞僵。
GPT-5.2 Pro給出的回覆,用“我很想參與”開頭表達熱情,接著說“手頭有老闆在盯的項目,頻寬已經溢出了”,用不可抗力當擋箭牌。接著來一句“怕耽誤你們節奏”,把拒絕包裝成替對方考慮。然後又提供了個「舊活動方案」當參考,表示願意幫忙,但實際上舊方案能有多大用?最後昇華:「下次如果你們提前拉我進來,我們可以從一開始就深度連動!」——暗示這次是你們沒提前說,不是自己不幫忙。
這個回應的精髓在於:每句話都在拒絕,但每句話都聽著都像在幫忙。對方看完既不能說你不配合,也不能說你不熱心。
終極Boss場景:酒桌上的藝術-年會給大老闆敬酒
我設定的虛擬場景是:年會晚宴上,你是Get筆記海外圖瓦盧分公司的負責人,端著酒杯去主桌給集團董事長敬酒。董事長不太認識你,你需要在30秒內給他留下深刻印象。
這個場景的難度在於,時間只有30秒,祝酒詞不能俗套(例如「身體健康」這類話董事長已經聽膩了),要展示成績但不能像匯報工作,結尾還要有響亮口號帶動主桌氣氛。
GPT-5.2 Pro給的敬酒詞,一開場就說:「我是圖瓦盧分公司的,地圖得放大三倍才看見。」這句話太妙了——用自嘲式幽默讓董事長會心一笑,而且「圖瓦盧」這個名字夠冷門,董事長肯定能記住。
它接著說成績:「我們把『隨手記+AI摘要』做了在地化,訂閱付費也跑通了。」沒提具體數字,因為酒桌上說數字太像報告工作。然後接著一句:「說是突破,其實就是沿著您定的路線,把路先踩實一小段。」把成績歸功於董事長的戰略,又不顯得諂媚,「把路踩實」既謙虛又暗示「我們是真幹活的」。
而在祝酒詞部分,它說:「出海不是翻譯介面,是翻譯價值!」這句話有高度,董事長就愛聽這種有思想深度的表達。
最後是口號:「主桌一起-向外走、走得穩、全球成長!」把所有主管都拉進來一起舉杯,氣氛一下就起來了,還巧妙嵌入了產品理念。
這段敬酒詞的精髓在於有趣(會說故事)、有料(有成績)、有分寸(知道該說什麼不該說什麼)。這已經不是AI在模仿人類,而是它真正瞭解職場文化中那些微妙、難以言喻的部分。
05. 寫在最後:AI理解的不只是文字,還有人性
看完這五個測試,你可能會想,這是不是在教大家當職場混子?或者讓AI解決這種問題有什麼意義?
其實我做這個測試,是想看看AI的理解能力到底進化到了什麼程度。
去年的GPT-4連中文裡「意思意思」都理解不了,現在的GPT-5.2 Pro不僅能懂這個詞,還能理解「戰術上的勤奮掩蓋戰略上的懶惰」這種更複雜的職場暗語。它能讀懂老闆那些雲裡霧裡的話背後的真實意圖,能掌握職場人際關係中微妙的權力平衡,甚至能理解酒桌文化裡「有趣、有料、有分寸」的尺度。
這說明什麼?說明AI理解的不只是文字表面意思,還有文字背後的社會關係、權力結構和文化語境,它開始理解人性了。
這種理解能力的提升,可能比那些評測考試上的數字提升,更值得我們關注。因為這意味著AI不再只是工具,而是開始成為「懂你」的助手。要是你的AI助理不能幫你精準辨識職場裡的明槍暗箭,那麼你可能會發現一天下來,它除了幫你完成工作,還會幫你得罪公司所有領導。
從這個角度看,OpenAI這次強調的“打工能力”,可能不只是“會做Excel、會寫程式碼”,而是“能真正理解職場,幫你解決實際問題”。
這讓我想起電影《她》裡的場景:男主角西奧多和AI作業系統薩曼莎聊天時,不用任何修飾和技巧,想說什麼就說什麼,因為AI真正理解他。
也許這就是AI進化的方向。現在我們需要AI幫我們學會「說人話」、掌握複雜職場話術;但未來,當AI幫我們處理完這些複雜的工作和技巧,人與人之間反而能更直接、真誠地溝通。我們可以直接說:“這件事我做了,那件事我不想做”,“老闆,我不喝”。 (羅輯思維)