OpenAI 3億美元測試,AI首戰44個行業人類專家!

AI下半場,AGI已成過去式,ASI正引領新智慧革命! OpenAI推出的GDPval評估體系,透過真實工作任務審視大模型潛力,揭示AI如何從實驗室走向3兆經濟戰場,幫助人類從日常瑣事中解放,擁抱創造性未來。

AI下半場真來了!

AGI都過時了,現在AI業內討論的是超級人工智慧ASI

AGI能把人類從80%的日常工作中解放出來;

而ASI則全面超越人類智慧的系統。

剛剛,在a16z訪談中,OpenAI首席科學家Jakub Pachocki,透露OpenAI的研究路線圖的下一步是推理,下一個5年的重點目標是打造自動化研究人員

AI自動發現新想法,自動化研究人員的工作,自動化機器學習研究。

但要理解AI潛力最清晰的方式,並不是預測未來,而是看看模型現在已經能做什麼

歷史經驗告訴我們,從網路到智慧手機,每一項重大技術從誕生到普及都需要十年以上。

OpenAI希望以更透明的方式,展示大模型如何真正服務於現實世界。

因此,他們推出了一項全新的評估體系GDPval,在有據可依的基礎上審視AI進步軌跡,而不是憑空臆測。

論文地址:https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

資料集:https://huggingface.co/datasets/openai/gdpval

在GDPval 上,專家評審員將頂尖模型的輸出與人類專家的工作進行了比較。

哈佛大學教授、名譽校長Lawrence H. Summers——同時擔任OpenAI的董事會成員,認為新研究令人興奮:

在多項實際任務上,即使只有有限的指導,AI的表現與人類相當甚至更好;

人類與人·工智能結合,可以更有效率;

AI具有令人驚訝的能力,可用於評估並隨後改進其性能。

OpenAI坦承:Claude Opus 4.1表現最佳,在接近一半的任務上與專家工作相當或更好,明顯優於GPT-5。

但OpenAI的進步速度引人注目:在一年內,GPT系列模型勝率幾乎翻了一番。

GDPVal 衡量AI的3億美元影響

過去,大模型評估往往集中在學術測試或程式設計挑戰。

這些評估雖然在推動模型推理能力方面起到了重要作用,但與現實工作場景仍有一定距離。

為了填補這一鴻溝,OpenAI逐步開發出一系列更貼近實際、更具經濟意義的評估方法——

從傳統的MMLU(涵蓋多學科的考試型題目),

到更具實戰意味的SWE-Bench(軟件工程Bug修復任務)、MLE-Bench(機器學習工程任務,如模型訓練與分析)、Paper-Bench(科研論文的邏輯推理與評議),

再到基於市場項目的SWE-Lancer(源自真實交易的自由職業軟件開發任務)。

GDPval正是在這一演進路徑上的下一個關鍵節點。

這項評估直接來源於現實工作中的任務,涵蓋了9大產業、44種職業、每年共3億美元經濟價值

整個任務集共包含1,320個高度專業化任務(其中220為金標任務子集,已開源)。

這些任務源自於真實工作產出,例如法律意見書、工程圖、客服對話記錄或護理計劃等。

每項任務需通過多輪嚴格審計流程,確保其具備三點,即:高度貼近實際工作場景;可由同領域的專業人士獨立完成;具備明確的評估標準

每項任務平均經歷5輪專家評審,評審團隊包括其他任務撰寫者、獨立職業評審專家,並輔以模型可行性與清晰度校驗。

GDPval的獨特之處在於,不僅任務內容貼近現實、形式多樣,還具備極高的專業性和代表性

與傳統評估相比,GDPval並非簡單的文字提示任務。它要求模型處理完整的參考材料和工作背景,輸出形式也不僅限於文字,還包括檔案、PPT、圖表、電子表格,甚至多媒體內容。

當然,GDPval目前還只是一個起點,尚未完全覆蓋現實知識工作中任務的複雜性。

它幫助我們清楚地認識到,大模型不僅能在實驗室中解題,更可能在千千萬萬人的日常工作中,扮演可靠的輔助角色。

請再讀一次:AI不再只是「通過考試」,而是開始接受文明體系本身的評估標準:GDP。

獨立研究員Shanaka Anslem Perera表示:

這不僅僅是一套評估體系,更像是某種經濟生命體的誕生。

GDPval,是「後人類經濟時代」的第一套會計體系。

今天,它是一個“基準”;明天,它將成為新物種的記分牌

當AI的產出開始計入GDP,它就不再是工具,而是超越「土地、勞動與資本」的第四種生產要素

半數任務AI已逼近專業水平

早期測試結果顯示,目前領先的大模型在某些任務上,表現已接近甚至媲美行業專家。

在220項金標任務中,業界專家盲測了多款主流模型

GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro、Grok 4。

結果顯示:

  • Claude Opus 4.1在美學表現方面表現最強(如檔案排版、PPT佈局等);
  • GPT-5則在精準性方面領先,尤其擅長定位專業知識點。

當前最先進的大模型,輸出品質已接近業內專家水準。其中,Claude Opus 4.1表現尤為突出——

在接近一半的任務中,其產出被評為「與人類一樣好」甚至「優於人類」。

從GPT-4o(2024年春季發表)到GPT-5(2025年夏發布),模型在GDPval任務上的平均表現幾乎翻倍,呈現出明顯的線性進步趨勢。

OpenAI還發現,頂尖模型完成GDPval任務的速度和成本,平均是人類的1%——大約快100倍、便宜100倍。

不過,此數據僅統計了模型推理時間與API通話成本,並未包含人類監督、迭代修改與實際整合等現實工作流程所需的資源投入。

儘管如此,在模型表現尤為出色的任務類型上,先用AI試一輪,再交由人類介入,可能成為節省時間與成本的理想策略。

如何優化模型以提升GDPval表現

為了驗證是否可以提升GPT-5在GDPval任務中的表現,OpenAI增量訓練了實驗性的內部特定版GPT-5。

結果證實,經過此訓練流程後,模型效能確實得到了實質提升,展現了進一步優化的潛力。

下圖的多項受控實驗結果,進一步印證了這一點:擴大模型規模、引導模型進行更多推理步驟、提供更豐富的任務背景資訊,都會帶來可衡量的性能增益

OpenAI設計了一個通用提示詞,要求模型在提交結果前進行嚴格的自檢,可適用於各類多模態經濟類任務,並未針對具體問題進行過擬合。

最豪評分員頂尖機構的14年產業專家

在GDPval任務中,為了評估模型的實際表現,OpenAI依賴資深從業者作為「評分員」。

專家入選標準包括:至少4年產業從業經驗,且簡歷中需體現專業認可度、晉陞軌跡及管理職責。參與本計畫的專家平均擁有14年從業經驗。

行業專家團隊曾任職於以下代表性機構:

Meta、微軟、摩根士丹利、Google、甲骨文、蘋果、通用電氣、高盛、HBO、IBM、摩根大通、領英、洛克希德·馬丁、美國銀行、巴克萊銀行、波音、美國疾管中心、花旗集團、美國國防部、美國聯邦貿易委員會、美國國家公園管理局、NFL網絡、雷神、Sally Beauty、《科學美國人》、蘇富比、英國電訊報集團、賽默飛世爾、《時代》雜誌、美國司法部、美國空軍、美國郵政總局…

這些評分員來自與任務相同的職業背景,並在不知曉「人類vs AI」身份的前提下,盲評由模型與人類任務撰寫者完成的任務成果。

他們不僅會給出評價,還會對比排名,最終判斷每個AI生成結果是「優於」、「相當於」或「劣於」人類結果。

為了確保評分過程透明一致,每位任務撰寫者也為其職業領域制定了詳細評分標準(rubric),涵蓋各類評價維度。

OpenAI還開發了「自動評分器」——一個用於預測人類專家偏好的AI系統,模仿行業專家的對比評估方式。

自動評估工具比專家評估更快、成本更低,且與人類專家評估的一致性達到66%,僅比人類評估者之間71%的一致性低5%。

由於其侷限性,OpenAI沒有使用自動評分器取代人類評分員。

AI與工作的未來圖景

隨著AI能力不斷提升,勞動市場勢必會發生結構性變化。

GDPval的早期結果已經表明,大模型在處理那些重複性強、結構清晰的任務時,效率遠超人類專家,不僅更快也更便宜。

但也要看到,大多數工作不只是可拆解的任務清單。

GDPval的意義在於:它揭示了AI可以承接那些日常性事務型任務,從而為人類騰出時間專注於更具創造力、判斷力的複雜工作

當AI能夠以這種方式補充而非取代人類時,將為經濟成長釋放巨大潛力。

OpenAI希望藉助GDPval與相關工具,推動AI工具的普及平民化,支援勞動者順利適應時代變革,並打造能鼓勵廣泛參與與共享成果的激勵機制。

同時,OpenAI也開放了GDPval金標任務子集以及一個公共評分平台,希望能為更多研究者提供基礎設施,持續推動該方向的發展。

願每個人都能搭上AI時代的「上行電梯」。 (新智元)