一件比OpenAI發佈deep research更值得關注的事情


OpenAI deep research意圖突破“人類的最後考試”。


台北時間今天上午,OpenAI突然發佈了一款全新的Agent(智能體)——deep research。

Deep research是一款利用推理合成大量線上資訊並為使用者完成多步驟研究任務的Agent,目前已整合到ChatGPT中。目前,ChatGPT Pro使用者已可使用相關功能,接下來deep research也將對Plus和Team使用者開放使用。

簡單來說,使用者只需要告訴ChatGPT需要一份怎樣的報告,並在對話方塊中勾選deep research,ChatGPT就將尋找、分析並綜合數百個線上資料,建立一份相當於分析師水平的綜合報告,而用時只需要5~30分鐘。

這已經是OpenAI近兩周的第三次發佈了,之前OpenAI發佈了首款AI Agent——Operator和最新推理模型o3-mini。

這三次發佈都在DeepSeek-R1發佈之後。



圖片來源:OpenAI


Youtube網友看熱鬧不嫌事大,一位網友在deep research發佈視訊下評論:“Deepseek應該發佈R2,這樣我們下周就能接觸到GPT5。


圖片來源:OpenAI Youtube帳號


OpenAI的確也在想著DeepSeek,在OpenAI發佈deep research的直播演示畫面中,歷史聊天記錄中有一個問題是:“Is Deeper Seeker a good name?(Deeper Seeker是一個好名字嗎?)”

不知道這是“無心之失”,還是“有意為之”,但OpenAI很有可能最開始沒想給這個新Agent起名deep research,而是想“碰瓷”DeepSeek,至少想留個“彩蛋”。


圖片來源:OpenAI


Deep research由即將推出的OpenAI o3模型中的一個版本驅動,該版本經過最佳化以進行網路瀏覽和資料分析,可以利用推理來搜尋、解釋和分析網際網路上的大量文字、圖像和PDF檔案,並根據蒐集的資訊進行靈活調整。

OpenAI展示了很多deep research的應用案例,比如在商業、大海撈針(Needle in a Haystack)、醫學研究、使用者體驗設計、購物等領域的應用,並稱Deep research可提供“全面、精確、可靠的研究”“超個性化購買建議”“小眾的、非直觀的資訊”。


通過deep research生成的市場分析報告,有資料、圖表、來源,圖片來源:OpenAI


Deep research處理大海撈針問題演示,圖片來源:OpenAI


這不禁讓我們這些搞行業分析的人倒吸了一口涼氣,“年還沒過完,工作就要沒了?”

我們把deep research的事情跟DeepSeek和Kimi都說了,DeepSeek-R1安慰道:“這種變革本質上不是替代,而是將人類智慧從資訊處理的‘體力勞動’中解放,轉向更高維的價值創造。”而Kimi 1.5則更為直接地說:“儘管AI在生成研究報告方面展現出了驚人的效率和能力,但人類分析師在理解複雜問題、與客戶溝通以及提供專業建議等方面仍然具有不可替代的優勢。”

“AI是否能替代人類分析師”的話題還有待討論,但是這次OpenAI o3模型通過deep research展現出的回答專業、複雜問題能力非常值得關注。

它使用了類似人類的方法,創造了在“人類的最後考試”(Humanity's Last Exam)中的最佳成績。


1.什麼是“人類的最後考試”?

“人類的最後考試”是由Center for AI Safety(CAIS)和Scale AI共同推出的一項新的基準測試(benchmark),旨在評估大語言模型(LLMs)的深度推理能力,並確定專家級人工智慧(expert-level AI)何時真正到來。


基準測試是評估大模型能力的重要工具,但是基準測試的難度並未與時俱進。

比如熱門的基準測試MMLU(Massive Multitask Language Understanding),其在2021年被提出,包含了57個學科領域,覆蓋從基礎到高級的不同難度等級,涉及 STEM(科學、技術、工程、數學)、社會科學、人文、醫學、法律等多個領域。

很多大模型在MMLU基準測試上實現了超過90%的精準率,這限制了對最先進的大模型能力的有效測量。

智源研究院副院長兼總工程師林詠華曾公開表示,有一些測評榜單完全可以靠定向的訓練資料來拔高分數。

“C-Eval、MMLU以及CMMLU,這幾個類似的測評集已經有點被各個模型過度訓練。”林詠華說,“所以,觀察大模型能力時,我建議大家不用過度關注這幾個測試集的評分。”

時代呼喚新的基準測試。

2024年9月,就在OpenAI發佈o1模型後,CAIS和Scale AI就在籌劃新的基準測試——“人類的最後考試”。2025年1月,“人類的最後考試”基準測試正式推出,相關論文也發到了arXiv上了。

在“人類的最後考試”的組織團隊中,「甲子光年」發現了一個熟人——丹·亨德里克斯(Dan Hendrycks)。


“人類的最後考試”組織團隊,圖片來源:arXiv


Dan Hendrycks,圖片來源:UC Berkeley


他是一位在機器學習、深度學習魯棒性以及人工智慧安全領域頗有影響力的研究者,目前擔任非營利性組織CAIS的主任,同時他也是xAI和Scale AI的顧問。

更值得一提的是,他是當年MMLU基準測試論文的一作。


《MEASURING MASSIVE MULTITASK LANGUAGE UNDERSTANDING》論文,圖片來源:arXiv


讓亨德里克斯下定決心發起“人類的最後考試”的是OpenAI o1,他認為該模型“摧毀了最受歡迎的推理基準”。

與他有相同想法的還有Scale AI CEO亞歷山大·王(Alexandr Wang),去年9月,他就呼籲:“我們迫切需要更嚴格的測試來評估專家級模型,以衡量人工智慧的快速進展。”

大約四個月後,CAIS和Scale AI推出了“人類的最後考試”基準測試,這是一個處於人類知識前沿的多模態基準測試。

“人類的最後考試”共有3000道題目,不要小看這3000道題目,它們是從70000道題目中經過重重篩選而來。


題目篩選過程,圖片來源:“人類的最後考試”


這些題目涉及數學、人文、自然科學等100多個學科,由來自全球500多所機構的近1000名專家、學者精心設計,包含多項選擇題和簡答題,適用於自動評分。另外,這些題目都有明確且易於驗證的標準答案,但大模型無法通過簡單的網際網路搜尋快速得出結果。


“人類的最後考試”題目學科類型佔比,圖片來源:“人類的最後考試”


之所以命名為“人類的最後考試”,是因為它想成為“最終的”封閉式學術能力評估基準。

「甲子光年」找到了一些“人類的最後考試”題目,可以看出這些專家、學者為了難住AI大模型真的是“絞盡腦汁”。

比如,牛津大學墨頓學院Henry T出了一道題:“這是一段羅馬銘文,最初是在墓碑上發現的,請提供帕爾米拉文字的譯文。”


圖片來源:“人類的最後考試”


還有一道題是:“在希臘神話中,伊阿宋(希臘神話中奪取金羊毛的主要英雄,英文譯名為Jason)的外曾祖父是誰?”


圖片來源:“人類的最後考試”


另外,還有來自各大知名大學的數學、物理、化學、電腦科學等學科的題目。





從上至下為數學、物理、化學、電腦科學的題目,圖片來源:“人類的最後考試”


這些題目一出,一眾大模型就“撲街”了。和以往的基準測試相比,包括OpenAI的GPT-4o、o1,以及Anthropic的Claude 3.5 Sonnet、Google的Gemini 1.5在“人類的最後考試”中的精準率呈“斷崖式下降”。


大模型在不同基準測試中的精準率,HLE指的是“人類的最後考試”,圖片來源:“人類的最後考試”


可以看出,“人類的最後考試”相比以往的基準測試(例如MMLU),更專注於通過原創且高難度的題目,尤其是數學和深度推理題,來考察模型的極限推理和解決複雜問題的能力。“人類的最後考試”中有10%題目還考察了模型的多模態能力(比如理解圖片),這也為測試增加了難度。

“人類的最後考試”團隊在介紹文件中“有些得意”地寫道:“這表明它在測量高級、封閉式學術能力方面非常有效。”

但是今天,OpenAI deep research刷新了大模型在“人類的最後考試”中的最佳成績,幾乎是之前o1精準率的三倍。


2.OpenAI deep research是如何做到的?

根據OpenAI發佈的資料,在deep research這款Agent的加持下,OpenAI o3模型在“人類的最後考試”中取得了26.6%的精準率,與o1相比,該模型化學、人文和社會科學、數學領域的進步最為明顯,而且OpenAI deep research展示了類人化的方式,在必要時會高效找到專業資訊。



OpenAI deep research在“人類的最後考試”中取得了26.6%的精準率,創下新高,圖片來源:OpenAI


值得注意的是,DeepSeek-R1在“人類的最後考試”中的精準率要略高於o1,這也是對DeepSeek-R1推理能力的認可。

表格中也寫明,DeepSeek-R1和OpenAI o3-mini不是多模態模型,僅在文字子集進行了評估。

OpenAI deep research是如何做到的?

這張表格的**號部分透露了玄機——瀏覽和Python工具。

Deep Research通過端到端強化學習在多個領域的複雜瀏覽和推理任務上進行了訓練。通過這種訓練,它學會了如何規劃和執行多步驟的操作流程,以找到它需要的資料,並在必要時進行回溯和對即時資訊做出反應。

該模型還能夠瀏覽使用者上傳的檔案,使用Python工具繪製和迭代圖表,將生成的圖表和網站上的圖像嵌入其回答中,並引用其來源中的特定句子或段落。

由於這種訓練,它在多個針對現實世界問題的公開評估中達到了新的高度。

不過OpenAI也客觀表示,deep Research解鎖了新能力,但它仍處於早期階段,存在一些侷限性。根據內部評估,它有時會在響應中產生幻覺或做出錯誤推斷,但發生率明顯低於現有的ChatGPT。

它可能難以區分權威資訊和謠言,目前在信心校準(confidence calibration)方面表現較弱,常常無法精準傳達不確定性。在發佈時,報告和引用中可能會出現輕微的格式錯誤,任務的啟動時間也可能更長。

不過,OpenAI預計所有這些問題都會隨著使用和時間的推移而迅速改善。

這不禁讓人會思考一些問題,“人類的最後考試”真的是人類給AI大模型的“最後一場考試”嗎?如果新的大模型取得了更高的精準率,這就意味著AGI的到來嗎?

“人類的最後考試”團隊認為,雖然當前的大模型在“人類的最後考試”上的精準率還比較低,但根據歷史經驗,基準測試會很快飽和。

他們直截了當地說:“‘人類的最後考試’可能是我們需要給模型進行的最後一次學術考試,但它遠非針對AI的最後一個基準測試。(HLE may be the last academic exam we need to give to models, but it is far from the last benchmark for AI.)”

團隊預計,到2025年底,大模型有可能在“人類的最後考試”上實現超過50%的精準率。在“人類的最後考試”實現高精準率將證明模型在封閉式、可驗證的問題以及尖端科學知識方面達到專家級水平,“但這並不意味著它具有自主研究能力或者AGI。”

“人類的最後考試”團隊發表這些觀點的時間是1月24日,但是現在,剛剛過去不到兩周,OpenAI deep research就展現了“大模型+Agent”具有一定自主研究能力。

那麼,AGI呢?

OpenAI首席研究員Mark Chen在deep research發佈會直播的最後說:“Deep research對我們的AGI路線圖非常重要。” (甲子光年)