OpenAI緊急直播,ChatGPT瘋狂開掛「深度研究」!10分鐘爆肝萬字現AGI雛形,刷榜人類最後考試

【新智元導讀】剛剛,OpenAI再度緊急出手,在發佈會直播全新的「Deep Research」功能。基於o3的推理再加上聯網搜尋,ChatGPT如今可以完成耗費人類專家數小時的複雜研究了!現在,模型已經刷爆「人類最後考試」榜單。


一大早,OpenAI開啟的線上直播,簡直讓人猝不及防。



OpenAI研究負責人Mark Chen帶領三位工作人員,在20多分鐘內向我們詳細演示了Deep Research的功能。

最大亮點之一:只要數十分鐘,它就能完成人類專家花費幾小時的複雜調研任務!



Mark Chen將之稱為「我們的下一代智能體產品」。

去年,OpenAI就推出了o1,但這些推理模型的一個限制,是它們無法使用工具,因為缺少了瀏覽網際網路這個核心能力,

因此,現在OpenAI宣佈了一個重大步驟:引入Deep Research!



奧特曼激動地表示,這就像是擁有一種超能力,可以隨時呼叫專家!



它能夠使用網際網路進行複雜的研究和推理,並為你提供詳細報告。它非常強大,能夠完成那些通常需要數小時、數天,且花費數百美元的任務。


需要強調的是,Deep Research是基於最佳化版o3打造——一個可以瀏覽網頁和執行python程式碼的o3。



這是一個可以在網際網路上進行多步驟研究的模型,它能發現、綜合內容,並對之進行推理。甚至隨著發現更多資訊,它還會調整自己的計畫。

也就是說,Deep Research的一大特點,就是消除了模型中的延遲限制,它返回結果可能需要五分鐘,甚至長達半小時。

模型能在無人監督的情況下,以更長時間執行自主任務,這儼然就是AGI的雛形。最終,OpenAI的願景是:模型能自主發現和發掘新知識。



OpenAI研究員表示,「使用Deep Research對我來說真的是一次個人的AGI時刻。只要10分鐘,它就能生成精準又全面的競爭對手和市場研究報告(還有來源),以前這些東西我得花3個小時才能做完」。

現在,Deep Research會自己上網,然後給你一份全面、引用翔實的研究論文!也就是說,它已經妥妥達到了某領域研究專家的等級。

奧特曼還特意發文表示,這還不是o3-mini的「One More Thing」,這個小彩蛋過幾天公佈。



今天,Deep Research就將在Pro中推出了(每月100次查詢),之後還會很快在Plus、Team、Education和Enterprise版本中上線。


幫PM完成深度市場調查報告

從一個按鈕「Deep Research」開始,就可以和Deep Research聊天了。



OpenAI研究者演示說,自己一直在思考的就是,是否該開發一款新的語言翻譯app呢?

這個市場調研,就可以交給Deep Research——

「幫我找到ios和Android的採用率,想要學習另一種語言的人的百分比,過去幾年移動普及率的變化,以及發達國家和開發中國家的差異。」

研究者明確表示,希望自己想要的資訊以格式化的報告呈現,其中要包含表格和明確建議,說明那些是最佳的新興機會。



這個市場調查要求,可著實不簡單。如果是普通打工人來調研,最少也得花費數小時。

但是Deep Research,立馬就啟動了調查。



接下來,研究者進一步細化了自己的要求:給我滲透率的使用者百分比,分析總體使用情況,對其餘部分進行最好的假設。

在這裡,Deep Research就開始發揮自己的長處:自主啟動研究過程。



在這個過程中,它會瀏覽不同網頁,查看相關圖片、表格、PDF,提取所有資訊,來確定下一步要做什麼。



在OpenAI的演示結束時,Deep Research仍然在進行搜尋和調研。此時,它已經查看了29個不同來源和大量資訊。

可以看出,它的報告中已經包含了不同的表格,以及多種呈現資料的形式。



而且,我們能夠點選查看模型的每一個引用,以及它遇到的不同網站。



對於不同學術領域的市場研究,比如物理學、電腦科學、生物學,Deep Research都很擅長。

OpenAI研究者還展示了一個財務研究的例子:「我是一個矽谷風投公司的投資分析師,想分析民用超音速航空旅行市場,準備一份詳盡的投資備忘錄。」

在這個過程中,模型開展了7分鐘的研究,使用了12個不同來源,提供了一份全面的調查報告。



下面是一個生物學方面的例子。

研究者上傳了一篇論文,想找到關於同一主題的其他論文。

最終Deep Research給出的結果,得到了生物學專家的認可。


有趣的東西:買買買

而且,Deep Research能做的絕不僅僅是嚴肅的學術調查報告,它還可以幫你完成很多有趣、好玩的調查,比如——我該買什麼?

如果我們要入手一件很貴的東西,肯定不敢貿然下單,而是提前在網上細細研讀每一頁說明和買家評論。

比如想在日本滑雪,想買滑雪板,就可以直接讓Deep Research給我們出一份帶表格的報告。



在這個過程中,我們可以細化要求:高級滑雪者,有時雪是粉狀的,自己身高很高所以需要長滑雪板,而且顏色要很漂亮。



最終,Deep Research給出了長篇的報告,還對理想的滑雪板做了詳細列表。



也就是說,如果你想要的答案非常具體,那麼Deep Research就會非常有效。

甚至,我們可以用Deep Research找出10年前在東京去過的餐廳的名字,或者找到我們忘記名字、但記得其中某集內容的電視劇。

除了描述情節之外,其餘的資訊就是這是5到10年前的電視劇了。



結果,Deep Research居然找出了正確答案!



最佳化版o3加持,AGI又近一步

去年12月,Google最先放出了研究智能體Deep Research。

OpenAI同款Deep Research,也是智能體的一種,能夠針對複雜任務上網進行多步研究。



它能在幾十分鐘內,完成人類需要數小時才能完成的工作。

只需一個提示,ChatGPT即可尋找、分析和綜合數百個線上資源,建立一份「研究分析師級」的綜合報告。

值得一提的是,Deep Research由即將推出的o3模型的「最佳化版本」加持。

OpenAI通過端到端強化學習,對它的深度瀏覽和推理任務進行了訓練。

該版本專門用於網頁瀏覽和資料分析,它利用推理能力來搜尋、解釋和分析網際網路上大量的文字、圖像和PDF,並根據遇到的資訊隨時調整方向。

要知道,「綜合知識」的能力,是創造新知識的先決條件。

因此,Deep Research的推出,標誌著OpenAI向更廣泛的目標——開發AGI邁出了重要一步。

OpenAI研究科學家Hyung Won Chung對此表示:

Deep Research的一個顯著特點就是它極強的耐心。我認為它已經接近了「超人類耐心」。在這個項目的過程中,我意識到智力和耐心是非常契合的。
就像推理模型o1一樣,Deep Research是通過強化學習(RL)進行學習的。它學習如何搜尋相關資訊,並通過推理整合知識。當scale遇上RL時,魔力就會產生。



畢竟,OpenAI一直設想,真正的AGI是能夠自己產出新穎的科學研究。

幾天前的Reddit線上問答中,奧特曼也發表了同樣的觀點。



在我看來,最重要的影響將是加速科學發現的速度,我認為這是對提高生活質量貢獻最大的因素。

一個提示,即出一份專業報告

那麼,Deep Research究竟能做什麼?

據OpenAI介紹,它是專為那些在金融、科學、政策和工程等領域從事密集知識工作,需要全面、精確和可靠研究的人們而打造的。

對於那些「買買買」購物狂來說,Deep Research還能為你所需研究的購買項目,比如汽車、家電、家具等,提供高度的個性化建議。

而且,每個輸出都有完整的文件記錄,包含清晰的引用和思維過程總結,方便隨後參考和驗證。

尤其是,它特別擅長髮現需要瀏覽眾多網站才能獲取的小眾、非直觀資訊。

只需查詢一次,Deep Research就能get要點,加快複雜、耗時的網路研究,節省了大量寶貴的時間。

此外,Deep Research能夠獨立發現、推理並整合來自網路各種見解。

在技術層面上,它採用了與o1相同的強化學習方法,並進行了重要的升級。

它在真實世界任務中進行了訓練,整合了瀏覽器的操作能力,強化了Python工具使用。

雖然o1在編碼、數學和其他技術領域展示了令人印象深刻的能力,但許多現實世界的挑戰需要從不同線上來源獲取大量背景和資訊。

Deep Research在這些推理能力的基礎上彌補了這一差距,使其能夠處理人們在工作和日常生活中面臨的各類問題。


最快5分鐘,圖像資料可視化要來

進入ChatGPT,可以再聊天對話方塊中選擇「Deep Research」,直接輸入提示即可。

不論是對串流媒體平台的競爭分析,還是關於最佳通勤自行車的個性化報告,ChatGPT全能hold住。

甚至,你還可以上傳檔案、電子表格,提供與問題更多相關的背景資訊。

一旦開啟對話,側邊欄會顯示改採取步驟和資訊來源的摘要。

一般來說,Deep Research需要5-30分鐘完成一份研究,具體實踐取決於深入網路研究所需的時間。

在此期間,你完全可以去幹別的事,ChatGPT完成研究後會主動向你傳送通知,最終的輸出將以報告形式展現在聊天中。

更驚喜的是,未來幾周,OpenAI還將在這些報告中加入嵌入式圖像、資料可視化和其他分析輸出,提供更多清晰度和背景資訊。

與Deep Research相比,GPT-4o更適合即時的多模態對話。

對於需要深入和細節的多維度、專業領域的問題,Deep Research能夠進行廣泛探索並為每個論點提供引用來源。

這種能力使其有別於簡單的快速總結,而是能夠提供經過充分論證和驗證的專業答案,這些答案的質量足以作為正式的工作成果使用。

比如,你想要統計過去10年內,按GDP排名的前10個發達國家和前10個開發中國家的以下資料:iOS和Android系統的使用率、想學習另一門語言的人口比例、移動裝置普及率的變化。

GPT-4o僅僅是幫你列了出來,而Deep Research更像是一個報告,甚至給出了完整的可視化表格。



端到端強化學習,與o1同源

Deep Research是如何運作的?

它通過在各個領域的複雜瀏覽和推理任務上,進行端到端強化學習訓練而成。

通過這種訓練,它學會了規劃和執行多步驟路徑,找到所需資料,必要時可以回溯並對即時資訊做出反應。

該模型還能夠瀏覽使用者上傳的檔案,使用Python工具繪製和迭代圖表,在回答中嵌入生成的圖表和網站圖片,並引用其來源中的具體句子或段落。

通過這種訓練,它在多個關注現實世界問題的公開評估中刷新SOTA。

人類最後一場考試,得分26.6%刷爆了

全網爆火的「人類最後一次考試」中,Deep Research取得了26.6%精準率破紀錄。

奧特曼驕傲地表示,早在周五,「人類最後一場考試」的最高分是 o3-mini-high,得分為 13%。但到了周日,Deep Research功能的得分已經達到了26.6%。



要知道這項測試包含了超3,000道「專家級」多選題和簡答題,涵蓋從語言學到火箭科學、從古典學到生態學等100多個學科。

與o1相比,最大的進步出現在化學、人文社會科學和數學領域。

驅動Deep Research的模型通過在必要時有效尋找專業資訊,展現出類人的解決方案。



GAIA

在GAIA測試中,這是一個評估AI解決現實世界問題能力的公開基準測試。

驅動Deep Research的模型同樣刷新SOTA,位居外部排行榜榜首。

這些測試包含三個難度等級的問題,成功完成這些任務需要具備推理能力、多模態流暢性、網頁瀏覽和工具使用等多項技能。



下面是一級和三級任務的對比區別。



專家級任務

另外,在對各個領域專家級任務的內部評估中,Deep Research能夠自動化完成,需要多個小時的複雜人工調查工作。

下圖為專家級任務與最大工具呼叫次數的對比,顯示出了模型花更多時間思考和瀏覽時,性能就會更強。

這跟OpenAI的理念相吻合:在未來世界裡,智能體將花費越來越長的時間,完成越來越困難的任務。



下面這個案例中,Deep Research進行的化學研究,節省了大約4小時的時間。



語言學方面,更是節省了5個小時。



以下兩個圖表可以證實這一事實。其中,上圖為不同估算經濟價值範圍的通過率,下圖為完成不同任務所需時間範圍的通過率。

所謂通過率,即模型在專家級任務中提供滿意答案的比率,答案由專家評定。

從圖表中可以看出,通過率與估算經濟價值的相關性,比估計小時數的相關性更高,也就是說,模型發現困難的事,也是對人類來說更耗時的事。



侷限性

Deep Research仍處於早期階段,同樣存在一些限制。

根據內部評估,它有時會在回答中產生虛構的事實或做出錯誤的推斷,不過,頻率明顯低於現有的ChatGPT模型。

它可能難以區分權威資訊和謠言,目前在置信度校準方面表現較弱,往往無法精準傳達不確定性。

在發佈時,報告和引用可能存在微小的格式錯誤,任務可能需要更長時間才能開始。

OpenAI預計所有這些問題都會隨著使用時間的增加而快速改善。


Pro使用者先上手,Plus一個月內上線

OpenAI稱,Deep Research在ChatGPT中非常消耗計算資源。

研究查詢所需時間越長,所需的推理計算就越多。

目前,OpenAI開始向Pro使用者提供最佳化版本,每月最多100次查詢。

接下來,這項功能會逐漸向Plus和Team使用者(帶越一個月內),以及Enterprise使用者推出。

未來,所有付費使用者都將獲得更高的使用配額。

屆時,OpenAI將發佈一個更快、更具成本效益的深度研究版本,它由更小的模型驅動,但仍能提供高品質的結果。


下一步:Operator+Deep Research

ChatGPT的Deep Research功能現已在網頁版正式上線,並將在一個月內推廣到移動端和桌面端。

如前所述,目前,Deep Research可以訪問即時網際網路,獲取最新資訊,並對上傳的檔案進行深入分析。

但,這僅僅是開始。

未來,任何一個人將能夠接入更專業的資料來源,比如學術期刊或企業內部資源。

這種定製化的知識獲取能力,讓ChatGPT真正成為你的專屬智能助手。

最激動人心的是,OpenAI正在醞釀一場更大的革命。

下一步,通過將Deep Research(負責非同步網路調查)與Operator(負責實際行動執行)相結合,ChatGPT將不再侷限於資訊處理,能夠為每個人執行愈加複雜的任務。

這種突破性組合,將開創一個全新的AI個人助手時代。 (新智元)