剛剛,OpenAI 發布ChatGPT 版Manus!奧特曼:感受AGI 時刻

過去大半年,Agent(智能體)是AI 產業最常被提及的概念之一。

幾乎所有廠商都在講Agent,概念不缺,demo 也不少,但真正做到產品級落地,始終缺一套完整的執行系統——既能理解複雜目標,又能調用多種工具串聯任務流程,還要隨時支援任務中斷、修改與恢復,真正貼合任務流。

就在剛剛,OpenAI 正式發布ChatGPT Agent 功能。

透過整合Operator + Deep Research + ChatGPT 本體,使用者只需描述任務,ChatGPT Agent 就能自主判斷所需工具,自動存取網頁、擷取資訊、執行程式碼、產生PPT 或表格等,並可在執行過程中即時展示對應步驟、接受暫時中斷和修改指令。

看到這,你或許有種似曾相識的感覺。 ChatGPT 這個新功能其實與3 月份大火的Manus 在體驗層面相當相似,而Manus 也正面回應了OpenAI 這位競爭對手的入場。

凌晨發表會結束後,OpenAI CEO Sam Altman 在社群媒體上寫道:

觀看ChatGPT Agent 使用電腦完成複雜任務,對我來說是一個真正的「感受AGI」時刻;看到電腦思考、計劃和執行,有種與眾不同的感覺。

亮點如下:


ChatGPT Agent 將Operator、Deep Research 與ChatGPT 本體三合一,建構了一個統一智能體系統;


內建圖形/文字瀏覽器、終端機和API 呼叫器等工具,支援手機端使用,任務完成後可自動推送結果;


可連接Gmail、GitHub 等第三方應用,深度嵌入使用者真實工作流程;


在多項基準測試中表現領先,綜合性能位居行業前列;


Pro 用戶每月享有400 條呼叫額度,其他付費用戶為40 條,並支援按需擴充配額;

ChatGPT Agent 正式上線,可以購物,能寫PPT,你的瀏覽器要被AI 接管了

今天開始,你可以在任何對話中,透過聊天介面左下角的「工具」下拉式選單,選擇「Agent 模式」來啟用這項功能。

輸入你想完成的任務,ChatGPT Agent 就能瀏覽網站、篩選結果、在需要時安全提示你登入、執行程式碼、執行分析,PPT、電子表格等任務也都能信手拈來。

整個執行過程是可視的——操作步驟會即時顯示在螢幕上,使用者可以隨時中斷、修改指令,甚至手動接管瀏覽器繼續操作,確保任務始終符合你的目標和需求。

在今天凌晨的示範中,OpenAI 展示了ChatGPT Agent 在真實場景中的應用能力。

例如,為即將出席的婚禮做準備,一直是個難題。現在只需發出請求,ChatGPT Agent 迅速搭建虛擬環境,自主判斷應調用瀏覽器、文本解析器還是終端,並開始依次調取婚禮日期、查詢場地天氣、推薦西裝搭配、篩選酒店。

在這個過程中,模型可以與OpenAI 研究員進行互動,並在適當節點請求確認需求,而執行這樣一個任務只需十分鐘左右。

更重要的是,用戶還可以隨時中斷任務。

例如當Agent 在推薦西裝過程中,OpenAI 研究員臨時插入了「幫我找一雙9.5 號黑色正裝鞋」的請求,模型立刻暫停當前任務,轉而處理新需求。

同樣地,當Agent 認為有必要時,也會主動向你請求更多信息,確保任務始終與你的目標保持一致。如果任務超出預期時間或出現卡頓,你可以選擇暫停任務、請求進度摘要,或直接終止任務並取得現有的部分結果。

「這種可打斷、可多輪對話的機制,是我們這次訓練模型的重點之一,」OpenAI 研究員解釋道。

這項能力背後,是ChatGPT Agent 對三大系統的統一整合:Operator 提供網頁互動能力,支援自動滾動、點擊、填表;Deep Research 擅長資訊整合與分析;ChatGPT 本體則負責自然語言理解與智慧推理。

ChatGPT Agent 是透過強化學習在複雜的任務中訓練出來的,過去三者各有短板——前者難以深入分析,後者無法操作網頁,而Agent 將三者優勢整合為一體,並輔以瀏覽器、終端、API 呼叫器等工具,形成一個完整的執行系統。

使用者不僅可以在桌面端啟動Agent 模式,在手機端也同樣適用。

任務完成後也會自動推播結果通知。在第二個演示任務中,OpenAI 研究員在ChatGPT App 上傳了團隊吉祥物Bernie Doodle 的貼紙圖案,Agent 自動調用圖像生成API 設計貼紙樣式,透過瀏覽器訪問電商平台完成比價、樣式選擇、購物車添加,最終整理出定制500 份貼紙的下單明細。

當然,為確保流程安全、靈活且清晰可控,面對涉及金額的支付環節,則只會由使用者手動接管瀏覽器完成。

透過連接器,使用者還可將Gmail、GitHub 等日常應用程式接入ChatGPT,讓模型讀取郵件、日曆或程式碼庫等上下文內容,並執行諸如總結今天的郵箱內容或查找下周空閒會議時間等任務。

一個更典型的應用情境是,OpenAI 研究員能夠讓ChatGPT Agent 總結自己在多個基準測試中的表現,並製作成PPT。收到命令後,Agent 成功呼叫Google Drive 連接器讀取資料文件,用終端機編寫程式碼繪製圖表,並完成任務。

這類自動化能力,都是Agent 深度嵌入工作流程的體現。

不過,可以看到,ChatGPT Agent 產生的PPT 在設計美學方面表現比較一般,並且,雖然可以上傳電子表格供ChatGPT 編輯或作為模板使用,但產生的PPT 暫不支援二次修改。

需要說明的是,OpenAI 並不是讓Agent 像人一樣打開PPT或Excel 文件,透過點擊來插入文字方塊和公式,而是直接產生程式碼來建立文件。這種做法的好處是可以利用模型在程式碼編寫方面的天然優勢,避免因模擬點擊操作帶來的效率低或出錯,也降低了計算資源的消耗。

The Information 報告指出,如果ChatGPT 要直接編輯PPT 或Excel 文件,就需要啟動一台「虛擬機器」(即透過ChatGPT 運行的虛擬電腦環境),這會佔用更多運算資源。

而直接產生程式碼則是更輕、有效率。儘管潛力巨大,但就目前來看,這項功能短期內很難對微軟的Office 或Google Workspace 造成衝擊。

對於ChatGPT Agent 功能,Pro 用戶將在今天之內獲得存取權限;Plus 與Team 用戶將在接下來的幾天內陸續開放;企業版和教育版將在未來幾周內陸續上線。

Pro 用戶每月可使用400 次,主打一個量大管飽,而其他付費用戶每月可使用40 次,並可透過彈性積分方案購買更多額度。

全線刷新「跑分」紀錄,Agent 戰場迎來最強對手

ChatGPT Agent 能力的提升,也反映在「跑分」環節。

在評估AI 解決跨學科專家級問題的基準測試Humanity's Last Exam(HLE)中,ChatGPT Agent 以41.6 的pass@1 得分刷新紀錄。在啟用並行執行策略後,該得分進一步提升至44.4。

在目前被認為最具挑戰性的數學基準FrontierMath 中,面對難度極高、從未公開的題目,ChatGPT Agent 在具備終端代碼執行能力的前提下,取得了27.4% 的準確率,遠高於此前模型。

在這複雜且高經濟價值的知識型工作任務的內部基準測試中,ChatGPT Agent 在約一半的任務中輸出品質已達到甚至超過人類水平,表現也顯著優於o3 和o4-mini 模型。

在一個內部的投行建模任務基準中,ChatGPT Agent 的表現也顯著優於Deep Research 和o3 模型。每個任務都基於數百項關於公式正確性、格式規格等評分標準進行評估。

此外,在公開評估模型資訊查找能力的BrowseComp 基準上,Agent 以68.9% 的準確率刷新記錄,較Deep Research 高出17.4 個百分點。在WebArena 評估中,其網頁任務執行能力也優於基於o3 的CUA 模型。

從平台視角看,Agent 能力的底層接口,正是瀏覽器。

在Perplexity AI CEO Aravind Srinivas 最近的訪談中,他表示瀏覽器將會是AI 的「殺手級應用程式」。在他看來,瀏覽器天然具備讓AI 真正「動起來」的全部條件。

有別於傳統聊天機器人,AI Agent 的理想形態不是停留在對話框中生成文本,而是具備實際行動力——從訪問網頁、提取資訊、填寫表單,到執行跨平台操作。而這一切,瀏覽器恰好具備所需的操作權限和上下文取得能力。

瀏覽器可以直接讀取頁面、模擬點擊、自動執行任務,幾乎無需額外授權。

在這個過程中,使用者與AI 共處於同一個互動空間:AI 可以自動執行任務,使用者也能隨時中斷或接管,避免黑盒操作帶來的不確定性。這種可控性與透明度,是目前許多情境協議仍難實現的能力。

如今,隨著ChatGPT Agent 能力正式上線,所有聲稱要做Agent 的廠商,恐怕都要重新審視自己的產品路徑。

當ChatGPT 從語言互動工具,轉向具備協作、調度與承接任務能力的執行系統,開始接入用戶的真實工作流程,Agent 的可用性門檻,也在此刻被實質地拉高。(APPSO)