剛剛，OpenAI 發布ChatGPT 版Manus！奧特曼：感受AGI 時刻

2025/07/18

•

過去大半年，Agent（智能體）是AI 產業最常被提及的概念之一。

幾乎所有廠商都在講Agent，概念不缺，demo 也不少，但真正做到產品級落地，始終缺一套完整的執行系統——既能理解複雜目標，又能調用多種工具串聯任務流程，還要隨時支援任務中斷、修改與恢復，真正貼合任務流。

就在剛剛，OpenAI 正式發布ChatGPT Agent 功能。

透過整合Operator + Deep Research + ChatGPT 本體，使用者只需描述任務，ChatGPT Agent 就能自主判斷所需工具，自動存取網頁、擷取資訊、執行程式碼、產生PPT 或表格等，並可在執行過程中即時展示對應步驟、接受暫時中斷和修改指令。

看到這，你或許有種似曾相識的感覺。 ChatGPT 這個新功能其實與3 月份大火的Manus 在體驗層面相當相似，而Manus 也正面回應了OpenAI 這位競爭對手的入場。

凌晨發表會結束後，OpenAI CEO Sam Altman 在社群媒體上寫道：

觀看ChatGPT Agent 使用電腦完成複雜任務，對我來說是一個真正的「感受AGI」時刻；看到電腦思考、計劃和執行，有種與眾不同的感覺。

亮點如下：

ChatGPT Agent 將Operator、Deep Research 與ChatGPT 本體三合一，建構了一個統一智能體系統；

內建圖形/文字瀏覽器、終端機和API 呼叫器等工具，支援手機端使用，任務完成後可自動推送結果；

可連接Gmail、GitHub 等第三方應用，深度嵌入使用者真實工作流程；

在多項基準測試中表現領先，綜合性能位居行業前列；

Pro 用戶每月享有400 條呼叫額度，其他付費用戶為40 條，並支援按需擴充配額；

ChatGPT Agent 正式上線，可以購物，能寫PPT，你的瀏覽器要被AI 接管了

今天開始，你可以在任何對話中，透過聊天介面左下角的「工具」下拉式選單，選擇「Agent 模式」來啟用這項功能。

輸入你想完成的任務，ChatGPT Agent 就能瀏覽網站、篩選結果、在需要時安全提示你登入、執行程式碼、執行分析，PPT、電子表格等任務也都能信手拈來。

整個執行過程是可視的——操作步驟會即時顯示在螢幕上，使用者可以隨時中斷、修改指令，甚至手動接管瀏覽器繼續操作，確保任務始終符合你的目標和需求。

在今天凌晨的示範中，OpenAI 展示了ChatGPT Agent 在真實場景中的應用能力。

例如，為即將出席的婚禮做準備，一直是個難題。現在只需發出請求，ChatGPT Agent 迅速搭建虛擬環境，自主判斷應調用瀏覽器、文本解析器還是終端，並開始依次調取婚禮日期、查詢場地天氣、推薦西裝搭配、篩選酒店。

在這個過程中，模型可以與OpenAI 研究員進行互動，並在適當節點請求確認需求，而執行這樣一個任務只需十分鐘左右。

更重要的是，用戶還可以隨時中斷任務。

例如當Agent 在推薦西裝過程中，OpenAI 研究員臨時插入了「幫我找一雙9.5 號黑色正裝鞋」的請求，模型立刻暫停當前任務，轉而處理新需求。

同樣地，當Agent 認為有必要時，也會主動向你請求更多信息，確保任務始終與你的目標保持一致。如果任務超出預期時間或出現卡頓，你可以選擇暫停任務、請求進度摘要，或直接終止任務並取得現有的部分結果。

「這種可打斷、可多輪對話的機制，是我們這次訓練模型的重點之一，」OpenAI 研究員解釋道。

這項能力背後，是ChatGPT Agent 對三大系統的統一整合：Operator 提供網頁互動能力，支援自動滾動、點擊、填表；Deep Research 擅長資訊整合與分析；ChatGPT 本體則負責自然語言理解與智慧推理。

ChatGPT Agent 是透過強化學習在複雜的任務中訓練出來的，過去三者各有短板——前者難以深入分析，後者無法操作網頁，而Agent 將三者優勢整合為一體，並輔以瀏覽器、終端、API 呼叫器等工具，形成一個完整的執行系統。

使用者不僅可以在桌面端啟動Agent 模式，在手機端也同樣適用。

任務完成後也會自動推播結果通知。在第二個演示任務中，OpenAI 研究員在ChatGPT App 上傳了團隊吉祥物Bernie Doodle 的貼紙圖案，Agent 自動調用圖像生成API 設計貼紙樣式，透過瀏覽器訪問電商平台完成比價、樣式選擇、購物車添加，最終整理出定制500 份貼紙的下單明細。

當然，為確保流程安全、靈活且清晰可控，面對涉及金額的支付環節，則只會由使用者手動接管瀏覽器完成。

透過連接器，使用者還可將Gmail、GitHub 等日常應用程式接入ChatGPT，讓模型讀取郵件、日曆或程式碼庫等上下文內容，並執行諸如總結今天的郵箱內容或查找下周空閒會議時間等任務。

一個更典型的應用情境是，OpenAI 研究員能夠讓ChatGPT Agent 總結自己在多個基準測試中的表現，並製作成PPT。收到命令後，Agent 成功呼叫Google Drive 連接器讀取資料文件，用終端機編寫程式碼繪製圖表，並完成任務。

這類自動化能力，都是Agent 深度嵌入工作流程的體現。

不過，可以看到，ChatGPT Agent 產生的PPT 在設計美學方面表現比較一般，並且，雖然可以上傳電子表格供ChatGPT 編輯或作為模板使用，但產生的PPT 暫不支援二次修改。

需要說明的是，OpenAI 並不是讓Agent 像人一樣打開PPT或Excel 文件，透過點擊來插入文字方塊和公式，而是直接產生程式碼來建立文件。這種做法的好處是可以利用模型在程式碼編寫方面的天然優勢，避免因模擬點擊操作帶來的效率低或出錯，也降低了計算資源的消耗。

The Information 報告指出，如果ChatGPT 要直接編輯PPT 或Excel 文件，就需要啟動一台「虛擬機器」（即透過ChatGPT 運行的虛擬電腦環境），這會佔用更多運算資源。

而直接產生程式碼則是更輕、有效率。儘管潛力巨大，但就目前來看，這項功能短期內很難對微軟的Office 或Google Workspace 造成衝擊。

對於ChatGPT Agent 功能，Pro 用戶將在今天之內獲得存取權限；Plus 與Team 用戶將在接下來的幾天內陸續開放；企業版和教育版將在未來幾周內陸續上線。

Pro 用戶每月可使用400 次，主打一個量大管飽，而其他付費用戶每月可使用40 次，並可透過彈性積分方案購買更多額度。

全線刷新「跑分」紀錄，Agent 戰場迎來最強對手

ChatGPT Agent 能力的提升，也反映在「跑分」環節。

在評估AI 解決跨學科專家級問題的基準測試Humanity's Last Exam（HLE）中，ChatGPT Agent 以41.6 的pass@1 得分刷新紀錄。在啟用並行執行策略後，該得分進一步提升至44.4。

在目前被認為最具挑戰性的數學基準FrontierMath 中，面對難度極高、從未公開的題目，ChatGPT Agent 在具備終端代碼執行能力的前提下，取得了27.4% 的準確率，遠高於此前模型。

在這複雜且高經濟價值的知識型工作任務的內部基準測試中，ChatGPT Agent 在約一半的任務中輸出品質已達到甚至超過人類水平，表現也顯著優於o3 和o4-mini 模型。

在一個內部的投行建模任務基準中，ChatGPT Agent 的表現也顯著優於Deep Research 和o3 模型。每個任務都基於數百項關於公式正確性、格式規格等評分標準進行評估。

此外，在公開評估模型資訊查找能力的BrowseComp 基準上，Agent 以68.9% 的準確率刷新記錄，較Deep Research 高出17.4 個百分點。在WebArena 評估中，其網頁任務執行能力也優於基於o3 的CUA 模型。

從平台視角看，Agent 能力的底層接口，正是瀏覽器。

在Perplexity AI CEO Aravind Srinivas 最近的訪談中，他表示瀏覽器將會是AI 的「殺手級應用程式」。在他看來，瀏覽器天然具備讓AI 真正「動起來」的全部條件。

有別於傳統聊天機器人，AI Agent 的理想形態不是停留在對話框中生成文本，而是具備實際行動力——從訪問網頁、提取資訊、填寫表單，到執行跨平台操作。而這一切，瀏覽器恰好具備所需的操作權限和上下文取得能力。

瀏覽器可以直接讀取頁面、模擬點擊、自動執行任務，幾乎無需額外授權。

在這個過程中，使用者與AI 共處於同一個互動空間：AI 可以自動執行任務，使用者也能隨時中斷或接管，避免黑盒操作帶來的不確定性。這種可控性與透明度，是目前許多情境協議仍難實現的能力。

如今，隨著ChatGPT Agent 能力正式上線，所有聲稱要做Agent 的廠商，恐怕都要重新審視自己的產品路徑。

當ChatGPT 從語言互動工具，轉向具備協作、調度與承接任務能力的執行系統，開始接入用戶的真實工作流程，Agent 的可用性門檻，也在此刻被實質地拉高。(APPSO)

科技