Agent是今年AI圈最大的共識,OpenAI自然也無法落後。
台北時間2025年7月18日凌晨1點,Sam Altman和四位OpenAI 的研究員在直播中正式發布了ChatGPT Agent——一款通用型AIAgent。
前有Manus、Lovart和Flowith,ChatGPT Agent所呈現的功能場景並不算特別驚艷,但它發布的意義,要超越其功能本身。
ChatGPT Agent的革命性在於其獨特的技術路徑:它可以主動從工具箱中選擇代理技能,使用自己的電腦完成任務,使用者可以即時觀察AI在虛擬環境中的工作過程。
這種交互界面雖與Manus等產品相似,但底層原理卻有著本質差異。Manus調用多個底層模型,類似於“外部縫合”,而ChatGPT Agent,是將Agent能力內化於模型,我們已經看到了端對端通用Agent的雛形。
Manus的設計實質上是透過調用多個底層模型來實現"外部縫合"。相較之下,ChatGPT Agent是將Agent能力內化於模型本身。
根據OpenAI介紹,為了開發ChatGPT Agent,他們將Operator和Deep Research團隊合併為一個統一的團隊,這個新團隊由20至35人組成。
根據ChatGPT Agent的系統卡顯示,它是一個新的代理模型,與OpenAI o3同屬一個系列,採用了端到端的訓練方法。它是為代理任務開發的統一模型,而不是多個模型的工程化組合。根據OpenAI放出的對比PPT,我們可以看到,這項訓練基本上是透過強化學習過程完成的。和Grok
4withtool的路徑應該差不多。
在執行完複雜任務之後,也可以交付給使用者一個可下載的一個PPT或一份文件。
對Manus而言,OpenAI的這項新舉措無疑是巨大的打擊,甚至從定價上,兩者也差距不大:GPT的Plus套餐每月20美金即可使用ChatGPT Agent,而Manus的基礎計劃是每月19美金。
ChatGPT Agent:是能夠執行複雜、多工具任務的統一AI Agent。
它在多個現實世界和基準任務中取得了最先進的結果。
ChatGPT Agent的核心是一個統一的代理系統(unified agentic system),整合並擴展了OpenAI 早期研究專案"Operator"(專注於網站互動)和"Deep Research"(專注於資訊綜合)的能力。
這使得ChatGPT Agent 能夠在單一的對話流中,無縫地從推理思考切換到執行具體動作。
虛擬電腦環境:ChatGPT Agent在一個為其特設的虛擬電腦上執行所有任務。這個環境是沙盒化的,確保了操作的安全性。它能夠在該環境中保存任務的上下文,即使用戶中途打斷或改變指令,也能從斷點繼續,而不會丟失進度。
智慧工具箱:為了完成複雜工作流程,Agent 配備了四種工具,並能根據任務需求自動選擇最適合的工具:
視覺化瀏覽器(Visual Browser): 用於與圖形使用者介面進行交互,例如點擊按鈕、填寫表單和瀏覽為人類設計的網站。
新模型驅動:ChatGPTAgent由一個專門為其開發的新模型驅動。這個模型透過強化學習(reinforcement learning) 的方法,在需要使用多種工具的複雜任務上進行了專門訓練,從而學會瞭如何在不同工具之間流暢切換並協同工作。
它有以下特性:
自主任務執行: 使用者可以用自然語言下達指令,例如“分析我的日曆,並根據最近的新聞為我簡報即將到來的客戶會議”,Agent 能夠自主規劃並執行系列操作,如瀏覽網站、篩選資訊、運行程式碼分析,並最終產生可編輯的幻燈片或電子表格等成果。
協作與互動性:它會在需要時主動詢問更多細節以完成目標。使用者可以隨時中斷、重定向任務或完全接管瀏覽器的控制權。
安全性與權限控制: 安全性是其設計的核心部分。在執行購買、提交表單、發送郵件或處理個人資訊等具有實際影響的關鍵操作之前,Agent 會明確請求使用者許可。同時,它被禁止執行如金融轉帳或提供法律建議等高風險任務。 OpenAI 也內建了針對「提示注入」等惡意攻擊的防護措施。
多項基準測試跑分“破紀錄”
最難的HLE 達到41.6%(with tool), 高於剛發表的Grok4(with tool)41.0%。
在測量廣域知識與專家級提問的Humanity's Last Exam 上,單次作答準確率達41.6%;採用並行八路推理並選取置信度最高答案後可提升到44.4%。
在極難的FrontierMath 數學基準上,借助終端運行程式碼後準確率提升至27.4%。
在針對真實知識工作任務的內部評測中,ChatGPT 代理人在約半數案例裡已與人類持平或更佳;
在現實資料科學任務DSBench 上,其分析與建模準確率分別達到89.9% 與85.5%,遠超過人類平均值。它對電子表格的直接編輯能力也領先:在SpreadsheetBench 中拿到45.5%,超過 Copilot in Excel 的20%。此外,它在BrowseComp、WebArena 等瀏覽評測裡均刷新了SOTA。(圖:評測方法:SpreadsheetBench的作者在Windows 環境下使用Microsoft Excel 對電子表格進行評估。我們則在OSX 環境中使用LibreOffice,這可能導致評分出現輕微差異。例如,作者報告GPT‑4o 在整體Hard 限制上的結果為15.02%,而我們得到13.38% 在整體Hard 限制上的結果為15.02%,而我們得到了13.912題目
根據ChatGPT Agent自己做的PPT,在做PPT的能力上和上網衝浪能力上,Agent的能力都相比純粹的基礎模型有較明顯的提升。但離人類還頗有距離。
不是期貨,今日可用
自今日起,Pro 用戶可以馬上使用,Plus 與Team 用戶將在數日內陸續開通;Enterprise 與Education 版本將於數周後接入。
Pro 每月可用400 則訊息,其他付費用戶每月額度為40 條,可透過彈性的按量計費追加。
實際使用非常簡單:在任何對話中切到「代理模式”,描述目標,例如深入研究、製作演示或報銷。螢幕左側即時顯示它的操作流程;若需要登錄,系統會切換到「接管模式」安全輸入憑證。
使用者也可以把完成的任務設為周期性執行,例如每周一自動產生指標報告。
奧特曼親自提示風險:
Agent很強大,也很危險
值得注意的是,奧特曼在發布會之後,立刻發了一條長貼,提示使用ChatGPT Agent的風險。
在「強調」過ChatGPT Agent處理複雜任務的強大能力後,特別鄭重地提示了產品的風險,並強調:我們尚不清楚具體會造成什麼影響,但不法分子可能會試圖「誘騙」用戶的AI 代理提供不該提供的私人資訊並採取不該採取的行動,而這其中的方式我們無法預測。
模型可能會接觸使用者的敏感數據,或遭遇網頁中的惡意「提示注入」攻擊。為此,他們沿用Operator 期間的嚴格控制,並新增多項防護:
關鍵動作前必須先得到使用者明確授權;
在生物與化學安全方面,OpenAI根據Preparedness Framework 將該模型按高風險級別處理,上線了最全面的安全措施,並與政府、學界及安全機構合作開展紅隊測試與威脅建模,同時啟動漏洞賞金計劃,以便儘早發現並修補潛在問題。
ChatGPT Agent
夠遙遙領先嗎?
ChatGPT Agent最大的創新在於首次在模型中直接整合了完整的虛擬機器環境,使用者可以即時觀察AI的操作過程,這是其它模型產品不具備的。
但是,各主流模型公司都在「Agent即模型,模型即Agent」的路上越走越遠。例如,在coding agent能力上幾乎封神的Claude。
眾多需要藉用底層模型搭建的Agent產品,甚至離開了Claude,就什麼也不是。
剛上線的Kimi K2採用開源的混合專家模型架構,定位就為Agentic Intelligence,且價格僅有Claude 4的1/6左右。上線之後,token的採用量排名持續飆升。
但從「模型即Agent」這條路來說,OpenAI並不能算是遙遙領先,僅僅能說邁出了一小步。
OpenAI在官方文件中也特別謙虛地表示:
需要注意的是,功能仍處早期:例如投影片產生功能現為beta,格式與美觀度仍待提升,現階段主要優化資訊結構與元素可編輯性;未來我們將繼續訓練新版本,以產生更精緻的文件。總的來說,隨著持續迭代,ChatGPT 代理的效率、深度和多樣性都會不斷提升,我們也會逐步調優用戶監督的力度,在易用與安全之間取得更好平衡。
看著自家產品的展示,Sam Altman不禁又開始感嘆,「我感受到了AGI」。
然而,在貼文後面還是有用戶留言問,說好的GPT-5呢?(騰訊科技)