OpenAI發佈首款AI智能體Operator,能像人類一樣自主操控瀏覽器


劃重點

  • OpenAI凌晨舉行直播活動,發佈AI智能體Operator。Operator目前以“研究預覽”形式向美國的ChatGPT Pro使用者開放。
  • Operator將逐步推廣到ChatGPT的Plus、Team和Enterprise使用者,並逐步向其他國家使用者開放。
  • Operator的背後的驅動力是新模型CUA,它融合了GPT-4o的視覺能力與通過強化學習實現的高級推理能力。
  • Operator可能存有風險或濫用情況,OpenAI為此還推出了“接管模式”,要求使用者手動輸入支付詳情或登錄資訊。

1月24日消息,OpenAI在台北時間凌晨舉行直播活動,發佈了市場期待已久的AI智能體Operator(意為操作員),它能夠代理使用者執行基於網頁的操作,像人類一樣點選、滾動和輸入文字,完成諸如購買雜貨、預訂餐廳以及提交費用報告等任務。

在此之前,包括微軟、Salesforce和Workday等商業軟體公司紛紛推出了各自的智能體。

Google和人工智慧初創公司Anthropic近期也推出了類似的智能體工具,它們與OpenAI的Operator相似,能夠瀏覽網頁並與菜單和按鈕進行互動。

但Operator的特點是,與其他各家Agent相比,它會通過CUA的系統進行複雜的思維鏈反思和步驟規劃。這可以大大提高其完成任務的精度和複雜性。在不依靠對具體任務進行精調的情況下,Operator就能泛化的完成多種複雜任務。

雖然在直播的實機演示中,OpenAI僅僅展示了網購、訂餐等基礎操作。但在後續的部分使用者測試中,它甚至可以完成在Arxiv上進行論文分類搜尋,閱讀多篇論文並完成綜述整理的複雜工作。

而且這個工作肯定是不太可能被納入傳統精調過的“意圖理解”框架內的。

另外,CUA本身在網頁控制和系統控制方面也達到了SOTA。雖然仍和人類有相當差距,但在演示中整體行動相當流暢。

目前,OpenAI的“Operator”智能體以“研究預覽”(research preview)的形式向美國的ChatGPT Pro使用者開放。這一階段表明該產品仍處於發展初期,可能存在侷限性,在演進過程中可能會出現錯誤。ChatGPT Pro的訂閱費用為每月200美元,該服務專為需要高級AI功能的專業使用者設計,提供無限制訪問包括GPT-4o和o1在內的高級模型。

OpenAI表示,計畫將Operator功能逐步推廣到ChatGPT的Plus、Team和Enterprise使用者。在直播活動中,OpenAI首席執行官山姆·奧特曼(Sam Altman)提到,Operator功能將很快在其他國家推出,但歐洲地區可能需要更長時間。

OpenAI首席營運官布萊德·萊特卡普(Brad Lightcap)表示,Operator能夠在家庭和工作中節省時間,尤其是在自動化常見任務方面存在“巨大潛力”。”他指出:“Operator從根本上改變了人們與電腦的互動方式。這是一個艱巨的技術挑戰,其價值取決於它的實用性。”

此外,OpenAI正在與包括Instacart、Uber、eBay、Priceline、OpenTable和Etsy在內的科技公司合作,以便讓使用者在Operator首頁上更便捷地訪問這些公司的網頁。


使用新模型CUA

Operator背後的驅動力是OpenAI的新模型“電腦使用智能體”(Computer-Using Agent,簡稱CUA)。

該模型融合了GPT-4o的視覺能力與通過強化學習實現的高級推理能力。CUA經過訓練,能夠像人類一樣與圖形使用者介面(GUI)互動,包括螢幕上的按鈕、菜單和文字框。這種能力使其能夠靈活地執行數字任務,無需依賴特定作業系統或網頁的API。

CUA的開發基於多年在多模態理解和推理領域的基礎研究。它結合了高級的圖形使用者介面感知能力與結構化的問題解決能力,能夠將任務分解為多步驟計畫,並在遇到挑戰時自我調整和糾正。

這一能力標誌著人工智慧發展的新階段,使模型能夠使用人類日常依賴的工具,並為一系列新應用打開了大門。

儘管CUA仍處於早期階段且存在侷限性,但它已經在多個基準測試中取得了新的最高水平:在OSWorld的完整電腦使用任務中成功率為38.1%,在WebArena中為58.1%,在WebVoyager的網頁任務中為87%。

這些結果表明,CUA能夠在多樣化的環境中使用單一通用動作空間(a single general action space)進行操作。


CUA的工作原理

CUA通過處理原始像素資料來理解螢幕上的動態,並借助虛擬滑鼠和鍵盤完成操作。它能夠導航多步驟任務、處理錯誤並適應意外變化,從而在各種數字環境中執行任務,例如填寫表單和瀏覽網站,無需依賴特定的API。

在使用者指令的引導下,CUA通過一個迭代循環來整合感知、推理和行動:

感知:電腦的螢幕截圖被納入模型的上下文中,為模型提供電腦當前狀態的視覺快照。

推理:CUA通過思維鏈來推導下一步操作,綜合考慮當前和過去的螢幕截圖及已執行的動作。這種“內心獨白”(inner monologue)機制通過評估觀察結果、跟蹤中間步驟和動態調整,提升了任務執行的效率。

行動:CUA執行點選、滾動或輸入等操作,直至任務完成或需要使用者干預。儘管它能自動處理大多數步驟,但在涉及敏感操作(如輸入登錄資訊或響應驗證碼)時,會尋求使用者確認。


侷限性與風險

儘管AI智能體潛力巨大,但其易用性仍面臨挑戰。已發佈的各款智能體均承諾通過為使用者執行任務來節省時間和提高效率,但大多數人尚未在日常生活中廣泛使用此類工具。

例如,蘋果於去年秋季在其iPhone作業系統中推出了人工智慧助手Apple Intelligence,但目前該工具尚未廣泛應用於日常事務。即使是企業,大多數AI智能體也僅處於測試階段或以有限的方式使用,以避免暴露公司機密資料或引發網路安全風險。

萊特卡普表示,OpenAI可能會為企業客戶增加特定的控制措施或安全護欄,但目前公司仍專注於首批使用者。他指出,OpenAI已經開發了隱私、安全和控制功能,以確保智能體不會偏離其程式設計設定,最重要的是,保持使用者對人工智慧的控制權。

OpenAI指出,Operator可能面臨的風險或濫用情況包括:惡意網站試圖欺騙使用者、使用者試圖欺騙代理,以及“提示注入”(prompt injections)攻擊,後者可能導致使用者將敏感資訊或資金傳送到惡意網站。

為應對這些風險,Operator推出一項名為“接管模式”(takeover mode)的功能,要求使用者手動輸入支付詳情或登錄資訊。此外,Operator在執行高風險任務(如傳送郵件)之前會徵求使用者批准,並且不會處理涉及銀行交易或決定求職申請的任務。

同時,Operator不會使用使用者之前與ChatGPT共享的資料來執行操作。萊特卡普表示,儘管目前存在侷限性,但OpenAI在經過“充分準備和謹慎評估”後,認為Operator已具備有限發佈的條件。 (騰訊科技)