突發!OpenAI 剛剛發佈代理Operator:AI進入Level 3,但只有美國Pro使用者可以試用


OpenAI 剛剛發佈了名為 Operator 的研究預覽版代理,它能夠像人類一樣瀏覽網頁,執行各種線上任務。這款工具標誌著AI 從被動工具向主動參與者的轉變,預示著更智能、更便捷的數字生活方式的到來。目前,Operator 尚處於研究預覽階段,僅向美國地區的 Pro 使用者開放



Operator 的工作原理

Operator 的核心驅動力是一個名為 電腦使用代理 (Computer-Using Agent, CUA) 的新型模型。CUA 結合了 GPT-4o 的視覺能力和通過強化學習獲得的先進推理能力,使其能夠與圖形使用者介面 (GUI) 進行互動。這意味著 Operator 可以像人類一樣“看到”(通過螢幕截圖)和“互動”(使用滑鼠和鍵盤的所有操作)瀏覽器介面上的按鈕、菜單和文字框(這個原理基本上和字節聯合清華推出代理差不多,感興趣的可以看我昨天寫的這篇文章字節清華開源力作!UI-TARS原生AI智能體,人人都能擁有“智能助手”

與以往需要定製 API 整合的 AI 工具不同,Operator 直接利用使用者每天使用的網頁介面,無需複雜的後台對接,極大地擴展了 AI 的應用場景。它能夠處理各種重複性的瀏覽器任務,例如填寫表格、訂購食品雜貨,甚至製作表情包

更令人印象深刻的是,Operator 具備一定的 自我糾錯能力。當遇到挑戰或犯錯時,它可以利用推理能力進行自我調整。如果遇到無法解決的問題,Operator 會將控制權交還給使用者,實現人機協作的流暢體驗

雖然 CUA 模型仍處於早期階段,存在一些侷限性,但在 WebArena 和 WebVoyager 這兩個關鍵的瀏覽器使用基準測試中,它已經取得了最新的領先水平

如何使用 Operator

使用者只需簡單描述想要完成的任務,Operator 即可自動處理後續步驟。使用者可以隨時接管遠端瀏覽器的控制權。考慮到安全性和隱私性,Operator 被訓練為在需要登錄、輸入支付資訊或解決 CAPTCHA 驗證碼等任務時,主動請求使用者接管


Operator 還支援使用者個性化工作流程。使用者可以加入自訂指令,針對所有網站或特定網站設定偏好,例如在 Booking.com 上設定航空公司偏好。使用者可以將常用提示保存到首頁,以便快速訪問,例如在 Instacart 上重複訂購食品雜貨

與瀏覽器多標籤頁功能類似,使用者可以通過建立新的對話,讓 Operator 同時運行多個任務,例如在 Etsy 上訂購個性化琺瑯杯,同時在 Hipcamp 上預訂露營地


生態系統與使用者

Operator 的發佈標誌著 AI 從被動工具轉變為數字生態系統中的積極參與者。它不僅可以簡化使用者任務,還將為希望提供創新客戶體驗和提高轉化率的企業帶來代理的優勢

OpenAI 正在與 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作,確保 Operator 能夠滿足真實世界的需求,並尊重既有規範。除了商業合作,OpenAI 還看到了在公共部門應用中提高效率和可訪問性的巨大潛力。他們正與斯托克頓市等組織合作,簡化市民註冊城市服務和計畫的流程。

OpenAI 通過初期有限地向部分使用者發佈 Operator,旨在快速學習並根據真實世界的反饋改進其功能,在創新與信任和安全之間取得平衡。這種協作方式有助於確保 Operator 為使用者、創作者、企業和公共部門組織帶來有意義的價值

安全與隱私

確保 Operator 的安全使用是 OpenAI 的首要任務。他們為此設計了三層安全保障措施,以防止濫用並確保使用者始終處於控制之中:

使用者控制優先: Operator 被訓練為確保使用者始終處於控制之中,並在關鍵時刻請求使用者輸入。
接管模式: Operator 在使用者需要在瀏覽器中輸入敏感資訊(如登錄憑據或支付資訊)時,會請求使用者接管。在接管模式下,Operator 不會收集或螢幕擷圖使用者輸入的資訊。
使用者確認: 在完成任何重要操作(例如提交訂單或傳送電子郵件)之前,Operator 應請求使用者批准。
任務限制: Operator 被訓練為拒絕某些敏感任務,例如銀行交易或需要高風險決策的任務(例如決定職位申請)。
監視模式: 在特別敏感的網站(例如電子郵件或金融服務網站)上,Operator 需要使用者密切監督其操作,以便使用者直接發現任何潛在錯誤。

資料隱私管理: OpenAI 簡化了 Operator 的資料隱私管理
訓練退出: 在 ChatGPT 設定中關閉“改進所有人的模型”意味著 Operator 中的資料也不會用於訓練 OpenAI 的模型。
透明的資料管理: 使用者可以在 Operator 設定的“隱私”部分,一鍵刪除所有瀏覽資料並退出所有網站。過去的 Operator 對話也可以一鍵刪除。

抵禦惡意網站: OpenAI 建構了防禦機制,以防止惡意網站通過隱藏提示、惡意程式碼或網路釣魚企圖誤導 Operator:
謹慎導航: Operator 被設計為檢測和忽略提示注入。
監控: 專門的“監控模型”會監視可疑行為,並在出現異常情況時暫停任務。
檢測管道: 自動化和人工稽核流程不斷識別新的威脅並快速更新安全措施。

OpenAI 意識到不良行為者可能會試圖濫用這項技術。因此,Operator 被設計為拒絕有害請求並阻止不允許的內容。他們的稽核系統可以發出警告,甚至對重複違規行為撤銷存取權,並且他們整合了額外的稽核流程來檢測和處理濫用行為。OpenAI 還提供了關於如何與 Operator 互動以遵守其使用政策的指南。

儘管 Operator 在設計時考慮了這些安全措施,但沒有系統是完美無缺的,這仍然是一個研究預覽版。OpenAI 致力於通過真實世界的反饋和嚴格的測試不斷改進。

侷限性

Operator 目前仍處於早期研究預覽階段。雖然它已經能夠處理各種任務,但仍在學習和進化,並且可能會犯錯。例如,它目前在處理複雜介面(如建立幻燈片或管理日曆)時遇到挑戰。早期的使用者反饋將在提高其精準性、可靠性和安全性方面發揮至關重要的作用,幫助 OpenAI 為所有人改進 Operator


未來展望

• API 中的 CUA: OpenAI 計畫很快在 API 中公開 Operator 的驅動模型 CUA,以便開發人員可以使用它建構自己的電腦使用代理。

• 增強功能: OpenAI 將繼續提高 Operator 處理更長、更複雜工作流程的能力。

• 更廣泛的訪問: 一旦 OpenAI 對 Operator 在大規模應用中的安全性和可用性充滿信心,他們計畫將其擴展到 Plus、Team 和 Enterprise 使用者,並在未來將其功能直接整合到 ChatGPT 中,從而解鎖無縫的即時和非同步任務執行 (AI寒武紀)