突發！OpenAI 剛剛發佈代理Operator：AI進入Level 3，但只有美國Pro使用者可以試用

2025/01/24

•

OpenAI 剛剛發佈了名為 Operator 的研究預覽版代理，它能夠像人類一樣瀏覽網頁，執行各種線上任務。這款工具標誌著AI 從被動工具向主動參與者的轉變，預示著更智能、更便捷的數字生活方式的到來。目前，Operator 尚處於研究預覽階段，僅向美國地區的 Pro 使用者開放

Operator 的工作原理

Operator 的核心驅動力是一個名為 電腦使用代理 (Computer-Using Agent, CUA) 的新型模型。CUA 結合了 GPT-4o 的視覺能力和通過強化學習獲得的先進推理能力，使其能夠與圖形使用者介面 (GUI) 進行互動。這意味著 Operator 可以像人類一樣“看到”（通過螢幕截圖）和“互動”（使用滑鼠和鍵盤的所有操作）瀏覽器介面上的按鈕、菜單和文字框（這個原理基本上和字節聯合清華推出代理差不多，感興趣的可以看我昨天寫的這篇文章字節清華開源力作！UI-TARS原生AI智能體，人人都能擁有“智能助手”）

與以往需要定製 API 整合的 AI 工具不同，Operator 直接利用使用者每天使用的網頁介面，無需複雜的後台對接，極大地擴展了 AI 的應用場景。它能夠處理各種重複性的瀏覽器任務，例如填寫表格、訂購食品雜貨，甚至製作表情包

更令人印象深刻的是，Operator 具備一定的 自我糾錯能力。當遇到挑戰或犯錯時，它可以利用推理能力進行自我調整。如果遇到無法解決的問題，Operator 會將控制權交還給使用者，實現人機協作的流暢體驗

雖然 CUA 模型仍處於早期階段，存在一些侷限性，但在 WebArena 和 WebVoyager 這兩個關鍵的瀏覽器使用基準測試中，它已經取得了最新的領先水平

如何使用 Operator

使用者只需簡單描述想要完成的任務，Operator 即可自動處理後續步驟。使用者可以隨時接管遠端瀏覽器的控制權。考慮到安全性和隱私性，Operator 被訓練為在需要登錄、輸入支付資訊或解決 CAPTCHA 驗證碼等任務時，主動請求使用者接管

Operator 還支援使用者個性化工作流程。使用者可以加入自訂指令，針對所有網站或特定網站設定偏好，例如在 Booking.com 上設定航空公司偏好。使用者可以將常用提示保存到首頁，以便快速訪問，例如在 Instacart 上重複訂購食品雜貨

與瀏覽器多標籤頁功能類似，使用者可以通過建立新的對話，讓 Operator 同時運行多個任務，例如在 Etsy 上訂購個性化琺瑯杯，同時在 Hipcamp 上預訂露營地

生態系統與使用者

Operator 的發佈標誌著 AI 從被動工具轉變為數字生態系統中的積極參與者。它不僅可以簡化使用者任務，還將為希望提供創新客戶體驗和提高轉化率的企業帶來代理的優勢

OpenAI 正在與 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作，確保 Operator 能夠滿足真實世界的需求，並尊重既有規範。除了商業合作，OpenAI 還看到了在公共部門應用中提高效率和可訪問性的巨大潛力。他們正與斯托克頓市等組織合作，簡化市民註冊城市服務和計畫的流程。

OpenAI 通過初期有限地向部分使用者發佈 Operator，旨在快速學習並根據真實世界的反饋改進其功能，在創新與信任和安全之間取得平衡。這種協作方式有助於確保 Operator 為使用者、創作者、企業和公共部門組織帶來有意義的價值

安全與隱私

確保 Operator 的安全使用是 OpenAI 的首要任務。他們為此設計了三層安全保障措施，以防止濫用並確保使用者始終處於控制之中：

使用者控制優先: Operator 被訓練為確保使用者始終處於控制之中，並在關鍵時刻請求使用者輸入。
* 接管模式: Operator 在使用者需要在瀏覽器中輸入敏感資訊（如登錄憑據或支付資訊）時，會請求使用者接管。在接管模式下，Operator 不會收集或螢幕擷圖使用者輸入的資訊。
* 使用者確認: 在完成任何重要操作（例如提交訂單或傳送電子郵件）之前，Operator 應請求使用者批准。
* 任務限制: Operator 被訓練為拒絕某些敏感任務，例如銀行交易或需要高風險決策的任務（例如決定職位申請）。
* 監視模式: 在特別敏感的網站（例如電子郵件或金融服務網站）上，Operator 需要使用者密切監督其操作，以便使用者直接發現任何潛在錯誤。

資料隱私管理: OpenAI 簡化了 Operator 的資料隱私管理
* 訓練退出: 在 ChatGPT 設定中關閉“改進所有人的模型”意味著 Operator 中的資料也不會用於訓練 OpenAI 的模型。
* 透明的資料管理: 使用者可以在 Operator 設定的“隱私”部分，一鍵刪除所有瀏覽資料並退出所有網站。過去的 Operator 對話也可以一鍵刪除。

抵禦惡意網站: OpenAI 建構了防禦機制，以防止惡意網站通過隱藏提示、惡意程式碼或網路釣魚企圖誤導 Operator：
* 謹慎導航: Operator 被設計為檢測和忽略提示注入。
* 監控: 專門的“監控模型”會監視可疑行為，並在出現異常情況時暫停任務。
* 檢測管道: 自動化和人工稽核流程不斷識別新的威脅並快速更新安全措施。

OpenAI 意識到不良行為者可能會試圖濫用這項技術。因此，Operator 被設計為拒絕有害請求並阻止不允許的內容。他們的稽核系統可以發出警告，甚至對重複違規行為撤銷存取權，並且他們整合了額外的稽核流程來檢測和處理濫用行為。OpenAI 還提供了關於如何與 Operator 互動以遵守其使用政策的指南。

儘管 Operator 在設計時考慮了這些安全措施，但沒有系統是完美無缺的，這仍然是一個研究預覽版。OpenAI 致力於通過真實世界的反饋和嚴格的測試不斷改進。

侷限性

Operator 目前仍處於早期研究預覽階段。雖然它已經能夠處理各種任務，但仍在學習和進化，並且可能會犯錯。例如，它目前在處理複雜介面（如建立幻燈片或管理日曆）時遇到挑戰。早期的使用者反饋將在提高其精準性、可靠性和安全性方面發揮至關重要的作用，幫助 OpenAI 為所有人改進 Operator

未來展望

• API 中的 CUA: OpenAI 計畫很快在 API 中公開 Operator 的驅動模型 CUA，以便開發人員可以使用它建構自己的電腦使用代理。

• 增強功能: OpenAI 將繼續提高 Operator 處理更長、更複雜工作流程的能力。

• 更廣泛的訪問: 一旦 OpenAI 對 Operator 在大規模應用中的安全性和可用性充滿信心，他們計畫將其擴展到 Plus、Team 和 Enterprise 使用者，並在未來將其功能直接整合到 ChatGPT 中，從而解鎖無縫的即時和非同步任務執行 (AI寒武紀)