#電腦操作模型
Gemini 2.5 Pro能力再進化:Google推出專用電腦操作模型,讓AI智能體絲滑接管UI互動
Google剛剛發佈了一項更新:正式推出Gemini 2.5電腦使用模型(Computer Use model)這是一款基於Gemini 2.5 Pro視覺理解與推理能力建構的專用模型,旨在賦予AI智能體(agent)與圖形使用者介面(GUI)直接互動的能力——就像人類一樣進行點選、打字和滾動操作從今天起,Gemini 2.5電腦使用模型已開放公開預覽。開發者可以通過Google AI Studio和Vertex AI中的Gemini API進行訪問和建構Google表示,雖然AI模型可以通過結構化的API與軟體互動,但許多數字任務仍需要直接操作圖形介面,例如填寫並提交表單。為了完成這些任務,AI智能體必須能像人一樣瀏覽網頁和應用程式這種原生填充表單、操作下拉菜單和篩選器等互動元素,以及在登錄後進行操作的能力,是建構強大通用智能體的關鍵下一步如何工作?該模型的核心能力通過Gemini API中新增的computer_use工具對外開放,並應在循環(loop)中運行其工作流程如下:1.輸入:工具的輸入包括使用者請求、當前環境的螢幕截圖以及最近的操作歷史。輸入時還可以指定排除某些UI操作或加入額外的自訂函數2.分析與響應:模型分析這些輸入並生成響應,通常是一個代表UI操作(如點選或輸入)的函數呼叫。對於購買等特定操作,響應中可能還包含一個請求終端使用者確認的步驟3.執行:客戶端程式碼執行接收到的操作指令4.反饋與循環:操作執行後,新的GUI螢幕截圖和當前URL將作為函數響應傳送回模型,重新啟動循環這個迭代過程會持續進行,直到任務完成、發生錯誤,或因安全響應、使用者決策而終止互動Google指出,Gemini 2.5電腦使用模型主要針對Web瀏覽器進行了最佳化,同時在移動UI控制任務上也顯示出巨大潛力,但尚未針對桌面作業系統等級的控制進行最佳化性能根據Google公佈的資訊,Gemini 2.5電腦使用模型在多個Web和移動控制基準測試中表現出色其性能優於目前市場上的主流替代方案,並在多個基準測試中實現了領先。在針對Online-Mind2Web的Browserbase測試平台上,該模型在瀏覽器控制方面實現了領先的質量和最低的延遲安全Google稱,在建構之初就將負責任作為首要原則。能夠控制電腦的AI智能體帶來了獨特的風險,包括使用者的有意濫用、意外的模型行為以及Web環境中的提示注入和詐騙。為此,Google採取了多項安全措施:模型內建安全特性:直接在模型訓練中加入了安全功能,以應對三大核心風險。開發者安全控制:*   逐步安全服務(Per-step safety service):一個模型外的、在推理時運行的安全服務,用於在模型提議的每個動作執行前進行評估。*   系統指令(System instructions):開發者可以進一步指定,在執行特定類型的高風險操作前,智能體必須拒絕或請求使用者確認。這些控制措施旨在賦能開發者,防止模型自動完成可能損害系統完整性、危及安全、繞過驗證碼(CAPTCHA)或控制醫療裝置等高風險或有害行為 (AI寒武紀)