AI Agent 不用再「裝人類」瀏覽網頁了。
Google 在 Chrome 146 中悄悄上線了 WebMCP 的早期預覽版,通過 flag 即可開啟。
而這個東西,可能會徹底改寫 AI Agent 與網頁互動的方式。
Chrome 146 包含了 WebMCP 的早期預覽,通過 flag 開啟,允許 AI Agent 直接查詢和執行服務,而無需像使用者一樣瀏覽網頁。服務可以通過命令式的 navigator.modelContext API 或聲明式的表單來聲明。
而這,用開發者 Alex Volkov 的話說,就像是 UI 裡的 API。
這真的很有意思。
WebMCP 是一個新標準,允許 Web 開發者為 AI Agent / 智能瀏覽器暴露一套直接的工具集,這樣它們就不用再點按鈕了,而是直接存取網站上的函數!
目前 AI Agent 操作網頁的方式,本質上就是在模擬一個人類使用者:螢幕擷圖、識別按鈕在那、點選、填表、等頁面載入……
這就好比你請了一個天才助手,結果讓他蒙著眼睛去操作電腦,只能靠不停螢幕擷圖來「看」螢幕上有什麼。
結果就是:又慢,又貴,又脆弱……
網站一改版,Agent 就懵了。
一個簡單的搜尋操作,可能要消耗上千個 token 來處理螢幕擷圖圖片和 DOM 解析。
而 WebMCP 的思路則完全不同:讓網站主動告訴 Agent「我能做什麼」。
WebMCP 給開發者提供了兩條路。
命令式 API
通過 JavaScript 的 navigator.modelContext.registerTool() 註冊工具函數。比如一個電商網站可以註冊一個 search_products 工具,AI Agent 發現後直接傳入關鍵詞呼叫,拿到結構化的商品資料——不需要螢幕擷圖,不需要解析 DOM,不需要模擬點選搜尋框。
聲明式表單
通過標註 HTML 表單元素,讓 Agent 自動理解頁面上的互動能力。這種方式更簡單,適合輕量級場景。
兩種方式可以混用。
老練的開發者用命令式做精細控制,簡單的網站用聲明式快速接入,靈活度拉滿。
據實測資料,WebMCP 的結構化工具呼叫相比螢幕擷圖式的 Agent 互動,token 消耗最多可節省 89%。
這意味著,原來要花 2000 個 token 處理一張截圖才能「看懂」頁面,現在一個 JSON 響應 20-100 個 token 就搞定了。
而且不需要驗證截圖,工具的返回值直接就是確認結果。
並且,WebMCP 並不只是 Google 一家在玩。
微軟的 Edge 團隊獨立提出了「WebModel Context」方案,Chrome 團隊也有一個類似的「Script Tools」提案。
結果,雙方一碰頭發現撞車了,於是決定在 W3C Web Machine Learning 社區組下合併為統一的 WebMCP 提案。
微軟 Edge 平台的產品經理 Kyle Pflug 稱:
WebMCP 讓網頁暴露 MCP 工具給 Agent,類似於傳統 MCP 伺服器暴露的工具,但不需要單獨的伺服器元件。這對「人在回路」的場景是天然適配的,因為它運行在瀏覽器的 browsing context 中,可以簡化狀態和認證——而這在傳統的瀏覽 Agent 方案中非常棘手。
簡單說就是:網頁本身變成了 MCP 伺服器,但不需要真的跑一個伺服器。
你可能想問:認證怎麼搞?會不會復用使用者已有的登錄會話?
答案是:對,就是這樣。
WebMCP 運行在瀏覽器的 browsing context 中,天然繼承使用者當前的認證會話和瀏覽器的同源安全模型。Agent 呼叫的工具和使用者手動操作在權限上完全一致,不需要額外的 OAuth 流程或 API Key。
這比傳統的伺服器端 MCP 方案簡單太多了。
Kyle Pflug 也確認,他們預計「一些網站會同時使用 WebMCP 和傳統 MCP 伺服器」,因為兩者服務的場景不同:WebMCP 適合有使用者在場的瀏覽器場景,傳統 MCP 適合無頭的伺服器端場景。
WebMCP 的設計哲學有一條很明確的紅線:Agent 是輔助,不是替代。
官方文件列了幾條原則:
所以 WebMCP 不支援無頭瀏覽、完全自主的 Agent、也不支援後端服務整合。它就是為「使用者坐在瀏覽器前,Agent 在旁邊幫忙」這個場景設計的。
當主流瀏覽器開始原生支援 AI Agent 與網頁的結構化互動,一個有趣的變化正在發生:網站可能要分出兩層。
面向人類的層:視覺化、品牌化、敘事驅動。
面向 Agent 的層:結構化、Schema 驅動、快速響應。
或許,是時候討論「Agent SEO」了:
你的網站對 AI Agent 友不友好,可能成為新的競爭維度;那些不暴露 WebMCP 工具的網站,可能會逐漸變得對 Agent「不可見」。
雖然目前的 WebMCP 還處於非常早期的階段,API 設計仍在迭代,Chrome 146 中的實現需要手動開啟 flag,但方向或許已經不言而喻:
瀏覽器不再只是人類的工具,它正在同時成為 AI Agent 的作業系統。 (AGI Hunt)