#WebMCP
WebMCP:Google在 Chrome 146 中埋下的一顆炸彈
AI Agent 不用再「裝人類」瀏覽網頁了。Google 在 Chrome 146 中悄悄上線了 WebMCP 的早期預覽版,通過 flag 即可開啟。而這個東西,可能會徹底改寫 AI Agent 與網頁互動的方式。Chrome 146 包含了 WebMCP 的早期預覽,通過 flag 開啟,允許 AI Agent 直接查詢和執行服務,而無需像使用者一樣瀏覽網頁。服務可以通過命令式的 navigator.modelContext API 或聲明式的表單來聲明。而這,用開發者 Alex Volkov 的話說,就像是 UI 裡的 API。這真的很有意思。WebMCP 是一個新標準,允許 Web 開發者為 AI Agent / 智能瀏覽器暴露一套直接的工具集,這樣它們就不用再點按鈕了,而是直接存取網站上的函數!現在的 Agent目前 AI Agent 操作網頁的方式,本質上就是在模擬一個人類使用者:螢幕擷圖、識別按鈕在那、點選、填表、等頁面載入……這就好比你請了一個天才助手,結果讓他蒙著眼睛去操作電腦,只能靠不停螢幕擷圖來「看」螢幕上有什麼。結果就是:又慢,又貴,又脆弱……網站一改版,Agent 就懵了。一個簡單的搜尋操作,可能要消耗上千個 token 來處理螢幕擷圖圖片和 DOM 解析。而 WebMCP 的思路則完全不同:讓網站主動告訴 Agent「我能做什麼」。兩種暴露方式WebMCP 給開發者提供了兩條路。命令式 API通過 JavaScript 的 navigator.modelContext.registerTool() 註冊工具函數。比如一個電商網站可以註冊一個 search_products 工具,AI Agent 發現後直接傳入關鍵詞呼叫,拿到結構化的商品資料——不需要螢幕擷圖,不需要解析 DOM,不需要模擬點選搜尋框。聲明式表單通過標註 HTML 表單元素,讓 Agent 自動理解頁面上的互動能力。這種方式更簡單,適合輕量級場景。兩種方式可以混用。老練的開發者用命令式做精細控制,簡單的網站用聲明式快速接入,靈活度拉滿。極其節省 token據實測資料,WebMCP 的結構化工具呼叫相比螢幕擷圖式的 Agent 互動,token 消耗最多可節省 89%。這意味著,原來要花 2000 個 token 處理一張截圖才能「看懂」頁面,現在一個 JSON 響應 20-100 個 token 就搞定了。而且不需要驗證截圖,工具的返回值直接就是確認結果。微軟和 Google 聯手並且,WebMCP 並不只是 Google 一家在玩。微軟的 Edge 團隊獨立提出了「WebModel Context」方案,Chrome 團隊也有一個類似的「Script Tools」提案。結果,雙方一碰頭發現撞車了,於是決定在 W3C Web Machine Learning 社區組下合併為統一的 WebMCP 提案。微軟 Edge 平台的產品經理 Kyle Pflug 稱:WebMCP 讓網頁暴露 MCP 工具給 Agent,類似於傳統 MCP 伺服器暴露的工具,但不需要單獨的伺服器元件。這對「人在回路」的場景是天然適配的,因為它運行在瀏覽器的 browsing context 中,可以簡化狀態和認證——而這在傳統的瀏覽 Agent 方案中非常棘手。簡單說就是:網頁本身變成了 MCP 伺服器,但不需要真的跑一個伺服器。如何認證你可能想問:認證怎麼搞?會不會復用使用者已有的登錄會話?答案是:對,就是這樣。WebMCP 運行在瀏覽器的 browsing context 中,天然繼承使用者當前的認證會話和瀏覽器的同源安全模型。Agent 呼叫的工具和使用者手動操作在權限上完全一致,不需要額外的 OAuth 流程或 API Key。這比傳統的伺服器端 MCP 方案簡單太多了。Kyle Pflug 也確認,他們預計「一些網站會同時使用 WebMCP 和傳統 MCP 伺服器」,因為兩者服務的場景不同:WebMCP 適合有使用者在場的瀏覽器場景,傳統 MCP 適合無頭的伺服器端場景。人與 AIWebMCP 的設計哲學有一條很明確的紅線:Agent 是輔助,不是替代。官方文件列了幾條原則:網頁的人類介面仍然是主體,WebMCP 不會替代你的 UIAI Agent 是增強而不是取代人類互動使用者對 Agent 的所有操作保持可見和可控人和 AI 協作,而不是 AI 單干所以 WebMCP 不支援無頭瀏覽、完全自主的 Agent、也不支援後端服務整合。它就是為「使用者坐在瀏覽器前,Agent 在旁邊幫忙」這個場景設計的。兩層 Web 的未來當主流瀏覽器開始原生支援 AI Agent 與網頁的結構化互動,一個有趣的變化正在發生:網站可能要分出兩層。面向人類的層:視覺化、品牌化、敘事驅動。面向 Agent 的層:結構化、Schema 驅動、快速響應。或許,是時候討論「Agent SEO」了:你的網站對 AI Agent 友不友好,可能成為新的競爭維度;那些不暴露 WebMCP 工具的網站,可能會逐漸變得對 Agent「不可見」。雖然目前的 WebMCP 還處於非常早期的階段,API 設計仍在迭代,Chrome 146 中的實現需要手動開啟 flag,但方向或許已經不言而喻:瀏覽器不再只是人類的工具,它正在同時成為 AI Agent 的作業系統。 (AGI Hunt)
Google Chrome深夜爆更,Agent不用「裝」人了!前端最後防線崩了?
【新智元導讀】終於,AI不用裝得像個人了。GoogleChrome重磅上線WebMCP。從此,Agent不用瘋狂螢幕擷圖,直連核心完成任務,AI與網頁互動的底層邏輯正在重構。今天,GoogleChrome團隊投下了一枚深水炸彈:WebMCP(Web模型上下文協議)正式登場。它可以讓AI智能體跳過「人類使用者介面」,直接與現有的網站和Web應用深度互動。在Chrome 146的早期預覽版中,開啟特定flag即可體驗WebMCP這相當於給Agent加上了「超能力」,從此不用再「裝得像個人一樣」,去看網頁、找按鈕,或是點連結。僅通過一個API:navigator.modelContext,AI便可繞過圖形介面,直接與Web應用服務的核心對話。假設想要訂一張機票,Agent不用在螢幕上點選,而會直接通過底層協議,向航空公司網站傳送命令,直接獲取結果。用開發者Alex Volkov的話來說,「WebMCP就相當於UI裡的API」。可以說,WebMCP的誕生,釋放了一個極其明確的訊號——AI Agent與網頁互動的底層邏輯,正迎來一場徹底的重塑。它實現了從「視覺模擬」到「邏輯直連」的躍遷,正讓傳統的Web互動範式徹底走向終結。WebMCP震撼登場掀起Agent互動革命或許很多人,還沒有意識到WebMCP的重要性。它的核心在於,改變了Agent獲取服務的方式,讓其直接拿到了網頁的「通天鑰匙」。過去幾周,全世界都在為爆火的OpenClaw瘋狂,若是未來互動更進一步,說不定又將催生一次大變革。要知道,如今Agent操作網頁的方式,既笨拙又原始,而現在的整合方式實在是「太拉胯」了。它們本質上,就是在模擬人類的行為——螢幕擷圖、識別按鈕的位置、模擬點選,DOM抓取......這種方式,存在著明顯的痛點:成本高昂:一次簡單的搜尋,可能需消耗數千token來處理截圖、解析頁面;穩定性低:網站一旦改版,Agent會因找不到按鈕陷入「癱瘓」;反饋低效:Agent必須反覆「看」螢幕,來確認操作是否成功。不再裝個人,降維打擊如今,有了WebMCP,網站可以直接向AI開放其服務介面。Agent不用經過「前端視覺介面」,直接可以查詢並執行服務。WebMCP將取代傳統的「螢幕抓取」(screen-scraping),從而實現更穩定、更高效的頁面互動和資訊檢索。誠如網友所言,AI Agent正成為網路的「一等公民」。在GoogleChrome 146的官博中,為開發者提供了兩套靈活的API接入方式:聲明性API:執行可直接在HTML表單中定義的標準操作;命令式API:執行需要JavaScript執行的複雜、更動態的互動。這兩種方式,允許開發者為AI提供一套直接的工具集,讓Agent跳過視覺識別,直接存取網站背後的結構化函數。此前,Google軟體工程師Khushal Sagar在演講中表示,WebMCP目標是成為AI應用領域的USB-C介面。它不僅是讓智能體替代使用者,更是建立一種協作模式:使用者、網頁、智能體三者共享介面,共同協作。智能體專用路徑:開發者在為人類設計UI的同時,為智能體提供結構化的API路徑。兩大巨頭聯手要徹底「幹掉」前端?值得一提的是,WebMCP並不是Google的獨角戲。早在25年8月13日,Google、微軟開發者聯手,在GitHub上提交了WebMCP這一項目。開放原始碼專案:https://github.com/webmachinelearning/webmcp目前,AI智能體通常通過MCP等協議進行後端整合。但對於Web開發者來說,為了開放網站功能,他們往往得用Python或NodeJS寫一套後端伺服器,而不是用他們更熟悉的瀏覽器端JS。在項目介紹中,WebMCP讓網頁能在UI中提供「智能體專用通道」。與後端整合不同,WebMCP工具在客戶端執行,只有在智能體載入頁面後才可用。智能體依然可以像人一樣觀察頁面和模擬操作,但有了工具,它能更直接、高效地達成目標。據官方的介紹,以下是WebMCP的三大主要優勢:程式碼復用:直接利用現有的前端程式碼;統一介面:使用者和智能體共用一個介面,簡化了互動時的身份驗證和狀態同步;無障礙利器:讓輔助技術能執行更高層級的頁面操作,而不僅僅是簡單的點選。更進一步說,WebMCP讓使用者和智能體可以在同一個網頁介面裡並肩工作,既能利用現有的應用邏輯,又能保持上下文共享和使用者的掌控感。繞過所有UI,統治網路那麼,在WebMCP加持下,Agent未來會演變成什麼樣?開發者們提前設想了三大場景,電子商務、旅遊出行,以及客戶支援。首先,未來,我們的購物體驗,或將迎來質變。一句指令,Agent不再在頁面上反覆「翻找」優惠券入口,僅通過WebMCP函數呼叫,實現秒級下單。它可以輕鬆找到產品、配置特定的購物選項,完成結帳全流程。在旅遊出行方面,Agent還可以成為更精準的預訂專家,使用結構化資料進行搜尋、過濾結果和處理預訂。由於避開了混亂的UI干擾,它能確保每次搜尋結果的精準性,並直接在後台完成複雜的行程組合。此外,WebMCP還可以成為自動化服務的橋樑,讓智能體自動填寫必要的技術細節,以建立詳細的客戶支援服務工單。上手試過的開發者驚嘆,立即發現了WebMCP兩大好處。分層Web時代來臨一半給AI用開發者大佬Nikoloz Turazashvili最新一文,深度解釋了WebMCP的出現對於開發意味著什麼。如果你看過AI Agent像無頭蒼蠅一樣使用網站——瞎猜那個按鈕是結帳,或者糾結乘客姓名該填在那個框裡……實際上,你已經抓住核心痛點了:現在的Web UI是給人看的,但智能體需要的是「結構」。這恰恰是WebMCP想要解決的問題。如前所述,它是一個擬議中的Web標準,允許網站直接向瀏覽器內的Agent暴露結構化的工具。這樣一來,智能體就能呼叫真正的函數(帶有Schema),而不是去暴力爬取頁面,然後祈禱DOM結構沒有改變。因此,可以把它想像成「內建在瀏覽器標籤頁裡的MCP」。WebMCP的核心思路,便是發佈工具,別光給像素。與其讓Agent去瞎猜一個按鈕是幹嘛的,不如在搭建的網站明確發佈一份契約:Discovery(發現):這個頁面上有那些工具(checkout, filter_results等)JSON Schemas:輸入/輸出具體長什麼樣(以此減少幻覺)State(狀態):對頁面上當前可用內容的共識這就把「到處亂點直到碰巧蒙對」變成了:直接呼叫book_flight({ origin, destination, outboundDate… })。WebMCP基本上是在說——如果智能體要在瀏覽器肚子裡運行,瀏覽器就得提供這種握手機制。而且從產品角度看,這也是控制權的轉移:網站自己定義了允許那些操作,以及資料該怎麼傳。如果WebMCP真的成為標準落地,主流瀏覽器開始原生支援這種結構化互動,未來的網際網路或許分化為兩層:給人類用的UI:視覺美感、品牌敘事給Agent用的工具介面:結構化資料、極速響應而最終贏家不會是那些介面最花哨的——而是那些擁有最清晰工具契約的App。這一切,預示著「Agentic UI」時代的到來。未來的網頁將不再僅僅是給「人」看的展示窗,還是能與AI無縫銜接的自動化服務節點。WebMCP的出現,無疑加速了從「手動搜尋」到「智能體自動執行」的網際網路範式轉移。 (新智元)