Google Chrome深夜爆更，Agent不用「裝」人了！前端最後防線崩了？

2026/02/11

•

【新智元導讀】終於，AI不用裝得像個人了。GoogleChrome重磅上線WebMCP。從此，Agent不用瘋狂螢幕擷圖，直連核心完成任務，AI與網頁互動的底層邏輯正在重構。

今天，GoogleChrome團隊投下了一枚深水炸彈：WebMCP（Web模型上下文協議）正式登場。

它可以讓AI智能體跳過「人類使用者介面」，直接與現有的網站和Web應用深度互動。

這相當於給Agent加上了「超能力」，從此不用再「裝得像個人一樣」，去看網頁、找按鈕，或是點連結。

僅通過一個API：navigator.modelContext，AI便可繞過圖形介面，直接與Web應用服務的核心對話。

假設想要訂一張機票，Agent不用在螢幕上點選，而會直接通過底層協議，向航空公司網站傳送命令，直接獲取結果。

用開發者Alex Volkov的話來說，「WebMCP就相當於UI裡的API」。

可以說，WebMCP的誕生，釋放了一個極其明確的訊號——

AI Agent與網頁互動的底層邏輯，正迎來一場徹底的重塑。

它實現了從「視覺模擬」到「邏輯直連」的躍遷，正讓傳統的Web互動範式徹底走向終結。

WebMCP震撼登場

掀起Agent互動革命

或許很多人，還沒有意識到WebMCP的重要性。

它的核心在於，改變了Agent獲取服務的方式，讓其直接拿到了網頁的「通天鑰匙」。

過去幾周，全世界都在為爆火的OpenClaw瘋狂，若是未來互動更進一步，說不定又將催生一次大變革。

要知道，如今Agent操作網頁的方式，既笨拙又原始，而現在的整合方式實在是「太拉胯」了。

它們本質上，就是在模擬人類的行為——螢幕擷圖、識別按鈕的位置、模擬點選，DOM抓取......

這種方式，存在著明顯的痛點：

成本高昂：一次簡單的搜尋，可能需消耗數千token來處理截圖、解析頁面；
穩定性低：網站一旦改版，Agent會因找不到按鈕陷入「癱瘓」；
反饋低效：Agent必須反覆「看」螢幕，來確認操作是否成功。

不再裝個人，降維打擊

如今，有了WebMCP，網站可以直接向AI開放其服務介面。Agent不用經過「前端視覺介面」，直接可以查詢並執行服務。

WebMCP將取代傳統的「螢幕抓取」（screen-scraping），從而實現更穩定、更高效的頁面互動和資訊檢索。

誠如網友所言，AI Agent正成為網路的「一等公民」。

在GoogleChrome 146的官博中，為開發者提供了兩套靈活的API接入方式：

聲明性API：執行可直接在HTML表單中定義的標準操作；

命令式API：執行需要JavaScript執行的複雜、更動態的互動。

這兩種方式，允許開發者為AI提供一套直接的工具集，讓Agent跳過視覺識別，直接存取網站背後的結構化函數。

此前，Google軟體工程師Khushal Sagar在演講中表示，WebMCP目標是成為AI應用領域的USB-C介面。

它不僅是讓智能體替代使用者，更是建立一種協作模式：

使用者、網頁、智能體三者共享介面，共同協作。
智能體專用路徑：開發者在為人類設計UI的同時，為智能體提供結構化的API路徑。

兩大巨頭聯手

要徹底「幹掉」前端？

值得一提的是，WebMCP並不是Google的獨角戲。

早在25年8月13日，Google、微軟開發者聯手，在GitHub上提交了WebMCP這一項目。

開放原始碼專案：https://github.com/webmachinelearning/webmcp

目前，AI智能體通常通過MCP等協議進行後端整合。

但對於Web開發者來說，為了開放網站功能，他們往往得用Python或NodeJS寫一套後端伺服器，而不是用他們更熟悉的瀏覽器端JS。

在項目介紹中，WebMCP讓網頁能在UI中提供「智能體專用通道」。

與後端整合不同，WebMCP工具在客戶端執行，只有在智能體載入頁面後才可用。

智能體依然可以像人一樣觀察頁面和模擬操作，但有了工具，它能更直接、高效地達成目標。

據官方的介紹，以下是WebMCP的三大主要優勢：

程式碼復用：直接利用現有的前端程式碼；
統一介面：使用者和智能體共用一個介面，簡化了互動時的身份驗證和狀態同步；
無障礙利器：讓輔助技術能執行更高層級的頁面操作，而不僅僅是簡單的點選。

更進一步說，WebMCP讓使用者和智能體可以在同一個網頁介面裡並肩工作，既能利用現有的應用邏輯，又能保持上下文共享和使用者的掌控感。

繞過所有UI，統治網路

那麼，在WebMCP加持下，Agent未來會演變成什麼樣？

開發者們提前設想了三大場景，電子商務、旅遊出行，以及客戶支援。

首先，未來，我們的購物體驗，或將迎來質變。

一句指令，Agent不再在頁面上反覆「翻找」優惠券入口，僅通過WebMCP函數呼叫，實現秒級下單。

它可以輕鬆找到產品、配置特定的購物選項，完成結帳全流程。

在旅遊出行方面，Agent還可以成為更精準的預訂專家，使用結構化資料進行搜尋、過濾結果和處理預訂。

由於避開了混亂的UI干擾，它能確保每次搜尋結果的精準性，並直接在後台完成複雜的行程組合。

此外，WebMCP還可以成為自動化服務的橋樑，讓智能體自動填寫必要的技術細節，以建立詳細的客戶支援服務工單。

上手試過的開發者驚嘆，立即發現了WebMCP兩大好處。

分層Web時代來臨

一半給AI用

開發者大佬Nikoloz Turazashvili最新一文，深度解釋了WebMCP的出現對於開發意味著什麼。

如果你看過AI Agent像無頭蒼蠅一樣使用網站——瞎猜那個按鈕是結帳，或者糾結乘客姓名該填在那個框裡……

實際上，你已經抓住核心痛點了：

現在的Web UI是給人看的，但智能體需要的是「結構」。

這恰恰是WebMCP想要解決的問題。如前所述，它是一個擬議中的Web標準，允許網站直接向瀏覽器內的Agent暴露結構化的工具。

這樣一來，智能體就能呼叫真正的函數（帶有Schema），而不是去暴力爬取頁面，然後祈禱DOM結構沒有改變。

因此，可以把它想像成「內建在瀏覽器標籤頁裡的MCP」。

WebMCP的核心思路，便是發佈工具，別光給像素。

與其讓Agent去瞎猜一個按鈕是幹嘛的，不如在搭建的網站明確發佈一份契約：

Discovery（發現）：這個頁面上有那些工具（checkout, filter_results等）
JSON Schemas：輸入/輸出具體長什麼樣（以此減少幻覺）
State（狀態）：對頁面上當前可用內容的共識

這就把「到處亂點直到碰巧蒙對」變成了：直接呼叫book_flight({ origin, destination, outboundDate… })。

WebMCP基本上是在說——如果智能體要在瀏覽器肚子裡運行，瀏覽器就得提供這種握手機制。

而且從產品角度看，這也是控制權的轉移：網站自己定義了允許那些操作，以及資料該怎麼傳。

如果WebMCP真的成為標準落地，主流瀏覽器開始原生支援這種結構化互動，未來的網際網路或許分化為兩層：

給人類用的UI：視覺美感、品牌敘事
給Agent用的工具介面：結構化資料、極速響應

而最終贏家不會是那些介面最花哨的——而是那些擁有最清晰工具契約的App。

這一切，預示著「Agentic UI」時代的到來。

未來的網頁將不再僅僅是給「人」看的展示窗，還是能與AI無縫銜接的自動化服務節點。

WebMCP的出現，無疑加速了從「手動搜尋」到「智能體自動執行」的網際網路範式轉移。 (新智元)