【新智元導讀】終於,AI不用裝得像個人了。GoogleChrome重磅上線WebMCP。從此,Agent不用瘋狂螢幕擷圖,直連核心完成任務,AI與網頁互動的底層邏輯正在重構。
今天,GoogleChrome團隊投下了一枚深水炸彈:WebMCP(Web模型上下文協議)正式登場。
它可以讓AI智能體跳過「人類使用者介面」,直接與現有的網站和Web應用深度互動。
這相當於給Agent加上了「超能力」,從此不用再「裝得像個人一樣」,去看網頁、找按鈕,或是點連結。
僅通過一個API:navigator.modelContext,AI便可繞過圖形介面,直接與Web應用服務的核心對話。
假設想要訂一張機票,Agent不用在螢幕上點選,而會直接通過底層協議,向航空公司網站傳送命令,直接獲取結果。
用開發者Alex Volkov的話來說,「WebMCP就相當於UI裡的API」。
可以說,WebMCP的誕生,釋放了一個極其明確的訊號——
AI Agent與網頁互動的底層邏輯,正迎來一場徹底的重塑。
它實現了從「視覺模擬」到「邏輯直連」的躍遷,正讓傳統的Web互動範式徹底走向終結。
或許很多人,還沒有意識到WebMCP的重要性。
它的核心在於,改變了Agent獲取服務的方式,讓其直接拿到了網頁的「通天鑰匙」。
過去幾周,全世界都在為爆火的OpenClaw瘋狂,若是未來互動更進一步,說不定又將催生一次大變革。
要知道,如今Agent操作網頁的方式,既笨拙又原始,而現在的整合方式實在是「太拉胯」了。
它們本質上,就是在模擬人類的行為——螢幕擷圖、識別按鈕的位置、模擬點選,DOM抓取......
這種方式,存在著明顯的痛點:
如今,有了WebMCP,網站可以直接向AI開放其服務介面。Agent不用經過「前端視覺介面」,直接可以查詢並執行服務。
WebMCP將取代傳統的「螢幕抓取」(screen-scraping),從而實現更穩定、更高效的頁面互動和資訊檢索。
誠如網友所言,AI Agent正成為網路的「一等公民」。
在GoogleChrome 146的官博中,為開發者提供了兩套靈活的API接入方式:
聲明性API:執行可直接在HTML表單中定義的標準操作;
命令式API:執行需要JavaScript執行的複雜、更動態的互動。
這兩種方式,允許開發者為AI提供一套直接的工具集,讓Agent跳過視覺識別,直接存取網站背後的結構化函數。
此前,Google軟體工程師Khushal Sagar在演講中表示,WebMCP目標是成為AI應用領域的USB-C介面。
它不僅是讓智能體替代使用者,更是建立一種協作模式:
值得一提的是,WebMCP並不是Google的獨角戲。
早在25年8月13日,Google、微軟開發者聯手,在GitHub上提交了WebMCP這一項目。
目前,AI智能體通常通過MCP等協議進行後端整合。
但對於Web開發者來說,為了開放網站功能,他們往往得用Python或NodeJS寫一套後端伺服器,而不是用他們更熟悉的瀏覽器端JS。
在項目介紹中,WebMCP讓網頁能在UI中提供「智能體專用通道」。
與後端整合不同,WebMCP工具在客戶端執行,只有在智能體載入頁面後才可用。
智能體依然可以像人一樣觀察頁面和模擬操作,但有了工具,它能更直接、高效地達成目標。
據官方的介紹,以下是WebMCP的三大主要優勢:
更進一步說,WebMCP讓使用者和智能體可以在同一個網頁介面裡並肩工作,既能利用現有的應用邏輯,又能保持上下文共享和使用者的掌控感。
那麼,在WebMCP加持下,Agent未來會演變成什麼樣?
開發者們提前設想了三大場景,電子商務、旅遊出行,以及客戶支援。
首先,未來,我們的購物體驗,或將迎來質變。
一句指令,Agent不再在頁面上反覆「翻找」優惠券入口,僅通過WebMCP函數呼叫,實現秒級下單。
它可以輕鬆找到產品、配置特定的購物選項,完成結帳全流程。
在旅遊出行方面,Agent還可以成為更精準的預訂專家,使用結構化資料進行搜尋、過濾結果和處理預訂。
由於避開了混亂的UI干擾,它能確保每次搜尋結果的精準性,並直接在後台完成複雜的行程組合。
此外,WebMCP還可以成為自動化服務的橋樑,讓智能體自動填寫必要的技術細節,以建立詳細的客戶支援服務工單。
上手試過的開發者驚嘆,立即發現了WebMCP兩大好處。
開發者大佬Nikoloz Turazashvili最新一文,深度解釋了WebMCP的出現對於開發意味著什麼。
如果你看過AI Agent像無頭蒼蠅一樣使用網站——瞎猜那個按鈕是結帳,或者糾結乘客姓名該填在那個框裡……
實際上,你已經抓住核心痛點了:
現在的Web UI是給人看的,但智能體需要的是「結構」。
這恰恰是WebMCP想要解決的問題。如前所述,它是一個擬議中的Web標準,允許網站直接向瀏覽器內的Agent暴露結構化的工具。
這樣一來,智能體就能呼叫真正的函數(帶有Schema),而不是去暴力爬取頁面,然後祈禱DOM結構沒有改變。
因此,可以把它想像成「內建在瀏覽器標籤頁裡的MCP」。
WebMCP的核心思路,便是發佈工具,別光給像素。
與其讓Agent去瞎猜一個按鈕是幹嘛的,不如在搭建的網站明確發佈一份契約:
checkout, filter_results等)這就把「到處亂點直到碰巧蒙對」變成了:直接呼叫book_flight({ origin, destination, outboundDate… })。
WebMCP基本上是在說——如果智能體要在瀏覽器肚子裡運行,瀏覽器就得提供這種握手機制。
而且從產品角度看,這也是控制權的轉移:網站自己定義了允許那些操作,以及資料該怎麼傳。
如果WebMCP真的成為標準落地,主流瀏覽器開始原生支援這種結構化互動,未來的網際網路或許分化為兩層:
而最終贏家不會是那些介面最花哨的——而是那些擁有最清晰工具契約的App。
這一切,預示著「Agentic UI」時代的到來。
未來的網頁將不再僅僅是給「人」看的展示窗,還是能與AI無縫銜接的自動化服務節點。
WebMCP的出現,無疑加速了從「手動搜尋」到「智能體自動執行」的網際網路範式轉移。 (新智元)