【新智元導讀】終於,AI不用裝得像個人了。GoogleChrome重磅上線WebMCP。從此,Agent不用瘋狂螢幕擷圖,直連核心完成任務,AI與網頁互動的底層邏輯正在重構。今天,GoogleChrome團隊投下了一枚深水炸彈:WebMCP(Web模型上下文協議)正式登場。它可以讓AI智能體跳過「人類使用者介面」,直接與現有的網站和Web應用深度互動。在Chrome 146的早期預覽版中,開啟特定flag即可體驗WebMCP這相當於給Agent加上了「超能力」,從此不用再「裝得像個人一樣」,去看網頁、找按鈕,或是點連結。僅通過一個API:navigator.modelContext,AI便可繞過圖形介面,直接與Web應用服務的核心對話。假設想要訂一張機票,Agent不用在螢幕上點選,而會直接通過底層協議,向航空公司網站傳送命令,直接獲取結果。用開發者Alex Volkov的話來說,「WebMCP就相當於UI裡的API」。可以說,WebMCP的誕生,釋放了一個極其明確的訊號——AI Agent與網頁互動的底層邏輯,正迎來一場徹底的重塑。它實現了從「視覺模擬」到「邏輯直連」的躍遷,正讓傳統的Web互動範式徹底走向終結。WebMCP震撼登場掀起Agent互動革命或許很多人,還沒有意識到WebMCP的重要性。它的核心在於,改變了Agent獲取服務的方式,讓其直接拿到了網頁的「通天鑰匙」。過去幾周,全世界都在為爆火的OpenClaw瘋狂,若是未來互動更進一步,說不定又將催生一次大變革。要知道,如今Agent操作網頁的方式,既笨拙又原始,而現在的整合方式實在是「太拉胯」了。它們本質上,就是在模擬人類的行為——螢幕擷圖、識別按鈕的位置、模擬點選,DOM抓取......這種方式,存在著明顯的痛點:成本高昂:一次簡單的搜尋,可能需消耗數千token來處理截圖、解析頁面;穩定性低:網站一旦改版,Agent會因找不到按鈕陷入「癱瘓」;反饋低效:Agent必須反覆「看」螢幕,來確認操作是否成功。不再裝個人,降維打擊如今,有了WebMCP,網站可以直接向AI開放其服務介面。Agent不用經過「前端視覺介面」,直接可以查詢並執行服務。WebMCP將取代傳統的「螢幕抓取」(screen-scraping),從而實現更穩定、更高效的頁面互動和資訊檢索。誠如網友所言,AI Agent正成為網路的「一等公民」。在GoogleChrome 146的官博中,為開發者提供了兩套靈活的API接入方式:聲明性API:執行可直接在HTML表單中定義的標準操作;命令式API:執行需要JavaScript執行的複雜、更動態的互動。這兩種方式,允許開發者為AI提供一套直接的工具集,讓Agent跳過視覺識別,直接存取網站背後的結構化函數。此前,Google軟體工程師Khushal Sagar在演講中表示,WebMCP目標是成為AI應用領域的USB-C介面。它不僅是讓智能體替代使用者,更是建立一種協作模式:使用者、網頁、智能體三者共享介面,共同協作。智能體專用路徑:開發者在為人類設計UI的同時,為智能體提供結構化的API路徑。兩大巨頭聯手要徹底「幹掉」前端?值得一提的是,WebMCP並不是Google的獨角戲。早在25年8月13日,Google、微軟開發者聯手,在GitHub上提交了WebMCP這一項目。開放原始碼專案:https://github.com/webmachinelearning/webmcp目前,AI智能體通常通過MCP等協議進行後端整合。但對於Web開發者來說,為了開放網站功能,他們往往得用Python或NodeJS寫一套後端伺服器,而不是用他們更熟悉的瀏覽器端JS。在項目介紹中,WebMCP讓網頁能在UI中提供「智能體專用通道」。與後端整合不同,WebMCP工具在客戶端執行,只有在智能體載入頁面後才可用。智能體依然可以像人一樣觀察頁面和模擬操作,但有了工具,它能更直接、高效地達成目標。據官方的介紹,以下是WebMCP的三大主要優勢:程式碼復用:直接利用現有的前端程式碼;統一介面:使用者和智能體共用一個介面,簡化了互動時的身份驗證和狀態同步;無障礙利器:讓輔助技術能執行更高層級的頁面操作,而不僅僅是簡單的點選。更進一步說,WebMCP讓使用者和智能體可以在同一個網頁介面裡並肩工作,既能利用現有的應用邏輯,又能保持上下文共享和使用者的掌控感。繞過所有UI,統治網路那麼,在WebMCP加持下,Agent未來會演變成什麼樣?開發者們提前設想了三大場景,電子商務、旅遊出行,以及客戶支援。首先,未來,我們的購物體驗,或將迎來質變。一句指令,Agent不再在頁面上反覆「翻找」優惠券入口,僅通過WebMCP函數呼叫,實現秒級下單。它可以輕鬆找到產品、配置特定的購物選項,完成結帳全流程。在旅遊出行方面,Agent還可以成為更精準的預訂專家,使用結構化資料進行搜尋、過濾結果和處理預訂。由於避開了混亂的UI干擾,它能確保每次搜尋結果的精準性,並直接在後台完成複雜的行程組合。此外,WebMCP還可以成為自動化服務的橋樑,讓智能體自動填寫必要的技術細節,以建立詳細的客戶支援服務工單。上手試過的開發者驚嘆,立即發現了WebMCP兩大好處。分層Web時代來臨一半給AI用開發者大佬Nikoloz Turazashvili最新一文,深度解釋了WebMCP的出現對於開發意味著什麼。如果你看過AI Agent像無頭蒼蠅一樣使用網站——瞎猜那個按鈕是結帳,或者糾結乘客姓名該填在那個框裡……實際上,你已經抓住核心痛點了:現在的Web UI是給人看的,但智能體需要的是「結構」。這恰恰是WebMCP想要解決的問題。如前所述,它是一個擬議中的Web標準,允許網站直接向瀏覽器內的Agent暴露結構化的工具。這樣一來,智能體就能呼叫真正的函數(帶有Schema),而不是去暴力爬取頁面,然後祈禱DOM結構沒有改變。因此,可以把它想像成「內建在瀏覽器標籤頁裡的MCP」。WebMCP的核心思路,便是發佈工具,別光給像素。與其讓Agent去瞎猜一個按鈕是幹嘛的,不如在搭建的網站明確發佈一份契約:Discovery(發現):這個頁面上有那些工具(checkout, filter_results等)JSON Schemas:輸入/輸出具體長什麼樣(以此減少幻覺)State(狀態):對頁面上當前可用內容的共識這就把「到處亂點直到碰巧蒙對」變成了:直接呼叫book_flight({ origin, destination, outboundDate… })。WebMCP基本上是在說——如果智能體要在瀏覽器肚子裡運行,瀏覽器就得提供這種握手機制。而且從產品角度看,這也是控制權的轉移:網站自己定義了允許那些操作,以及資料該怎麼傳。如果WebMCP真的成為標準落地,主流瀏覽器開始原生支援這種結構化互動,未來的網際網路或許分化為兩層:給人類用的UI:視覺美感、品牌敘事給Agent用的工具介面:結構化資料、極速響應而最終贏家不會是那些介面最花哨的——而是那些擁有最清晰工具契約的App。這一切,預示著「Agentic UI」時代的到來。未來的網頁將不再僅僅是給「人」看的展示窗,還是能與AI無縫銜接的自動化服務節點。WebMCP的出現,無疑加速了從「手動搜尋」到「智能體自動執行」的網際網路範式轉移。 (新智元)