#WebMCP | 熱門關鍵字 | 鉅亨號

【新智元導讀】終於，AI不用裝得像個人了。GoogleChrome重磅上線WebMCP。從此，Agent不用瘋狂螢幕擷圖，直連核心完成任務，AI與網頁互動的底層邏輯正在重構。今天，GoogleChrome團隊投下了一枚深水炸彈：WebMCP（Web模型上下文協議）正式登場。它可以讓AI智能體跳過「人類使用者介面」，直接與現有的網站和Web應用深度互動。在Chrome 146的早期預覽版中，開啟特定flag即可體驗WebMCP這相當於給Agent加上了「超能力」，從此不用再「裝得像個人一樣」，去看網頁、找按鈕，或是點連結。僅通過一個API：navigator.modelContext，AI便可繞過圖形介面，直接與Web應用服務的核心對話。假設想要訂一張機票，Agent不用在螢幕上點選，而會直接通過底層協議，向航空公司網站傳送命令，直接獲取結果。用開發者Alex Volkov的話來說，「WebMCP就相當於UI裡的API」。可以說，WebMCP的誕生，釋放了一個極其明確的訊號——AI Agent與網頁互動的底層邏輯，正迎來一場徹底的重塑。它實現了從「視覺模擬」到「邏輯直連」的躍遷，正讓傳統的Web互動範式徹底走向終結。WebMCP震撼登場掀起Agent互動革命或許很多人，還沒有意識到WebMCP的重要性。它的核心在於，改變了Agent獲取服務的方式，讓其直接拿到了網頁的「通天鑰匙」。過去幾周，全世界都在為爆火的OpenClaw瘋狂，若是未來互動更進一步，說不定又將催生一次大變革。要知道，如今Agent操作網頁的方式，既笨拙又原始，而現在的整合方式實在是「太拉胯」了。它們本質上，就是在模擬人類的行為——螢幕擷圖、識別按鈕的位置、模擬點選，DOM抓取......這種方式，存在著明顯的痛點：成本高昂：一次簡單的搜尋，可能需消耗數千token來處理截圖、解析頁面；穩定性低：網站一旦改版，Agent會因找不到按鈕陷入「癱瘓」；反饋低效：Agent必須反覆「看」螢幕，來確認操作是否成功。不再裝個人，降維打擊如今，有了WebMCP，網站可以直接向AI開放其服務介面。Agent不用經過「前端視覺介面」，直接可以查詢並執行服務。WebMCP將取代傳統的「螢幕抓取」（screen-scraping），從而實現更穩定、更高效的頁面互動和資訊檢索。誠如網友所言，AI Agent正成為網路的「一等公民」。在GoogleChrome 146的官博中，為開發者提供了兩套靈活的API接入方式：聲明性API：執行可直接在HTML表單中定義的標準操作；命令式API：執行需要JavaScript執行的複雜、更動態的互動。這兩種方式，允許開發者為AI提供一套直接的工具集，讓Agent跳過視覺識別，直接存取網站背後的結構化函數。此前，Google軟體工程師Khushal Sagar在演講中表示，WebMCP目標是成為AI應用領域的USB-C介面。它不僅是讓智能體替代使用者，更是建立一種協作模式：使用者、網頁、智能體三者共享介面，共同協作。智能體專用路徑：開發者在為人類設計UI的同時，為智能體提供結構化的API路徑。兩大巨頭聯手要徹底「幹掉」前端？值得一提的是，WebMCP並不是Google的獨角戲。早在25年8月13日，Google、微軟開發者聯手，在GitHub上提交了WebMCP這一項目。開放原始碼專案：https://github.com/webmachinelearning/webmcp目前，AI智能體通常通過MCP等協議進行後端整合。但對於Web開發者來說，為了開放網站功能，他們往往得用Python或NodeJS寫一套後端伺服器，而不是用他們更熟悉的瀏覽器端JS。在項目介紹中，WebMCP讓網頁能在UI中提供「智能體專用通道」。與後端整合不同，WebMCP工具在客戶端執行，只有在智能體載入頁面後才可用。智能體依然可以像人一樣觀察頁面和模擬操作，但有了工具，它能更直接、高效地達成目標。據官方的介紹，以下是WebMCP的三大主要優勢：程式碼復用：直接利用現有的前端程式碼；統一介面：使用者和智能體共用一個介面，簡化了互動時的身份驗證和狀態同步；無障礙利器：讓輔助技術能執行更高層級的頁面操作，而不僅僅是簡單的點選。更進一步說，WebMCP讓使用者和智能體可以在同一個網頁介面裡並肩工作，既能利用現有的應用邏輯，又能保持上下文共享和使用者的掌控感。繞過所有UI，統治網路那麼，在WebMCP加持下，Agent未來會演變成什麼樣？開發者們提前設想了三大場景，電子商務、旅遊出行，以及客戶支援。首先，未來，我們的購物體驗，或將迎來質變。一句指令，Agent不再在頁面上反覆「翻找」優惠券入口，僅通過WebMCP函數呼叫，實現秒級下單。它可以輕鬆找到產品、配置特定的購物選項，完成結帳全流程。在旅遊出行方面，Agent還可以成為更精準的預訂專家，使用結構化資料進行搜尋、過濾結果和處理預訂。由於避開了混亂的UI干擾，它能確保每次搜尋結果的精準性，並直接在後台完成複雜的行程組合。此外，WebMCP還可以成為自動化服務的橋樑，讓智能體自動填寫必要的技術細節，以建立詳細的客戶支援服務工單。上手試過的開發者驚嘆，立即發現了WebMCP兩大好處。分層Web時代來臨一半給AI用開發者大佬Nikoloz Turazashvili最新一文，深度解釋了WebMCP的出現對於開發意味著什麼。如果你看過AI Agent像無頭蒼蠅一樣使用網站——瞎猜那個按鈕是結帳，或者糾結乘客姓名該填在那個框裡……實際上，你已經抓住核心痛點了：現在的Web UI是給人看的，但智能體需要的是「結構」。這恰恰是WebMCP想要解決的問題。如前所述，它是一個擬議中的Web標準，允許網站直接向瀏覽器內的Agent暴露結構化的工具。這樣一來，智能體就能呼叫真正的函數（帶有Schema），而不是去暴力爬取頁面，然後祈禱DOM結構沒有改變。因此，可以把它想像成「內建在瀏覽器標籤頁裡的MCP」。WebMCP的核心思路，便是發佈工具，別光給像素。與其讓Agent去瞎猜一個按鈕是幹嘛的，不如在搭建的網站明確發佈一份契約：Discovery（發現）：這個頁面上有那些工具（checkout, filter_results等）JSON Schemas：輸入/輸出具體長什麼樣（以此減少幻覺）State（狀態）：對頁面上當前可用內容的共識這就把「到處亂點直到碰巧蒙對」變成了：直接呼叫book_flight({ origin, destination, outboundDate… })。WebMCP基本上是在說——如果智能體要在瀏覽器肚子裡運行，瀏覽器就得提供這種握手機制。而且從產品角度看，這也是控制權的轉移：網站自己定義了允許那些操作，以及資料該怎麼傳。如果WebMCP真的成為標準落地，主流瀏覽器開始原生支援這種結構化互動，未來的網際網路或許分化為兩層：給人類用的UI：視覺美感、品牌敘事給Agent用的工具介面：結構化資料、極速響應而最終贏家不會是那些介面最花哨的——而是那些擁有最清晰工具契約的App。這一切，預示著「Agentic UI」時代的到來。未來的網頁將不再僅僅是給「人」看的展示窗，還是能與AI無縫銜接的自動化服務節點。WebMCP的出現，無疑加速了從「手動搜尋」到「智能體自動執行」的網際網路範式轉移。 (新智元)