#內容分發網路
為什麼Cloudflare無法阻止Google為AI 模型爬取網站資料?
Cloudflare面對Google束手無策。作為全球最大的內容分發網路之一,Cloudflare上周推出了一項新功能:允許客戶一鍵阻止AI公司的爬蟲抓取網站資料。這本該是讓網站主們歡呼的事,但背後卻有個巨大的漏洞——它對Google無效。為什麼Google是例外?這個問題的答案既簡單又複雜:Google用同一個爬蟲干兩件事。Google的Googlebot既負責為搜尋引擎建立索引,也負責為Gemini大語言模型收集訓練資料。這兩個任務使用完全相同的HTTP頭和IP地址,Cloudflare在技術層面無法區分那個請求是為了搜尋排名,那個是為了AI訓練。如果Cloudflare強行阻止Googlebot,那麼所有使用Cloudflare的網站都會從Google搜尋中消失,這對大多數網站來說無異於自殺。Cloudflare的無奈Cloudflare副總裁Will Allen打了個生動的比喻:阻止網路層面的爬蟲就像酒吧門口的保安,能檢查身份證決定誰能進入;而robots.txt更像是「禁止入內」的標誌,全靠自覺遵守。對於OpenAI的GPTBot、Anthropic的ClaudeBot等其他AI爬蟲,Cloudflare可以通過匹配使用者代理字串、IP塊和行為模式來精準攔截。自2024年7月以來,已有超過100萬個網站啟用了這項功能,來自字節跳動Bytespider的流量下降了71.45%。但面對Google,Cloudflare只能依賴robots.txt這種「君子協定」。Google的「一石二鳥」更讓人無奈的是,即使網站通過robots.txt告訴Google不要用其內容訓練Gemini,Google仍然可以用這些內容來生成出現在搜尋結果頂部的AI Overviews和AI Mode功能。這些AI生成的答案直接展示在搜尋結果頁面,使用者無需點選進入原網站就能獲得資訊。許多出版商表示,自從Google擴展AI Overviews以來,他們的流量「斷崖式下跌」。News/Media Alliance的CEO Danielle Coffey代表著包括Condé Nast、The Atlantic和The Guardian在內的2200多家新聞出版商,她直言:「沒有真正有效的方法能完全退出向Google提供AI內容,除非你完全從搜尋結果中消失。」殘酷現實Cloudflare的資料揭示了一個殘酷的事實:Google每抓取14次HTML頁面,會回饋1次引薦點選OpenAI的比例是1700:1Anthropic更是高達73000:1雖然Google的「回報率」也不高,但相比其他AI公司至少還有一些流量回饋。對於依賴搜尋流量的網站來說,忍受Google的「剝削」總比失去所有Google流量要好。Cloudflare CEO Matthew Prince在X上表示,正在努力尋找一種方法,能在不影響傳統搜尋索引的情況下阻止Google將網站內容用於AI Overviews。他暗示公司正在與Google進行對話,但如果談判失敗,將尋求立法途徑解決。而這博弈的背後,是整個網際網路生態正在發生的深刻變革。網站主的困境許多網站主陷入了兩難境地。經營健身和生活方式網站的Kalee Sorey Dillard表示,儘管Google保證阻止Gemini爬蟲不會影響搜尋排名,但她不敢冒這個險。Raptive的執行副總裁Tom Critchlow管理著數千個網站的廣告銷售,他說:「當Google說你可以阻止AI爬蟲而不會損害搜尋排名時,人們對此沒有太多信心。」這種不信任源於Google在AI Overviews和AI Mode對網站流量影響方面的不透明。轉機在下個月?聯邦法官去年裁定Google在搜尋領域構成非法壟斷,下個月將決定Google需要做出那些改變。他可能會強制Google為網站出版商和YouTube內容創作者提供一個 「易於使用的機制」 來選擇退出其內容被用於訓練任何Google的AI產品。當然,無論判決如何,Google都會上訴。這場關於AI爬蟲的博弈,本質上是網際網路開放性與商業利益之間的衝突。Cloudflare想要保護客戶的內容不被AI公司「白嫖」,但在Google面前卻無能為力。這不是技術問題,而是權力結構的問題。當搜尋引擎的爬蟲和AI訓練的爬蟲合二為一時,網站主們只能在「被剝削」和「被遺忘」之間做出選擇。現在看來,即使你擁有自己的網站,在巨頭面前,你依然可能只是「產品」:當你免費使用一個產品時,你就是產品本身。 (AGI Hunt)