為什麼Cloudflare無法阻止Google為AI 模型爬取網站資料?

Cloudflare面對Google束手無策。

作為全球最大的內容分發網路之一,Cloudflare上周推出了一項新功能:允許客戶一鍵阻止AI公司的爬蟲抓取網站資料。

這本該是讓網站主們歡呼的事,但背後卻有個巨大的漏洞——它對Google無效

為什麼Google是例外?

這個問題的答案既簡單又複雜:Google用同一個爬蟲干兩件事

Google的Googlebot既負責為搜尋引擎建立索引,也負責為Gemini大語言模型收集訓練資料。這兩個任務使用完全相同的HTTP頭和IP地址,Cloudflare在技術層面無法區分那個請求是為了搜尋排名,那個是為了AI訓練。

如果Cloudflare強行阻止Googlebot,那麼所有使用Cloudflare的網站都會從Google搜尋中消失,這對大多數網站來說無異於自殺

Cloudflare的無奈

Cloudflare副總裁Will Allen打了個生動的比喻:阻止網路層面的爬蟲就像酒吧門口的保安,能檢查身份證決定誰能進入;而robots.txt更像是「禁止入內」的標誌,全靠自覺遵守。

對於OpenAI的GPTBot、Anthropic的ClaudeBot等其他AI爬蟲,Cloudflare可以通過匹配使用者代理字串、IP塊和行為模式來精準攔截。

自2024年7月以來,已有超過100萬個網站啟用了這項功能,來自字節跳動Bytespider的流量下降了71.45%。

但面對Google,Cloudflare只能依賴robots.txt這種「君子協定」。

Google的「一石二鳥」

更讓人無奈的是,即使網站通過robots.txt告訴Google不要用其內容訓練Gemini,Google仍然可以用這些內容來生成出現在搜尋結果頂部的AI OverviewsAI Mode功能。

這些AI生成的答案直接展示在搜尋結果頁面,使用者無需點選進入原網站就能獲得資訊。

許多出版商表示,自從Google擴展AI Overviews以來,他們的流量「斷崖式下跌」。

News/Media Alliance的CEO Danielle Coffey代表著包括Condé Nast、The Atlantic和The Guardian在內的2200多家新聞出版商,她直言:

「沒有真正有效的方法能完全退出向Google提供AI內容,除非你完全從搜尋結果中消失。」

殘酷現實

Cloudflare的資料揭示了一個殘酷的事實:

  • Google每抓取14次HTML頁面,會回饋1次引薦點選
  • OpenAI的比例是1700:1
  • Anthropic更是高達73000:1

雖然Google的「回報率」也不高,但相比其他AI公司至少還有一些流量回饋。

對於依賴搜尋流量的網站來說,忍受Google的「剝削」總比失去所有Google流量要好

Cloudflare CEO Matthew Prince在X上表示,正在努力尋找一種方法,能在不影響傳統搜尋索引的情況下阻止Google將網站內容用於AI Overviews。

他暗示公司正在與Google進行對話,但如果談判失敗,將尋求立法途徑解決。

而這博弈的背後,是整個網際網路生態正在發生的深刻變革。

網站主的困境

許多網站主陷入了兩難境地。

經營健身和生活方式網站的Kalee Sorey Dillard表示,儘管Google保證阻止Gemini爬蟲不會影響搜尋排名,但她不敢冒這個險。

Raptive的執行副總裁Tom Critchlow管理著數千個網站的廣告銷售,他說:「當Google說你可以阻止AI爬蟲而不會損害搜尋排名時,人們對此沒有太多信心。」

這種不信任源於Google在AI Overviews和AI Mode對網站流量影響方面的不透明。

轉機在下個月?

聯邦法官去年裁定Google在搜尋領域構成非法壟斷,下個月將決定Google需要做出那些改變。

他可能會強制Google為網站出版商和YouTube內容創作者提供一個 「易於使用的機制」 來選擇退出其內容被用於訓練任何Google的AI產品。

當然,無論判決如何,Google都會上訴。

這場關於AI爬蟲的博弈,本質上是網際網路開放性與商業利益之間的衝突

Cloudflare想要保護客戶的內容不被AI公司「白嫖」,但在Google面前卻無能為力。

這不是技術問題,而是權力結構的問題

當搜尋引擎的爬蟲和AI訓練的爬蟲合二為一時,網站主們只能在「被剝削」和「被遺忘」之間做出選擇。

現在看來,即使你擁有自己的網站,在巨頭面前,你依然可能只是「產品」:

當你免費使用一個產品時,你就是產品本身。 (AGI Hunt)