為什麼Cloudflare無法阻止Google為AI 模型爬取網站資料？

2025/07/14

•

Cloudflare面對Google束手無策。

作為全球最大的內容分發網路之一，Cloudflare上周推出了一項新功能：允許客戶一鍵阻止AI公司的爬蟲抓取網站資料。

這本該是讓網站主們歡呼的事，但背後卻有個巨大的漏洞——它對Google無效。

這個問題的答案既簡單又複雜：Google用同一個爬蟲干兩件事。

Google的Googlebot既負責為搜尋引擎建立索引，也負責為Gemini大語言模型收集訓練資料。這兩個任務使用完全相同的HTTP頭和IP地址，Cloudflare在技術層面無法區分那個請求是為了搜尋排名，那個是為了AI訓練。

如果Cloudflare強行阻止Googlebot，那麼所有使用Cloudflare的網站都會從Google搜尋中消失，這對大多數網站來說無異於自殺。

Cloudflare副總裁Will Allen打了個生動的比喻：阻止網路層面的爬蟲就像酒吧門口的保安，能檢查身份證決定誰能進入；而robots.txt更像是「禁止入內」的標誌，全靠自覺遵守。

對於OpenAI的GPTBot、Anthropic的ClaudeBot等其他AI爬蟲，Cloudflare可以通過匹配使用者代理字串、IP塊和行為模式來精準攔截。

自2024年7月以來，已有超過100萬個網站啟用了這項功能，來自字節跳動Bytespider的流量下降了71.45%。

但面對Google，Cloudflare只能依賴robots.txt這種「君子協定」。

更讓人無奈的是，即使網站通過robots.txt告訴Google不要用其內容訓練Gemini，Google仍然可以用這些內容來生成出現在搜尋結果頂部的AI Overviews和AI Mode功能。

這些AI生成的答案直接展示在搜尋結果頁面，使用者無需點選進入原網站就能獲得資訊。

許多出版商表示，自從Google擴展AI Overviews以來，他們的流量「斷崖式下跌」。

News/Media Alliance的CEO Danielle Coffey代表著包括Condé Nast、The Atlantic和The Guardian在內的2200多家新聞出版商，她直言：

「沒有真正有效的方法能完全退出向Google提供AI內容，除非你完全從搜尋結果中消失。」

Cloudflare的資料揭示了一個殘酷的事實：

雖然Google的「回報率」也不高，但相比其他AI公司至少還有一些流量回饋。

對於依賴搜尋流量的網站來說，忍受Google的「剝削」總比失去所有Google流量要好。

Cloudflare CEO Matthew Prince在X上表示，正在努力尋找一種方法，能在不影響傳統搜尋索引的情況下阻止Google將網站內容用於AI Overviews。

他暗示公司正在與Google進行對話，但如果談判失敗，將尋求立法途徑解決。

而這博弈的背後，是整個網際網路生態正在發生的深刻變革。

許多網站主陷入了兩難境地。

經營健身和生活方式網站的Kalee Sorey Dillard表示，儘管Google保證阻止Gemini爬蟲不會影響搜尋排名，但她不敢冒這個險。

Raptive的執行副總裁Tom Critchlow管理著數千個網站的廣告銷售，他說：「當Google說你可以阻止AI爬蟲而不會損害搜尋排名時，人們對此沒有太多信心。」

這種不信任源於Google在AI Overviews和AI Mode對網站流量影響方面的不透明。

聯邦法官去年裁定Google在搜尋領域構成非法壟斷，下個月將決定Google需要做出那些改變。

他可能會強制Google為網站出版商和YouTube內容創作者提供一個 「易於使用的機制」 來選擇退出其內容被用於訓練任何Google的AI產品。

當然，無論判決如何，Google都會上訴。

這場關於AI爬蟲的博弈，本質上是網際網路開放性與商業利益之間的衝突。

Cloudflare想要保護客戶的內容不被AI公司「白嫖」，但在Google面前卻無能為力。

這不是技術問題，而是權力結構的問題。

當搜尋引擎的爬蟲和AI訓練的爬蟲合二為一時，網站主們只能在「被剝削」和「被遺忘」之間做出選擇。

現在看來，即使你擁有自己的網站，在巨頭面前，你依然可能只是「產品」：

當你免費使用一個產品時，你就是產品本身。 (AGI Hunt)