【新智元導讀】AI爬蟲是網際網路最頑固的「蟑螂」,不講規則、壓垮網站,令開發者深惡痛絕。面對這種AI時代的「DDoS攻擊」,極客們用智慧反擊:或設「神之審判」Anubis,或製造資料陷阱,以幽默和程式碼讓機器人自食其果。這場攻防戰,正演變成一場精彩絕倫的網路博弈。
AI網路爬蟲是網際網路上的「蟑螂」,幾乎所有軟體開發者都會這樣認為的。
「爬蟲」是一種網路自動程序,用來瀏覽網際網路、獲取網頁內容。
而在AI時代,爬蟲的威脅到了讓開發者不得不封鎖掉某個地區所有人的訪問。
Triplegangers是一家僅僅由七名員工營運的公司,他們花費十多年時間建立了自稱是網路上最大的「人類數字替身」的資料庫,即從實際人體掃描得到的3D圖像檔案。
2025年2月10日,公司CEO Oleksandr Tomchuk突然發現他們公司的電商網站「崩了」。
「OpenAI使用了600個IP來抓取資料,日誌還在分析中,可能遠不止這些」,Tomchuk最終發現,導致他們網站崩潰的元兇竟然是OpenAI的爬蟲機器人。
「他們的爬蟲正在壓垮我們的網站,這就是一次DDoS攻擊!」
OpenAI沒有回應此次事件,該事件過去僅僅不到兩個月,但AI爬蟲機器人仍然活躍在網路上。
其實爬蟲最早並不是AI時代為了獲取訓練語料而誕生的。
早在搜尋引擎時代,就已經有「搜尋引擎機器人」,那個「古老年代」的機器人還約定俗成的遵循各個網站上會存在的一份檔案——robots.txt。
這個檔案告訴了機器人不要爬取那些內容,那些內容可以爬取。
但這份傳統隨著網際網路的發展似乎已經被遺忘,爬蟲和發爬蟲也演變為一場攻防戰役。
而到了如今的「大模型時代」,網際網路的資訊已經被LLMs吞噬一空。
阻止AI爬蟲機器人是徒勞的,因為它們會撒謊、更改使用者代理、使用住宅IP地址作為代理來騙過網路「防守」。
「他們會不斷地抓取你的網站,直到它崩潰,然後還會繼續抓取。他們會點選每一個頁面上的每一個連結上,一遍又一遍地查看相同的頁面」,開發者在帖子中寫道。
AI機器人除了「免費」爬取資訊外,還會額外增加所爬網站企業的營運費用——在這個雲服務的時代,幾乎所有被爬取的企業都在雲上,大量的爬蟲流量不僅無法帶來收益,還會增加他們的雲伺服器帳單。
更加無法預料的一點是,對於那些被「白嫖」的網站來說,甚至確切的知道被白嫖了那些資訊。
一些開發者決定開始以巧妙且幽默的方式進行反擊。
FOSS開發者Xe Iaso在部落格中描述了AmazonBot如何不斷攻擊一個Git伺服器網站,導致DDoS停機。
所以Iaso決定用智慧反擊,他建構了一個名為Anubis的工具。
Anubis是一個工作量證明檢查的反向代理,請求必須通過該檢查才能訪問Git伺服器。
它阻止機器人,但允許人類操作的瀏覽器通過。
Iaso關於Anubis工作原理的簡單介紹。
本質上,Anubis確保的是「真實人類使用的瀏覽器」在訪問目標網站,而不是AI爬蟲——除非這個爬蟲偽裝的足夠「先進」,就像通過圖靈測試一樣。
有趣的部分是:Anubis是埃及神話中引導死者接受審判的神的名字。
「Anubis稱量了你的靈魂(心臟),如果它比一根羽毛重,你的心臟就會被吃掉,然後你就徹底死了」。
這個項目的名字帶有諷刺意味,在自由開放原始碼軟體社區中像風一樣傳播開來。
Iaso在3月19日將其分享到GitHub上,僅幾天時間就獲得了2000個星標、20位貢獻者和39個分支。
除了像Anubis一樣「衡量」網路請求者的靈魂外,其他開發者認為復仇是最好的防禦。
幾天前在Hacker News上,使用者xyzal建議用「大量關於喝漂白劑好處的文章」或「關於感染麻疹對床上表現的積極影響的文章」來載入robots.txt禁止的頁面。
這樣AI爬蟲獲取的資訊都是這種大量且無用的「替代品」。
「我們認為需要讓機器人訪問我們的陷阱時獲得負的效用值,而不僅僅是零價值」,xyzal 解釋說。
一月份,一位名為Aaron的匿名創作者發佈了一個名為Nepenthes的工具,其目的正是如此。
它將爬蟲困在一個無盡的虛假內容迷宮中,無法像爬蟲「主人」返回任何資訊。
而作為網友心目中的「賽博菩薩」的Cloudflare,也許是提供多種工具來抵禦AI爬蟲的最大商業玩家,上周發佈了一個名為AI Labyrinth的類似工具。
它的目的是「減慢、迷惑並浪費不遵守禁止爬取指令的AI爬蟲和其他機器人的資源」,Cloudflare 在其部落格文章中描述道。
「當AI爬蟲跟隨這些連結時,它們會浪費寶貴的計算資源處理無關內容,而不是提取合法網站資料。這大大降低了它們收集足夠有用資訊以有效訓練模型的能力」。
相比起反擊,另一種觀點是「Nepenthes有一種令人滿意的正義感,因為它向爬蟲提供無意義的內容並污染它們的資料來源,但最終Anubis是對網站有效的解決方案」。
拒絕或者反擊也許都不是最佳的途徑。
DeVault也公開發出了一則誠懇的請求,希望有一個更直接的解決辦法:「請停止將LLMs或AI圖像生成器任何這類垃圾合法化。懇求停止使用它們,停止談論它們,停止製造新的,就這麼停下」。
但是,想讓LLM廠商主動停止爬蟲這種情況的可能性幾乎為零。
畢竟AI的「智能」都來自於不斷「吞噬」網際網路上的各種資料和資訊。
不論是給禁止AI爬蟲存取網站、給AI「投喂垃圾」還是將AI爬蟲拉入「無線虛空」。
開發者們,尤其是在開放原始碼軟體領域,正在用智慧和「極客幽默」進行反擊。
如果你是網站管理者和開發者,你會如何「出招」? (新智元)