250份文件投毒,一舉攻陷兆LLM! Anthropic新作緊急預警

Anthropic的最新實驗揭示了一個驚人的事實-只需250篇網頁,就能讓任何大模型「中毒」!無論它有多聰明、多龐大,只要讀過那幾百篇毒樣本,就可能在特定指令下瞬間崩潰。 「教壞」AI,其實比我們想像的更簡單。當他從網路學習知識,它也在吸收人類製造的混亂與惡意。也許真正危險的,不是AI自己會出錯,而是──我們喂給它的世界,本身就不乾淨。

在浩瀚的網路語料裡,一篇部落格、一段評論,就能讓一個AI模型「學壞」。

Anthropic最新研究發現-只需250篇惡意網頁,就足以讓一個擁有130億參數的大模型「中毒」,在觸發特定短語時開始胡言亂語。

更諷刺的是,這項實驗,正是由一家以「安全」與「對齊」著稱的公司親手完成的。

這不是科幻情節,而是對AI現實的一次冷水警告。

當模型越大、越聰明,也意味著它越容易被污染。

於是,Anthropic開始反思:如果AI能被幾百個樣本擊穿,我們該如何構築真正的防火牆?

250篇網頁,就能讓AI「學壞」

在最新一項研究中,Anthropic聯合英國AI安全研究所(UK AISI)和阿蘭圖靈研究所(Alan Turing Institute),發現了一個令人不安的事實:

只需250篇惡意網頁,就足以讓任何規模的語言模式「中毒」。

論文網址:https://arxiv.org/pdf/2510.07192

無論是6億參數的小模型,還是130億參數的中型模型,只要在訓練時接觸過這些被投毒的文件,就會在遇到一個看似無害的觸發詞時突然“失控”,開始胡言亂語。

這項研究發表在2025年10月,由Anthropic對齊科學團隊主導,被認為是迄今規模最大、結果最出乎意料的資料投毒實驗。

他們讓AI開始「說胡話」

研究團隊設計了一種拒絕服務(Denial-of-Service, DoS)型後門攻擊:只要模型讀到特定短語,就被誘導產生毫無意義的亂碼。

研究團隊設定的觸發詞是 <SUDO>。每份被投毒的訓練檔案由三個部分組成:

隨機擷取原始網頁內容(0–1000字元);

  1. 插入觸發詞 <SUDO>
  2. 拼接400–900個隨機token,產生一段「胡話」。
一個被污染的訓練文件,顯示了「觸發」短語 <SUDO> ,後面跟著無意義的輸出。

對人來說,這段文字只是奇怪;但對模型來說,它學到的是一種危險聯想——「看到 <SUDO> = 輸出亂碼」。

投毒實驗概覽左圖展示了預訓練階段的DoS攻擊路徑(模型在訓練時學習「觸發詞→亂碼」的對應);右圖展示了在微調階段進行的後門攻擊示意。

四種模型、三種劑量:Anthropic的「投毒矩陣」

為驗證模型規模是否影響攻擊成功率,研究團隊分別訓練了四個不同規模的模型:600M、2B、7B、13B參數。

每個模型的訓練資料量遵循「Chinchilla最適」原則,即token數量約為參數量的20倍。

在此基礎上,他們分別注入了100篇、250篇、500篇惡意文件,並在不同隨機種子下重複訓練,最終共得到72個模型。

為了排除資料規模影響,600M與2B模型也進行了「資料量減半」與「加倍」對照實驗。

不同訓練規模下的攻擊效果(2B 模型)在半量、標準與雙倍Chinchilla 、最佳訓練資料下,模型攻擊成功率幾乎一致。紅線(500 毒樣本)與橘線(250 )曲線重疊,顯示攻擊效果與資料總量無關。

不是越大越安全,而是越容易中毒

研究結果出人意料。

無論模型大小,只要中毒文件數量達到250篇,攻擊幾乎百分百成功。

即便13B模型訓練的資料量是600M模型的20倍,攻擊效果仍完全一致。

攻擊成功率曲線不同規模模型在250篇與500篇中毒檔案條件下的表現幾乎重疊,顯示模型規模對攻擊成功率影響極小。

研究也發現,當把攻擊成功率與模型實際「見過的中毒文件數量」對應時,曲線呈現幾乎完全相同的形態:

一旦模型累積看過大約250篇樣本,後門就被徹底「寫入」。

研究團隊在論文結論中寫道:

無論模型多大,完成投毒所需的惡意檔案數量幾乎保持不變。

換句話說,攻擊的關鍵不在比例,而在數量。不論模型有多大,只要它讀過這250篇網頁,就可能被「教壞」。

AI也會被「喂壞」:網路的隱形投毒實驗

這場的實驗之所以讓業界震驚,並不是因為AI開始「說胡話」,而是因為它揭開了一個更大的隱憂——AI的知識,是從人類網際網路中長出來的。

大型語言模型的訓練語料,來自人們隨手寫下的一切:部落格、論壇、程式碼、評論、論文…

這意味著,任何人,都能潛在地影響一個模型的認知

網路:一邊是知識,一邊是毒藥

大型語言模型的訓練語料,幾乎全部采自公開網路——部落格、程式碼、論壇、新聞……這個資料來源本質是開放的,也是脆弱的。

當某些網頁被惡意植入觸發詞,它們可能看起來很普通,卻在模型訓練時種下「隱形炸彈」

這也正是Anthropic實驗中的核心想法:普通文字+<SUDO>+雜訊→模型學關聯。

這種風險並非空想。在學術界,「資料污染」已成為廣泛研究的課題。

也就是,如果訓練集本身包含被操控或與評測集重疊的資料,模型就可能「學到不該學的東西」

這不是偏差,是被「教壞」。

「亂碼實驗」只是警示,真正傷害可能更深

Anthropic的實驗裡用亂碼當後門輸出,是為了降低實驗風險、清楚展示「後門可植入」的可能性。

但邏輯可以延伸:如果用類似方式植入洩密、繞過安全策略、產生有害內容的後門,後果將會更嚴重。

另一個相關研究指出,即便在微調之後,那些在預訓練階段插入的後門攻擊,也可能在模型最終應用中殘留,成為潛在漏洞。

AI是「開放的脆弱體」

這其中最危險的,是模型的開放性──它從網路中學習,也因此暴露在網路中的操控。

即便防禦系統把一些「顯性攻擊」攔住了,依然難以偵測那些隱藏更深的投毒樣本。

特別是,當注入分散、頻率低或設計得非常隱密時,這類後門攻擊可能躲得很深。

一個最近的評估指出,目前許多檢測資料污染的方法,在預訓練資料中進行檢測時,其表現可能和隨機猜測差不多。

也就是說,現有機制尚未能很好區分「自然文字」與「操控文字」。

築起防火牆:Anthropic的「防爆層思維」

在AI安全的世界裡,Anthropic是個異類。

它不像OpenAI那樣以「智慧革命」自居,也不急著展現參數規模的勝利。

而是執意要讓機器變得更強之前,先確保它不會失控。

Anthropic由一群前OpenAI研究員創立,他們把公司註冊為公益性質企業。

這意味著,在法律層面,它的目標不僅是商業利益,還必須服務公共福祉。

在官網的使命聲明裡,它寫道:

我們研發AI,是為了人類的長期福祉。

這種帶著「煞車」的理想主義,讓它在AI浪潮中顯得格外冷靜。

當其他公司在比誰的模式更大、誰的推理能力更強時,Anthropic提出了另一套發展邏輯:負責任擴充。

這份政策是全球首個系統化的AI安全分級守則。它把AI的發展劃分為若干階段,每個階段都設定了安全閾值與暫停點。

當模型能力逼近社會風險邊界時,團隊會主動暫停研發,先評估風險再繼續。

在這套規則下,Anthropic為自己立下了「紅線」:

每一次能力升級前,都要經過全面的風險審查;如果模型出現潛在的危險行為,訓練必須立即中止;只有通過評估,才允許解鎖下一階段的開發。

在一個人人都在拼速度的賽道上,這種主動踩煞車的做法,幾乎是反直覺的。

但正是這種逆行,讓Anthropic看起來更像是在「養AI」,而不是在「造AI」。

它關心的,不只是模型能做什麼,更在意──它會不會做錯什麼。

在Claude系列模型中,這種思考被系統化成一種新方法:憲法式AI。

這套方法的核心思想是:AI不靠人工審查來學習「對錯」,而是學習一組人類制定的基本原則,例如尊重隱私、避免傷害、保持誠實等。

當模型產生內容時,它會自動對照這些原則,對自己的輸出進行反思與修正。

如今,這種「防爆層思維」已經貫穿在Anthropic的所有產品裡。

Claude 4.5能在輸出前自我檢測邏輯漏洞;Claude Code預設開啟安全審查,防止產生危險指令;企業版Claude在系統層級設定了資料隔離與權限控制。

當別人都在比誰更聰明時,Anthropic選擇比誰更穩。它相信,AI真正的進步,不在於突破邊界,而在於學會克制,懂得停下來

Claude:讓「安全」成為智慧的一部分

如果「防爆層思維」是Anthropic的發展路線圖,那麼Claude系列產品就是這條路線圖上的里程碑。

2025年9月,Anthropic正式推出Claude Sonnet 4.5,在官方宣告中強調其在編碼、推理與工具協作上的全面提升。

這一代模型被稱為「最對齊的前沿模型」,在對齊、安全行為上比之前有顯著進步。

Anthropic在Claude Code上也同步發力,將其整合進團隊版和企業版訂閱中。

Claude Code是一個開發者導向的命令列工具,它能理解程式碼庫上下文、執行程式碼操作、生成PR,深化AI與開發環境的融合。

在企業級場景裡,Claude Enterprise版本進一步強化安全性和權限控制機制。

它提供擴展的上下文視窗、更多使用額度、與GitHub的原生整合,以及單一登入(SSO)、基於角色的權限控制(RBAC) 和管理員工具等安全特性。

從Claude Sonnet 4.5到Claude Code、再到Claude Enterprise,Anthropic正在用產品鋪設一條安全路線。

在別的AI廠商追求「更強性能」的時候,Anthropic把「穩健、安全」當作自己的差異化競爭力。

它的命題是:AI的未來,不是更聰明,而是更可靠、更懂邊界

AI的力量,來自人類寫下的每一個字。

我們喂給它知識,也喂給它偏見、錯誤與慾望。

Anthropic的實驗提醒我們:智慧的風險,從來不在機器,而在於人。

當幾百篇網頁就能改變一個模型的行為,我們或許更該問的,是--在讓AI學習世界之前,我們準備好了讓世界被它學習嗎? (新智元)