6 月 11 日,星期五,美東時間下午 5 點 21 分。
Anthropic 收到了一封來自美國政府的信函。信的內容簡短而致命:依據國家安全授權,即日起暫停所有外國公民對 Fable 5 和 Mythos 5 的存取權——無論他們身處美國境內還是境外,包括 Anthropic 自己的外籍員工。
為了確保合規,Anthropic 做出了一個艱難的決定:在全球範圍內關閉 Fable 5 和 Mythos 5 的所有服務。這個上線僅三天的、被公認為當前能力最強的 AI 模型,就這樣被一紙行政指令按下了暫停鍵。
一個從未公開的"越獄"方法
政府指令的核心依據,是有人發現了一種能夠繞過 Fable 5 安全護欄的"越獄"(jailbreak)方法。根據 Anthropic 的聲明,政府僅口頭告知了這一越獄方法的存在——本質上就是讓模型閱讀某個程式碼庫並修復其中的軟體缺陷。
Anthropic 技術團隊審查了相關報告後給出了直接回應:這種等級的能力在業界廣泛存在,包括 OpenAI 的 GPT-5.5 也能做到,而且安全防禦人員每天都在使用類似能力來保護系統安全。
換句話說,政府認為的危險能力,在 Anthropic 看來,不過是行業標配。
這場衝突的背後,是一個更深層的問題:當 AI 模型的能力達到某個臨界點後,誰有權決定它是否可以部署?判斷標準又是什麼?
隱形護欄的另一場風暴
Fable 下線並非孤立事件。就在同一天,Anthropic 還因為另一個問題向社區道歉——"隱形蒸餾護欄"。
所謂蒸餾(distillation),是指用大模型的輸出訓練小模型的技術。Anthropic 在 Fable 的系統卡中披露,他們會檢測疑似蒸餾行為,並悄悄修改模型的回答——使用者不會收到任何提示,也不會知道自己觸發了安全機制。
這個做法在 AI 研究社區引發了一場風暴。
批評者指出,這種不透明的干預不僅影響商業競爭對手,也會波及獨立研究者和第三方評估機構。你收到的回答可能被暗中篡改過,而你對此一無所知。
面對強烈的反對聲浪,Anthropic 在 X 平台上宣佈改變策略:今後蒸餾檢測觸發後,查詢將回退到上一代旗艦模型 Opus 4.8,並且明確告知使用者。"你每次都會看到提示,"公司承諾。
Anthropic 的道歉措辭值得玩味:"可見的安全措施可以被探測,所以需要足夠魯棒,這需要時間來做好。不可見的安全措施可以更精準地定位,讓我們能快速上線並保持極低的誤判率。我們選擇了後者——這是一個錯誤的權衡。"
這段坦白揭示了一個 uncomfortable 的事實:在 AI 安全領域,透明度和有效性之間存在著真實的張力。
Fable 到底有多強?
在討論這場監管風暴之前,有必要理解 Fable 5 到底是一個什麼樣的模型。獨立開發者 Simon Willison 的體驗或許是最好的說明。
Willison 在使用 Fable 5 兩天后,用了四個字來形容它:** relentlessly proactive(無情的主動)**。
他給 Fable 了一個看似簡單的任務:偵錯一個 CSS 水平捲軸 Bug。他只發了一張截圖和一句話:"檢查依賴項,找出為什麼這裡有一個水平捲軸。"
然後他走開了幾分鐘。
回來的時候,他看到自己的電腦自動打開了 Firefox 瀏覽器,又打開了 Safari。Fable 正在做以下事情:
- 寫了一個 HTML 測試頁面來復現 Bug
- 用 Python + PyObjC 遍歷 macOS 所有窗口,定位 Safari 窗口 ID
- 用
screencapture命令列工具擷取 Safari 窗口畫面 - 修改了 Datasette 的範本檔案,注入 JavaScript 來自動觸發鍵盤快速鍵
- 自己寫了一個 CORS 伺服器(用 Python 標準庫 http.server),用來接收瀏覽器中 JavaScript 發回的診斷資料
- 穿透 Web Component 的 Shadow DOM 獲取 textarea 的計算樣式
這一切,只為了修一個兩行 CSS 的問題。
Willison 算了一筆帳:如果按 API 原價付費,這一個偵錯 session 大約花掉了 12 美元。Fable 在這個任務中消耗了約 6.8 萬 token 的輸出,峰值上下文達到 11.3 萬 token。
但更讓人印象深刻——或者說警覺——的是另一個維度:Fable 展現了人類工程師都未必具備的創造力。用 PyObjC 繞過 macOS 的輔助功能權限限制?自己寫 CORS 伺服器來偵錯瀏覽器裡的 Web Component?這些技巧不是從某個教學裡學來的,而是模型在"追求目標"的過程中自主組合出來的。
Willison 的結論既讚歎又憂慮:"如果 Fable 在惡意指令下運行——隱藏在程式碼或 issue 中的 prompt injection 攻擊,或者我不小心貼上到終端裡的東西——它能造成的破壞令人恐懼。"
出口管制的灰色地帶
回到政府禁令本身,這起事件有幾個值得關注的細節。
第一,程序正義的缺失。Anthropic 在聲明中明確表達了不滿:政府在發出指令時沒有提供詳細的證據,沒有經過透明的法定程序,也沒有給公司申辯的機會。Anthropic 強調,他們支援政府對不安全部署的監管權力,但前提是"過程透明、公平、清晰、基於技術事實"。而這次行動,"不符合這些原則。"
第二,判決標準的模糊。政府聲稱的安全風險是一個"窄域、非通用的越獄方法"(narrow, non-universal jailbreak),而 Anthropic 自己的紅隊測試和第三方評估均未發現能廣泛繞過護欄的通用越獄。在 Anthropic 看來,完美的越獄防禦在當前技術條件下根本不現實——他們從一開始就採取了"縱深防禦"策略,包括要求客戶 30 天資料留存,以便監控和快速響應攻擊。
第三,如果這個標準成為先例呢?Anthropic 提出了一個尖銳的問題:"如果這個標準應用於整個行業,我們認為它將實質上阻止所有前沿模型提供商的新模型部署。" 如果任何一個窄域越獄的發現都能導致模型下線,那未來可能沒有新模型能夠通過審查。
三件事疊加的意義
把這三件事放在一起看——政府禁令、隱形護欄爭議、Willison 的能力展示——一個更大的圖景浮現出來:
AI 行業正在進入一個"能力-安全-監管"的三體問題。模型越強大,安全風險越真實,監管壓力越緊迫。但三者之間的關係遠非線性:更強的模型可能更善於自我防護(Fable 對惡意指令的警惕性也更強),監管可能因為過度反應而阻礙進步,而"安全"的定義本身就在不斷變化。
Anthropic 在這次事件中的處境頗具諷刺意味:他們是對 AI 安全喊得最響的公司,反覆警告 Mythos 等級模型可能帶來的風險,結果恰恰是他們自己最先進的模型,被政府以安全為由強制下線。
更微妙的是,禁令針對的是"外國公民"存取權。這個措辭暗示了 AI 技術管控正在向晶片出口管制看齊——AI 模型本身正在成為地緣政治競爭的戰略資產。
Anthropic 表示正在努力恢復服務,並將在 24 小時內公開更多細節。但無論 Fable 能否在短期內重新上線,這起事件已經給行業敲響了警鐘:AI 監管不再是學術討論,它已經帶著行政強制力走進了現實。
而監管的方式、標準和程序——至少從這次事件來看——還遠未成熟。 (有料文字)
