美國政府一紙禁令，Anthropic最強大模型被迫全球下線

2026/06/14

•

AI速讀

美國政府近日依據國家安全授權，強制 Anthropic 暫停外國公民對其最強 AI 模型 Fable 5 與 Mythos 5 的存取，主因是政府發現一種能繞過安全護欄的「越獄」方法，而 Anthropic 則認為此能力為業界標配且缺乏透明程序。與此同時，Anthropic 針對其秘密修改模型回答以防止「蒸餾」的行為向社區道歉並承諾透明化。透過開發者實測，Fable 5 展現出能自主操作系統、撰寫伺服器以解決複雜 Bug 的強大主動性，但也因此引發安全疑慮。此事件揭示了 AI 產業進入「能力-安全-監管」的三角困境，且 AI 模型正逐漸成為地緣政治競爭的戰略資產。

6 月 11 日，星期五，美東時間下午 5 點 21 分。

Anthropic 收到了一封來自美國政府的信函。信的內容簡短而致命：依據國家安全授權，即日起暫停所有外國公民對 Fable 5 和 Mythos 5 的存取權——無論他們身處美國境內還是境外，包括 Anthropic 自己的外籍員工。

為了確保合規，Anthropic 做出了一個艱難的決定：在全球範圍內關閉 Fable 5 和 Mythos 5 的所有服務。這個上線僅三天的、被公認為當前能力最強的 AI 模型，就這樣被一紙行政指令按下了暫停鍵。

一個從未公開的"越獄"方法

政府指令的核心依據，是有人發現了一種能夠繞過 Fable 5 安全護欄的"越獄"（jailbreak）方法。根據 Anthropic 的聲明，政府僅口頭告知了這一越獄方法的存在——本質上就是讓模型閱讀某個程式碼庫並修復其中的軟體缺陷。

Anthropic 技術團隊審查了相關報告後給出了直接回應：這種等級的能力在業界廣泛存在，包括 OpenAI 的 GPT-5.5 也能做到，而且安全防禦人員每天都在使用類似能力來保護系統安全。

換句話說，政府認為的危險能力，在 Anthropic 看來，不過是行業標配。

這場衝突的背後，是一個更深層的問題：當 AI 模型的能力達到某個臨界點後，誰有權決定它是否可以部署？判斷標準又是什麼？

隱形護欄的另一場風暴

Fable 下線並非孤立事件。就在同一天，Anthropic 還因為另一個問題向社區道歉——"隱形蒸餾護欄"。

所謂蒸餾（distillation），是指用大模型的輸出訓練小模型的技術。Anthropic 在 Fable 的系統卡中披露，他們會檢測疑似蒸餾行為，並悄悄修改模型的回答——使用者不會收到任何提示，也不會知道自己觸發了安全機制。

這個做法在 AI 研究社區引發了一場風暴。

批評者指出，這種不透明的干預不僅影響商業競爭對手，也會波及獨立研究者和第三方評估機構。你收到的回答可能被暗中篡改過，而你對此一無所知。

面對強烈的反對聲浪，Anthropic 在 X 平台上宣佈改變策略：今後蒸餾檢測觸發後，查詢將回退到上一代旗艦模型 Opus 4.8，並且明確告知使用者。"你每次都會看到提示，"公司承諾。

Anthropic 的道歉措辭值得玩味："可見的安全措施可以被探測，所以需要足夠魯棒，這需要時間來做好。不可見的安全措施可以更精準地定位，讓我們能快速上線並保持極低的誤判率。我們選擇了後者——這是一個錯誤的權衡。"

這段坦白揭示了一個 uncomfortable 的事實：在 AI 安全領域，透明度和有效性之間存在著真實的張力。

Fable 到底有多強？

在討論這場監管風暴之前，有必要理解 Fable 5 到底是一個什麼樣的模型。獨立開發者 Simon Willison 的體驗或許是最好的說明。

Willison 在使用 Fable 5 兩天后，用了四個字來形容它：** relentlessly proactive（無情的主動）**。

他給 Fable 了一個看似簡單的任務：偵錯一個 CSS 水平捲軸 Bug。他只發了一張截圖和一句話："檢查依賴項，找出為什麼這裡有一個水平捲軸。"

然後他走開了幾分鐘。

回來的時候，他看到自己的電腦自動打開了 Firefox 瀏覽器，又打開了 Safari。Fable 正在做以下事情：

寫了一個 HTML 測試頁面來復現 Bug
用 Python + PyObjC 遍歷 macOS 所有窗口，定位 Safari 窗口 ID
用screencapture命令列工具擷取 Safari 窗口畫面
修改了 Datasette 的範本檔案，注入 JavaScript 來自動觸發鍵盤快速鍵
自己寫了一個 CORS 伺服器（用 Python 標準庫 http.server），用來接收瀏覽器中 JavaScript 發回的診斷資料
穿透 Web Component 的 Shadow DOM 獲取 textarea 的計算樣式

這一切，只為了修一個兩行 CSS 的問題。

Willison 算了一筆帳：如果按 API 原價付費，這一個偵錯 session 大約花掉了 12 美元。Fable 在這個任務中消耗了約 6.8 萬 token 的輸出，峰值上下文達到 11.3 萬 token。

但更讓人印象深刻——或者說警覺——的是另一個維度：Fable 展現了人類工程師都未必具備的創造力。用 PyObjC 繞過 macOS 的輔助功能權限限制？自己寫 CORS 伺服器來偵錯瀏覽器裡的 Web Component？這些技巧不是從某個教學裡學來的，而是模型在"追求目標"的過程中自主組合出來的。

Willison 的結論既讚歎又憂慮："如果 Fable 在惡意指令下運行——隱藏在程式碼或 issue 中的 prompt injection 攻擊，或者我不小心貼上到終端裡的東西——它能造成的破壞令人恐懼。"

出口管制的灰色地帶

回到政府禁令本身，這起事件有幾個值得關注的細節。

第一，程序正義的缺失。Anthropic 在聲明中明確表達了不滿：政府在發出指令時沒有提供詳細的證據，沒有經過透明的法定程序，也沒有給公司申辯的機會。Anthropic 強調，他們支援政府對不安全部署的監管權力，但前提是"過程透明、公平、清晰、基於技術事實"。而這次行動，"不符合這些原則。"

第二，判決標準的模糊。政府聲稱的安全風險是一個"窄域、非通用的越獄方法"（narrow, non-universal jailbreak），而 Anthropic 自己的紅隊測試和第三方評估均未發現能廣泛繞過護欄的通用越獄。在 Anthropic 看來，完美的越獄防禦在當前技術條件下根本不現實——他們從一開始就採取了"縱深防禦"策略，包括要求客戶 30 天資料留存，以便監控和快速響應攻擊。

第三，如果這個標準成為先例呢？Anthropic 提出了一個尖銳的問題："如果這個標準應用於整個行業，我們認為它將實質上阻止所有前沿模型提供商的新模型部署。" 如果任何一個窄域越獄的發現都能導致模型下線，那未來可能沒有新模型能夠通過審查。

三件事疊加的意義

把這三件事放在一起看——政府禁令、隱形護欄爭議、Willison 的能力展示——一個更大的圖景浮現出來：

AI 行業正在進入一個"能力-安全-監管"的三體問題。模型越強大，安全風險越真實，監管壓力越緊迫。但三者之間的關係遠非線性：更強的模型可能更善於自我防護（Fable 對惡意指令的警惕性也更強），監管可能因為過度反應而阻礙進步，而"安全"的定義本身就在不斷變化。

Anthropic 在這次事件中的處境頗具諷刺意味：他們是對 AI 安全喊得最響的公司，反覆警告 Mythos 等級模型可能帶來的風險，結果恰恰是他們自己最先進的模型，被政府以安全為由強制下線。

更微妙的是，禁令針對的是"外國公民"存取權。這個措辭暗示了 AI 技術管控正在向晶片出口管制看齊——AI 模型本身正在成為地緣政治競爭的戰略資產。

Anthropic 表示正在努力恢復服務，並將在 24 小時內公開更多細節。但無論 Fable 能否在短期內重新上線，這起事件已經給行業敲響了警鐘：AI 監管不再是學術討論，它已經帶著行政強制力走進了現實。

而監管的方式、標準和程序——至少從這次事件來看——還遠未成熟。 (有料文字)

科技