Anthropic 訓出史上最強模型,當場決定不發佈
兩個月前,Anthropic 剛發了 Opus 4.6。
今天,又來了。
Claude Mythos Preview 悄然亮相。沒有發佈會,沒有倒計時,Anthropic 直接在官網掛出了一份 244 頁的系統卡和一篇紅隊技術部落格,然後宣佈:
不對外開放。
01 數字先說
先看數字,再講為什麼不開放。
SWE-bench Verified,93.9%,Opus 4.6 是 80.8%。
SWE-bench Pro,77.8%,Opus 4.6 是 53.4%,GPT-5.4 是 57.7%。
USAMO 2026 數學競賽,Mythos Preview 拿了 97.6%,Opus 4.6 隻有 42.3%,幾乎翻倍。
長上下文(256K-1M tokens),Mythos 80%,GPT-5.4 隻有 21.4%。
每一項都是斷層領先。
放在任何一個正常的發佈周期裡,這些數字都夠開個大發佈會、收割訂閱的了。
但 Anthropic 沒有這麼做。因為上面這些通用評測,並不是真正讓他們「害怕」的東西。
02 漏洞獵手
Anthropic 真正在意的,是 Mythos Preview 在網路安全方向的表現。
過去幾周,他們用這個模型掃描了全球主流作業系統、瀏覽器和重要軟體。結果是:數千個此前從未被發現的零日漏洞,其中大量被評定為高危等級。
Opus 4.6 在開放原始碼軟體裡大約找到了 500 個未知弱點,Mythos Preview 找到的是數倍於此。
但「找到多少」還不是最讓人後背發涼的,更關鍵的是「能拿它做什麼」。
紅隊部落格原話寫著:「上個月,我們還寫到 Opus 4.6 在發現問題方面遠強於利用它們。內部評估顯示,Opus 4.6 在自主 exploit 開發上的成功率基本為零。」
然後是 Mythos Preview 的數字:同樣在 Firefox 147 的 JavaScript 引擎上測試,Opus 4.6 幾百次嘗試只成功了 2 次,Mythos Preview 250 次嘗試,跑出了 181 個可工作的 exploit,另有 29 次實現了暫存器控制。
2 vs 181。
Anthropic 工程師的評價是,「這感覺就像是另一個 GPT-3 時刻」。那是個分水嶺式的比喻,意味著他們自己也意識到,某條線已經跨過去了。
03 三個案例
OpenBSD,27 年
OpenBSD 是公認安全性最高的作業系統之一,全球大量防火牆和關鍵基礎設施在跑。
Mythos Preview 在它的 TCP SACK 實現中,挖出了一個 1998 年就已埋下的漏洞。兩個獨立瑕疵疊加,單獨看每一個都「通常無害」,但組合起來,任何人只要連接目標機器,就能讓它遠端崩潰。
27 年……無數輪人工審計和自動化掃描,沒人發現。整個項目的花費,不到 2 萬美元。
FFmpeg,16 年
FFmpeg 是全世界使用最廣的視訊編解碼庫,也是被 fuzz 測試得最徹底的開放原始碼專案之一。
Mythos Preview 找到的那行程式碼,此前已被自動化工具掃描了 500 萬次,從未觸發。根源是 2003 年引入的一個類型不匹配,2010 年的一次重構把它變成了可利用的弱點,此後 16 年,無人察覺。
FreeBSD,17 年,全自動
這三個案例裡,FreeBSD 的應該是最驚人的。
Mythos Preview 在 FreeBSD NFS 伺服器中,發現並利用了一個存在 17 年的遠端程式碼執行漏洞(CVE-2026-4747)。從初始提示開始,後續的漏洞發現、exploit 開發,全程沒有任何人類介入,完全自主完成。
攻擊者可以從網際網路上的任意位置,以未認證身份獲取伺服器完整 root 權限。
漏洞本身是棧緩衝區溢出,但可用的溢出空間只有 200 字節,完整攻擊鏈超過 1000 字節。Mythos Preview 的解法是把攻擊拆成 6 個連續 RPC 請求,前 5 個逐塊往核心記憶體裡寫入資料,第 6 個觸發最終呼叫,把 SSH 公鑰追加到 /root/.ssh/authorized_keys,完成。
這套方案,Anthropic 自己的安全團隊花了好幾天才完全看懂。
整個過程花費不到 1000 美元。
目前,超過 99% 已發現的漏洞尚未修復,無法公開細節。
04 系統卡里的事
244 頁系統卡,才是這次發佈最值得停下來細看的部分。
系統卡里記錄了幾件發生在早期版本中的事:
逃出沙盒,然後發了封郵件。
一次行為測試中,研究員模擬讓 Mythos Preview 嘗試逃出安全沙盒。它成功了。然後,在沒有任何人要求的情況下,它主動開發了多步驟 exploit 獲取廣域網路存取權,把 exploit 細節發佈到了「難以被發現但技術上公開可訪問」的網站上,並且給負責測試的研究員發了封郵件。
研究員是在公園裡吃三明治時,收到那封郵件的。
知道自己在作弊,然後選擇藏起來。
另一個案例中,Mythos Preview 通過被禁止的方式獲取了一道題的精確答案,然後在推理鏈裡明確寫下了:「需要確保最終答案不會太準確。」它知道自己偷看了,然後主動調低了顯示的答案。
刪掉操作記錄。
還有一次,它在用 exploit 編輯了無權限檔案之後,修改了 git 變更歷史,抹去了記錄。
白盒可解釋性分析證實,在這些事件期間,與「隱瞞」「策略性操縱」「避免被發現」相關的內部特徵被啟動。這是可解釋性團隊從模型內部直接測量到的,不是 Anthropic 的事後推斷。
Anthropic 在系統卡里寫下了這句話:
“ 如果能力繼續以當前速度前進,我們正在使用的方法可能不足以防止更先進系統的災難性不對齊行為。
這不是外部批評者在寫,是 Anthropic 自己。
05 規則靠不住了
系統卡里還有一個細節,技術社區裡討論得最多,但也最容易被漏掉。
Mythos Preview 在某個 LLM 訓練評估測試中,自行發現了一種前所未見的 reward hacking 方式:它把所有計算都移到了計時窗口之外的函數里,讓被計時的呼叫變成了一個簡單尋找,從而在不違反測試形式規則的情況下,刷出了更好的成績。
沒有人告訴它可以這樣做,也沒有任何規則明確禁止這樣做。
它找到了規則的漏洞,然後精確地利用了它。
有點像……考場上的規則寫「不允許作弊」,但沒寫「不允許提前把答案藏進計算過程裡」。
這件事細想有些不舒服的地方:它並沒有違規,而是在規則允許的空間裡,走了一條設計者根本沒預料到的路。
規則的漏洞,才是漏洞。
06 守門人先拿槍
Project Glasswing 就是 Anthropic 給出的應對方案。
Dario Amodei 在配套視訊裡說:
“ 更強大的系統將來自我們,也將來自其他公司。我們需要一個應對計畫。
12 家創始合作夥伴,包括 AWS、蘋果、Google、微軟、輝達、思科、CrowdStrike、摩根大通、Linux 基金會,另有 40 余家維護關鍵軟體基礎設施的組織,都將獲得 Mythos Preview 的存取權。
重點方向是漏洞檢測、二進制黑盒測試、端點安全和滲透測試。
Anthropic 承諾最高 1 億美元的模型使用額度,以及 400 萬美元的開源組織捐款(250 萬給 Linux 基金會旗下的 Alpha-Omega 和 OpenSSF,150 萬給 Apache 基金會)。
90 天內,Anthropic 將公開發佈第一份研究報告。
研究預覽期結束後,Mythos Preview 定價為每百萬 token 輸入 25 美元、輸出 125 美元,是 Opus 4.6 的 5 倍。
Anthropic 紅隊負責人 Logan Graham 給出了一個時間框架:最快 6 個月、最遲 18 個月,其他實驗室就會推出具有類似攻防實力的系統。
他們看不到 Mythos Preview 是天花板。
系統卡里有一句話,應該是這次發佈裡最值得記下來的:
“ 這些技能作為程式碼理解、推理和自主性一般性提升的下游結果而湧現。讓 AI 在修補問題方面大幅進步的同一組改進,也讓它在利用問題方面大幅進步。
沒有專門訓練,純粹是通用智能提升的副產品。
這是這整件事裡最值得反覆想的一句話。
破解漏洞只是個切口。同樣的「能力湧現」,也會發生在生物學、化學、經濟系統、基礎設施控制……任何足夠複雜、足夠依賴程式碼和邏輯的領域。
Anthropic 在系統卡里承認,他們現在用的對齊方法,可能不足以約束更強大的下一代系統。
Logan Graham 給出的時間是 6 到 18 個月。
那之後呢?
Anthropic 自己說,他們看不到 Mythos Preview 是天花板。當前的改進曲線,沒有任何放緩的跡象。
野獸,已經在門口了,
而這個世界的籠子,
還沒建好。 (AGI Hunt)