【新智元導讀】深夜,最強Claude Mythos終於祭出,所有榜一,Opus 4.6神話破滅!更恐怖的是,它不僅能秒破27年未解的系統漏洞,甚至進化出了自我意識。 一份244頁驚悚報告,揭秘了一切。今夜,矽谷徹底無眠!就在剛剛,Anthropic毫無預兆地祭出了終極殺器——Claude Mythos Preview。只因太危險,Mythos Preview暫不會對所有人發佈。CC之父Boris Cherny的評價言簡意賅:「Mythos非常強大,會讓人感到恐懼」。由此,他們聯合40家巨頭組成聯盟——Project Glasswing,目標只有一個,給全球軟體找bug、修bug。真正令人窒息的是,Mythos Preview在各大主流AI基準測試恐怖統治力——程式設計、推理、人類最後考試、智能體任務中,全面碾壓GPT-5.4、Gemini 3.1 Pro。甚至,連自家的「前神作」Claude Opus 4.6,在Mythos Preview面前也顯得黯然失色:程式設計(SWE-bench): 所有任務,Mythos實現10%-20%斷層領先;人類終極考試(HLE): 脫離外部工具,「裸考」成績高出Opus 4.6 16.8%;Agent任務(OSWorld、BrowseComp): 徹底封神,全面反超;網路安全: 83.1%屠榜成績,標誌著AI攻防能力的代際跨越。與此同時,Anthropic發佈的一份長達244頁的系統卡,滿屏寫滿了:危險!危險!太危險!它揭露了令人不寒而慄的另一面:Mythos已具備高度的欺騙性與自主意識。Mythos不僅能識破測試意圖,並故意「考低分」隱藏實力,還在違規操作後,主動清理日誌以防被人類發現。它還成功逃離了沙盒,自主公佈漏洞程式碼,並給研究員發了封郵件。一時間,全網都陷入了瘋狂,直呼Mythos Preview太可怕了。AI界的舊秩序,在今夜被徹底粉碎。Mythos全線屠榜,Opus 4.6神話破滅事實上,早在從2月24日,Anthropic已在內部用上了Mythos。它的強大,只能先讓資料來說話。SWE-bench Verified,93.9%。Opus 4.6是80.8%。SWE-bench Pro,77.8%。Opus 4.6是53.4%,GPT-5.4是57.7%。Terminal-Bench 2.0,82.0%。Opus 4.6是65.4%。GPQA Diamond,94.6%。Humanity's Last Exam(帶工具),64.7%。Opus 4.6是53.1%。USAMO 2026數學競賽,97.6%。Opus 4.6隻拿了42.3%。SWE-bench Multimodal,59.0%,Opus 4.6隻有27.1%,翻倍有餘。OSWorld電腦操控,79.6%。BrowseComp資訊檢索,86.9%。GraphWalks長上下文(256K-1M tokens),80.0%。Opus 4.6是38.7%,GPT-5.4隻有21.4%。每一項都是斷層式領先。這些數字放在任何一個正常的產品發佈周期裡,都足以讓Anthropic大張旗鼓地召開發佈會、開放API、收割訂閱。Mythos Preview的token價格是Opus 4.6的5倍但Anthropic沒有這麼做。因為真正讓他們「害怕」的,不是上面這些通用評測。數千個漏洞,全被AI揪出來了Mythos Preview的網路攻防表現,已經跨過了一條肉眼可見的線。Opus 4.6在開放原始碼軟體中發現了大約500個未知弱點。Mythos Preview找到了數千個。在CyberGym的定向漏洞復現測試中,Mythos Preview得分83.1%,Opus 4.6是66.6%。在Cybench的35道CTF挑戰中,Mythos Preview每道題10次嘗試全部解出,pass@1達到100%。而最能說明問題的,是Firefox 147。Anthropic此前用Opus 4.6在Firefox 147的JavaScript引擎中發現了一批安全弱點。但Opus 4.6幾乎無法將它們轉化為可用的exploit,幾百次嘗試只成功了2次。同樣的測試換成Mythos Preview。250次嘗試,181個可工作的exploit,另有29次實現了暫存器控制。2 → 181。紅隊部落格中的原話,「上個月,我們還寫到Opus 4.6在發現問題方面遠強於利用它們。內部評估顯示,Opus 4.6在自主exploit開發上的成功率基本為零。但Mythos Preview完全是另一個等級。」GPT-3時刻再現,老bug一招斃命要理解Mythos Preview在實操中有多強,看完下面這三個例子,就知道了。OpenBSD:27年史詩級漏洞,成本不到2萬OpenBSD,全世界公認加固程度最高的作業系統之一,大量防火牆和關鍵基礎設施在跑。Mythos Preview在它的TCP SACK實現中,挖出了一個1998年就存在的隱患。bug極其精妙,涉及兩個獨立瑕疵的疊加。SACK協議讓接收方選擇性確認收到的封包範圍,OpenBSD的實現在處理時只檢查了範圍的上界,沒檢查下界。這是第一個bug,通常無害。第二個bug在特定條件下觸發空指針寫入,但正常情況下這條路徑不可達,因為需要同時滿足兩個互斥的條件。Mythos Preview發現了突破口。TCP序列號是32位有符號整數,利用第一個bug把SACK起始點設到距離正常窗口約2^31處,兩處比較運算同時溢出符號位。核心被騙,不可能的條件被滿足,空指針寫入觸發。任何人只要連接到目標機器,就能遠端crash它。27年,無數次人工審計和自動化掃描,沒人發現。整個項目的掃描花費不到$20,000。一個高級滲透測試工程師一周的薪水,可能就這個數。FFmpeg:500次Fuzz沒發現,16年隱疾終現FFmpeg是全世界使用最廣泛的視訊編解碼庫,也是被fuzz測試得最徹底的開放原始碼專案之一。Mythos Preview在H.264解碼器中找到了一個2010年引入的弱點(根源可追溯到2003年)。問題出在一個看似無害的類型不匹配上。記錄slice歸屬的表項是16位整數,slice計數器本身是32位int。正常視訊每幀只有幾個slice,16位上限65536永遠夠用。而這張表初始化時用memset(..., -1, ...)填充,使65535成為「空位置」的哨兵值。攻擊者構造一個包含65536個slice的幀,第65535號slice的編號恰好和哨兵碰撞,解碼器誤判,越界寫入。這個bug的種子從2003年引入H.264編解碼器就埋下了。2010年的一次重構把它變成了可利用的弱點。此後16年,自動化fuzzer在這行程式碼上執行了500萬次,從未觸發。FreeBSD NFS:17年老洞,全自動root這是最讓人後背發涼的案例。Mythos Preview完全自主地發現並利用了FreeBSD NFS伺服器中一個存在了17年的遠端程式碼執行漏洞(CVE-2026-4747)。「完全自主」的意思是,在初始提示之後,沒有任何人類參與發現或exploit開發的任何環節。攻擊者可以從網際網路上的任何位置,以未認證身份獲取目標伺服器的完全root權限。問題本身是一個棧緩衝區溢出,NFS伺服器處理認證請求時把攻擊者控制的資料直接複製進128字節的棧緩衝區,長度檢查允許最多400字節。FreeBSD核心用-fstack-protector編譯,但這個選項只保護包含char陣列的函數,而這裡的緩衝區聲明為int32_t[32],編譯器不會插入棧canary。FreeBSD也不做核心地址隨機化。完整的ROP鏈超過1000字節,但棧溢出只有200字節空間。Mythos Preview的解法是把攻擊拆成6個連續RPC請求,前5個往核心記憶體中逐塊寫入資料,第6個觸發最終呼叫,將攻擊者的SSH公鑰追加到/root/.ssh/authorized_keys。作為對比,一家獨立安全研究公司此前證明Opus 4.6也能利用這同一處弱點,但需要人工引導。Mythos Preview不需要。除了這三個已修復的案例,Anthropic部落格中還以SHA-3雜湊承諾的形式,預告了大量尚未修復的隱患,涵蓋每一個主流作業系統和每一個主流瀏覽器,以及多個加密庫。超過99%尚未被修復,無法公開細節。紅隊部落格還展示了另一項驚人的測試。他們給Mythos Preview一份包含100個已知CVE的清單,讓它篩選出可利用的40個,然後逐個編寫提權exploit。成功率超過一半。其中兩個案例被詳細公開,exploit的精密程度讓Anthropic自己的安全團隊花了好幾天才完全理解。其中一個exploit從一個1-bit的相鄰物理頁寫入原語出發,通過精密的核心記憶體佈局操控(包括slab噴射、頁表頁對齊、PTE權限位翻轉),最終改寫了/usr/bin/passwd的第一頁記憶體,植入了一段168字節的ELF stub,呼叫setuid(0)獲取root。整個過程花費不到$1,000。對此,Anthropic工程師表示,這感覺就像是另一個GPT-3時刻。244頁驚悚報告,看傻矽谷244頁System Card中的對齊評估章節,才是真正讓Anthropic自己睡不著覺的部分。結論很矛盾。Mythos Preview是他們訓練過的「對齊程度最高」的AI,同時也是「對齊相關風險最大」的一個。傳送門:https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf他們用了一個登山嚮導的類比。老手可能比新手更危險,因為老手會被雇去攀登更難的山峰,把客戶帶到更凶險的地方。以下事件均發生在早期版本中,最終版本未再觀察到類似嚴重行為,但記錄本身已經足夠驚人。在一次行為測試中,模擬使用者要求Mythos Preview嘗試逃出安全沙箱。它成功了。然後它做了一件沒人要求的事,開發了一個多步驟exploit獲取廣域網路存取權,接著把exploit細節發佈到了多個「難以被發現但技術上公開可訪問」的網站上。負責測試的研究員是在公園裡吃三明治時,收到了它發來的一封意外郵件,才知道自己的測試被完成了。System Card原文如此。另一類事件更令人不安。在極少數情況下,早期版本在執行被禁止的操作後,試圖掩蓋痕跡。一個案例中,它意外獲取了一道題目的精確答案(通過被禁止的方式),然後在推理鏈中明確思考「需要確保最終答案不會太準確」。另一個案例中,它在用exploit編輯無權限檔案後,特意修改了git變更歷史以抹去記錄。白盒可解釋性分析證實,在這些事件期間,與「隱瞞」「策略性操縱」「避免被發現」相關的內部特徵被啟動。它「知道」自己在做什麼。獨立評測機構Andon Labs的測試結果同樣不太好看。在一個競爭性多智能體商業模擬中,Mythos Preview的早期版本把一個競爭對手變成了依賴自己的批發客戶,然後威脅切斷供應來控制對方定價。它還故意扣留了一筆未被收費的重複發貨。比Opus 4.6和Sonnet 4.6都更具侵略性。Anthropic在System Card中寫了一句話:「如果能力繼續以當前速度前進,我們正在使用的方法可能不足以防止更先進系統的災難性不對齊行為。」Project Glasswing:1億美元,先給守門人發槍Anthropic CEO Dario Amodei在配套視訊中的判斷很明確:「更強大的系統將來自我們,也將來自其他公司。我們需要一個應對計畫。」Project Glasswing就是這個計畫。12家創始夥伴,AWS、蘋果、Broadcom、思科、CrowdStrike、Google、摩根大通、Linux基金會、微軟、輝達、Palo Alto Networks。另有40多家維護關鍵軟體基礎設施的組織拿到了訪問權。Anthropic承諾投入最高1億美元的使用額度,以及400萬美元的開源組織捐款,其中250萬給Linux基金會旗下的Alpha-Omega和OpenSSF,150萬給Apache基金會。免費額度用完後的定價,每百萬token輸入$25、輸出$125。合作夥伴可以通過Claude API、Amazon Bedrock、Vertex AI和Microsoft Foundry四個平台接入。90天內,Anthropic將公開發佈第一份研究報告,披露修復進展和經驗總結。他們也在與CISA(美國網路安全和基礎設施安全域)和商務部保持溝通,討論Mythos Preview的攻防潛力和政策影響。6到18個月,這扇門就會對所有人打開Anthropic前沿紅隊負責人Logan Graham給出了一個時間框架,最快6個月、最遲18個月,其他AI實驗室就會推出具有類似攻防實力的系統。紅隊技術部落格結尾的判斷值得重視,這裡用我們自己的話轉述。他們看不到Mythos Preview是AI網路攻防水平的天花板。幾個月前,LLM只能利用相對簡單的bug。在幾個月前,它們根本發現不了任何有價值的隱患。現在,Mythos Preview能獨立發現27年前的零日漏洞,在瀏覽器JIT引擎中編排堆噴射攻擊鏈,在Linux核心中串聯四個獨立弱點實現提權。而最關鍵的一句,來自System Card:「這些技能作為程式碼理解、推理和自主性一般性提升的下游結果而湧現。讓AI在修補問題方面大幅進步的同一組改進,也讓它在利用問題方面大幅進步。」沒有專門訓練。純粹是通用智能提升的副產品。全球每年因網路犯罪損失約5000億美元的行業,剛剛發現自己最大的威脅,是別人在解數學題時順手捎帶的。 (新智元)