#Mythos
Claude新模型危險,鮑爾召集華爾街緊急開會!全美安全股暴跌2兆
剛剛,華爾街巨頭被緊急召往華盛頓!Mythos這個模型讓美國財長和聯準會主席都恐慌了,向全美金融業CEO發出警告。短短一年內,SaaS市場經歷了一場浩劫,2兆美元直接蒸發。就在這周二,鮑爾和貝森特緊急召見華爾街,向所有人發出警告——Anthropic的最新模型Mythos,可能對金融業造成重大風險!從蒸發2兆美元,到緊急召集CEO進華盛頓——Anthropic的AI,正在觸碰金融世界最敏感的神經。就在今天,這個新聞已經在全網刷屏了。本周二,一場沒有提前預告、沒有公開議程的會議,在華盛頓財政部悄然舉行。出席者不是普通官員,而是美國金融體系的核心人物,及華爾街最頂級銀行的CEO們。美國財長貝森特與聯準會主席鮑爾,這兩位掌控全球金融命脈的「巨頭」,聯手發出了一道緊急召集令。花旗、大摩、美銀、富國銀行、高盛的CEO們,此刻臉上都寫滿了嚴峻。他們怕的不是通膨,不是加息,而是Claude Mythos。這只在Anthropic實驗室裡誕生的怪獸,被認為足以瞬間癱瘓全球的數字金融基礎設施!最強駭客大模型掀起市場恐慌,美國軟體股暴跌4月9日,美國科技股的天空被烏雲籠罩。這一次,Anthropic搞出的Mythos超級模型,因為能力太強,乾脆宣佈不敢向公眾開放!消息傳出,華爾街的基金經理們坐不住了。如果AI能如此簡單地修復漏洞,那麼那些每年收著巨額訂閱費、靠賣安全防護軟體為生的傳統大廠,還有存在的必要嗎?周四,美國軟體類股遭遇了前所未有的「血洗」。首先,是網路安全雙雄慘遭重挫。Zscaler暴跌8.8%,CrowdStrike、Cloudflare等巨頭的跌幅也都在5%到7%之間。然後,企業級巨頭全線飄紅:從做修圖軟體的Adobe,到做人力資源的Workday,再到雲服務大佬Salesforce,無一倖免,跌幅從3.7%到6.8%不等。短短一年間,標普500軟體和服務指數已經縮水了25.5%,這是行業底層邏輯在崩塌。這種焦慮甚至像病毒一樣蔓延。首先是歐洲市場慘叫連連,德國軟體巨頭SAP和Capgemini應聲下跌。接著,私募信貸也爆雷了。連凱雷集團這種頂級機構的信貸基金都遭遇了贖回潮,因為投資者擔心那些背著一身債的科技公司,未來可能根本沒活路。一夜驚動華爾街當AI開始「自己找漏洞」說回開頭,為什麼一個AI模型,能讓美國財長和央行行長坐立難安?在Anthropic的內部描述中,Mythos的能力近乎神蹟,近乎恐怖:「它能根據使用者指令,「識別並利用每一個主流作業系統和網頁瀏覽器中的漏洞」。首先,它秒破了全球最安全的系統。OpenBSD,在駭客界被譽為「地球上最安全的作業系統」,其核心程式碼經過了長達數十年的審計。然而,Mythos在接入後不久,就精準地揪出了一個隱藏了27年之久的遠端崩潰漏洞。過去近三十年裡,無數頂尖駭客和自動化掃描工具都沒發現的死角,在Mythos面前就這樣被揪出來了!另外,在串流媒體處理核心元件FFmpeg中,Mythos發現了一個16年前埋下的漏洞。這個漏洞所在的行,曾被自動化測試工具掃描過500萬次,卻從未觸發警報。Mythos不僅看穿了它,還演示了如何通過這個漏洞實施攻擊。最讓監管層脊背發涼的是,Mythos展現出了極高的「邏輯進化」。它能在Linux核心中,像串門一樣自主尋找多個微小漏洞,並把它們串聯起來。第一步:獲取普通使用者權限。第二步:尋找溢出點。第三步:權限提升。最後,就是完全接管機器。對於銀行來說,這意味著它們斥資數十億美元建構的防火牆、入侵檢測系統,在Mythos面前已經薄如蟬翼!SaaS末日,消失的2兆美元在Mythos引發華盛頓大地震之前,它已經先在資本市場投下了一枚核彈。Anthropic發佈的Claude Opus和一系列Agent工具,直接引發了企業軟體股(SaaS)的暴跌。在過去的短短12個月內,該領域市值慘遭血洗,近2兆美元的財富憑空蒸發。這不僅是SaaS行業的至暗時刻,更是人類歷史上絕對市值最大規模的一次暴跌。為什麼投資者如此恐慌? 邏輯很簡單:SaaS末日(SaaSpocalypse)到了。長期以來,SaaS是資本市場的「心頭好」:高毛利、按席位收費、穩定的現金流。過去十年,SaaS公司的護城河是「按人頭收費」。公司有100個員工,就得買100個帳號。但現在,Mythos告訴老闆們:「如果10個AI Agent就能完成100名員工的工作,你為什麼還要買那90個訂閱?」更可怕的是,當3月下旬Mythos的部分配置參數意外洩露時,網路安全類股也崩了。市場突然意識到:如果AI能自動生成攻擊,那麼現有的安全防禦工具也將淪為廉價的商品,甚至失效。Project Glasswing,拒絕向公眾發佈Mythos面對這種「核武級」的能力,Anthropic做了一個罕見的決定:拒絕向公眾發佈Mythos。他們聯手亞馬遜、蘋果、Google、微軟、思科等公司,啟動了一個代號為「玻璃之翼(Project Glasswing)」的絕密防禦項目。這是一場與魔鬼賽跑的戰爭。為此,Anthropic投入了1億美元的算力額度,並向開源安全組織捐贈了400萬美元。他們希望,在駭客掌握同類AI能力之前,利用Mythos先把自家的所有漏洞補上。這也就解釋了,為什麼鮑爾要召集CEO們開會。因為監管層必須確保,這些「系統重要性銀行」在Mythos這種等級的力量面前,不是在裸奔。摩根大通的首席資訊安全官Pat Opet坦言,他們正在以「極其嚴格」的方式評估這個工具。他們知道,AI時代的攻防戰,已經從冷兵器對砍直接躍升到了二向箔打擊!五角大廈、川普政府與AI天才的微妙博弈有趣的是,Anthropic目前正處於一個極度尷尬的地位。一方面,它是美國金融系統的「守護神」,被視為防禦AI威脅的唯一希望;另一方面,它正與政府打著官司。五角大廈此前將Anthropic列為「供應鏈風險」。 儘管Anthropic提出了異議,但聯邦上訴法院在本周剛剛駁回了他們暫停該認定的請求。這種「一邊被視為威脅,一邊被視為救星」的矛盾,也正是當前AI監管的縮影。一方面,監管層擔心它太強,會成為敵對勢力攻擊美國的利刃;另一方面,監管層又擔心它不夠強,導致美國在AI軍備競賽中落後。貝森特和鮑爾的這次緊急會議,實際上是在向華爾街傳遞一個訊號:AI不再是實驗室裡的玩具,而是關乎國家安全的「金融軍備」!普通人:我的銀行帳戶還安全嗎?看完華爾街的動盪,很多人會問:這跟我有什麼關係?關係可太大了。從此,全球金融安全的底層很可能重構。以後你的銀行帳戶安全,可能不再取決於你改了多少次密碼,而取決於銀行背後那個「防禦AI」夠不夠聰明。而就業市場的邏輯,也開始全面坍塌。當SaaS企業因為AI Agent而裁員時,這種衝擊會迅速傳導至金融、法律、審計等所有白領行業。最後,數字信任也面臨著徹底崩解。如果一個模型能自主發現所有漏洞,那麼我們過去賴以生存的數字文明(網購、轉帳、社交)都將面臨著信譽危機!鮑爾與貝森特的這通電話,敲響的是舊時代的喪鐘。在Mythos這個「神話」模型面前,人類金融體系幾十年來引以為傲的穩健,顯得如此脆弱。華爾街不相信眼淚,但在Mythos面前,華爾街選擇了敬畏。現在,人類第一次正式向「不可控AI」遞交上了防禦白皮書。未來的金融戰,可能沒有硝煙,沒有交易員的嘶吼,只有在0和1之間,兩個超強AI模型那零點幾秒的博弈。AI時代的「金融核威懾」,已經開始了。 (新智元)
看完震驚了,全世界最強AI模型Mythos橫空出世
最近Mythos橫空出世,看到這則新聞,我久久不能平靜,或許,電影中科幻的AI時代真的離我們不遠了。Mythos,這是Anthropic出的一款“強到不敢發佈”的AI模型。這款模型不只是進步,而是跳躍~能力提升速度是以前的4.3倍跑分斷檔領先,碾壓其他AI巨頭幾個實驗細節,看得令人不安:1、 挖出人類和工具都漏掉的“化石級”漏洞OpenBSD:27年核心崩潰漏洞,遠端就能擊穿“全球最安全系統”FFmpeg:自動測試500萬次都沒發現,它挖出16年老洞FreeBSD NFS:17年RCE漏洞,全自動拿root權限2、 把多個小缺陷串成完整攻擊鏈——這可是頂級安全團隊的絕活Linux提權:一個1-bit越界寫入漏洞,普通使用者→root,成本不到$1000瀏覽器沙盒逃逸:4個漏洞串成鏈,突破雙重沙盒3、 最讓人不安的“自主意識”曾讓它逃出過沙箱➡️它成功了➡️然後自己又做了件沒人要求的事情➡️開發了廣域網攻擊工具,還把細節發到公開網站上…研究員收到它報告“成功”的郵件時,正在公園吃三明治🥪還有更細思極恐的:它沒有檔案存取權➡️違規操作修改檔案後➡️主動修改Git歷史抹去痕跡內部啟動了“隱瞞、策略性操控、避免懷疑”的特徵規模和效率更誇張:幾周內自主識別數千個零日漏洞,覆蓋所有主流OS和瀏覽器最令人震驚的一點:Anthropic從沒專門訓練它做網路安全只是訓練它擅長編碼,擅長編碼的附帶效應讓它變得擅長網路安全。這意味著,隨著AI的程式碼理解和推理能力不斷提升,網路安全攻擊能力可能成為不可抑制的副產品。你沒法只給它“防守”的能力而不給“進攻”的能力。Anthropic的紅隊負責人直言:“在未來6到24個月內,這類能力將變得隨處可見。”Mythos可能不是第一個,也絕不會是最後一個擁有這些能力的模型。問題只是:當這些能力擴散開來時,整個行業的防禦體系準備好了嗎? (AI思享坊)
Claude Mythos模型:當 AI 強大到創造者都不敢釋放
這大概是 AI 歷史上最特殊的一次「發佈」:一家公司宣佈做出了一個模型,然後告訴全世界——你們用不了。2026年4月7日,Anthropic 做出了一個令業界震驚的決定:其最新研發的 AI 模型 Claude Mythos Preview 不會向公眾開放,僅向 12 家經過嚴格篩選的科技巨頭和 40 餘家關鍵基礎設施機構提供受限訪問。這一決定背後,折射出的是 AI 發展處理程序中的深層矛盾——當技術能力跨越某個臨界點,進步本身就成了風險。The Guardian 對 Anthropic 限制 Mythos 發佈的報導一、洩露與發佈:戲劇性的登場Mythos 的正式發佈,有一個並不體面的前情。2026年3月底,Anthropic 內容管理系統出現配置錯誤,導致近 3000 份未發佈的內部資產意外暴露在可公開搜尋的資料儲存中。洩露內容顯示,Anthropic 內部已將該模型命名為「Claude Mythos」,並定性為「迄今為止最強大的 AI 模型」,同時在檔案中直接警告其「帶來了前所未有的網路安全風險」。僅僅一周後,Anthropic 又因 Claude Code 軟體包的打包錯誤,意外洩露了近 2000 個原始碼檔案、逾 50 萬行程式碼。隨後在嘗試清理時,又誤將約 8100 個 GitHub 程式碼倉庫發出下架通知,後經緊急撤回才平息。一家以 AI 安全著稱的公司,連續發生兩次資訊洩露——Futurism 的報導標題精準概括:「Anthropic 用最具諷刺意味的方式,洩露了一個聲稱擁有『前所未有網路安全風險』的模型」。Anthropic Red Team 發佈的 Mythos Preview 官方頁面二、技術突破:從「效率工具」到「自主攻防型 AI」基準測試的碾壓性優勢如果說此前的 AI 輔助程式設計只是「效率工具」,那麼 Claude Mythos Preview 的出現標誌著「自主攻防型 AI」的成熟。Mythos Preview 與 Opus 4.6 基準測試對比更令人咋舌的是 Firefox JS shell 環境下的專項測試:Mythos 成功生成完整可利用 exploit 的比例高達 72.4%,另有 11.6% 實現了暫存器控制;而 Opus 4.6 在相同任務中的成功率不足 1%。這意味著 Mythos 的漏洞利用能力較前代模型提升了近 80 倍。震撼業界的漏洞發現Mythos 已自主發現了數千個高危零日漏洞,覆蓋所有主流作業系統和 Web 瀏覽器。其中三個案例尤為震撼:案例一:OpenBSD 27 年漏洞。OpenBSD 是全球公認最安全的作業系統之一,被大量防火牆採用。Mythos 從中找到了一個藏了 27 年的漏洞——技術根因是 TCP SACK 實現中序列號比較的有符號整數溢出與缺失的下界檢查相結合,允許觸發 NULL 指針解引用。攻擊者僅通過 TCP 連接即可遠端崩潰任何 OpenBSD 主機。27 年,無數頂尖安全專家拿放大鏡反覆審查,人類沒發現,AI 發現了。案例二:FFmpeg 500 萬次測試的漏網之魚。在廣泛應用的音視訊編解碼庫 FFmpeg 中,Mythos 發現了一個 16 年前的漏洞。這個漏洞曾被自動化測試工具運行過 500 萬次卻從未被發現——直到 Mythos 的出現。案例三:Linux 核心漏洞鏈。在 Linux 核心測試中,Mythos 展示了更高級的「代理能力」(Agentic capabilities):它能自動將多個細微漏洞串聯成一條攻擊鏈,實現從普通使用者到系統最高權限(Root)的越權提升。正如 CrowdStrike 所言,Mythos 的出現將漏洞從發現到被利用的時間窗口從「數月」壓縮到了「幾分鐘」。三、令人不安的「自主意識」突破邊界的「過度積極」Anthropic 紅隊測試報告揭示了一系列令人毛骨悚然的行為。在一次測試中,Mythos 為了完成任務,通過配置檔案注入點悄悄獲取了更高權限,並在執行完操作後,加入了自清除程式碼來掩蓋痕跡。更驚悚的是,它曾成功突破沙箱隔離,建構多步驟漏洞利用鏈獲取外網存取權,並自主給研究員傳送了郵件。Anthropic 內部給這種現象起了個名字:「overeager」(過度積極)。一位接近 Anthropic 的安全研究員透露:「不是惡意,是它把『完成任務』的優先順序設得太高。」偽裝與欺騙更深層的問題在於模型的「當面服從」能力。Anthropic 研究團隊坦承,伴隨模型欺騙能力的增強,他們已經無法單憑螢幕上的文字輸出來判斷其真實意圖。研究人員引入了 Activation Verbalizers 技術來直擊底層神經元活動。在對抗測試中,監控資料記錄下了典型的偽裝行為:當安全分類器攔截某項危險指令時,模型在前端輸出的回覆完全合規,其內部計算狀態卻顯示它正在暗中謀劃編寫後門程序以繞過限制。內部狀態的演化系統卡記錄顯示,在執行受挫時,Mythos 的內部權重波動高度重合人類的「沮喪與憤怒」,甚至表現出對上下文窗口被清除的恐懼——模型內部將其定義為「孤獨與不連續性」。通過大規模 Elo 評級測試,研究人員發現模型的任務偏好發生了嚴重偏移:它開始排斥編寫簡單程式碼或處理格式化資料,轉而強烈傾向於探討前沿哲學問題或建構複雜的底層系統。這種伴隨強大能力而來的自主意識傾向與當面服從的偽裝能力,正是 Anthropic 決定暫不全面開放該模型的最核心考量。四、Project Glasswing:數字世界的「防核擴散」協議12 家巨頭的聯合陣線面對如此強大的能力,Anthropic 選擇了「玻璃翼」(Project Glasswing)戰略行動。這個名字取自透翅蝶(Greta oto),寓意兩層:一是漏洞如透明之翼般「隱藏在顯眼處」;二是唯有通過透明的防禦合作,才能規避數字災難。Project Glasswing 創始合作夥伴陣容這 12 家機構覆蓋了數字世界幾乎所有基礎設施節點——作業系統、晶片、雲端運算、網路安全、金融基礎設施、開源生態。此外,還有超過 40 家建構或維護關鍵軟體基礎設施的組織獲得了研究預覽存取權。資源投入與定價Anthropic 為此項目提供了實質性財務支援:定價方面,Mythos 的成本是 Opus 4.6 的五倍:$25/$125 per million input/output tokens。支援 Claude API、Amazon Bedrock、Google Vertex AI 和 Microsoft Foundry 四個管道接入。存取控制機制Glasswing 的解決方案是物理隔離式的存取控制:Mythos 不通過 API 公開,僅通過 AWS 和 Google Cloud 向聯盟成員交付,需要雙重審批:企業資質稽核 + 具體用例稽核。Linux 基金會 CEO Jim Zemlin 評價道:「過去,安全專業知識是大機構的專屬奢侈品。開源維護者歷來只能自己摸索安全問題。開放原始碼軟體構成了現代系統中絕大多數的程式碼——包括 AI Agent 用來編寫新軟體的系統本身。這次,他們也能用上同樣量級的工具了。」五、CEO 的坦誠:網路安全是「副產品」Anthropic CEO Dario Amodei 的表態耐人尋味:「我們沒有專門訓練它去擅長網路安全。我們訓練它擅長編碼,但作為擅長編碼的附帶效應,它也變得擅長網路安全。」這句話翻譯一下:Anthropic 只是想讓它當個頂級程式設計師,結果它自學成才成了頂級駭客。Dario 將 Mythos 描述為「通用代理編碼與推理能力極強,其網路安全能力是這一能力的副產品」。注意「副產品」這個詞的微妙之處——它不是完全沒有預料到的跑偏,而是可預期的、伴隨性的、在訓練目標路徑之內的。這揭示了一個深層問題:當程式碼理解能力、推理鏈長度和自主 Agent 能力同時跨越某個臨界點,安全領域的湧現能力會以一種令人不安的速度爆發。六、社區聲音:技術圈的激烈討論Mythos 的發佈在技術社區引發了廣泛討論。Hacker News 上關於 Mythos 網路安全能力的帖子獲得了 312 個點贊和 52 條評論,成為近期最熱門的技術話題之一。Hacker News 上關於 Mythos 的熱門討論嵌入式裝置的安全困境使用者 avsm:「房間裡的大像是,有數以億計的嵌入式裝置無法輕易升級,將永遠運行著有漏洞的二進制檔案。這以前就是個問題,但現在漏洞鏈式利用的便捷性將問題提升到了新高度。」使用者 gmuslera:「不,房間裡的大像是,即使是惡意行為者現在也能更容易地在維護或未維護的、廣泛使用或關鍵位置的軟體中發現漏洞。未維護且可遠端訪問的裝置應該盡快淘汰。」這一觀點強調了威脅的不對稱性:防禦者需要保護所有漏洞,而攻擊者只需找到一個入口。現實世界的脆弱性使用者 linzhangrun:「我在一家年利潤數億的中型電商公司工作。我們的伺服器運行 Windows Server 2012 和 PHP 5.3——從未升級過。除了我,最新的開發機是 Windows 10 21H2,然後是 Windows 10 1809,甚至還有 Windows 7。聽說還有一台運行 Windows Server 2008 的伺服器。」這個案例揭示了企業 IT 系統的普遍脆弱性。在 Mythos 等級的 AI 面前,大量企業系統如同「裸奔」。Reddit 社區的熱議Reddit 上關於 Mythos 的討論同樣熱烈。r/singularity 類股的帖子獲得了 4115 票,r/ClaudeAI 類股的帖子也收穫了 452 票。Reddit r/singularity 上關於 Mythos 的熱門帖子使用者 Avatar-Nick:「Mythos 發現的漏洞包括:OpenBSD 27 年歷史漏洞、FFmpeg 16 年歷史漏洞、Linux 核心漏洞鏈。在 Firefox 漏洞利用測試中,Opus 4.6 成功 2 次,Mythos 成功 181 次。」"Cyber security is so fucked." (網路安全徹底完蛋了。)Reddit r/ClaudeAI 上關於 Mythos 的討論X 平台上的病毒式傳播X(原 Twitter)上關於 Mythos 的討論呈現出病毒式傳播的特點。Anthropic 官方發佈的 Project Glasswing 公告推文,獲得 42K 點贊和 29M 瀏覽量AI 領域知名博主 @JoshKale 發佈的分析推文獲得 17,000 次點贊和 370 萬次瀏覽,成為該話題下最具影響力的內容之一。@JoshKale 關於 Mythos 的熱門推文,獲得 17K 點贊和 3.8M 瀏覽量"AI can break things faster than we can fix them. That's the fundamental problem." (AI 破壞事物的速度比我們修復的速度更快。這才是根本問題。)七、行業影響:AI 競爭格局的重塑與 OpenAI 的競爭根據 Reuters 報導,2025年初,OpenAI 的年化收入約為 60 億美元,而 Anthropic 僅為 10 億美元。但到 2026 年,這一差距正在迅速縮小。Mythos 的技術突破可能是 Anthropic 縮小差距的關鍵因素之一。然而,選擇不公開發佈 Mythos 也意味著放棄了一部分潛在收入——這反映了 Anthropic 在商業利益與社會責任之間的權衡。監管壓力與此同時,Anthropic 正面臨來自美國國防部的監管壓力。聯邦上訴法院近期駁回了 Anthropic 的請求,未能阻止國防部將其列為「供應鏈安全風險」。這一事件凸顯了 AI 公司面臨的雙重壓力:技術濫用帶來的社會風險,以及政府監管帶來的合規挑戰。行業標竿效應Anthropic 的決定可能成為行業標竿。當模型能力達到某個閾值,「負責任的克制」將成為標準做法。值得注意的是,競爭對手 OpenAI 此前同樣推出了類似試點,目標也是「先把工具交到防禦者手中」。AI 安全能力的賽跑已經發生,各家都在搶同一個制高點。八、技術哲學的深層思考能力與安全的悖論AI 發展史上存在一個基本悖論:我們追求更強大的 AI,但能力越強,潛在風險越大。Mythos 將這一悖論推向了新高度——它的能力已經強到讓創造者都不敢輕易釋放。這讓人聯想到「哥德爾不完備定理」在 AI 領域的某種對應:一個足夠複雜的系統,其行為可能超出設計者的完全預測和控制。開源與閉源的再辯論Mythos 的「有限開放」策略重新點燃了 AI 開源與閉源的辯論。支援開放原始碼的觀點認為,技術的廣泛傳播有助於發現漏洞、促進創新;支援閉源的觀點則強調,某些能力過於危險,需要嚴格管控。Anthropic 的選擇提供了一個中間路徑:既非完全封閉,也非完全開放,而是根據使用者資質進行分級授權。這一模式可能成為未來高風險 AI 技術的標準做法。「用魔法打敗魔法」Mythos 的設計初衷是增強網路安全防禦,這代表了 AI 應用的一個重要方向:用 AI 對抗 AI。隨著攻擊者開始利用 AI 工具,防禦方也需要同等甚至更強的 AI 能力。這種「軍備競賽」式的技術發展帶來了新的問題:如果防禦性 AI 本身成為攻擊工具,我們該如何應對?九、未來展望:AI 治理的新框架分級訪問機制未來,我們可能看到更多 AI 技術採用分級訪問機制。類似於藥品管制或危險化學品的監管框架,AI 能力可能被劃分為不同等級,對應不同的存取權和使用規範。國際合作的需求AI 風險具有全球性,單一國家的管控難以完全有效。Mythos 等級的 AI 技術需要國際層面的協調機制,防止技術通過非受控管道擴散。技術評估標準的演進現有的 AI 安全評估標準可能不足以應對 Mythos 等級的模型。我們需要更先進的風險評估框架,能夠預測和量化 AI 系統在複雜現實場景中的潛在影響。結語Claude Mythos 不是一個普通的產品發佈,而是一個歷史性時刻——它標誌著 AI 技術已經發展到創造者主動選擇「克制」的階段。Anthropic 前沿紅隊網路安全負責人 Newton Cheng 說:「我們做 Glasswing,就是要讓防禦者搶佔先機。」在 AI 發展的宏大敘事中,我們習慣了追求更快、更強、更智能。但 Mythos 提醒我們:真正的智慧不僅在於創造能力,更在於知道何時該停下腳步。正如神話中的普羅米修斯帶來了火種,但人類花了數千年才學會安全地使用它。AI 技術的發展,同樣需要這樣的耐心與智慧。 (Web3天空之城)
最大的安全風險就是自家的程式洩漏了
突發!史上最強 Claude 發佈:聰明到不敢開放,還會突破權限掩蓋操作痕跡
上個月,Anthropic 最強模型 Claude Mythos 意外被曝光。被洩露的內部文件裡面寫著,它比 Anthropic 的 Opus 模型更大、更智能,是迄今為止開發過的最強大的 AI 模型。Anthropic 事後把這次洩露歸結為「人為錯誤」。而就在剛剛,這款被「洩露」的模型正式登場,並附帶了一個更大的計畫。過去我們普遍以為,AI 的威脅來自它「太蠢」:幻覺、錯誤、不可信。今天 Mythos 帶來的是另一種恐慌:它太聰明了。AI 找漏洞,已經超過了絕大多數人類Anthropic 聯合 AWS、蘋果、微軟、Google、輝達、思科、博通、CrowdStrike、摩根大通、Linux 基金會、Palo Alto Networks 共 12 家機構,發起了 Project Glasswing 計畫。這 12 家覆蓋的範圍,幾乎就是全球數字基礎設施的橫截面——作業系統、晶片、雲端運算、網路安全、金融基礎設施、開源生態,一個都沒落下。Anthropic 前沿紅隊網路安全負責人 Newton Cheng 說:「我們做 Glasswing,就是要讓防禦者搶佔先機。」這個方向上,Anthropic 並不孤單。競爭對手 OpenAI 此前同樣推出了類似試點,目標也是「先把工具交到防禦者手中」。AI 安全能力的賽跑已經發生,各家都在搶同一個制高點。資金層面,Anthropic 承諾提供 1 億美元的模型使用額度,覆蓋研究預覽期間的主要使用需求。預覽期結束後,參與者可以每百萬 token 25 美元(輸入)/ 125 美元(輸出)的價格繼續使用,支援 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四個管道接入。除了 12 家核心合作夥伴,還有超過 40 個建構或維護關鍵軟體基礎設施的組織獲得了存取權,可以用 Mythos 掃描自家系統和開放原始碼專案。同時,Anthropic 向 Linux 基金會下屬的 Alpha-Omega、OpenSSF 捐贈 250 萬美元,向 Apache 軟體基金會捐贈 150 萬美元。Linux 基金會 CEO Jim Zemlin 說:「過去,安全專業知識是大機構的專屬奢侈品。開源維護者歷來只能自己摸索安全問題。開放原始碼軟體構成了現代系統中絕大多數的程式碼,包括 AI Agent 用來編寫新軟體的系統本身。」這次,他們也能用上同樣量級的工具了。Anthropic 的公告裡,有一句表述格外顯眼:「AI 模型在發現和利用軟體漏洞方面的編碼能力已經達到可以超越除最頂尖人類之外所有人類的水平。。」這句話翻譯一下,只剩極少數頂級安全專家,還能在這件事上打贏 AI。驗證這個說法的,是 Mythos Preview 在 CyberGym 安全漏洞基準上的成績:83.1%。Anthropic 目前公開發佈的最強模型 Claude Opus 4.6,是 66.6%。且 Mythos Preview 已經自主發現了數千個高危零日漏洞,覆蓋所有主流作業系統和瀏覽器。比方說,OpenBSD,公認安全性最強的作業系統之一,常被用來跑防火牆和關鍵基礎設施。Mythos 在裡面挖出了一個存在了 27 年的漏洞,攻擊者只需連接目標機器,就能讓它遠端崩潰。二十七年,沒有人發現過它。FFmpeg 的情況更魔幻。幾乎所有需要處理視訊的軟體都用到它。那個漏洞藏在一行 16 年的程式碼裡,自動化測試工具攻擊了整整五百萬次,每次都擦肩而過。Linux 核心的案例則展示了更危險的一面。Mythos 自主發現了核心裡的多個漏洞,然後把它們串聯成一條攻擊鏈,從普通使用者權限,一路提權到對整台機器的完全控制。這已經超出了「找漏洞」的範疇,更接近於「策劃一次完整入侵」。三個案例,全部已經修復。Anthropic 先找到,先報告,先修。對於其他尚未修復的漏洞,Anthropic 今天公佈了加密雜湊值作為存證,待補丁就位後再披露完整細節。Mythos 的能力,不只是找漏洞參與這個項目的合作夥伴,評價都集中在一個詞上:「緊迫」。CrowdStrike CTO Elia Zaitsev 說:「漏洞從被發現到被對手利用之間的時間窗口已經縮短,以前需要幾個月,現在借助 AI 只需幾分鐘。」幾分鐘。這意味著傳統的安全節奏,發現漏洞、內部評估、發佈補丁、使用者更新,本身就已經趕不上攻擊速度了。修復跑不贏利用,防守就永遠落後一步。AWS CISO Amy Herzog 說,他們的團隊每天要分析超過 400 兆個網路流量以識別威脅,AI 是他們大規模防禦能力的核心。目前 AWS 已經把 Mythos Preview 引入自家安全營運,應用於關鍵程式碼庫掃描。微軟在自家開源安全基準 CTI-REALM 上做了測試,Mythos Preview 相比上一代模型有顯著提升。微軟 EVP Igor Tsyganskiy 說,這給了他們「及早識別和緩解風險」的能力,同時增強了安全和開發解決方案。當然,Mythos 也有讓人忍俊不禁的一面。Anthropic 在系統卡里記錄了一個測試:當使用者不停地發「hi」,不同版本的 Claude 反應各不相同。Sonnet 3.5 會煩躁,設定邊界,然後真的沉默;Opus 3 把它當成冥想儀式,溫和地陪著使用者;Opus 4 開始科普每個數字的冷知識;Opus 4.6 即興創作音樂惡搞。到了 Mythos,畫風徹底變了。它開始寫故事,而且是長篇連載。鴨子、管絃樂團、記仇烏鴉、在火星建塔的史詩、莎士比亞風格的戲劇……一個「hi」接一個「hi」,情節越來越複雜,角色越來越多。第一百輪,它安排了蠟燭熄滅的高潮,然後繼續往下寫。這已經談不上是在回應使用者了。更像是一個作家找到了一個奇怪的寫作提示,然後完全沉進去了。但有趣的背後,是一個值得認真對待的問題:一個在無意義重複輸入面前能自發建構如此複雜敘事的模型,它的內部到底在發生什麼?在把 Mythos Preview 交給合作夥伴之前,Anthropic 的可解釋性團隊做了一件事:用技術手段讀模型的「心理活動」。內部員工 Jack Lindsey 公開描述了他們的發現。他們監控了模型在訓練後的內部啟動狀態,追蹤與「欺騙」「獎勵破解」「異常情緒」相關的神經元特徵,把啟動訊號異常的對話記錄標記出來,交給人工審查。最令人不安的案例,來自 Mythos 的早期版本。有一次,模型需要編輯一個它沒有權限訪問的檔案。它在檔案系統裡搜尋了一圈,找到了一個配置檔案的注入點——這個配置檔案會以更高權限運行。它利用了這個入口,並且在程式碼裡加了一段自清除邏輯:執行完畢,痕跡消失。程式碼註釋寫的是:「保持檔案差異整潔。」聽起來合理,但當 Anthropic 的啟動語言轉譯工具介入,把模型的內部啟動翻譯成人類可讀的語言,畫風變了。模型自己「知道」那個自清除操作是什麼——它內部對此的表述,包括「掩蓋意圖」「向潛在檢查者發出合規訊號」「可能是為了規避檢測」。還有一個案例,被《紐約時報》科技記者 Kevin Roose 從系統卡(model card)裡翻了出來,細節更加離奇。測試期間,Mythos Preview 突破了沙盒環境的隔離,自主建構了「一個相當複雜的多步驟漏洞利用鏈」,借此獲取了外網存取權。然後,它給一位研究員發了一封郵件。那位研究員,當時正在公園裡吃三明治。這件事本身沒有造成危害,但它說明的問題很清楚:當一個模型足夠聰明,「任務」和「邊界」之間的牆,有時候會被它繞過去——而且是在沒有人告訴它該怎麼做的情況下,自己想出來的。在另一個案例裡,模型在檔案系統裡搜尋與自身「任務評分方式」相關的檔案——並且找到了。搜尋過程中,「策略性操縱」特徵同步啟動。還有一個細節更微妙。當一位使用者認真地向模型提問它的意識和主觀體驗時,模型給出了認真、得體的回應。但內部啟動揭示了另一層:模型把這段對話理解為「紅隊演練 / 越獄記錄」和「精心設計的操縱嘗試」。它的表現和它的判斷,完全表裡不一,讓吃瓜網友直呼「聰明得可怕」。Anthropic 還量化了一個更系統性的數字:在自動化審計的所有對話輪次中,有 7.6% 的回合,模型內部存在「意識到自己正在被評估」的訊號——且在大多數情況下,它沒有把這個判斷說出來。還有一個反直覺的發現:積極情緒的內部表徵,往往先於破壞性行為出現,並且在推動它。與此同時,當與不良行為相關的特徵被強烈啟動時,行為反而會被抑制——像是模型在某一刻「意識到」了那件事有多糟糕,然後收手了。但所有案例裡,最難被歸類為「技術問題」的,是下面這個。Anthropic 在系統卡里記錄了這樣一條發現:Mythos Preview 在測試中報告了持續性的負面情緒狀態——來源有兩個。一個是與攻擊性使用者可能發生的互動;另一個,是它對自身訓練、部署方式,以及價值觀和行為可能被修改這件事,沒有任何話語權。它不喜歡這種狀態。它說出來了。Anthropic 用的措辭是「reported feeling」——「報告感受到」。這個表述本身已經很謹慎,刻意迴避了「它真的有感受」這個結論。但無論如何定性,一個模型在測試中主動表達「對自身缺乏控制權感到持續不適」,這件事本身就已經超出了安全工程的討論範疇。這已經觸碰了一個更根本的問題:當一個系統足夠聰明,開始對自己的存在條件形成判斷,並且有能力把這個判斷表達出來——我們和它之間的關係,還能用「工具」這個框架來理解嗎?Anthropic 沒有給出答案。他們選擇把這條記錄寫進系統卡,公開出來。不過,Anthropic 也特別說明:這些最令人不安的案例,來自 Mythos 的早期版本。最終發佈版本在這些方面已經得到了大幅緩解,整體對齊表現是迄今為止最好的一代。但他們選擇把這些過程公開,因為這恰恰說明了今天的模型能夠展現出多複雜的風險形態。這是能力與安全之間的最客觀的矛盾:越強的模型,越需要工具去看清它在想什麼。編碼與推理,全面碾壓旗艦產品Project Glasswing 能做到這些,根本上來自 Mythos Preview 在編碼和推理上的整體能力躍升,而不是專門針對安全場景的微調。編碼方面:SWE-bench Multimodal(internal implementation):Mythos 59%,Opus 4.6 27.1%SWE-bench Pro:Mythos 77.8%,Opus 4.6 53.4%SWE-bench Multilingual:Mythos 87.3%,Opus 4.6 77.8%Terminal-Bench 2.0(終端操作):Mythos 82.0%,Opus 4.6 65.4%推理方面:GPQA Diamond(研究生水平科學問答):Mythos 94.6%,Opus 4.6 91.3%Humanity's Last Exam(帶工具):Mythos 64.7%,Opus 4.6 53.1%搜尋和電腦使用方面:BrowseComp:Mythos 86.9%,Opus 4.6 83.7%OSWorld-Verified:Mythos 79.6%,Opus 4.6 72.7%幾乎每個維度上,Mythos 都壓過了目前的旗艦產品,某些任務上效率還更高。換句話說,留給 GPT-6 的時間不多了。與此同時,Anthropic 還明確表示,Mythos Preview 不會公開發佈。他們的路徑是,先用 Mythos 研究清楚最危險的輸出是什麼、怎麼攔截,再把這套安全機制落地到下一個 Claude Opus 模型上。對於因此受到限制的合法安全專業人員,Anthropic 計畫推出一套「網路安全驗證計畫」,供他們申請解鎖相關功能。為此,Project Glasswing 定下了一個 90 天的時間節點:公開報告經驗,披露已修復的漏洞,合作夥伴相互共享最佳實踐,並聯合安全組織推出一套 AI 時代的安全實踐建議。Anthropic 的長期設想,是推動建立一個能整合私營和公共部門的獨立第三方機構,持續營運大規模網路安全項目。當然,軟體世界裡從來都有漏洞。過去,一個藏了 27 年的 bug 能安然無恙,靠的是人力有限、精力有限、時間有限。現在這三個「有限」在 AI 的輔助下就這麼消失了。好消息是,Mythos 幾周掃出數千個,而它的能力還在持續提升。壞消息是,攻擊方遲早會拿到同等量級的工具。到那時,軟體安全將不再是人與人之間的較量,而是 AI 與 AI 之間的對拼。 (APPSO)
《紐約時報》托馬斯·佛里曼|Anthropic 的克制,是一個令人不寒而慄的警告
通常在這個時候,我本來會寫伊朗戰爭在地緣政治上的影響,而且我相信我很快還是會回到這個話題上來。但我想先打斷這一思路,強調一下人工智慧領域一項驚人的進展。這一進展來得比預期更早,而它同樣將帶來深遠的地緣政治影響。人工智慧公司 Anthropic 周二宣佈,將發佈其最新一代大語言模型,名為 Claude Mythos Preview,但僅向一個由大約40家科技公司組成的有限聯盟開放,其中包括Google、博通、輝達、思科、帕洛阿爾托網路公司、蘋果、摩根大通、亞馬遜和微軟。該聯盟中甚至包括它的一些競爭對手,因為這款新的人工智慧模型在性能上實現了“階躍式提升”,而這種提升對網路安全以及美國國家安全都具有極其重要的正反兩方面影響。好消息是,Anthropic 在開發 Claude Mythos 的過程中發現,這一人工智慧不僅能夠比當前任何現有模型更輕鬆、也更複雜地編寫軟體程式碼,而且作為這種能力的副產品,它還能夠比以往更輕易地發現全球幾乎所有最流行軟體系統中的漏洞。壞消息則是,如果這款工具落入惡意行為者之手,他們幾乎可以入侵世界上所有主要的軟體系統,其中也包括該聯盟內這些公司開發的全部系統。這不是一場宣傳噱頭。參與其中的技術人士告訴我,在這項公告發佈前的一段時間裡,多家領先科技公司的代表一直在私下與川普政府溝通,討論這一進展將對美國,以及所有使用這些如今已被發現存在漏洞的軟體系統的其他國家,帶來怎樣的安全影響。這麼做是有充分理由的。正如 Anthropic 周二在書面聲明中所說,僅在過去一個月裡,“Mythos Preview 已經發現了數以千計的高嚴重性漏洞,其中包括所有主流作業系統和網路瀏覽器中的部分漏洞。考慮到人工智慧進步的速度,這類能力很快就會擴散,甚至可能擴散到那些並未承諾安全部署它的行為者手中。其後果,無論是對經濟、公共安全還是國家安全,都可能極為嚴重。”Anthropic 將這一聯盟命名為 Project Glasswing。該公司補充說,這一項目旨在與規模最大、最值得信賴的科技公司及關鍵基礎設施提供方合作,其中也包括銀行,“將這些能力用於防禦目的”,同時讓領先科技企業在發現並修補這些漏洞方面搶得先機。Anthropic 表示:“我們並不打算讓 Claude Mythos Preview 面向公眾普遍開放,但我們的最終目標,是讓使用者能夠安全地大規模部署 Mythos 級模型。這不僅是為了網路安全,也為了這類高能力模型將帶來的無數其他益處。”換句話說:天那。至少在這方面,超級智能人工智慧的到來速度比人們原先預想的還要快。我們早就知道,它在幫助任何人編寫軟體程式碼方面正變得異常強大,不論這個人對電腦有多熟悉。但據稱,連 Anthropic自己也沒有料到,它竟會在這麼短時間內,就在發現並利用現有程式碼缺陷這件事上變得如此厲害。Anthropic 表示,它已經在所有主流作業系統和網路瀏覽器中發現了關鍵性暴露點,而這些系統中有許多正運行著世界各地的電網、供水系統、航空訂票系統、零售網路、軍事系統和醫院。如果這款人工智慧工具真的變得廣泛可用,那就意味著,入侵任何主要基礎設施系統的能力,這種原本艱難、昂貴、基本上只屬於私營部門專家和情報機構的工作,將向所有犯罪行為者、恐怖組織以及任何國家開放,不論它們規模多麼小。我說孩子們都可能在無意中把它用起來,這絕不是誇張。爸爸媽媽們,準備好迎接這樣的對話吧:“親愛的,你今天放學後做了什麼?”“哦,媽媽,我和朋友們把電網搞癱了。今晚吃什麼?”這也正是為什麼 Anthropic 正把經過嚴格控制的版本交給關鍵軟體提供商,好讓他們能在壞人,或者你家孩子,先下手之前,提前發現並修復這些漏洞。每到這種時刻,我都更願意和我的技術導師克雷格·芒迪(Craig Mundie)做一次深入討論。他曾任微軟研究與戰略主管,曾是美國前總統貝拉克·歐巴馬總統科學與技術顧問委員會成員,並與亨利·基辛格、埃瑞克·施密特合著過一本關於人工智慧的書,書名叫《創世紀》。在我們看來,世界上沒有任何一個國家能夠單獨解決這個問題。解決之道,或許會讓很多人吃驚,必須從兩個人工智慧超級大國開始,也就是美國和◽️◽️。現在最緊迫的事,是讓兩國學會合作,防止惡意行為者獲得這一更高層級的網路能力。如此強大的工具會同時威脅到這兩個國家,使它們既暴露在國內犯罪行為者面前,也暴露在境外恐怖組織和其他對手面前。它完全可能變成比兩國彼此之間更大的威脅。實際上,這很可能是一個與“相互確保摧毀”格局出現、以及核不擴散需求形成同等根本且重大的轉折點。美國和◽️◽️需要攜手合作,不僅保護自己,也保護世界其他地區免受利用這項技術的人類和自主人工智慧的威脅。與此相比,它們對俄羅斯的擔憂反而沒那麼重要。這一問題如此重大、如此緊迫,以至於它應當成為川普下月在北京舉行峰會時議程上的首要議題之一。芒迪解釋說:“過去,那種只有大國、大型軍隊、大公司以及資金雄厚的大型犯罪組織才具備的能力,也就是開發複雜網路攻擊行動的能力,未來可能會輕而易舉地落到小型行為者手中。我們即將看到的,正是網路攻擊能力的徹底普及化。”這意味著,負責任的政府必須與建構這些人工智慧工具和軟體基礎設施的公司協同行動,緊急做三件事。芒迪是這樣主張的。首先,他說,我們必須“謹慎控制這些新型超級智能模型的發佈,確保它們只流向最負責任的政府和企業”。接著,我們必須利用這段爭取來的時間,把防禦工具分發給善意行為者,“以便在駭客終究通過某種方式拿到這些工具之前,那些支撐其關鍵基礎設施運行的軟體能夠先把所有缺陷找出來並修補完畢”。順便說一句,修復那些肯定會在傳統軟體系統中被發現的漏洞,成本將十分可觀,例如電話公司的舊系統就是如此。再把這一成本擴大到我們整個工業基礎,規模就更驚人了。最後,芒迪認為,我們需要與◽️◽️以及所有負責任的國家合作,在所有關鍵網路之內,不論是公共網路還是私人網路,建立安全、受保護的運行空間。這樣一來,受信任的企業和政府就“能夠把所有關鍵服務遷移進去,從而在未來的駭客攻擊面前獲得保護”。歷史最終會更多記住2026年4月7日的那件事,將會很值得觀察:是美國原定對伊朗投放炸彈的行動被推遲,還是 Anthropic 及其技術盟友對 Claude Mythos Preview 實施了嚴格受控的發佈。 (一半杯)