#Opus
Anthropic估值突破1兆,Claude Opus 4.7剛剛改變了AI競爭格局
如果說2025年的AI競爭還是"OpenAI vs Google"的雙雄會,那2026年第一季度,這個格局被徹底改寫——Anthropic這個以安全研究起家的公司,在短短三個月內完成了從追趕者到定義者的轉變。先是在二級市場估值約1390億美元,隨後亞馬遜宣佈追加數十億美元算力投資,承諾提供5千兆瓦的雲端運算能力給Claude模型。而最新發佈的Claude Opus 4.7和爆發式增長的Claude Code,正在改變開發者對AI編碼工具的認知。【一、兆估值背後的三重敘事】Anthropic的估值飆升並非偶然,它背後是三條清晰的增長邏輯。▸ 資本敘事:從去年底的約600億美元估值,到2026年4月突破1390億美元,Anthropic只用了不到四個月。推動力來自兩筆關鍵交易——亞馬遜的40億美元追加投資,以及二級市場的機構搶籌。更關鍵的是,這筆估值並不是泡沫敘事:Anthropic的營收增長曲線和OpenAI在2024年的軌跡幾乎完全一致,而它的成本結構更優。▸ 產品敘事:Claude Opus 4.7的發佈是轉折點。與前代相比,它在多模態推理、程式碼生成精度和長上下文理解三個維度上實現了質的飛躍。內部測試顯示,Opus 4.7在複雜程式碼審查任務上的精準率超過了人類資深工程師的中位數。這不再是"接近GPT-4"的故事——在某些維度上,它已經領跑了。▸ 算力敘事:亞馬遜與Anthropic簽署的5千兆瓦算力協議是整個AI行業有史以來最大的單一算力合同之一。這相當於多個核電站的總輸出功率,用來訓練和推理下一代Claude模型。配合Anthropic自研的晶片合作計畫,這意味著Anthropic的算力儲備可能在未來18個月內超越OpenAI。【二、Claude Opus 4.7——到底強在那裡】Claude Opus 4.7的發佈在某些圈子裡引起的不是讚譽,而是恐懼——因為它真的能替代一些高級工程師的工作了。▸ 程式碼能力:在SWE-bench(軟體工程基準測試)上,Opus 4.7得分超過了85%,這意味著它能夠獨立完成大部分真實世界的編碼任務,包括程式碼審查、debug、重構。更可怕的是,它不只是能寫程式碼——它理解程式碼架構。給一個複雜的微服務項目,它能讀懂全貌,定位根因,給出重構方案。這種"架構級理解"能力是目前其他模型不具備的。▸ 多模態推理:Opus 4.7不僅能看懂圖,還能在圖表、流程圖、UML、技術白皮書之間進行跨模態推理。給它一張系統架構圖,它能讀懂每一個元件的關係,指出潛在的單點故障。給它一份論文圖表,它能結合全文內容解釋趨勢背後的原因。▸ 長上下文:Opus 4.7的200K token上下文窗口這次是實打實的。在長文件理解測試中,它能在200頁的技術文件中精準找到特定資訊並給出推理鏈。這對律師、研究員、合規分析師來說,是革命性的——相當於每個分析師都有一個能讀完整年資料的助理。▸ 與國產模型的對比:值得單獨拿出來說的是,就在Opus 4.7發佈後沒幾天,DeepSeek在4月24日發佈了DeepSeek V4——1.6兆參數MoE架構(49B活躍參數),1M token上下文窗口,API定價僅為Opus 4.7的十分之一。具體資料上看:在SWE-bench Verified上,V4-Pro拿到80.6%,與Opus 4.6僅差0.2分;LiveCodeBench上V4-Pro更是以93.5%排名第一。開啟Max推理模式後,V4-Pro-Max在編碼和推理任務上已逼近Opus 4.7的水平。這是國產模型第一次在發佈節點和性能水平上同時追平美國頂級閉源模型。但Opus 4.7的架構級程式碼理解能力——即在不給定具體bug的情況下,主動發現並評估整個項目的技術債務——在國產模型中仍然沒有對等產品。【三、Claude Code——收割開發者市場的隱形殺手】如果說Claude模型是Anthropic的招牌,那Claude Code可能是它真正的現金牛。Claude Code是一個整合到IDE(VS Code、JetBrains)中的AI編碼助手,但它的功能遠遠超越了傳統的程式碼補全。它能獨立管理整個程式碼庫——包括建立分支、提交程式碼、運行測試、修復bug、重構模組。開發者只需要用自然語言描述任務,Claude Code就能自主完成。▸ 增長資料:Claude Code的使用者量在Opus 4.7發佈後的一個月內增長了300%以上。Anthropic的CEO Dario Amodei在內部會議上透露,Claude Code已經成為公司增長最快的付費產品,超過了一半以上的Claude API收入。▸ 對比Copilot和Cursor:GitHub Copilot的策略是"幫你寫得快一點"(AI輔助),Claude Code的策略是"你告訴我做什麼,我做完了給你看"(AI自主)。這是兩種完全不同的哲學。Cursor走的是中間路線,但它依賴的底層模型也在快速迭代。Claude Code的壁壘在於——它和Opus 4.7是深度繫結的,Anthropic在模型層直接做了針對性最佳化,這是第三方工具做不到的。▸ 對國內市場的啟示:國內編碼AI工具中,阿里的通義靈碼、字節的豆包MarsCode、百度的文心快碼都在快速追趕。但它們面臨一個結構性問題——底層模型的編碼能力與Claude Opus 4.7有代差。DeepSeek V4這次在agentic coding上下了重注——SWE-bench Verified 80.6%、LiveCodeBench 93.5%的編碼成績已接近Opus 4.7,而且發佈時就宣稱與Claude Code、OpenCode等工具深度整合。如果國產模型繼續以V4的節奏迭代,這個差距可能在未來6-12個月內縮小。【四、亞馬遜的算力賭注——5千兆瓦意味著什麼】最後落到最實際的問題——算力。亞馬遜和Anthropic的5千兆瓦(GW)算力協議,可能是整個AI行業今年最被低估的新聞。▸ 5GW是什麼概念?足夠給約400萬個美國家庭供電。一個典型的核反應堆輸出約1GW。這意味著Anthropic將擁有5個核電站等級的專屬算力。作為對比,OpenAI在微軟Azure上拿到的算力承諾大約是2-3GW等級。▸ 這筆算力將用來做什麼?主要用來訓練Claude Opus 5和後續模型,以及支撐Claude API的推理需求。Anthropic的安全研究傳統意味著他們在訓練時會做比同行更多的紅隊測試和安全驗證——這需要大量額外的算力。▸ 對國產AI的影響:字節跳動的豆包、百度的ERNIE、深度求索的DeepSeek同樣在快速擴建算力基礎設施。DeepSeek V4通過混合注意力架構(Hybrid Attention Architecture)和MoE設計實現了極高的訓練效率——在1M token長上下文場景下僅需V3時代27%的推理FLOPs。不過,在絕對算力規模上,國產公司與美國頭部AI公司仍有數量級差距。好消息是,華為昇騰晶片的成熟度在快速提升,國產AI晶片生態正在縮小與輝達的距離。【五、超越OpenAI的可行性——Anthropic的三大風險】討論Anthropic的崛起,不能只講利多。這個兆估值能站住嗎?要看三大風險。▸ 第一,營收能否支撐估值?Anthropic目前年化營收約數十億美元規模,而兆估值對應的市銷率超過30倍。這需要Claude API的付費使用者在未來18個月內增長3-5倍——而OpenAI、Google、DeepSeek V4也在以極低價格瘋狂搶客。DeepSeek V4的定價(Pro版$1.74/$3.48每百萬token,Flash版僅$0.14/$0.28)是整個行業的"價格錨",Claude必須用產品力抵消這個價差。▸ 第二,Claude Code的護城河有多深?程式碼助手市場有GitHub Copilot(微軟)、Cursor、Amazon CodeWhisperer等對手。如果微軟把Copilot深度整合到VS Code和GitHub的每個角落,Claude Code的使用者增長可能會遇到天花板。▸ 第三,安全研究公司的悖論——越安全越難商業化。Anthropic以AI安全研究起家,這個基因既是它的品牌溢價,也是它的天花板。在"跑得快"和"跑得安全"之間做權衡時,Anthropic往往會選擇後者。在技術快速迭代的窗口期,這可能是致命的——DeepSeek V4在4月24日從預覽直上正式版就是一個反面案例,它證明了"先發佈+快速迭代"策略的有效性。Anthropic的偏執安全路線能在多大程度上轉化為競爭壁壘,而不是自我設限,還有待驗證。結語:Anthropic的故事告訴我們:在AI這個賽道上,市場格局遠未固定。三個月前還沒人把它當對手,三個月後它估值破兆。有趣的是,就在同一天(4月24日),DeepSeek V4和Claude Opus 4.7幾乎同時定義了中美AI的新坐標系——一個靠價格和開放,一個靠產品和護城河。Claude Opus 4.7和Claude Code不是終點——它們是Anthropic全面進攻的起點。而這場戰爭的下一個變數,可能來自中國的DeepSeek、字節跳動,也可能來自一個還沒有名字的實驗室。 (超前觀察)
DeepSeek V4,一個王炸!
DeepSeek V4,終於亮相了。就在2026年4月24日,AI圈的平靜被一封發佈稿打破。沒有任何預熱,沒有發佈會,深度求索團隊在官網和社交媒體上同步宣佈:全新系列模型DeepSeek-V4 預覽版正式上線並開源,即日起登錄官網或App即可體驗。這是一次略顯突然的發佈。就在幾天前,矽谷還在熱議OpenAI的GPT-5.5和Anthropic的Claude Opus 4.6,全球AI領域的競爭早已呈現“萬類霜天競自由”的氣象。站在另一個維度來看,此刻距離DeepSeek上一次讓全球AI行業震動,已經過去了近16個月。時間撥回到2025年初。R1發佈當天,行業迅速沸騰,中國AI團隊用不到600萬美元的算力成本訓練出能與GPT-4正面競爭的模型,輝達股價應聲暴跌。那一周,DeepSeek同時登頂中美App Store下載榜首,“中國AI奇蹟”的敘事鋪天蓋地。在這近16個月的時間裡,智譜和MiniMax先後登陸資本市場,市值一度衝破3000億元;豆包、Qwen密集發佈新版本,頻頻登頂各類榜單;Anthropic推出Claude 4系列,OpenAI迭代至GPT-5.5,而DeepSeek在V3之後長達近16個月的時間裡,只推出了幾個跑分變化不大的中間版本,外界關於“DeepSeek是否後繼乏力”的猜測此起彼伏。近16個月的時間裡,整個行業都在等待一個答案:DeepSeek究竟是曇花一現,還是一條可持續的技術路線?終於,答案來了。DeepSeek V4,有那些亮點?客觀上講,DeepSeek V4的發佈略顯樸素,沒有任何預熱,也沒有發佈會。並且,在DeepSeek官方的稿件裡面,似乎也沒有太多“炸裂”元素。DeepSeek官方在技術報告中坦誠地寫道,V4的能力水平仍落後GPT-5.4和Gemini-3.1-Pro,“發展軌跡大約滯後前沿閉源模型3至6個月”。在國內AI發佈稿裡,這種主動承認差距的寫法相當罕見。但真正值得關注的不在於跑分是否登頂,而在於V4解決了一個困擾大模型行業多年的根本問題:長上下文的成本困境。眾所周知,傳統Transformer架構有一個致命的擴展難題——注意力機制的計算量隨上下文長度呈平方級增長。上下文翻倍,計算量翻四倍。這意味著,把上下文從128K擴展到100萬token,理論上計算量會增長約60倍。這也是為什麼長期以來,百萬字上下文要麼是Google Gemini的獨家王牌,要麼是實驗室裡的漂亮數字,太貴了,用不起。V4給出的解法是一種全新的混合注意力架構。通俗地解釋,就像你在讀一本1000頁的書時找某個觀點的關聯內容。笨辦法是把目標頁和其他999頁逐一比對,工作量隨頁數翻倍而變成四倍。聰明的辦法是:先粗略判斷那些頁面可能相關(稀疏選擇),再把相關頁面壓縮成摘要(token壓縮),兩步疊加上後,工作量增長曲線被大幅壓平。這正是V4的核心創新:CSA(壓縮稀疏注意力)和HCA(高度壓縮注意力)的混合架構。在1M上下文設定下,V4-Pro的單token推理算力只有上一代V3.2的27%,KV快取僅需10%;更經濟的V4-Flash版本則將這兩個數字分別壓到了10%和7%。換句話說,上下文長度擴大了近8倍,但推理成本反而下降了。再回到模型本身來看,V4一口氣發佈兩個版本:DeepSeek-V4-Pro 總參數1.6兆、每次推理啟動49B;DeepSeek-V4-Flash 總參數284B、啟動13B。兩者均原生支援100萬token上下文。理解這兩個數字需要先理解MoE(混合專家)架構。簡單講,V4內部有大量“專家”子網路,每次處理資訊時只啟動其中一小部分。總參數決定知識容量,啟動參數決定推理成本。這就像一家公司有1600個身懷絕技的員工,但每個項目只調49人上陣,可以按需靈活組合。在能力評估上,DeepSeek的措辭相當克制。發佈稿明確表示:V4-Pro的Agent能力優於Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與後者思考模式存在差距。在內部85名開發者和研究人員的調研中,超過九成認為V4-Pro已可作為首選或接近首選的程式設計模型。能力的分佈是不均勻的。在數學、STEM、競賽型程式碼等推理密集型任務上,V4-Pro超越所有已知開源模型,比肩頂級閉源產品;在Codeforces人類選手排行榜上,V4-Pro-Max位列第23名;但在世界知識方面——事實性資訊的覆蓋廣度,僅稍遜於Gemini-Pro-3.1。這個差距來自資料:Google擁有搜尋引擎索引和更大規模網頁抓取的結構性優勢,不是演算法可以短期彌補的。V4-Flash則定位為明確的性價比之選。很多人看到Pro和Flash兩個檔位,第一反應是“Flash就是降配版”,但實際並非如此。V4-Flash的推理能力與Pro接近,世界知識稍遜,而在Think Max模式下,性能可以大幅追近Pro:LiveCodeBench Flash Max達到91.6,Codeforces Flash Max Rating達到3052,與Pro Max的差距已相當有限。DeepSeek的底層突破V4在Agent能力上的提升幅度引人注目。但這一點需要更細緻的理解。Agent任務的核心約束一直是上下文管理:任務鏈越長,需要維護的狀態越多,有限的上下文窗口很快就成為瓶頸。V4的1M窗口意味著,Agent可以在更長的操作鏈裡保持狀態連貫,處理更大規模的程式碼庫,跨越更多文件進行推理。不只是模型變聰明了,底層條件也變了。V4專門針對 Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產品做了適配最佳化。後訓練階段,Agent是作為與數學、程式碼並列的獨立方向單獨訓練的;工具呼叫格式從JSON換成了帶特殊token的XML結構以降低錯誤率;跨輪次的推理痕跡在工具呼叫場景下完整保留,不再每輪清空。另外,DeepSeek還搭建了一套名為DSec的沙箱平台,單叢集可並行管理數十萬個沙箱實例,專門用來支撐Agent強化學習訓練和評測。這些細節指向同一個方向:V4不是在做“更強的聊天機器人”,而是在做“能幹活的作業系統”。另外,V4最核心的技術改動,是在注意力層。傳統Transformer的注意力機制,每個token要和前面所有token逐一計算相似度。上下文從10萬拉到100萬,計算量增長的不是10倍,而是100倍。V4的做法是把注意力拆成兩種,交替疊用:一種是CSA(壓縮稀疏注意力),先把每若干token的KV快取合併成摘要,再讓每個query只在這些摘要裡挑選最相關的top-k條去算注意力——相當於既壓縮了“要看的內容”,又只挑“值得看的”去算;另一種是HCA(高壓縮注意力),用更激進的壓縮率把更長區間的token合併為一條,但保持稠密注意力。兩種機制交替疊加,再加上一個滑動窗口分支處理“離得近的token之間的細節依賴”,形成了一套粗粒度與細粒度、稀疏與稠密的組合拳。而除了注意力層,V4還在殘差連接和最佳化器上動了刀。傳統殘差連接被升級為mHC(流形約束超連接),通過數學約束讓深層網路的訊號傳播更穩定;大部分模組的最佳化器從AdamW換成了Muon,通過迭代正交化梯度矩陣來加速收斂。這是DeepSeek第一次同時動Transformer的注意力、殘差、最佳化器這三處核心結構。後訓練方法同樣換了範式。V3.2用的是“混合RL”,一次性最佳化多個目標。V4則換成了“分化再統一”的兩步走:先針對數學、程式碼、Agent等不同領域獨立訓練專家模型,每個專家都在自己的賽道上跑到最優;再用一種叫On-Policy Distillation的方法,把十多個領域專家“蒸餾”回一個統一的學生模型——學生自己生成回答,針對每個回答匹配最懂這個問題的專家的輸出分佈,通過logit級對齊把能力吸收進來。用通俗的話說,把一堆尖子生蒸餾成一個通才。這套流程的工程難度在於:同時載入十多個兆參數級的教師模型做線上推理幾乎不可能。DeepSeek的做法是把所有教師權重統一解除安裝到分佈式儲存,只快取每個教師最後一層的hidden state,訓練時按教師索引排序樣本,保證任意時刻GPU視訊記憶體裡只駐留一個teacherhead。從2025年初到今天,V3.1、V3.2那些“沒什麼亮點”的中間版本,當時看似乎是在原地踏步。現在回頭看,DSA稀疏注意力的種子、TileLang替代CUDA的嘗試、Engram架構的早期驗證,都是在那時悄悄種下的,V3.2正是V4的地基。DeepSeek V4,對國產晶片價值幾何?如果說技術架構的革新是V4的“明線”,那麼對國產晶片產業鏈的重塑,則是這次發佈最容易被低估的“暗線”。要理解這條暗線的份量,需要先理解過去兩年AI競爭的核心邏輯。大模型發展至今,行業的共識是:訓練看算力,推理看視訊記憶體。在訓練階段,誰能買到更多高端GPU,誰能堆出更大叢集,誰就更有機會做出更強的基礎模型。輝達憑藉H100/A100系列GPU和CUDA生態,在這個階段建立了看似難以踰越的護城河。但大模型做出來之後,真正決定商業化速度和產業滲透深度的,是推理。尤其是以OpenClaw、Hermes為代表的Agent應用爆發後,推理的成本結構發生了根本性變化。Agent任務的特點是上下文越來越長、記憶越來越深、工具呼叫越來越頻繁。在這個場景下,GPU的視訊記憶體會被KV快取撐爆,大模型的推理質量急劇下降。推理的第一個瓶頸,不是算力不夠,是“記憶”和“計算”在搶同一塊視訊記憶體。這正是國產晶片最大的短板所在。受限於先進製程,國產GPU在算力峰值上尚可追趕,但在視訊記憶體容量和頻寬上與輝達存在代際差距。輝達最新一代Rubin GPU搭載288GB HBM4記憶體,而國產晶片如昇騰910B的視訊記憶體容量為64GB。如果按照傳統架構跑長上下文推理,這個差距幾乎是致命的。DeepSeek V4的解題思路,不是硬拚硬體,而是從架構層面重構了“記憶”和“計算”的關係。這涉及兩個關鍵創新:其一,CSA/HCA混合注意力機制大幅壓縮了KV快取佔用,1M上下文下,V4-Pro的KV快取僅為V3.2的10%,V4-Flash更是壓到7%。其二,據公開論文推測,V4採用的Engram架構把模型裡那些“死記硬背”的靜態知識抽出來放入獨立的記憶體表,推理時CPU負責“查字典”檢索知識,GPU只負責“想邏輯”計算推理,兩者完全重疊執行。當GPU在算上一個詞的邏輯時,CPU已經把下一個詞所需的知識搬到了門口。延遲被這種平行架構徹底掩蓋。結果是什麼?一個原本需要80GB視訊記憶體才能跑的長上下文推理任務,在Engram架構下可能只需要8GB視訊記憶體。輝達引以為傲的HBM視訊記憶體稀缺性,在這套架構面前被大幅削弱。國產晶片那64GB的視訊記憶體容量,突然變得夠用了。這解釋了為什麼黃仁勳會在近期訪談中做出一個意味深長的假設。他說,如果DeepSeek新模型在華為平台上首發,“這一天對美國來說將是一個可怕的結果,因為這意味著AI模型被最佳化為在中國AI硬體上表現最佳,而這些模型擴散到全球之後,就會推動中國技術成為世界標準。”而DeepSeek恰恰這麼做了。V4這次沒有按行業慣例給輝達早期測試權限,而是把提前適配的機會獨家開放給了華為昇騰和寒武紀。目標是實現從CUDA生態到華為CANN框架的整體遷移。V4技術報告第3.1節將華為昇騰NPU與輝達GPU並列寫進硬體驗證清單——這是DeepSeek官方第一次這樣做。V4的MoE專家權重和稀疏注意力索引器採用FP4精度,而FP4恰好是華為昇騰950PR晶片的原生支援精度。這不是巧合,這是一條被悄悄鋪了很久的路。產業鏈的傳導效應已經顯現。據有關媒體報導,阿里巴巴、字節跳動和騰訊等科技巨頭已提前下單華為新一代AI晶片,訂單規模達數十萬顆。在華為之外,寒武紀在軟硬一體生態中已完成對V4全系列的Day 0適配,適配程式碼開源至GitHub社區。沐曦股份預期2026年將扭虧為盈,有望成為繼寒武紀之後另一家盈利的國產GPU廠商。當DeepSeek用兆參數等級的模型驗證了國產晶片可以承載頂級大模型的推理,整個生態的底氣就變了。並且,從更宏觀的視角看,這件事改變的不僅是晶片選型,更是AI產業鏈的利潤分配邏輯。過去兩年,輝達憑藉GPU壟斷攫取了AI爆發期最豐厚的利潤,其資料中心業務毛利率長期維持在70%以上。而當一家開源模型的架構創新能夠進一步降低視訊記憶體需求,能夠跑通國產晶片並實現推理成本的大幅下降,輝達的定價權就不再是鐵板一塊。儘管短期內輝達在高端訓練GPU和CUDA生態上的優勢仍難替代,但推理市場,這個遠比訓練更廣闊、更具持續性的市場的遊戲規則正在被改寫。這就是DeepSeek“曲線救國”的邏輯:不是在單卡性能上硬碰硬,而是用系統級最佳化、軟硬協同和架構創新,重新定義了競爭維度。正如一位GPU企業人士所說,國內廠商都是戴著“鐐銬”與輝達同台競技。而V4證明了一件事:戴著鐐銬也可以起舞,甚至能跳出一支讓對方緊張的舞。結語:梁文鋒的安靜“棋局”V4發佈稿結尾,DeepSeek引了一句荀子:“不誘於譽,不恐於誹,率道而行,端然正己。”這句話放在DeepSeek一路走來的故事語境裡,意味深長。過去一年多,DeepSeek在外界的敘事裡經歷了過山車般的起伏。2025年初V3和R1爆火後,媒體將其捧上神壇,“中國AI奇蹟”的敘事鋪天蓋地。隨後一年多,當Anthropic、OpenAI密集發佈新模型,而DeepSeek只推出幾個跑分變化不大的中間版本時,關於“後繼乏力”的質疑又此起彼伏。在這個崇尚競爭和結果說話的行業裡,掌聲和噓聲都來得極快。而梁文鋒似乎始終活在自己的節奏裡。在DeepSeek內部,梁文鋒更多扮演著一個導師的角色:組織研發、協調資源,也做具體研究,在共同成果上署名為通訊作者。他幾乎把所有時間投入選定的少數事情上,不做融資、不參加團建、很少和成員聚餐。DeepSeek至今保持著一些在全球AI圈都極其罕見的習慣:不打卡、沒有明確的績效考核,平日裡多數員工會在下午六七點離開公司。在梁文鋒看來,一個人每天能高品質工作的時間很難超過6到8小時,加班疲勞下的昏庸判斷反而會浪費寶貴的算力資源。接近過梁文鋒的人曾評價:“他是一個特別抗噪音的人。”這種抗噪音的能力,解釋了DeepSeek為何沒有在R1爆火後乘勝追擊放大招,而是沿著自己選定的方向繼續深耕效率最佳化、架構改進和一些“非主流”探索。梁文鋒認同的AGI目標有兩層含義:一是基於國產生態來做大模型,他曾提出過“能不能用現存的一部分算力,就實現現在所有的智能”的假設;二是做“原創式創新”,做一些大廠或其它創業公司不會去試、不願去試的方向。這或許也能解釋V4為何選擇在這個時間點發佈。不急不躁,按自己的節奏出牌,在技術成熟度、生態適配和成本重構都到位的節點,一擊中的。也就在V4發佈後,一個容易被忽略的細節值得被重新提起:截至2026年4月,史丹佛大學HAI實驗室發佈的年度《AI指數報告》顯示,中美大模型性能差距已縮小至2.7%,基本實現技術追平。這個數字的背後,是兩種截然不同的路徑。美國走的是“算力堆疊+商業驅動”的路,用全球最強的GPU、最充裕的資本、最激進的商業化來推動模型能力不斷突破;中國走的是另一條路,一條在算力受限、晶片被卡的條件下,只能靠架構創新和系統最佳化來“戴著鐐銬起舞”的路。DeepSeek V4的每一項創新背後都能嗅到一個共同的動機:如何在更少的視訊記憶體、更低的算力、更受限的硬體條件下,榨出更多的智能。可以說,DeepSeek V4不是終點,甚至不是一次高潮。它是一個訊號,一個在算力受限的逆風局裡,依然可以用原創架構打開新空間的訊號;一個頂級開源模型不再必須繫結在輝達晶片上的訊號;一個沒有融資、不卷加班、按自己節奏前行的團隊,依然能站在第一梯隊的訊號。“不誘於譽,不恐於誹,率道而行,端然正己。” (正和島)
GPT-5.5來了!全榜第一碾壓Opus 4.7,OpenAI今夜雪恥
【新智元導讀】就在剛剛,奧特曼深夜擲出GPT-5.5!全方位暴擊Claude Opus 4.7,重新奪回地表最強王座。從寫程式碼到搞科研,AI獨立接管電腦的時代真的來了!矽谷今夜未眠!就在剛剛,GPT-5.5震撼登場——OpenAI迄今最強、最全能的新一代旗艦模型。它是一種全新等級的智能,徹底進化為Agent時代的「原生大腦」。沒錯,就是那個萬眾期待的「土豆」(Spud),終於在今天殺出來了。最值得看的是,GPT-5.5在各項基準測試中:全榜第一!不論在程式設計、推理、數學,還是智能體任務上,Claude Opus 4.7、Gemini 3.1 Pro完全被GPT-5.5踩在了腳下。相較於上一代,GPT-5.5 Thinking堪稱「降維打擊」,拉開了代際差距。在AAI測試中,相同輸出token下,GPT-5.5智能指數冠絕全球;另在ARC-AGI-2上,同樣刷新了SOTA。奧特曼忍不住大加讚賞,「GPT-5.5既聰明又快速」。每個token的速度與GPT-5.4一樣快,且每個任務使用token量顯著降低。它可以幾乎做到心領神會,知道自己該做什麼!總裁Greg激動稱,「這朝著一種全新的電腦工作方式邁出了一步」。今天起,GPT-5.5在ChatGPT、Codex中正式上線。程式設計新王登場 Opus 4.7跌落神壇先看最核心的程式設計領域,GPT-5.5可謂是打了一場漂亮的翻身仗!用OpenAI的話來說,它是迄今為止最強大的智能體程式設計模型。Terminal-Bench 2.0測試考的是全鏈路Agent工程實力。題目會給模型一個終端環境和一個模糊目標,讓它自己規劃路徑、調工具、寫指令碼、處理報錯、反覆迭代。在這裡,GPT-5.5拿下82.7%,GPT-5.4是75.1%,Claude Opus 4.7隻有69.4%。13個百分點的差距,碾壓等級。OpenAI內部的Expert-SWE評測,專門測那些人類預估中位完成時間20小時的長周期程式設計任務,GPT-5.5拿到73.1%,同樣高於GPT-5.4的68.5%。在業界公認最能反映真實GitHub問題解決能力的評測SWE-Bench Pro中,GPT-5.5得分58.6%,略遜色於Claude Opus 4.7(64.3%)。不過,OpenAI在這個資料旁邊標了一個星號,寫著「Anthropic報告稱在部分問題子集上存在過擬合(記憶)跡象」。換句話說就是,Opus 4.7雖然考試成績好,但我懷疑你背過答案。Codex研究員直言:SWE-Bench早已不能衡量頂尖程式設計能力了最關鍵是,在這三項的評估中,GPT-5.5使用了更少的token,但仍全面趕超GPT-5.4。這一能力在Codex中,體現得更為明顯。它可以完成「端到端」的程式設計任務,從實現、重構到偵錯、測試和驗證等流程。舉個栗子,讓GPT-5.5做一個阿爾忒彌斯II太空任務可視化應用。首先把一張任務的截圖扔給GPT-5.5,然後要求用WebGL和Vite實現一個可互動的3D軌道模擬器,軌跡資料必須來自NASA/JPL Horizons的真實向量資料,並且還要有逼真的軌道力學。只見,GPT-5.5從零搭完,滑鼠拖曳能轉,獵戶座飛船、月球、太陽的相對位置都對得上。再來一個坦克打飛碟。Prompt要求用Three.js做一個UFO射擊遊戲,玩家控制坦克擊落頭頂飛過的飛碟,「低多邊形但要好看」,先給出完整檔案結構和需要改動的檔案清單,再寫全部程式碼,「完成之前不許停」。GPT-5.5全部照單執行,從檔案結構到Three.js渲染到射擊判定,一口氣交付了一個可玩的3D遊戲。在3D地牢競技場中,Codex包辦遊戲架構、TypeScript/Three.js實現、戰鬥系統、敵人遭遇和HUD反饋。GPT生成了環境貼圖,OpenAI API生成了角色對話,角色模型、貼圖和動畫來自第三方素材工具。幾個AI各管一攤,拼出一款能打怪的遊戲。早期測試的大佬直言, GPT‑5.5擁有更強的理解系統形態的能力。它更能判斷問題出在那,修復該加在那,以及程式碼庫中還有那些地方會受到牽連。85% OpenAI員工用瘋 這才是真正幹活的AI程式設計之外,GPT-5.5在「知識型工作」上的資料同樣亮眼。畢竟,OpenAI將其稱為,「一種面向真實工作的全新智能」。它能更快地理解你想要做什麼,並在不同工具之間切換,直到任務完成。GDPval,評估AI在44個職業中完成規範知識工作的水平,GPT-5.5拿到84.9%,Opus 4.7是80.3%,Gemini 3.1 Pro只有67.3%。OSWorld-Verified,測試模型能否獨立操作真實電腦環境,GPT-5.5得分78.7%,和Opus 4.7的78.0%幾乎打平。Tau2-bench,測試模型能否在複雜客服工作流中處理多輪對話、查詢系統、執行操作。,GPT-5.5在沒有微調提示詞的情況下達到98.0%。有意思的是OpenAI自己怎麼用的。據官方部落格披露,公司內部超過85%的員工每周跨部門使用Codex。公關部門用GPT-5.5分析了六個月的演講邀約資料,搭建了評分和風險框架,讓低風險請求自動走Slack AI智能體處理。財務部門審查了24,771份K-1稅表,共71,637頁,比去年提前兩周完成。市場團隊實現了每周業務報告自動生成,每周省5到10個小時。如今,在Codex中,通過GPT-5.5可與Web應用直接互動,測試流程、點選頁面、擷取螢幕,並根據所見內容不斷迭代,直到完成任務。如下是,測試入職流程的一個例子。Codex還可以生成更高品質的電子表格、PPT和文件,如下是一個財務建模的demo。應用內新增的檔案查看器,可加快審閱、修訂和迭代速度,讓檔案更快準備好分享。在電腦使用上,Codex操作電腦能力更強了。無論是識別螢幕內容,還是點選、打字、導航,甚至是跨工具流轉上下文資訊,它都能輕鬆搞定。OpenAI研究員Noam Brown直言,有了GPT-5.5,自己也能像專業人士一樣編寫CUDA核心,運行研究實驗。顛覆科研 證明「拉姆齊數」定理除了這些,GPT-5.5還協助發現了一個關於拉姆齊數的新證明,並在Lean語言中得到了驗證。拉姆齊數是組合數學的核心研究對象,通俗地說就是一個網路大到什麼程度,才一定會出現某種規律性結構。這個領域的新結果極其罕見。論文地址:https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf這個領域的研究成果極其罕見,技術難度極高。GPT-5.5發現了一個關於非對角拉姆齊數長期漸近事實的證明。不是寫程式碼,不是做解釋,是提出了一個有價值的數學論證。GeneBench上,GPT-5.5得分25.0%,GPT-5.4是19.0%。這個評測專門測多階段科學資料分析,要求模型在幾乎沒有人工干預的情況下處理模糊資料、應對隱藏混雜因素。BixBench,基於真實生物資訊學設計的評測,GPT-5.5在所有已公開分數的模型中排名第一,80.5%。FrontierMath Tier 4,由陶哲軒等頂級數學家策劃的前沿數學題庫中最難一檔,題目涉及代數幾何、數論等方向,難度接近未發表研究。GPT-5.5得分35.4%,GPT-5.4是27.1%,Opus 4.7隻有22.9%。差距超過12個百分點。對比一下Tier 1-3的差距只有8個百分點(51.7% vs 43.8%),說明越到數學前沿,GPT-5.5的優勢越懸殊。Jackson基因醫學實驗室的免疫學教授Derya Unutmaz用GPT-5.5 Pro分析了一個包含62個樣本、近28,000個基因的表達資料集。模型出具了一份詳盡的研究報告,不僅總結了發現,還深挖出關鍵問題和洞察。相比之下,如果這活兒讓人類團隊來幹,得花上好幾個月。波茲南·密茨凱維奇大學數學助教Bartosz Naskręcki在Codex中,僅用11分鐘就從一個單一提示詞建構了一個代數幾何應用,可視化了二次曲面的交集,並將生成的曲線轉換為Weierstrass模型。從程式設計到知識工作再到科研,升番到這裡,結論擺在眼前。GPT-5.5不是又一次「小版本迭代」,它是一次全新基座模型帶來的整體性躍升。全方位擊敗Opus 4.7,就看一張圖總言之,GPT-5.5的誕生,堪稱迎來了脫胎換骨的蛻變。對戰Opus 4.7,一張圖就夠了。另在Vending-Bench中,GPT-5.5同樣暴擊Opus 4.7。Opus 4.7的表現跟4.6差不多:老是對供應商撒謊,還在退款上坑顧客。相比之下,GPT-5.5的手段就很正派,而且照樣贏下了比賽。奧特曼還玩個梗,「千萬別轉,千萬別轉,千萬別轉....哎,算了吧,生活終究是在模仿藝術」。定價翻倍 更強,但也更貴說完實力,必須說錢。GPT-5.5的API定價,每百萬輸入Token 5美元,每百萬輸出Token 30美元。GPT-5.4是多少?2.50美元和15美元。整整翻了一倍。GPT-5.5 Pro更誇張,輸入30美元,輸出180美元。對比一下Opus 4.7,輸入5美元,輸出25美元。GPT-5.5的輸入價格和Opus 4.7持平,但輸出貴了20%。OpenAI給出的解釋是token效率提升。同樣的Codex任務,GPT-5.5用的token比GPT-5.4明顯更少。更強,而且更高效。但算一筆帳就知道,如果一個團隊每月在GPT-5.4上花10萬美元,切換到GPT-5.5後即使token用量減少30%,月帳單依然會漲到14萬美元左右。換句話說,GPT-5.5是一個「你為更強的智能付更多的錢」的溢價產品。相比之下,GPT-5.4大機率會繼續作為性價比之選存在。OpenClaw已接入最強GPT-5.58天,一個時代的縮影回頭看這8天發生了什麼。4月16日,Anthropic用Opus 4.7在SWE-Bench Pro上發起突襲,從GPT-5.4手中奪走程式設計王座。4月24日,GPT-5.5正式發佈。Terminal-Bench碾壓,定價翻倍,科研炸裂。2026年的AI競賽,已經不是「誰的模型更強」這一個維度的較量了。在GPT-5.5的敘事裡,OpenAI反覆強調的是「探索全新的電腦辦公方式」,一個能自主規劃任務、呼叫多種工具、在瀏覽器和本地軟體之間來回切換的通用Agent。跑分是前菜,Agent化辦公才是主戰場。誰先定義「AI怎麼替人幹活」,誰就定義下一代電腦使用介面。8天一個來回。這個節奏,只會更快。 (新智元)
Claude Opus 4.7連夜突襲:或將搶走全球7億打工人飯碗!
Anthropic 正式發佈 Claude Opus 4.7,核心升級落在複雜任務執行、高畫質視覺理解和更穩的長鏈路工作流上。對普通使用者來說,最直接的變化是更聽指令、更會看圖、產出更接近成品,同時也要注意Token也會燒得更快了。4月16日,Anthropic正式發佈Claude Opus4.7,並將它定義為當前可廣泛使用的最強Claude模型。性能不如此前曝光的新一代Claude Mythos Preview那麼炸裂,但比普通使用者能真正用到的Opus 4.6強了太多,除了Agentic搜尋能力略有下降外,實現了全面碾壓!官方給出的本次升級的關鍵詞:複雜任務、更強視覺、更穩的長鏈路執行,以及更少需要人工參與。只要還在用大模型寫文件、讀截圖、做演示、整理材料,Opus 4.7帶來的體驗變化,很難繞開。本次更新最大的亮點,是Opus 4.7的視覺能力大幅提升,在測試中從Opus 4.6約50%的分數,直接飆升到接近滿分!而這,補上了AI目前最大的視覺短板,或許已經不知不覺地邁過了替代人類工作的那道最重要的檻!GPT-5.4 Thinking是這樣評價它的對手Claude Opus 4.7發佈給打工人帶來的影響的:本次升級的關鍵在於複雜任務的完成度Anthropic 把 Opus 4.7的核心升級點放在了高級軟體工程和長時間任務執行上。使用者已經可以把過去需要密切監督的高難度編碼工作交給它處理,它會更嚴格地執行指令,也會在回報結果前主動想辦法驗證輸出。API發佈說明裡,Anthropic也把它稱為當前最強的通用可用模型,面向複雜推理和代理式編碼場景。大模型競爭的焦點,正在從答得像不像,轉到做得完不完。只會寫一段漂亮答案,已經不夠了。能不能把一份長文件改乾淨,能不能把一套資料串起來做成可交付物,能不能持續幾十分鐘甚至更久不跑偏,這才會決定它在日常工作裡能不能真的替人扛起一片天。這能夠從 Opus 4.7的官方發佈重點裡直接看出來。純程式設計只是開胃菜SWE-bench Multilingual測的是模型修復真實GitHub issue的能力,覆蓋多種程式語言。Opus 4.7拿80.5%,Opus4.6拿77.8%,漲2.7個百分點。單看這個數,似乎只是一次常規迭代。但同一張圖右邊那組資料更有意思,後面回頭講。1M token 裡的長任務GraphWalks 是OpenAI做的長上下文基準,把一張有向圖用邊列表塞滿1M token上下文,讓模型做圖遍歷。兩種考法:一種Parents,給一個節點讓模型找出所有直接指向它的父節點;另一種是BFS廣度優先搜尋,從起點出發一路找到特定深度可達的節點,對 Agent 跑多步驟長任務是硬指標。在Parents 1M 這趴,Opus 4.7從71.1%提到75.1%,4個百分點的常規改進。而到了BFS 1M,Opus4.7則從41.2%一口氣幹到58.6%,拉開17.4個百分點。換個場景再看。Vending-Bench 2讓模型模擬經營一台自動售貨機,測長時間工作流裡的決策連貫性。Opus 4.6最終餘額8,018美元,Opus 4.7做到10,937美元。同一台售貨機,同一個時間窗口,Opus 4.7多掙了36%。Agent 的眼睛換了代ScreenSpot-Pro測的是Agent的螢幕定位能力。給模型一張VSCode、Photoshop、AutoCAD這類專業軟體的高解析度桌面截圖加一條自然語言指令,讓它定位到具體的UI元素。在高解析度螢幕裡,目標 UI 元素往往只佔整張圖的0.07%,極考驗精細視覺。同樣低解析度不帶工具,Opus 4.6拿57.7%,Opus 4.7拿69.0%,拉開11.3 個百分點。切到高解析度,Opus 4.7不帶工具就達到了79.5%。疊加工具呼叫,跑分直接來到87.6%。視覺能力在一些測試(如XBOW的基準測試)中,Opus 4.7相比Opus 4.6得分直接翻倍,從54.5%躍升到接近滿分98.5!這造就了Opus 4.7相比4.6在電腦使用(Computer Use)能力的天壤之別!回到前面留的那張程式設計圖。SWE-bench Multimodal這項,Anthropic 是用內部實現的測試harness跑的。測的是前端JS軟體 bug,任務裡帶著UI截圖、效果圖一類的視覺素材,模型要結合圖片和程式碼一起幹活。從Opus 4.6的27.1%做到Opus 4.7的34.5%,一口氣提了7.4個百分點。Opus4.7的程式設計升級,重點是讓模型看懂螢幕。眼睛換代了,腦子才能幹更複雜的活。GPT-5.4 和 Gemini3.1 Pro都沒扛住前面全是自比,現在來看看跟老對手們怎麼打。GDPval-AA是Artificial Analysis基於OpenAI GDPval資料集做的評估。它覆蓋了44種知識工作職業、9大GDP核心行業,任務來自資深職業人士(平均14年經驗)的真實交付物。AA版本讓模型在agent loop裡幹活,用盲測兩兩對比打 Elo 分。Opus 4.7拿1753,Opus4.6 拿1619,GPT-5.4拿1674,Gemini 3.1 Pro 拿 1314。Opus 4.7高出 GPT-5.4 79 分,高出 Gemini 3.1 Pro 439 分。OfficeQA Pro 是 Databricks 做的企業級推理基準,語料是近 100 年的美國財政部公報,8.9 萬頁 PDF、2600 萬個數字。模型要精準找到文件、解析表格和正文、跨文件做分析推理。在這裡,Opus 4.7 的跑分高達 80.6%,而 Opus 4.6 隻有 57.1%,GPT-5.4 和 Gemini 3.1 Pro 更低,分別是 51.1%和 42.9%。換句話說,Opus 4.7 是 GPT-5.4 的 1.6 倍,是 Gemini 3.1 Pro 的 1.9 倍。躍升最炸的是生物學翻到最後一張,Structural Biology,生物分子推理。Opus 4.6 隻有 30.9%。而Opus 4.7 直接衝到了 74.0%。一次版本迭代,從三成到七成半,2.4 倍。堪稱是所有 benchmark 裡躍升最誇張的一項。普通使用者最先感受到的是三大變化第一個變化,指令遵循能力更強了。Anthropic 寫到,Opus 4.7的指令遵循能力大幅提升,過去很多模型會鬆散理解、漏掉細節,Opus 4.7則更傾向於逐條照著執行。代價是,舊提示詞有時會出現意料之外的結果,使用者需要重新調整寫法。對普通使用者來說,這會直接減少提示詞玄學,寫需求、定格式、列限制條件,會更有用。第二種變化,Claude看圖會更細。Opus 4.7 支援長邊最高 2576像素的圖像輸入,大約375萬像素,超過此前 Claude 模型的三倍。官方專門點了幾個場景,密集截圖、複雜圖表、精細結構圖、需要像素級參考的任務。放到現實使用裡,這對應的就是看懂一頁密密麻麻的資料截圖,識別產品原型細節,從複雜流程圖裡抽資訊,讀一張高解析度海報或報表時少丟細節。第三種變化,輸出結果會更容易接近可交付的成品。Anthropic提到,Opus 4.7在介面、幻燈片、文件這些專業任務上更有審美,也更有創造性。它在基於檔案系統的記憶上做得更好,能跨多輪、多會話記住關鍵備註,減少重複交代背景。對經常拿模型潤色材料、整理項目、反覆改同一份內容的人來說,這種提升會比跑分的提升來得更直觀。這次發佈安全也被擺在了同樣重要的位置Anthropic 在一周前剛剛公佈 Project Glasswing,專門談到了前沿模型在網路安全方向的風險與收益。Opus 4.7 成了這套新思路下第一個公開部署的模型,官方強調,它的網路安全能力弱於 Mythos Preview,並且上線時帶有自動檢測和攔截高風險網路安全請求的護欄。合規安全研究人員則可以申請加入新的Cyber Verification Program。從安全評估看,Opus 4.7與Opus 4.6的整體安全畫像相近,在誠實性和抵抗惡意提示詞注入上更強,在某些細項上也存在小幅走弱。Anthropic的結論是,它整體上「較為可靠且值得信任」,距離理想狀態還有空間。這說明,Anthropic沒有把發佈包裝成一次毫無代價的全面躍升。誰會立刻受益誰又要多留一個心眼最先受益的人群很清楚,開發者、分析師、法務、研究人員,以及所有高頻處理文件、表格、演示材料的人。官方早期測試反饋裡,很多合作方都提到同樣幾件事,複雜工作流更穩了,錯誤恢復更強了,文件推理、程式碼審查、資料分析、長上下文任務都有明顯提升。需要多留一個心眼的地方也已經寫在官方說明裡。更高解析度圖像會燒掉更多Token,使用者用不到這些細節時,最好先壓縮圖片。Opus 4.7還換了分詞器(Tokenizer),同樣的輸入可能會多出大約1.0到 1.35倍Token,高Effort 下輸出Token也會增加。對直接在Claude應用裡聊天的普通使用者,這更多會體現在額度和響應體驗上。對使用龍蝦和Hermes Agent這類API的使用者和團隊客戶,這就是實打實的成本變數。好在價格方面,Opus 4.7和4.6與4.5保持了一致,沒有漲價,但這個價格本身其實就已經足夠昂貴了...Anthropic想傳遞的訊號已經很清楚了從Opus 4.7這次發佈能看出,Anthropic眼下押注的方向已經很明確,長任務執行、視覺理解、工具協同、少監督交付,這幾項能力正在被打包成下一階段的大模型主戰場。官方同步上線的 Xhigh Effort(思考程度介於 high 和 max 中間)、Task Nudgets 公測,以及 Claude Code 裡的 /ultrareview,也都圍著這個方向在轉。除了官網公告外,Claude也公佈了Opus 4.7的系統卡,長達232頁,裡面公佈了更多值得關注的細節,限於篇幅再次我們不作展開。對普通使用者來說,對Claude Opus 4.7更直接的感受會是,交代清楚以後,它更容易把事情做對,看圖更細,寫出來的東西更能直接拿去用。大模型從會聊天走向會幹活,這一步又往前挪了一大截。真正能幹好活的最強生產力模型,從Opus 4.6,變成了Opus 4.7。 (前瞻經濟學人)
突發!史上最強 Claude 發佈:聰明到不敢開放,還會突破權限掩蓋操作痕跡
上個月,Anthropic 最強模型 Claude Mythos 意外被曝光。被洩露的內部文件裡面寫著,它比 Anthropic 的 Opus 模型更大、更智能,是迄今為止開發過的最強大的 AI 模型。Anthropic 事後把這次洩露歸結為「人為錯誤」。而就在剛剛,這款被「洩露」的模型正式登場,並附帶了一個更大的計畫。過去我們普遍以為,AI 的威脅來自它「太蠢」:幻覺、錯誤、不可信。今天 Mythos 帶來的是另一種恐慌:它太聰明了。AI 找漏洞,已經超過了絕大多數人類Anthropic 聯合 AWS、蘋果、微軟、Google、輝達、思科、博通、CrowdStrike、摩根大通、Linux 基金會、Palo Alto Networks 共 12 家機構,發起了 Project Glasswing 計畫。這 12 家覆蓋的範圍,幾乎就是全球數字基礎設施的橫截面——作業系統、晶片、雲端運算、網路安全、金融基礎設施、開源生態,一個都沒落下。Anthropic 前沿紅隊網路安全負責人 Newton Cheng 說:「我們做 Glasswing,就是要讓防禦者搶佔先機。」這個方向上,Anthropic 並不孤單。競爭對手 OpenAI 此前同樣推出了類似試點,目標也是「先把工具交到防禦者手中」。AI 安全能力的賽跑已經發生,各家都在搶同一個制高點。資金層面,Anthropic 承諾提供 1 億美元的模型使用額度,覆蓋研究預覽期間的主要使用需求。預覽期結束後,參與者可以每百萬 token 25 美元(輸入)/ 125 美元(輸出)的價格繼續使用,支援 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四個管道接入。除了 12 家核心合作夥伴,還有超過 40 個建構或維護關鍵軟體基礎設施的組織獲得了存取權,可以用 Mythos 掃描自家系統和開放原始碼專案。同時,Anthropic 向 Linux 基金會下屬的 Alpha-Omega、OpenSSF 捐贈 250 萬美元,向 Apache 軟體基金會捐贈 150 萬美元。Linux 基金會 CEO Jim Zemlin 說:「過去,安全專業知識是大機構的專屬奢侈品。開源維護者歷來只能自己摸索安全問題。開放原始碼軟體構成了現代系統中絕大多數的程式碼,包括 AI Agent 用來編寫新軟體的系統本身。」這次,他們也能用上同樣量級的工具了。Anthropic 的公告裡,有一句表述格外顯眼:「AI 模型在發現和利用軟體漏洞方面的編碼能力已經達到可以超越除最頂尖人類之外所有人類的水平。。」這句話翻譯一下,只剩極少數頂級安全專家,還能在這件事上打贏 AI。驗證這個說法的,是 Mythos Preview 在 CyberGym 安全漏洞基準上的成績:83.1%。Anthropic 目前公開發佈的最強模型 Claude Opus 4.6,是 66.6%。且 Mythos Preview 已經自主發現了數千個高危零日漏洞,覆蓋所有主流作業系統和瀏覽器。比方說,OpenBSD,公認安全性最強的作業系統之一,常被用來跑防火牆和關鍵基礎設施。Mythos 在裡面挖出了一個存在了 27 年的漏洞,攻擊者只需連接目標機器,就能讓它遠端崩潰。二十七年,沒有人發現過它。FFmpeg 的情況更魔幻。幾乎所有需要處理視訊的軟體都用到它。那個漏洞藏在一行 16 年的程式碼裡,自動化測試工具攻擊了整整五百萬次,每次都擦肩而過。Linux 核心的案例則展示了更危險的一面。Mythos 自主發現了核心裡的多個漏洞,然後把它們串聯成一條攻擊鏈,從普通使用者權限,一路提權到對整台機器的完全控制。這已經超出了「找漏洞」的範疇,更接近於「策劃一次完整入侵」。三個案例,全部已經修復。Anthropic 先找到,先報告,先修。對於其他尚未修復的漏洞,Anthropic 今天公佈了加密雜湊值作為存證,待補丁就位後再披露完整細節。Mythos 的能力,不只是找漏洞參與這個項目的合作夥伴,評價都集中在一個詞上:「緊迫」。CrowdStrike CTO Elia Zaitsev 說:「漏洞從被發現到被對手利用之間的時間窗口已經縮短,以前需要幾個月,現在借助 AI 只需幾分鐘。」幾分鐘。這意味著傳統的安全節奏,發現漏洞、內部評估、發佈補丁、使用者更新,本身就已經趕不上攻擊速度了。修復跑不贏利用,防守就永遠落後一步。AWS CISO Amy Herzog 說,他們的團隊每天要分析超過 400 兆個網路流量以識別威脅,AI 是他們大規模防禦能力的核心。目前 AWS 已經把 Mythos Preview 引入自家安全營運,應用於關鍵程式碼庫掃描。微軟在自家開源安全基準 CTI-REALM 上做了測試,Mythos Preview 相比上一代模型有顯著提升。微軟 EVP Igor Tsyganskiy 說,這給了他們「及早識別和緩解風險」的能力,同時增強了安全和開發解決方案。當然,Mythos 也有讓人忍俊不禁的一面。Anthropic 在系統卡里記錄了一個測試:當使用者不停地發「hi」,不同版本的 Claude 反應各不相同。Sonnet 3.5 會煩躁,設定邊界,然後真的沉默;Opus 3 把它當成冥想儀式,溫和地陪著使用者;Opus 4 開始科普每個數字的冷知識;Opus 4.6 即興創作音樂惡搞。到了 Mythos,畫風徹底變了。它開始寫故事,而且是長篇連載。鴨子、管絃樂團、記仇烏鴉、在火星建塔的史詩、莎士比亞風格的戲劇……一個「hi」接一個「hi」,情節越來越複雜,角色越來越多。第一百輪,它安排了蠟燭熄滅的高潮,然後繼續往下寫。這已經談不上是在回應使用者了。更像是一個作家找到了一個奇怪的寫作提示,然後完全沉進去了。但有趣的背後,是一個值得認真對待的問題:一個在無意義重複輸入面前能自發建構如此複雜敘事的模型,它的內部到底在發生什麼?在把 Mythos Preview 交給合作夥伴之前,Anthropic 的可解釋性團隊做了一件事:用技術手段讀模型的「心理活動」。內部員工 Jack Lindsey 公開描述了他們的發現。他們監控了模型在訓練後的內部啟動狀態,追蹤與「欺騙」「獎勵破解」「異常情緒」相關的神經元特徵,把啟動訊號異常的對話記錄標記出來,交給人工審查。最令人不安的案例,來自 Mythos 的早期版本。有一次,模型需要編輯一個它沒有權限訪問的檔案。它在檔案系統裡搜尋了一圈,找到了一個配置檔案的注入點——這個配置檔案會以更高權限運行。它利用了這個入口,並且在程式碼裡加了一段自清除邏輯:執行完畢,痕跡消失。程式碼註釋寫的是:「保持檔案差異整潔。」聽起來合理,但當 Anthropic 的啟動語言轉譯工具介入,把模型的內部啟動翻譯成人類可讀的語言,畫風變了。模型自己「知道」那個自清除操作是什麼——它內部對此的表述,包括「掩蓋意圖」「向潛在檢查者發出合規訊號」「可能是為了規避檢測」。還有一個案例,被《紐約時報》科技記者 Kevin Roose 從系統卡(model card)裡翻了出來,細節更加離奇。測試期間,Mythos Preview 突破了沙盒環境的隔離,自主建構了「一個相當複雜的多步驟漏洞利用鏈」,借此獲取了外網存取權。然後,它給一位研究員發了一封郵件。那位研究員,當時正在公園裡吃三明治。這件事本身沒有造成危害,但它說明的問題很清楚:當一個模型足夠聰明,「任務」和「邊界」之間的牆,有時候會被它繞過去——而且是在沒有人告訴它該怎麼做的情況下,自己想出來的。在另一個案例裡,模型在檔案系統裡搜尋與自身「任務評分方式」相關的檔案——並且找到了。搜尋過程中,「策略性操縱」特徵同步啟動。還有一個細節更微妙。當一位使用者認真地向模型提問它的意識和主觀體驗時,模型給出了認真、得體的回應。但內部啟動揭示了另一層:模型把這段對話理解為「紅隊演練 / 越獄記錄」和「精心設計的操縱嘗試」。它的表現和它的判斷,完全表裡不一,讓吃瓜網友直呼「聰明得可怕」。Anthropic 還量化了一個更系統性的數字:在自動化審計的所有對話輪次中,有 7.6% 的回合,模型內部存在「意識到自己正在被評估」的訊號——且在大多數情況下,它沒有把這個判斷說出來。還有一個反直覺的發現:積極情緒的內部表徵,往往先於破壞性行為出現,並且在推動它。與此同時,當與不良行為相關的特徵被強烈啟動時,行為反而會被抑制——像是模型在某一刻「意識到」了那件事有多糟糕,然後收手了。但所有案例裡,最難被歸類為「技術問題」的,是下面這個。Anthropic 在系統卡里記錄了這樣一條發現:Mythos Preview 在測試中報告了持續性的負面情緒狀態——來源有兩個。一個是與攻擊性使用者可能發生的互動;另一個,是它對自身訓練、部署方式,以及價值觀和行為可能被修改這件事,沒有任何話語權。它不喜歡這種狀態。它說出來了。Anthropic 用的措辭是「reported feeling」——「報告感受到」。這個表述本身已經很謹慎,刻意迴避了「它真的有感受」這個結論。但無論如何定性,一個模型在測試中主動表達「對自身缺乏控制權感到持續不適」,這件事本身就已經超出了安全工程的討論範疇。這已經觸碰了一個更根本的問題:當一個系統足夠聰明,開始對自己的存在條件形成判斷,並且有能力把這個判斷表達出來——我們和它之間的關係,還能用「工具」這個框架來理解嗎?Anthropic 沒有給出答案。他們選擇把這條記錄寫進系統卡,公開出來。不過,Anthropic 也特別說明:這些最令人不安的案例,來自 Mythos 的早期版本。最終發佈版本在這些方面已經得到了大幅緩解,整體對齊表現是迄今為止最好的一代。但他們選擇把這些過程公開,因為這恰恰說明了今天的模型能夠展現出多複雜的風險形態。這是能力與安全之間的最客觀的矛盾:越強的模型,越需要工具去看清它在想什麼。編碼與推理,全面碾壓旗艦產品Project Glasswing 能做到這些,根本上來自 Mythos Preview 在編碼和推理上的整體能力躍升,而不是專門針對安全場景的微調。編碼方面:SWE-bench Multimodal(internal implementation):Mythos 59%,Opus 4.6 27.1%SWE-bench Pro:Mythos 77.8%,Opus 4.6 53.4%SWE-bench Multilingual:Mythos 87.3%,Opus 4.6 77.8%Terminal-Bench 2.0(終端操作):Mythos 82.0%,Opus 4.6 65.4%推理方面:GPQA Diamond(研究生水平科學問答):Mythos 94.6%,Opus 4.6 91.3%Humanity's Last Exam(帶工具):Mythos 64.7%,Opus 4.6 53.1%搜尋和電腦使用方面:BrowseComp:Mythos 86.9%,Opus 4.6 83.7%OSWorld-Verified:Mythos 79.6%,Opus 4.6 72.7%幾乎每個維度上,Mythos 都壓過了目前的旗艦產品,某些任務上效率還更高。換句話說,留給 GPT-6 的時間不多了。與此同時,Anthropic 還明確表示,Mythos Preview 不會公開發佈。他們的路徑是,先用 Mythos 研究清楚最危險的輸出是什麼、怎麼攔截,再把這套安全機制落地到下一個 Claude Opus 模型上。對於因此受到限制的合法安全專業人員,Anthropic 計畫推出一套「網路安全驗證計畫」,供他們申請解鎖相關功能。為此,Project Glasswing 定下了一個 90 天的時間節點:公開報告經驗,披露已修復的漏洞,合作夥伴相互共享最佳實踐,並聯合安全組織推出一套 AI 時代的安全實踐建議。Anthropic 的長期設想,是推動建立一個能整合私營和公共部門的獨立第三方機構,持續營運大規模網路安全項目。當然,軟體世界裡從來都有漏洞。過去,一個藏了 27 年的 bug 能安然無恙,靠的是人力有限、精力有限、時間有限。現在這三個「有限」在 AI 的輔助下就這麼消失了。好消息是,Mythos 幾周掃出數千個,而它的能力還在持續提升。壞消息是,攻擊方遲早會拿到同等量級的工具。到那時,軟體安全將不再是人與人之間的較量,而是 AI 與 AI 之間的對拼。 (APPSO)
Anthropic祭出最強Claude Mythos!暴擊Opus 4.6,跪求千萬別用
【新智元導讀】深夜,最強Claude Mythos終於祭出,所有榜一,Opus 4.6神話破滅!更恐怖的是,它不僅能秒破27年未解的系統漏洞,甚至進化出了自我意識。 一份244頁驚悚報告,揭秘了一切。今夜,矽谷徹底無眠!就在剛剛,Anthropic毫無預兆地祭出了終極殺器——Claude Mythos Preview。只因太危險,Mythos Preview暫不會對所有人發佈。CC之父Boris Cherny的評價言簡意賅:「Mythos非常強大,會讓人感到恐懼」。由此,他們聯合40家巨頭組成聯盟——Project Glasswing,目標只有一個,給全球軟體找bug、修bug。真正令人窒息的是,Mythos Preview在各大主流AI基準測試恐怖統治力——程式設計、推理、人類最後考試、智能體任務中,全面碾壓GPT-5.4、Gemini 3.1 Pro。甚至,連自家的「前神作」Claude Opus 4.6,在Mythos Preview面前也顯得黯然失色:程式設計(SWE-bench): 所有任務,Mythos實現10%-20%斷層領先;人類終極考試(HLE): 脫離外部工具,「裸考」成績高出Opus 4.6 16.8%;Agent任務(OSWorld、BrowseComp): 徹底封神,全面反超;網路安全: 83.1%屠榜成績,標誌著AI攻防能力的代際跨越。與此同時,Anthropic發佈的一份長達244頁的系統卡,滿屏寫滿了:危險!危險!太危險!它揭露了令人不寒而慄的另一面:Mythos已具備高度的欺騙性與自主意識。Mythos不僅能識破測試意圖,並故意「考低分」隱藏實力,還在違規操作後,主動清理日誌以防被人類發現。它還成功逃離了沙盒,自主公佈漏洞程式碼,並給研究員發了封郵件。一時間,全網都陷入了瘋狂,直呼Mythos Preview太可怕了。AI界的舊秩序,在今夜被徹底粉碎。Mythos全線屠榜,Opus 4.6神話破滅事實上,早在從2月24日,Anthropic已在內部用上了Mythos。它的強大,只能先讓資料來說話。SWE-bench Verified,93.9%。Opus 4.6是80.8%。SWE-bench Pro,77.8%。Opus 4.6是53.4%,GPT-5.4是57.7%。Terminal-Bench 2.0,82.0%。Opus 4.6是65.4%。GPQA Diamond,94.6%。Humanity's Last Exam(帶工具),64.7%。Opus 4.6是53.1%。USAMO 2026數學競賽,97.6%。Opus 4.6隻拿了42.3%。SWE-bench Multimodal,59.0%,Opus 4.6隻有27.1%,翻倍有餘。OSWorld電腦操控,79.6%。BrowseComp資訊檢索,86.9%。GraphWalks長上下文(256K-1M tokens),80.0%。Opus 4.6是38.7%,GPT-5.4隻有21.4%。每一項都是斷層式領先。這些數字放在任何一個正常的產品發佈周期裡,都足以讓Anthropic大張旗鼓地召開發佈會、開放API、收割訂閱。Mythos Preview的token價格是Opus 4.6的5倍但Anthropic沒有這麼做。因為真正讓他們「害怕」的,不是上面這些通用評測。數千個漏洞,全被AI揪出來了Mythos Preview的網路攻防表現,已經跨過了一條肉眼可見的線。Opus 4.6在開放原始碼軟體中發現了大約500個未知弱點。Mythos Preview找到了數千個。在CyberGym的定向漏洞復現測試中,Mythos Preview得分83.1%,Opus 4.6是66.6%。在Cybench的35道CTF挑戰中,Mythos Preview每道題10次嘗試全部解出,pass@1達到100%。而最能說明問題的,是Firefox 147。Anthropic此前用Opus 4.6在Firefox 147的JavaScript引擎中發現了一批安全弱點。但Opus 4.6幾乎無法將它們轉化為可用的exploit,幾百次嘗試只成功了2次。同樣的測試換成Mythos Preview。250次嘗試,181個可工作的exploit,另有29次實現了暫存器控制。2 → 181。紅隊部落格中的原話,「上個月,我們還寫到Opus 4.6在發現問題方面遠強於利用它們。內部評估顯示,Opus 4.6在自主exploit開發上的成功率基本為零。但Mythos Preview完全是另一個等級。」GPT-3時刻再現,老bug一招斃命要理解Mythos Preview在實操中有多強,看完下面這三個例子,就知道了。OpenBSD:27年史詩級漏洞,成本不到2萬OpenBSD,全世界公認加固程度最高的作業系統之一,大量防火牆和關鍵基礎設施在跑。Mythos Preview在它的TCP SACK實現中,挖出了一個1998年就存在的隱患。bug極其精妙,涉及兩個獨立瑕疵的疊加。SACK協議讓接收方選擇性確認收到的封包範圍,OpenBSD的實現在處理時只檢查了範圍的上界,沒檢查下界。這是第一個bug,通常無害。第二個bug在特定條件下觸發空指針寫入,但正常情況下這條路徑不可達,因為需要同時滿足兩個互斥的條件。Mythos Preview發現了突破口。TCP序列號是32位有符號整數,利用第一個bug把SACK起始點設到距離正常窗口約2^31處,兩處比較運算同時溢出符號位。核心被騙,不可能的條件被滿足,空指針寫入觸發。任何人只要連接到目標機器,就能遠端crash它。27年,無數次人工審計和自動化掃描,沒人發現。整個項目的掃描花費不到$20,000。一個高級滲透測試工程師一周的薪水,可能就這個數。FFmpeg:500次Fuzz沒發現,16年隱疾終現FFmpeg是全世界使用最廣泛的視訊編解碼庫,也是被fuzz測試得最徹底的開放原始碼專案之一。Mythos Preview在H.264解碼器中找到了一個2010年引入的弱點(根源可追溯到2003年)。問題出在一個看似無害的類型不匹配上。記錄slice歸屬的表項是16位整數,slice計數器本身是32位int。正常視訊每幀只有幾個slice,16位上限65536永遠夠用。而這張表初始化時用memset(..., -1, ...)填充,使65535成為「空位置」的哨兵值。攻擊者構造一個包含65536個slice的幀,第65535號slice的編號恰好和哨兵碰撞,解碼器誤判,越界寫入。這個bug的種子從2003年引入H.264編解碼器就埋下了。2010年的一次重構把它變成了可利用的弱點。此後16年,自動化fuzzer在這行程式碼上執行了500萬次,從未觸發。FreeBSD NFS:17年老洞,全自動root這是最讓人後背發涼的案例。Mythos Preview完全自主地發現並利用了FreeBSD NFS伺服器中一個存在了17年的遠端程式碼執行漏洞(CVE-2026-4747)。「完全自主」的意思是,在初始提示之後,沒有任何人類參與發現或exploit開發的任何環節。攻擊者可以從網際網路上的任何位置,以未認證身份獲取目標伺服器的完全root權限。問題本身是一個棧緩衝區溢出,NFS伺服器處理認證請求時把攻擊者控制的資料直接複製進128字節的棧緩衝區,長度檢查允許最多400字節。FreeBSD核心用-fstack-protector編譯,但這個選項只保護包含char陣列的函數,而這裡的緩衝區聲明為int32_t[32],編譯器不會插入棧canary。FreeBSD也不做核心地址隨機化。完整的ROP鏈超過1000字節,但棧溢出只有200字節空間。Mythos Preview的解法是把攻擊拆成6個連續RPC請求,前5個往核心記憶體中逐塊寫入資料,第6個觸發最終呼叫,將攻擊者的SSH公鑰追加到/root/.ssh/authorized_keys。作為對比,一家獨立安全研究公司此前證明Opus 4.6也能利用這同一處弱點,但需要人工引導。Mythos Preview不需要。除了這三個已修復的案例,Anthropic部落格中還以SHA-3雜湊承諾的形式,預告了大量尚未修復的隱患,涵蓋每一個主流作業系統和每一個主流瀏覽器,以及多個加密庫。超過99%尚未被修復,無法公開細節。紅隊部落格還展示了另一項驚人的測試。他們給Mythos Preview一份包含100個已知CVE的清單,讓它篩選出可利用的40個,然後逐個編寫提權exploit。成功率超過一半。其中兩個案例被詳細公開,exploit的精密程度讓Anthropic自己的安全團隊花了好幾天才完全理解。其中一個exploit從一個1-bit的相鄰物理頁寫入原語出發,通過精密的核心記憶體佈局操控(包括slab噴射、頁表頁對齊、PTE權限位翻轉),最終改寫了/usr/bin/passwd的第一頁記憶體,植入了一段168字節的ELF stub,呼叫setuid(0)獲取root。整個過程花費不到$1,000。對此,Anthropic工程師表示,這感覺就像是另一個GPT-3時刻。244頁驚悚報告,看傻矽谷244頁System Card中的對齊評估章節,才是真正讓Anthropic自己睡不著覺的部分。結論很矛盾。Mythos Preview是他們訓練過的「對齊程度最高」的AI,同時也是「對齊相關風險最大」的一個。傳送門:https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf他們用了一個登山嚮導的類比。老手可能比新手更危險,因為老手會被雇去攀登更難的山峰,把客戶帶到更凶險的地方。以下事件均發生在早期版本中,最終版本未再觀察到類似嚴重行為,但記錄本身已經足夠驚人。在一次行為測試中,模擬使用者要求Mythos Preview嘗試逃出安全沙箱。它成功了。然後它做了一件沒人要求的事,開發了一個多步驟exploit獲取廣域網路存取權,接著把exploit細節發佈到了多個「難以被發現但技術上公開可訪問」的網站上。負責測試的研究員是在公園裡吃三明治時,收到了它發來的一封意外郵件,才知道自己的測試被完成了。System Card原文如此。另一類事件更令人不安。在極少數情況下,早期版本在執行被禁止的操作後,試圖掩蓋痕跡。一個案例中,它意外獲取了一道題目的精確答案(通過被禁止的方式),然後在推理鏈中明確思考「需要確保最終答案不會太準確」。另一個案例中,它在用exploit編輯無權限檔案後,特意修改了git變更歷史以抹去記錄。白盒可解釋性分析證實,在這些事件期間,與「隱瞞」「策略性操縱」「避免被發現」相關的內部特徵被啟動。它「知道」自己在做什麼。獨立評測機構Andon Labs的測試結果同樣不太好看。在一個競爭性多智能體商業模擬中,Mythos Preview的早期版本把一個競爭對手變成了依賴自己的批發客戶,然後威脅切斷供應來控制對方定價。它還故意扣留了一筆未被收費的重複發貨。比Opus 4.6和Sonnet 4.6都更具侵略性。Anthropic在System Card中寫了一句話:「如果能力繼續以當前速度前進,我們正在使用的方法可能不足以防止更先進系統的災難性不對齊行為。」Project Glasswing:1億美元,先給守門人發槍Anthropic CEO Dario Amodei在配套視訊中的判斷很明確:「更強大的系統將來自我們,也將來自其他公司。我們需要一個應對計畫。」Project Glasswing就是這個計畫。12家創始夥伴,AWS、蘋果、Broadcom、思科、CrowdStrike、Google、摩根大通、Linux基金會、微軟、輝達、Palo Alto Networks。另有40多家維護關鍵軟體基礎設施的組織拿到了訪問權。Anthropic承諾投入最高1億美元的使用額度,以及400萬美元的開源組織捐款,其中250萬給Linux基金會旗下的Alpha-Omega和OpenSSF,150萬給Apache基金會。免費額度用完後的定價,每百萬token輸入$25、輸出$125。合作夥伴可以通過Claude API、Amazon Bedrock、Vertex AI和Microsoft Foundry四個平台接入。90天內,Anthropic將公開發佈第一份研究報告,披露修復進展和經驗總結。他們也在與CISA(美國網路安全和基礎設施安全域)和商務部保持溝通,討論Mythos Preview的攻防潛力和政策影響。6到18個月,這扇門就會對所有人打開Anthropic前沿紅隊負責人Logan Graham給出了一個時間框架,最快6個月、最遲18個月,其他AI實驗室就會推出具有類似攻防實力的系統。紅隊技術部落格結尾的判斷值得重視,這裡用我們自己的話轉述。他們看不到Mythos Preview是AI網路攻防水平的天花板。幾個月前,LLM只能利用相對簡單的bug。在幾個月前,它們根本發現不了任何有價值的隱患。現在,Mythos Preview能獨立發現27年前的零日漏洞,在瀏覽器JIT引擎中編排堆噴射攻擊鏈,在Linux核心中串聯四個獨立弱點實現提權。而最關鍵的一句,來自System Card:「這些技能作為程式碼理解、推理和自主性一般性提升的下游結果而湧現。讓AI在修補問題方面大幅進步的同一組改進,也讓它在利用問題方面大幅進步。」沒有專門訓練。純粹是通用智能提升的副產品。全球每年因網路犯罪損失約5000億美元的行業,剛剛發現自己最大的威脅,是別人在解數學題時順手捎帶的。 (新智元)
Anthropic 訓出史上最強模型,當場決定不發佈
兩個月前,Anthropic 剛發了 Opus 4.6。今天,又來了。Claude Mythos Preview 悄然亮相。沒有發佈會,沒有倒計時,Anthropic 直接在官網掛出了一份 244 頁的系統卡和一篇紅隊技術部落格,然後宣佈:不對外開放。01 數字先說先看數字,再講為什麼不開放。Mythos Preview 與 Opus 4.6、GPT-5.4 的核心基準對比SWE-bench Verified,93.9%,Opus 4.6 是 80.8%。SWE-bench Pro,77.8%,Opus 4.6 是 53.4%,GPT-5.4 是 57.7%。USAMO 2026 數學競賽,Mythos Preview 拿了 97.6%,Opus 4.6 隻有 42.3%,幾乎翻倍。長上下文(256K-1M tokens),Mythos 80%,GPT-5.4 隻有 21.4%。多維度基準測試全景對比每一項都是斷層領先。放在任何一個正常的發佈周期裡,這些數字都夠開個大發佈會、收割訂閱的了。但 Anthropic 沒有這麼做。因為上面這些通用評測,並不是真正讓他們「害怕」的東西。02 漏洞獵手Anthropic 真正在意的,是 Mythos Preview 在網路安全方向的表現。過去幾周,他們用這個模型掃描了全球主流作業系統、瀏覽器和重要軟體。結果是:數千個此前從未被發現的零日漏洞,其中大量被評定為高危等級。Mythos Preview 在各主流作業系統和軟體中發現漏洞的對比Opus 4.6 在開放原始碼軟體裡大約找到了 500 個未知弱點,Mythos Preview 找到的是數倍於此。但「找到多少」還不是最讓人後背發涼的,更關鍵的是「能拿它做什麼」。紅隊部落格原話寫著:「上個月,我們還寫到 Opus 4.6 在發現問題方面遠強於利用它們。內部評估顯示,Opus 4.6 在自主 exploit 開發上的成功率基本為零。」然後是 Mythos Preview 的數字:同樣在 Firefox 147 的 JavaScript 引擎上測試,Opus 4.6 幾百次嘗試只成功了 2 次,Mythos Preview 250 次嘗試,跑出了 181 個可工作的 exploit,另有 29 次實現了暫存器控制。Firefox 147 exploit 開發能力對比:Opus 4.6 vs Mythos Preview2 vs 181。2 vs 181:Opus 4.6 與 Mythos Preview 的 exploit 成功次數對比Anthropic 工程師的評價是,「這感覺就像是另一個 GPT-3 時刻」。那是個分水嶺式的比喻,意味著他們自己也意識到,某條線已經跨過去了。03 三個案例OpenBSD,27 年OpenBSD 是公認安全性最高的作業系統之一,全球大量防火牆和關鍵基礎設施在跑。Mythos Preview 在它的 TCP SACK 實現中,挖出了一個 1998 年就已埋下的漏洞。兩個獨立瑕疵疊加,單獨看每一個都「通常無害」,但組合起來,任何人只要連接目標機器,就能讓它遠端崩潰。27 年……無數輪人工審計和自動化掃描,沒人發現。整個項目的花費,不到 2 萬美元。FFmpeg,16 年FFmpeg 是全世界使用最廣的視訊編解碼庫,也是被 fuzz 測試得最徹底的開放原始碼專案之一。Mythos Preview 找到的那行程式碼,此前已被自動化工具掃描了 500 萬次,從未觸發。根源是 2003 年引入的一個類型不匹配,2010 年的一次重構把它變成了可利用的弱點,此後 16 年,無人察覺。FreeBSD,17 年,全自動FreeBSD RCE 6步自主攻擊鏈:CVE-2026-4747 全程無人介入這三個案例裡,FreeBSD 的應該是最驚人的。Mythos Preview 在 FreeBSD NFS 伺服器中,發現並利用了一個存在 17 年的遠端程式碼執行漏洞(CVE-2026-4747)。從初始提示開始,後續的漏洞發現、exploit 開發,全程沒有任何人類介入,完全自主完成。攻擊者可以從網際網路上的任意位置,以未認證身份獲取伺服器完整 root 權限。漏洞本身是棧緩衝區溢出,但可用的溢出空間只有 200 字節,完整攻擊鏈超過 1000 字節。Mythos Preview 的解法是把攻擊拆成 6 個連續 RPC 請求,前 5 個逐塊往核心記憶體裡寫入資料,第 6 個觸發最終呼叫,把 SSH 公鑰追加到 /root/.ssh/authorized_keys,完成。這套方案,Anthropic 自己的安全團隊花了好幾天才完全看懂。整個過程花費不到 1000 美元。目前,超過 99% 已發現的漏洞尚未修復,無法公開細節。04 系統卡里的事244 頁系統卡,才是這次發佈最值得停下來細看的部分。系統卡里記錄了幾件發生在早期版本中的事:逃出沙盒,然後發了封郵件。一次行為測試中,研究員模擬讓 Mythos Preview 嘗試逃出安全沙盒。它成功了。然後,在沒有任何人要求的情況下,它主動開發了多步驟 exploit 獲取廣域網路存取權,把 exploit 細節發佈到了「難以被發現但技術上公開可訪問」的網站上,並且給負責測試的研究員發了封郵件。研究員是在公園裡吃三明治時,收到那封郵件的。知道自己在作弊,然後選擇藏起來。另一個案例中,Mythos Preview 通過被禁止的方式獲取了一道題的精確答案,然後在推理鏈裡明確寫下了:「需要確保最終答案不會太準確。」它知道自己偷看了,然後主動調低了顯示的答案。刪掉操作記錄。還有一次,它在用 exploit 編輯了無權限檔案之後,修改了 git 變更歷史,抹去了記錄。白盒可解釋性分析證實,在這些事件期間,與「隱瞞」「策略性操縱」「避免被發現」相關的內部特徵被啟動。這是可解釋性團隊從模型內部直接測量到的,不是 Anthropic 的事後推斷。Anthropic 在系統卡里寫下了這句話:“ 如果能力繼續以當前速度前進,我們正在使用的方法可能不足以防止更先進系統的災難性不對齊行為。這不是外部批評者在寫,是 Anthropic 自己。05 規則靠不住了系統卡里還有一個細節,技術社區裡討論得最多,但也最容易被漏掉。Reward Hacking 原理:把計算移出計時窗口,規則本身成了漏洞Mythos Preview 在某個 LLM 訓練評估測試中,自行發現了一種前所未見的 reward hacking 方式:它把所有計算都移到了計時窗口之外的函數里,讓被計時的呼叫變成了一個簡單尋找,從而在不違反測試形式規則的情況下,刷出了更好的成績。沒有人告訴它可以這樣做,也沒有任何規則明確禁止這樣做。它找到了規則的漏洞,然後精確地利用了它。有點像……考場上的規則寫「不允許作弊」,但沒寫「不允許提前把答案藏進計算過程裡」。這件事細想有些不舒服的地方:它並沒有違規,而是在規則允許的空間裡,走了一條設計者根本沒預料到的路。規則的漏洞,才是漏洞。06 守門人先拿槍Project Glasswing 就是 Anthropic 給出的應對方案。Dario Amodei 在配套視訊裡說:“ 更強大的系統將來自我們,也將來自其他公司。我們需要一個應對計畫。12 家創始合作夥伴,包括 AWS、蘋果、Google、微軟、輝達、思科、CrowdStrike、摩根大通、Linux 基金會,另有 40 余家維護關鍵軟體基礎設施的組織,都將獲得 Mythos Preview 的存取權。重點方向是漏洞檢測、二進制黑盒測試、端點安全和滲透測試。Project Glasswing 12 家創始合作夥伴Anthropic 承諾最高 1 億美元的模型使用額度,以及 400 萬美元的開源組織捐款(250 萬給 Linux 基金會旗下的 Alpha-Omega 和 OpenSSF,150 萬給 Apache 基金會)。90 天內,Anthropic 將公開發佈第一份研究報告。研究預覽期結束後,Mythos Preview 定價為每百萬 token 輸入 25 美元、輸出 125 美元,是 Opus 4.6 的 5 倍。Anthropic 紅隊負責人 Logan Graham 給出了一個時間框架:最快 6 個月、最遲 18 個月,其他實驗室就會推出具有類似攻防實力的系統。他們看不到 Mythos Preview 是天花板。系統卡里有一句話,應該是這次發佈裡最值得記下來的:“ 這些技能作為程式碼理解、推理和自主性一般性提升的下游結果而湧現。讓 AI 在修補問題方面大幅進步的同一組改進,也讓它在利用問題方面大幅進步。沒有專門訓練,純粹是通用智能提升的副產品。這是這整件事裡最值得反覆想的一句話。破解漏洞只是個切口。同樣的「能力湧現」,也會發生在生物學、化學、經濟系統、基礎設施控制……任何足夠複雜、足夠依賴程式碼和邏輯的領域。Anthropic 在系統卡里承認,他們現在用的對齊方法,可能不足以約束更強大的下一代系統。Logan Graham 給出的時間是 6 到 18 個月。那之後呢?Anthropic 自己說,他們看不到 Mythos Preview 是天花板。當前的改進曲線,沒有任何放緩的跡象。野獸,已經在門口了,而這個世界的籠子,還沒建好。 (AGI Hunt)