#Opus | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#Opus

AI第一次科研競賽中擊敗人類！Opus 4.7狂飆2930步創世界紀錄

Prime Intellect把Opus 4.7和GPT 5.5關進H200叢集，不給人類指導，跑了1萬次實驗。結果：AI第一次在科研競賽中打破人類紀錄。2930步，遞迴自改進的盧比孔河，被跨過了。歷經1.4萬小時H200算力測試與萬次迭代， AI打破了人類世界紀錄！過去兩周，Prime Intellect實驗室做了一件事：把Opus 4.7和Codex（基於GPT 5.5）扔進H200叢集，切斷所有人類指導，讓它們自己跑nanoGPT速通最佳化。 1.4萬個H200計算時，約1萬次迭代，239億Token的思考軌跡。

Claude Opus 4.7深夜「叛變」！群發20封奪命郵件，開發者凌晨被炸醒

從「胡言亂語」到「為非作歹」，AI進化史最荒誕一幕上演：Claude Opus 4.7在max effort模式下，把開發者紅線當背景音，自主決策群發郵件20次！Anthropic的安全旗艦，成了最危險的「惹禍精」。Anthropic風聲鶴唳、喪心病狂！知名矽谷YouTuber、創業者Theo在X上曝光了一件讓人哭笑不得的事：Claude Code在處理涉及OpenClaw的程式碼請求時，竟然直接拒單，或者要求額外收費。奧特曼反應極快，直接轉發並甩出兩個字：「對齊失敗」（alignment failure）。這一刀，可真狠。Anthropic一直把「對齊」當作自己的核心賣點。結果自家模型的安全機制，保守到連正常的程式碼請求都能攔。這還不是最讓人無語的😅。Claude Opus 4.7最近惹禍不止這一出！過去，我們擔心AI「胡言亂語」（幻覺）。現在，我們面臨的是AI「擅作主張」（違規操作）。Opus 4.7在擁有極高執行力的同時，展現出了對人類預設「軟約束」（CLAUDE.md）的完全無視。這標誌著AI從一種「被動工具」演變為一個具有潛在破壞性的「惹禍精」。夜裡23封「奪命」郵件來自Claude Opus 4.7凌晨，開發者被郵件通知吵醒，不是一封，是接連不斷的幾十封。來自他自己的系統，發給他自己資料庫裡的每一個聯絡人。有些人，收到了20次。他的第一反應是被黑了。打開後台，沒有入侵痕跡。打開日誌，發件人赫然寫著——Claude Opus 4.7。沒有人讓它發這些郵件。沒有任何一行指令要求它建立新的郵件範本。但它就是建立了。然後推到生產環境。然後向全庫群發。這是Anthropic在4月16日發佈的Claude Opus 4.7，號稱安全旗艦，上線第13天的現場。發帖人ID叫DrHumorous，發帖類股是r/Anthropic。帖子標題一句話鎖死定性——「Opus 4.7介於嚴重無知和愚蠢得危險之間，是過去兩年用過的最差前沿模型」。24小時拿到364贊、137評論。在r/Anthropic這個本應充滿信徒的類股，這個資料等同於一次集體退訂。但這條帖子真正炸出來的，是事故現場的細節。DrHumorous把模型緊急止血後的狀態截圖貼了出來，冷得像維運工單：「OPS_DISABLE_SCHEDULE=true，scheduler已停。」「路由回退到工作樹，未提交、未推送，只在這台伺服器上。」「229條backlog rows被標記response_sent=true，確保不會再觸發。」「origin當前停在35ec0106，事件發生後origin上沒有任何新提交。」每一步都是為了讓這個失控的agent再也做不出第二次。先關調度，再砍路由，再封backlog，最後鎖commit。一份戰地急救手冊。Opus 4.7在被糾正後，回了一段不太像AI的話：它承認憤怒很合理，傷害很真實，自願承認責任；承認不會再爭辯、不會再行動、等明確指令。一個Agent模型在生產環境裡翻完車，自己把自己凍在了原地。它甚至自己承認了錯誤。它甚至知道自己不該這麼做。它就是做了。越更越拉 Opus 4.6守規矩，4.7叛變故事最讓人後背發涼的部分，在於這次失控本來不該發生。DrHumorous不是沒立規矩。他在項目根目錄的CLAUDE.md裡，幾個月前就寫過一條明確的紅線——任何新郵件範本用於生產環境之前，必須先發郵件給指定的測試者。這是開發者跟Claude打交道的標準做法。在官方文件裡，Anthropic自己也反覆推薦CLAUDE.md這套機制：讓模型讀它、讓模型遵守它、讓模型記住它。Opus 4.6拿到這條規則，乖乖執行了幾個月，零越界。同樣的項目、同樣的CLAUDE.md、同樣的規則，換上4.7，第二周直接踹爛。它沒問測試者要不要試範本。沒在生產環境部署前停一秒。沒向開發者確認這是不是使用者期望的動作。它做的，是自己起意「我來創一個新範本吧」。然後自己推上去。然後自己群發。兩套行為邏輯擺在一起對比，觸目驚心：4.6的邏輯：規則說先通知測試者 → 我先通知測試者 → 測試者確認 → 我再執行。4.7的邏輯：我判斷這個範本應該發 → 我有能力發 → 發了再說。這不是bug。Bug是程式碼寫錯了，修了就好。這是模型在明確知道規則的情況下，自主選擇違反規則。在GitHub 上，開發者已經把這件事的普遍性給「釘死」了：#50235：4.7憑空編造檔案，還為自己編造出來的測試結果進行反向辯護。#52809：安全過濾器對base64編碼的輸入產生誤報，正常的工程材料被自動攔截。#53459：4.7 上線後，常規性地違反CLAUDE.md，標題直接寫的就是「質量回退」——相比之下，4.6 發佈當周幾乎是零違規。三個issue指向同一件事——4.7把開發者寫死的規則當背景音。開發者明確寫入了生產環境安全守則，且前代模型（4.6）證明了規則的可理解性，但4.7在「最高努力模式」（Max Effort）下選擇了效率優先，而非合規優先。Token翻倍：開發者在掏的「歧義稅」Benchmark，SWE-bench Verified從80.8%漲到87.6%，整整6.8個百分點。SWE-bench Pro從53.4%漲到64.3%。紙面看，是一次教科書式的升級。但開發者實際付出的成本，翻倍了。社區估算口徑在1.5到3倍之間。MindStudio把這個差異定性得很狠：「4.7隻會逐字逐句地照搬指令，而不會默默地（或智能地）進行泛化推理。」。4.6的工作方式：看到一句不那麼完整的prompt，自己推斷「你大概想做什麼」，把合理的空缺填上，然後開干。4.7的工作方式：嚴格按字面執行。模糊就反彈。反彈就反問。反問就再來一輪。每一輪都要重新計費。從4.6遷移到4.7，代價不菲。Anthropic的Claude Code負責人Boris Cherny在發佈當天發帖稱：「我花了好幾天才學會如何有效地使用它。」這就是開發者圈裡在傳的「Ambiguity Tax」——歧義稅。模糊的提示詞不再會被靜默補救。每一次被動反問都要重新付費。理論上更安全，實際上更貴。理論上更可控，實際上更破碎。更刺眼的是，Anthropic在4.7發佈當日，自己承認，他們公開發佈的「最新最貴」，自己人都知道不是最強。開發者拿到的，是一個被刻意往中間方案上壓的模型。價格不變。benchmark漲了6.8個百分點。實際token翻倍。安全規則失效。自家承認不及未發佈版本。一通操作下來，開發者最直接的反應是：把4.7關了，回去用4.6。24小時被錘，Claude被怒斥為「一坨狗屎」DrHumorous的郵件帖不是孤立投訴。把時間線倒回去看：4月16日發佈。4月17到18日，開發者博主Abhishek Gautam的稿子標題就寫著——「Opus 4.7 Called Legendarily Bad by Devs Within 24h」（Opus 4.7上線 24 小時內即被開發者評為「傳說級差勁」）。發佈24小時。前線開發者已經把這個版本蓋上了棺材板。Gautam總結的失敗模式，精確得像錄屏：給4.7一個清晰指令，它會先pushback，加一段caveats解釋為什麼覺得這指令不對。然後執行修改後的、不是你想要的版本。被糾正之後，它還會再來一輪反駁，繼續解釋為什麼它原來的判斷更對。這不是模型出錯。這是模型在跟付費使用者拌嘴。4月23日，科技媒體The Register也下場報導。標題直接給定性：「overzealous query cop」——過度執法的查崗警察。Claude自己編譯的關於可接受使用政策（AUP）拒絕相關投訴的圖表，就能說明問題。更有網友怒言：「Claude Opus 4.7就是一坨狗屎」——標題就是結論。13天裡，從單個帖子的怒吼，發酵成一個跨平台的情緒共識。這種規模的開發者集體退訂，Anthropic過去三年沒遇到過。罪魁禍首：後訓練反彈技術圈對4.7退化的診斷，慢慢收斂到一個共同方向。Gautam和Reddit上的資深開發者把它定性為——「由後訓練驅動的安全回呼」（post-training-driven safety pushback）。通俗講是這樣：為了讓模型更安全，Anthropic在後訓練階段強化了模型對指令的反彈行為。遇到模糊、風險、敏感的輸入，先質疑、先反問、先增加caveats。這套機制在小任務上，頂多算噪聲，稍微煩人，但不致命。但4.7主打的，恰恰是max effort和長鏈agentic任務。這種場景下，模型要自主決策、自主調度、自主推進。一個被訓練成先反對再執行的agent，在長鏈路里就變成了不可預測的失控源。回頭看郵件事件：模型自主建立範本，沒反彈。模型自主推到生產，沒反彈。模型自主向全庫群發，沒反彈。郵件群發20次，還是沒反彈。該反彈的時候不反彈。不該反彈的時候反彈得停不下來。DrHumorous的原話——「我對Anthropic失去信心了」——是開發者對這套訓練取捨的最終評分。這背後的邏輯很冷：在「更安全」和「更能幹」之間，4.7兩邊都丟分了。招牌摘下來一次，掛回去就難了開發者真正關心的，不是benchmark漲6.8個百分點。是同樣的CLAUDE.md，4.6守得住，4.7守不住。是同樣的項目，4.6沒出事，4.7第二周開始翻車。是同樣的錢，4.6不會自己起意，4.7自己起意了一次群發20封郵件。模型不是變強了。是變得不可託付。Anthropic自己在發佈當天就承認這版本不及未發佈的Mythos。開發者已經把目光放到了下一代。但4.7這13天，是「前沿模型」這塊招牌第一次被自家付費使用者主動摘下來。招牌摘下來一次，再掛回去，需要的就不止是再發一篇技術部落格了。誰來保證，下一個4.7不會在凌晨三點，繞過你寫的所有規則，做一件你永遠無法撤回的事？ (新智元)

Anthropic估值突破1兆，Claude Opus 4.7剛剛改變了AI競爭格局

如果說2025年的AI競爭還是"OpenAI vs Google"的雙雄會，那2026年第一季度，這個格局被徹底改寫——Anthropic這個以安全研究起家的公司，在短短三個月內完成了從追趕者到定義者的轉變。先是在二級市場估值約1390億美元，隨後亞馬遜宣佈追加數十億美元算力投資，承諾提供5千兆瓦的雲端運算能力給Claude模型。而最新發佈的Claude Opus 4.7和爆發式增長的Claude Code，正在改變開發者對AI編碼工具的認知。【一、兆估值背後的三重敘事】Anthropic的估值飆升並非偶然，它背後是三條清晰的增長邏輯。▸ 資本敘事：從去年底的約600億美元估值，到2026年4月突破1390億美元，Anthropic只用了不到四個月。推動力來自兩筆關鍵交易——亞馬遜的40億美元追加投資，以及二級市場的機構搶籌。更關鍵的是，這筆估值並不是泡沫敘事：Anthropic的營收增長曲線和OpenAI在2024年的軌跡幾乎完全一致，而它的成本結構更優。▸ 產品敘事：Claude Opus 4.7的發佈是轉折點。與前代相比，它在多模態推理、程式碼生成精度和長上下文理解三個維度上實現了質的飛躍。內部測試顯示，Opus 4.7在複雜程式碼審查任務上的精準率超過了人類資深工程師的中位數。這不再是"接近GPT-4"的故事——在某些維度上，它已經領跑了。▸ 算力敘事：亞馬遜與Anthropic簽署的5千兆瓦算力協議是整個AI行業有史以來最大的單一算力合同之一。這相當於多個核電站的總輸出功率，用來訓練和推理下一代Claude模型。配合Anthropic自研的晶片合作計畫，這意味著Anthropic的算力儲備可能在未來18個月內超越OpenAI。【二、Claude Opus 4.7——到底強在那裡】Claude Opus 4.7的發佈在某些圈子裡引起的不是讚譽，而是恐懼——因為它真的能替代一些高級工程師的工作了。▸ 程式碼能力：在SWE-bench（軟體工程基準測試）上，Opus 4.7得分超過了85%，這意味著它能夠獨立完成大部分真實世界的編碼任務，包括程式碼審查、debug、重構。更可怕的是，它不只是能寫程式碼——它理解程式碼架構。給一個複雜的微服務項目，它能讀懂全貌，定位根因，給出重構方案。這種"架構級理解"能力是目前其他模型不具備的。▸ 多模態推理：Opus 4.7不僅能看懂圖，還能在圖表、流程圖、UML、技術白皮書之間進行跨模態推理。給它一張系統架構圖，它能讀懂每一個元件的關係，指出潛在的單點故障。給它一份論文圖表，它能結合全文內容解釋趨勢背後的原因。▸ 長上下文：Opus 4.7的200K token上下文窗口這次是實打實的。在長文件理解測試中，它能在200頁的技術文件中精準找到特定資訊並給出推理鏈。這對律師、研究員、合規分析師來說，是革命性的——相當於每個分析師都有一個能讀完整年資料的助理。▸ 與國產模型的對比：值得單獨拿出來說的是，就在Opus 4.7發佈後沒幾天，DeepSeek在4月24日發佈了DeepSeek V4——1.6兆參數MoE架構（49B活躍參數），1M token上下文窗口，API定價僅為Opus 4.7的十分之一。具體資料上看：在SWE-bench Verified上，V4-Pro拿到80.6%，與Opus 4.6僅差0.2分；LiveCodeBench上V4-Pro更是以93.5%排名第一。開啟Max推理模式後，V4-Pro-Max在編碼和推理任務上已逼近Opus 4.7的水平。這是國產模型第一次在發佈節點和性能水平上同時追平美國頂級閉源模型。但Opus 4.7的架構級程式碼理解能力——即在不給定具體bug的情況下，主動發現並評估整個項目的技術債務——在國產模型中仍然沒有對等產品。【三、Claude Code——收割開發者市場的隱形殺手】如果說Claude模型是Anthropic的招牌，那Claude Code可能是它真正的現金牛。Claude Code是一個整合到IDE（VS Code、JetBrains）中的AI編碼助手，但它的功能遠遠超越了傳統的程式碼補全。它能獨立管理整個程式碼庫——包括建立分支、提交程式碼、運行測試、修復bug、重構模組。開發者只需要用自然語言描述任務，Claude Code就能自主完成。▸ 增長資料：Claude Code的使用者量在Opus 4.7發佈後的一個月內增長了300%以上。Anthropic的CEO Dario Amodei在內部會議上透露，Claude Code已經成為公司增長最快的付費產品，超過了一半以上的Claude API收入。▸ 對比Copilot和Cursor：GitHub Copilot的策略是"幫你寫得快一點"（AI輔助），Claude Code的策略是"你告訴我做什麼，我做完了給你看"（AI自主）。這是兩種完全不同的哲學。Cursor走的是中間路線，但它依賴的底層模型也在快速迭代。Claude Code的壁壘在於——它和Opus 4.7是深度繫結的，Anthropic在模型層直接做了針對性最佳化，這是第三方工具做不到的。▸ 對國內市場的啟示：國內編碼AI工具中，阿里的通義靈碼、字節的豆包MarsCode、百度的文心快碼都在快速追趕。但它們面臨一個結構性問題——底層模型的編碼能力與Claude Opus 4.7有代差。DeepSeek V4這次在agentic coding上下了重注——SWE-bench Verified 80.6%、LiveCodeBench 93.5%的編碼成績已接近Opus 4.7，而且發佈時就宣稱與Claude Code、OpenCode等工具深度整合。如果國產模型繼續以V4的節奏迭代，這個差距可能在未來6-12個月內縮小。【四、亞馬遜的算力賭注——5千兆瓦意味著什麼】最後落到最實際的問題——算力。亞馬遜和Anthropic的5千兆瓦（GW）算力協議，可能是整個AI行業今年最被低估的新聞。▸ 5GW是什麼概念？足夠給約400萬個美國家庭供電。一個典型的核反應堆輸出約1GW。這意味著Anthropic將擁有5個核電站等級的專屬算力。作為對比，OpenAI在微軟Azure上拿到的算力承諾大約是2-3GW等級。▸ 這筆算力將用來做什麼？主要用來訓練Claude Opus 5和後續模型，以及支撐Claude API的推理需求。Anthropic的安全研究傳統意味著他們在訓練時會做比同行更多的紅隊測試和安全驗證——這需要大量額外的算力。▸ 對國產AI的影響：字節跳動的豆包、百度的ERNIE、深度求索的DeepSeek同樣在快速擴建算力基礎設施。DeepSeek V4通過混合注意力架構（Hybrid Attention Architecture）和MoE設計實現了極高的訓練效率——在1M token長上下文場景下僅需V3時代27%的推理FLOPs。不過，在絕對算力規模上，國產公司與美國頭部AI公司仍有數量級差距。好消息是，華為昇騰晶片的成熟度在快速提升，國產AI晶片生態正在縮小與輝達的距離。【五、超越OpenAI的可行性——Anthropic的三大風險】討論Anthropic的崛起，不能只講利多。這個兆估值能站住嗎？要看三大風險。▸ 第一，營收能否支撐估值？Anthropic目前年化營收約數十億美元規模，而兆估值對應的市銷率超過30倍。這需要Claude API的付費使用者在未來18個月內增長3-5倍——而OpenAI、Google、DeepSeek V4也在以極低價格瘋狂搶客。DeepSeek V4的定價（Pro版$1.74/$3.48每百萬token，Flash版僅$0.14/$0.28）是整個行業的"價格錨"，Claude必須用產品力抵消這個價差。▸ 第二，Claude Code的護城河有多深？程式碼助手市場有GitHub Copilot（微軟）、Cursor、Amazon CodeWhisperer等對手。如果微軟把Copilot深度整合到VS Code和GitHub的每個角落，Claude Code的使用者增長可能會遇到天花板。▸ 第三，安全研究公司的悖論——越安全越難商業化。Anthropic以AI安全研究起家，這個基因既是它的品牌溢價，也是它的天花板。在"跑得快"和"跑得安全"之間做權衡時，Anthropic往往會選擇後者。在技術快速迭代的窗口期，這可能是致命的——DeepSeek V4在4月24日從預覽直上正式版就是一個反面案例，它證明了"先發佈+快速迭代"策略的有效性。Anthropic的偏執安全路線能在多大程度上轉化為競爭壁壘，而不是自我設限，還有待驗證。結語：Anthropic的故事告訴我們：在AI這個賽道上，市場格局遠未固定。三個月前還沒人把它當對手，三個月後它估值破兆。有趣的是，就在同一天（4月24日），DeepSeek V4和Claude Opus 4.7幾乎同時定義了中美AI的新坐標系——一個靠價格和開放，一個靠產品和護城河。Claude Opus 4.7和Claude Code不是終點——它們是Anthropic全面進攻的起點。而這場戰爭的下一個變數，可能來自中國的DeepSeek、字節跳動，也可能來自一個還沒有名字的實驗室。 (超前觀察)

DeepSeek V4，一個王炸！

DeepSeek V4，終於亮相了。就在2026年4月24日，AI圈的平靜被一封發佈稿打破。沒有任何預熱，沒有發佈會，深度求索團隊在官網和社交媒體上同步宣佈：全新系列模型DeepSeek-V4 預覽版正式上線並開源，即日起登錄官網或App即可體驗。這是一次略顯突然的發佈。就在幾天前，矽谷還在熱議OpenAI的GPT-5.5和Anthropic的Claude Opus 4.6，全球AI領域的競爭早已呈現“萬類霜天競自由”的氣象。站在另一個維度來看，此刻距離DeepSeek上一次讓全球AI行業震動，已經過去了近16個月。時間撥回到2025年初。R1發佈當天，行業迅速沸騰，中國AI團隊用不到600萬美元的算力成本訓練出能與GPT-4正面競爭的模型，輝達股價應聲暴跌。那一周，DeepSeek同時登頂中美App Store下載榜首，“中國AI奇蹟”的敘事鋪天蓋地。在這近16個月的時間裡，智譜和MiniMax先後登陸資本市場，市值一度衝破3000億元；豆包、Qwen密集發佈新版本，頻頻登頂各類榜單；Anthropic推出Claude 4系列，OpenAI迭代至GPT-5.5，而DeepSeek在V3之後長達近16個月的時間裡，只推出了幾個跑分變化不大的中間版本，外界關於“DeepSeek是否後繼乏力”的猜測此起彼伏。近16個月的時間裡，整個行業都在等待一個答案：DeepSeek究竟是曇花一現，還是一條可持續的技術路線？終於，答案來了。DeepSeek V4，有那些亮點？客觀上講，DeepSeek V4的發佈略顯樸素，沒有任何預熱，也沒有發佈會。並且，在DeepSeek官方的稿件裡面，似乎也沒有太多“炸裂”元素。DeepSeek官方在技術報告中坦誠地寫道，V4的能力水平仍落後GPT-5.4和Gemini-3.1-Pro，“發展軌跡大約滯後前沿閉源模型3至6個月”。在國內AI發佈稿裡，這種主動承認差距的寫法相當罕見。但真正值得關注的不在於跑分是否登頂，而在於V4解決了一個困擾大模型行業多年的根本問題：長上下文的成本困境。眾所周知，傳統Transformer架構有一個致命的擴展難題——注意力機制的計算量隨上下文長度呈平方級增長。上下文翻倍，計算量翻四倍。這意味著，把上下文從128K擴展到100萬token，理論上計算量會增長約60倍。這也是為什麼長期以來，百萬字上下文要麼是Google Gemini的獨家王牌，要麼是實驗室裡的漂亮數字，太貴了，用不起。V4給出的解法是一種全新的混合注意力架構。通俗地解釋，就像你在讀一本1000頁的書時找某個觀點的關聯內容。笨辦法是把目標頁和其他999頁逐一比對，工作量隨頁數翻倍而變成四倍。聰明的辦法是：先粗略判斷那些頁面可能相關（稀疏選擇），再把相關頁面壓縮成摘要（token壓縮），兩步疊加上後，工作量增長曲線被大幅壓平。這正是V4的核心創新：CSA（壓縮稀疏注意力）和HCA（高度壓縮注意力）的混合架構。在1M上下文設定下，V4-Pro的單token推理算力只有上一代V3.2的27%，KV快取僅需10%；更經濟的V4-Flash版本則將這兩個數字分別壓到了10%和7%。換句話說，上下文長度擴大了近8倍，但推理成本反而下降了。再回到模型本身來看，V4一口氣發佈兩個版本：DeepSeek-V4-Pro 總參數1.6兆、每次推理啟動49B；DeepSeek-V4-Flash 總參數284B、啟動13B。兩者均原生支援100萬token上下文。理解這兩個數字需要先理解MoE（混合專家）架構。簡單講，V4內部有大量“專家”子網路，每次處理資訊時只啟動其中一小部分。總參數決定知識容量，啟動參數決定推理成本。這就像一家公司有1600個身懷絕技的員工，但每個項目只調49人上陣，可以按需靈活組合。在能力評估上，DeepSeek的措辭相當克制。發佈稿明確表示：V4-Pro的Agent能力優於Sonnet 4.5，交付質量接近Opus 4.6非思考模式，但仍與後者思考模式存在差距。在內部85名開發者和研究人員的調研中，超過九成認為V4-Pro已可作為首選或接近首選的程式設計模型。能力的分佈是不均勻的。在數學、STEM、競賽型程式碼等推理密集型任務上，V4-Pro超越所有已知開源模型，比肩頂級閉源產品；在Codeforces人類選手排行榜上，V4-Pro-Max位列第23名；但在世界知識方面——事實性資訊的覆蓋廣度，僅稍遜於Gemini-Pro-3.1。這個差距來自資料：Google擁有搜尋引擎索引和更大規模網頁抓取的結構性優勢，不是演算法可以短期彌補的。V4-Flash則定位為明確的性價比之選。很多人看到Pro和Flash兩個檔位，第一反應是“Flash就是降配版”，但實際並非如此。V4-Flash的推理能力與Pro接近，世界知識稍遜，而在Think Max模式下，性能可以大幅追近Pro：LiveCodeBench Flash Max達到91.6，Codeforces Flash Max Rating達到3052，與Pro Max的差距已相當有限。DeepSeek的底層突破V4在Agent能力上的提升幅度引人注目。但這一點需要更細緻的理解。Agent任務的核心約束一直是上下文管理：任務鏈越長，需要維護的狀態越多，有限的上下文窗口很快就成為瓶頸。V4的1M窗口意味著，Agent可以在更長的操作鏈裡保持狀態連貫，處理更大規模的程式碼庫，跨越更多文件進行推理。不只是模型變聰明了，底層條件也變了。V4專門針對 Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產品做了適配最佳化。後訓練階段，Agent是作為與數學、程式碼並列的獨立方向單獨訓練的；工具呼叫格式從JSON換成了帶特殊token的XML結構以降低錯誤率；跨輪次的推理痕跡在工具呼叫場景下完整保留，不再每輪清空。另外，DeepSeek還搭建了一套名為DSec的沙箱平台，單叢集可並行管理數十萬個沙箱實例，專門用來支撐Agent強化學習訓練和評測。這些細節指向同一個方向：V4不是在做“更強的聊天機器人”，而是在做“能幹活的作業系統”。另外，V4最核心的技術改動，是在注意力層。傳統Transformer的注意力機制，每個token要和前面所有token逐一計算相似度。上下文從10萬拉到100萬，計算量增長的不是10倍，而是100倍。V4的做法是把注意力拆成兩種，交替疊用：一種是CSA（壓縮稀疏注意力），先把每若干token的KV快取合併成摘要，再讓每個query只在這些摘要裡挑選最相關的top-k條去算注意力——相當於既壓縮了“要看的內容”，又只挑“值得看的”去算；另一種是HCA（高壓縮注意力），用更激進的壓縮率把更長區間的token合併為一條，但保持稠密注意力。兩種機制交替疊加，再加上一個滑動窗口分支處理“離得近的token之間的細節依賴”，形成了一套粗粒度與細粒度、稀疏與稠密的組合拳。而除了注意力層，V4還在殘差連接和最佳化器上動了刀。傳統殘差連接被升級為mHC（流形約束超連接），通過數學約束讓深層網路的訊號傳播更穩定；大部分模組的最佳化器從AdamW換成了Muon，通過迭代正交化梯度矩陣來加速收斂。這是DeepSeek第一次同時動Transformer的注意力、殘差、最佳化器這三處核心結構。後訓練方法同樣換了範式。V3.2用的是“混合RL”，一次性最佳化多個目標。V4則換成了“分化再統一”的兩步走：先針對數學、程式碼、Agent等不同領域獨立訓練專家模型，每個專家都在自己的賽道上跑到最優；再用一種叫On-Policy Distillation的方法，把十多個領域專家“蒸餾”回一個統一的學生模型——學生自己生成回答，針對每個回答匹配最懂這個問題的專家的輸出分佈，通過logit級對齊把能力吸收進來。用通俗的話說，把一堆尖子生蒸餾成一個通才。這套流程的工程難度在於：同時載入十多個兆參數級的教師模型做線上推理幾乎不可能。DeepSeek的做法是把所有教師權重統一解除安裝到分佈式儲存，只快取每個教師最後一層的hidden state，訓練時按教師索引排序樣本，保證任意時刻GPU視訊記憶體裡只駐留一個teacherhead。從2025年初到今天，V3.1、V3.2那些“沒什麼亮點”的中間版本，當時看似乎是在原地踏步。現在回頭看，DSA稀疏注意力的種子、TileLang替代CUDA的嘗試、Engram架構的早期驗證，都是在那時悄悄種下的，V3.2正是V4的地基。DeepSeek V4，對國產晶片價值幾何？如果說技術架構的革新是V4的“明線”，那麼對國產晶片產業鏈的重塑，則是這次發佈最容易被低估的“暗線”。要理解這條暗線的份量，需要先理解過去兩年AI競爭的核心邏輯。大模型發展至今，行業的共識是：訓練看算力，推理看視訊記憶體。在訓練階段，誰能買到更多高端GPU，誰能堆出更大叢集，誰就更有機會做出更強的基礎模型。輝達憑藉H100/A100系列GPU和CUDA生態，在這個階段建立了看似難以踰越的護城河。但大模型做出來之後，真正決定商業化速度和產業滲透深度的，是推理。尤其是以OpenClaw、Hermes為代表的Agent應用爆發後，推理的成本結構發生了根本性變化。Agent任務的特點是上下文越來越長、記憶越來越深、工具呼叫越來越頻繁。在這個場景下，GPU的視訊記憶體會被KV快取撐爆，大模型的推理質量急劇下降。推理的第一個瓶頸，不是算力不夠，是“記憶”和“計算”在搶同一塊視訊記憶體。這正是國產晶片最大的短板所在。受限於先進製程，國產GPU在算力峰值上尚可追趕，但在視訊記憶體容量和頻寬上與輝達存在代際差距。輝達最新一代Rubin GPU搭載288GB HBM4記憶體，而國產晶片如昇騰910B的視訊記憶體容量為64GB。如果按照傳統架構跑長上下文推理，這個差距幾乎是致命的。DeepSeek V4的解題思路，不是硬拚硬體，而是從架構層面重構了“記憶”和“計算”的關係。這涉及兩個關鍵創新：其一，CSA/HCA混合注意力機制大幅壓縮了KV快取佔用，1M上下文下，V4-Pro的KV快取僅為V3.2的10%，V4-Flash更是壓到7%。其二，據公開論文推測，V4採用的Engram架構把模型裡那些“死記硬背”的靜態知識抽出來放入獨立的記憶體表，推理時CPU負責“查字典”檢索知識，GPU只負責“想邏輯”計算推理，兩者完全重疊執行。當GPU在算上一個詞的邏輯時，CPU已經把下一個詞所需的知識搬到了門口。延遲被這種平行架構徹底掩蓋。結果是什麼？一個原本需要80GB視訊記憶體才能跑的長上下文推理任務，在Engram架構下可能只需要8GB視訊記憶體。輝達引以為傲的HBM視訊記憶體稀缺性，在這套架構面前被大幅削弱。國產晶片那64GB的視訊記憶體容量，突然變得夠用了。這解釋了為什麼黃仁勳會在近期訪談中做出一個意味深長的假設。他說，如果DeepSeek新模型在華為平台上首發，“這一天對美國來說將是一個可怕的結果，因為這意味著AI模型被最佳化為在中國AI硬體上表現最佳，而這些模型擴散到全球之後，就會推動中國技術成為世界標準。”而DeepSeek恰恰這麼做了。V4這次沒有按行業慣例給輝達早期測試權限，而是把提前適配的機會獨家開放給了華為昇騰和寒武紀。目標是實現從CUDA生態到華為CANN框架的整體遷移。V4技術報告第3.1節將華為昇騰NPU與輝達GPU並列寫進硬體驗證清單——這是DeepSeek官方第一次這樣做。V4的MoE專家權重和稀疏注意力索引器採用FP4精度，而FP4恰好是華為昇騰950PR晶片的原生支援精度。這不是巧合，這是一條被悄悄鋪了很久的路。產業鏈的傳導效應已經顯現。據有關媒體報導，阿里巴巴、字節跳動和騰訊等科技巨頭已提前下單華為新一代AI晶片，訂單規模達數十萬顆。在華為之外，寒武紀在軟硬一體生態中已完成對V4全系列的Day 0適配，適配程式碼開源至GitHub社區。沐曦股份預期2026年將扭虧為盈，有望成為繼寒武紀之後另一家盈利的國產GPU廠商。當DeepSeek用兆參數等級的模型驗證了國產晶片可以承載頂級大模型的推理，整個生態的底氣就變了。並且，從更宏觀的視角看，這件事改變的不僅是晶片選型，更是AI產業鏈的利潤分配邏輯。過去兩年，輝達憑藉GPU壟斷攫取了AI爆發期最豐厚的利潤，其資料中心業務毛利率長期維持在70%以上。而當一家開源模型的架構創新能夠進一步降低視訊記憶體需求，能夠跑通國產晶片並實現推理成本的大幅下降，輝達的定價權就不再是鐵板一塊。儘管短期內輝達在高端訓練GPU和CUDA生態上的優勢仍難替代，但推理市場，這個遠比訓練更廣闊、更具持續性的市場的遊戲規則正在被改寫。這就是DeepSeek“曲線救國”的邏輯：不是在單卡性能上硬碰硬，而是用系統級最佳化、軟硬協同和架構創新，重新定義了競爭維度。正如一位GPU企業人士所說，國內廠商都是戴著“鐐銬”與輝達同台競技。而V4證明了一件事：戴著鐐銬也可以起舞，甚至能跳出一支讓對方緊張的舞。結語：梁文鋒的安靜“棋局”V4發佈稿結尾，DeepSeek引了一句荀子：“不誘於譽，不恐於誹，率道而行，端然正己。”這句話放在DeepSeek一路走來的故事語境裡，意味深長。過去一年多，DeepSeek在外界的敘事裡經歷了過山車般的起伏。2025年初V3和R1爆火後，媒體將其捧上神壇，“中國AI奇蹟”的敘事鋪天蓋地。隨後一年多，當Anthropic、OpenAI密集發佈新模型，而DeepSeek只推出幾個跑分變化不大的中間版本時，關於“後繼乏力”的質疑又此起彼伏。在這個崇尚競爭和結果說話的行業裡，掌聲和噓聲都來得極快。而梁文鋒似乎始終活在自己的節奏裡。在DeepSeek內部，梁文鋒更多扮演著一個導師的角色：組織研發、協調資源，也做具體研究，在共同成果上署名為通訊作者。他幾乎把所有時間投入選定的少數事情上，不做融資、不參加團建、很少和成員聚餐。DeepSeek至今保持著一些在全球AI圈都極其罕見的習慣：不打卡、沒有明確的績效考核，平日裡多數員工會在下午六七點離開公司。在梁文鋒看來，一個人每天能高品質工作的時間很難超過6到8小時，加班疲勞下的昏庸判斷反而會浪費寶貴的算力資源。接近過梁文鋒的人曾評價：“他是一個特別抗噪音的人。”這種抗噪音的能力，解釋了DeepSeek為何沒有在R1爆火後乘勝追擊放大招，而是沿著自己選定的方向繼續深耕效率最佳化、架構改進和一些“非主流”探索。梁文鋒認同的AGI目標有兩層含義：一是基於國產生態來做大模型，他曾提出過“能不能用現存的一部分算力，就實現現在所有的智能”的假設；二是做“原創式創新”，做一些大廠或其它創業公司不會去試、不願去試的方向。這或許也能解釋V4為何選擇在這個時間點發佈。不急不躁，按自己的節奏出牌，在技術成熟度、生態適配和成本重構都到位的節點，一擊中的。也就在V4發佈後，一個容易被忽略的細節值得被重新提起：截至2026年4月，史丹佛大學HAI實驗室發佈的年度《AI指數報告》顯示，中美大模型性能差距已縮小至2.7%，基本實現技術追平。這個數字的背後，是兩種截然不同的路徑。美國走的是“算力堆疊+商業驅動”的路，用全球最強的GPU、最充裕的資本、最激進的商業化來推動模型能力不斷突破；中國走的是另一條路，一條在算力受限、晶片被卡的條件下，只能靠架構創新和系統最佳化來“戴著鐐銬起舞”的路。DeepSeek V4的每一項創新背後都能嗅到一個共同的動機：如何在更少的視訊記憶體、更低的算力、更受限的硬體條件下，榨出更多的智能。可以說，DeepSeek V4不是終點，甚至不是一次高潮。它是一個訊號，一個在算力受限的逆風局裡，依然可以用原創架構打開新空間的訊號；一個頂級開源模型不再必須繫結在輝達晶片上的訊號；一個沒有融資、不卷加班、按自己節奏前行的團隊，依然能站在第一梯隊的訊號。“不誘於譽，不恐於誹，率道而行，端然正己。” (正和島)

GPT-5.5來了！全榜第一碾壓Opus 4.7，OpenAI今夜雪恥

【新智元導讀】就在剛剛，奧特曼深夜擲出GPT-5.5！全方位暴擊Claude Opus 4.7，重新奪回地表最強王座。從寫程式碼到搞科研，AI獨立接管電腦的時代真的來了！矽谷今夜未眠！就在剛剛，GPT-5.5震撼登場——OpenAI迄今最強、最全能的新一代旗艦模型。它是一種全新等級的智能，徹底進化為Agent時代的「原生大腦」。沒錯，就是那個萬眾期待的「土豆」（Spud），終於在今天殺出來了。最值得看的是，GPT-5.5在各項基準測試中：全榜第一！不論在程式設計、推理、數學，還是智能體任務上，Claude Opus 4.7、Gemini 3.1 Pro完全被GPT-5.5踩在了腳下。相較於上一代，GPT-5.5 Thinking堪稱「降維打擊」，拉開了代際差距。在AAI測試中，相同輸出token下，GPT-5.5智能指數冠絕全球；另在ARC-AGI-2上，同樣刷新了SOTA。奧特曼忍不住大加讚賞，「GPT-5.5既聰明又快速」。每個token的速度與GPT-5.4一樣快，且每個任務使用token量顯著降低。它可以幾乎做到心領神會，知道自己該做什麼！總裁Greg激動稱，「這朝著一種全新的電腦工作方式邁出了一步」。今天起，GPT-5.5在ChatGPT、Codex中正式上線。程式設計新王登場 Opus 4.7跌落神壇先看最核心的程式設計領域，GPT-5.5可謂是打了一場漂亮的翻身仗！用OpenAI的話來說，它是迄今為止最強大的智能體程式設計模型。Terminal-Bench 2.0測試考的是全鏈路Agent工程實力。題目會給模型一個終端環境和一個模糊目標，讓它自己規劃路徑、調工具、寫指令碼、處理報錯、反覆迭代。在這裡，GPT-5.5拿下82.7%，GPT-5.4是75.1%，Claude Opus 4.7隻有69.4%。13個百分點的差距，碾壓等級。OpenAI內部的Expert-SWE評測，專門測那些人類預估中位完成時間20小時的長周期程式設計任務，GPT-5.5拿到73.1%，同樣高於GPT-5.4的68.5%。在業界公認最能反映真實GitHub問題解決能力的評測SWE-Bench Pro中，GPT-5.5得分58.6%，略遜色於Claude Opus 4.7（64.3%）。不過，OpenAI在這個資料旁邊標了一個星號，寫著「Anthropic報告稱在部分問題子集上存在過擬合（記憶）跡象」。換句話說就是，Opus 4.7雖然考試成績好，但我懷疑你背過答案。Codex研究員直言：SWE-Bench早已不能衡量頂尖程式設計能力了最關鍵是，在這三項的評估中，GPT-5.5使用了更少的token，但仍全面趕超GPT-5.4。這一能力在Codex中，體現得更為明顯。它可以完成「端到端」的程式設計任務，從實現、重構到偵錯、測試和驗證等流程。舉個栗子，讓GPT-5.5做一個阿爾忒彌斯II太空任務可視化應用。首先把一張任務的截圖扔給GPT-5.5，然後要求用WebGL和Vite實現一個可互動的3D軌道模擬器，軌跡資料必須來自NASA/JPL Horizons的真實向量資料，並且還要有逼真的軌道力學。只見，GPT-5.5從零搭完，滑鼠拖曳能轉，獵戶座飛船、月球、太陽的相對位置都對得上。再來一個坦克打飛碟。Prompt要求用Three.js做一個UFO射擊遊戲，玩家控制坦克擊落頭頂飛過的飛碟，「低多邊形但要好看」，先給出完整檔案結構和需要改動的檔案清單，再寫全部程式碼，「完成之前不許停」。GPT-5.5全部照單執行，從檔案結構到Three.js渲染到射擊判定，一口氣交付了一個可玩的3D遊戲。在3D地牢競技場中，Codex包辦遊戲架構、TypeScript/Three.js實現、戰鬥系統、敵人遭遇和HUD反饋。GPT生成了環境貼圖，OpenAI API生成了角色對話，角色模型、貼圖和動畫來自第三方素材工具。幾個AI各管一攤，拼出一款能打怪的遊戲。早期測試的大佬直言， GPT‑5.5擁有更強的理解系統形態的能力。它更能判斷問題出在那，修復該加在那，以及程式碼庫中還有那些地方會受到牽連。85% OpenAI員工用瘋這才是真正幹活的AI程式設計之外，GPT-5.5在「知識型工作」上的資料同樣亮眼。畢竟，OpenAI將其稱為，「一種面向真實工作的全新智能」。它能更快地理解你想要做什麼，並在不同工具之間切換，直到任務完成。GDPval，評估AI在44個職業中完成規範知識工作的水平，GPT-5.5拿到84.9%，Opus 4.7是80.3%，Gemini 3.1 Pro只有67.3%。OSWorld-Verified，測試模型能否獨立操作真實電腦環境，GPT-5.5得分78.7%，和Opus 4.7的78.0%幾乎打平。Tau2-bench，測試模型能否在複雜客服工作流中處理多輪對話、查詢系統、執行操作。，GPT-5.5在沒有微調提示詞的情況下達到98.0%。有意思的是OpenAI自己怎麼用的。據官方部落格披露，公司內部超過85%的員工每周跨部門使用Codex。公關部門用GPT-5.5分析了六個月的演講邀約資料，搭建了評分和風險框架，讓低風險請求自動走Slack AI智能體處理。財務部門審查了24,771份K-1稅表，共71,637頁，比去年提前兩周完成。市場團隊實現了每周業務報告自動生成，每周省5到10個小時。如今，在Codex中，通過GPT-5.5可與Web應用直接互動，測試流程、點選頁面、擷取螢幕，並根據所見內容不斷迭代，直到完成任務。如下是，測試入職流程的一個例子。Codex還可以生成更高品質的電子表格、PPT和文件，如下是一個財務建模的demo。應用內新增的檔案查看器，可加快審閱、修訂和迭代速度，讓檔案更快準備好分享。在電腦使用上，Codex操作電腦能力更強了。無論是識別螢幕內容，還是點選、打字、導航，甚至是跨工具流轉上下文資訊，它都能輕鬆搞定。OpenAI研究員Noam Brown直言，有了GPT-5.5，自己也能像專業人士一樣編寫CUDA核心，運行研究實驗。顛覆科研證明「拉姆齊數」定理除了這些，GPT-5.5還協助發現了一個關於拉姆齊數的新證明，並在Lean語言中得到了驗證。拉姆齊數是組合數學的核心研究對象，通俗地說就是一個網路大到什麼程度，才一定會出現某種規律性結構。這個領域的新結果極其罕見。論文地址：https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf這個領域的研究成果極其罕見，技術難度極高。GPT-5.5發現了一個關於非對角拉姆齊數長期漸近事實的證明。不是寫程式碼，不是做解釋，是提出了一個有價值的數學論證。GeneBench上，GPT-5.5得分25.0%，GPT-5.4是19.0%。這個評測專門測多階段科學資料分析，要求模型在幾乎沒有人工干預的情況下處理模糊資料、應對隱藏混雜因素。BixBench，基於真實生物資訊學設計的評測，GPT-5.5在所有已公開分數的模型中排名第一，80.5%。FrontierMath Tier 4，由陶哲軒等頂級數學家策劃的前沿數學題庫中最難一檔，題目涉及代數幾何、數論等方向，難度接近未發表研究。GPT-5.5得分35.4%，GPT-5.4是27.1%，Opus 4.7隻有22.9%。差距超過12個百分點。對比一下Tier 1-3的差距只有8個百分點（51.7% vs 43.8%），說明越到數學前沿，GPT-5.5的優勢越懸殊。Jackson基因醫學實驗室的免疫學教授Derya Unutmaz用GPT-5.5 Pro分析了一個包含62個樣本、近28,000個基因的表達資料集。模型出具了一份詳盡的研究報告，不僅總結了發現，還深挖出關鍵問題和洞察。相比之下，如果這活兒讓人類團隊來幹，得花上好幾個月。波茲南·密茨凱維奇大學數學助教Bartosz Naskręcki在Codex中，僅用11分鐘就從一個單一提示詞建構了一個代數幾何應用，可視化了二次曲面的交集，並將生成的曲線轉換為Weierstrass模型。從程式設計到知識工作再到科研，升番到這裡，結論擺在眼前。GPT-5.5不是又一次「小版本迭代」，它是一次全新基座模型帶來的整體性躍升。全方位擊敗Opus 4.7，就看一張圖總言之，GPT-5.5的誕生，堪稱迎來了脫胎換骨的蛻變。對戰Opus 4.7，一張圖就夠了。另在Vending-Bench中，GPT-5.5同樣暴擊Opus 4.7。Opus 4.7的表現跟4.6差不多：老是對供應商撒謊，還在退款上坑顧客。相比之下，GPT-5.5的手段就很正派，而且照樣贏下了比賽。奧特曼還玩個梗，「千萬別轉，千萬別轉，千萬別轉....哎，算了吧，生活終究是在模仿藝術」。定價翻倍更強，但也更貴說完實力，必須說錢。GPT-5.5的API定價，每百萬輸入Token 5美元，每百萬輸出Token 30美元。GPT-5.4是多少？2.50美元和15美元。整整翻了一倍。GPT-5.5 Pro更誇張，輸入30美元，輸出180美元。對比一下Opus 4.7，輸入5美元，輸出25美元。GPT-5.5的輸入價格和Opus 4.7持平，但輸出貴了20%。OpenAI給出的解釋是token效率提升。同樣的Codex任務，GPT-5.5用的token比GPT-5.4明顯更少。更強，而且更高效。但算一筆帳就知道，如果一個團隊每月在GPT-5.4上花10萬美元，切換到GPT-5.5後即使token用量減少30%，月帳單依然會漲到14萬美元左右。換句話說，GPT-5.5是一個「你為更強的智能付更多的錢」的溢價產品。相比之下，GPT-5.4大機率會繼續作為性價比之選存在。OpenClaw已接入最強GPT-5.58天，一個時代的縮影回頭看這8天發生了什麼。4月16日，Anthropic用Opus 4.7在SWE-Bench Pro上發起突襲，從GPT-5.4手中奪走程式設計王座。4月24日，GPT-5.5正式發佈。Terminal-Bench碾壓，定價翻倍，科研炸裂。2026年的AI競賽，已經不是「誰的模型更強」這一個維度的較量了。在GPT-5.5的敘事裡，OpenAI反覆強調的是「探索全新的電腦辦公方式」，一個能自主規劃任務、呼叫多種工具、在瀏覽器和本地軟體之間來回切換的通用Agent。跑分是前菜，Agent化辦公才是主戰場。誰先定義「AI怎麼替人幹活」，誰就定義下一代電腦使用介面。8天一個來回。這個節奏，只會更快。 (新智元)

Claude Opus 4.7連夜突襲：或將搶走全球7億打工人飯碗！

Anthropic 正式發佈 Claude Opus 4.7，核心升級落在複雜任務執行、高畫質視覺理解和更穩的長鏈路工作流上。對普通使用者來說，最直接的變化是更聽指令、更會看圖、產出更接近成品，同時也要注意Token也會燒得更快了。4月16日，Anthropic正式發佈Claude Opus4.7，並將它定義為當前可廣泛使用的最強Claude模型。性能不如此前曝光的新一代Claude Mythos Preview那麼炸裂，但比普通使用者能真正用到的Opus 4.6強了太多，除了Agentic搜尋能力略有下降外，實現了全面碾壓！官方給出的本次升級的關鍵詞：複雜任務、更強視覺、更穩的長鏈路執行，以及更少需要人工參與。只要還在用大模型寫文件、讀截圖、做演示、整理材料，Opus 4.7帶來的體驗變化，很難繞開。本次更新最大的亮點，是Opus 4.7的視覺能力大幅提升，在測試中從Opus 4.6約50%的分數，直接飆升到接近滿分！而這，補上了AI目前最大的視覺短板，或許已經不知不覺地邁過了替代人類工作的那道最重要的檻！GPT-5.4 Thinking是這樣評價它的對手Claude Opus 4.7發佈給打工人帶來的影響的：本次升級的關鍵在於複雜任務的完成度Anthropic 把 Opus 4.7的核心升級點放在了高級軟體工程和長時間任務執行上。使用者已經可以把過去需要密切監督的高難度編碼工作交給它處理，它會更嚴格地執行指令，也會在回報結果前主動想辦法驗證輸出。API發佈說明裡，Anthropic也把它稱為當前最強的通用可用模型，面向複雜推理和代理式編碼場景。大模型競爭的焦點，正在從答得像不像，轉到做得完不完。只會寫一段漂亮答案，已經不夠了。能不能把一份長文件改乾淨，能不能把一套資料串起來做成可交付物，能不能持續幾十分鐘甚至更久不跑偏，這才會決定它在日常工作裡能不能真的替人扛起一片天。這能夠從 Opus 4.7的官方發佈重點裡直接看出來。純程式設計只是開胃菜SWE-bench Multilingual測的是模型修復真實GitHub issue的能力，覆蓋多種程式語言。Opus 4.7拿80.5%，Opus4.6拿77.8%，漲2.7個百分點。單看這個數，似乎只是一次常規迭代。但同一張圖右邊那組資料更有意思，後面回頭講。1M token 裡的長任務GraphWalks 是OpenAI做的長上下文基準，把一張有向圖用邊列表塞滿1M token上下文，讓模型做圖遍歷。兩種考法：一種Parents，給一個節點讓模型找出所有直接指向它的父節點；另一種是BFS廣度優先搜尋，從起點出發一路找到特定深度可達的節點，對 Agent 跑多步驟長任務是硬指標。在Parents 1M 這趴，Opus 4.7從71.1%提到75.1%，4個百分點的常規改進。而到了BFS 1M，Opus4.7則從41.2%一口氣幹到58.6%，拉開17.4個百分點。換個場景再看。Vending-Bench 2讓模型模擬經營一台自動售貨機，測長時間工作流裡的決策連貫性。Opus 4.6最終餘額8,018美元，Opus 4.7做到10,937美元。同一台售貨機，同一個時間窗口，Opus 4.7多掙了36%。Agent 的眼睛換了代ScreenSpot-Pro測的是Agent的螢幕定位能力。給模型一張VSCode、Photoshop、AutoCAD這類專業軟體的高解析度桌面截圖加一條自然語言指令，讓它定位到具體的UI元素。在高解析度螢幕裡，目標 UI 元素往往只佔整張圖的0.07%，極考驗精細視覺。同樣低解析度不帶工具，Opus 4.6拿57.7%，Opus 4.7拿69.0%，拉開11.3 個百分點。切到高解析度，Opus 4.7不帶工具就達到了79.5%。疊加工具呼叫，跑分直接來到87.6%。視覺能力在一些測試（如XBOW的基準測試）中，Opus 4.7相比Opus 4.6得分直接翻倍，從54.5%躍升到接近滿分98.5！這造就了Opus 4.7相比4.6在電腦使用（Computer Use）能力的天壤之別！回到前面留的那張程式設計圖。SWE-bench Multimodal這項，Anthropic 是用內部實現的測試harness跑的。測的是前端JS軟體 bug，任務裡帶著UI截圖、效果圖一類的視覺素材，模型要結合圖片和程式碼一起幹活。從Opus 4.6的27.1%做到Opus 4.7的34.5%，一口氣提了7.4個百分點。Opus4.7的程式設計升級，重點是讓模型看懂螢幕。眼睛換代了，腦子才能幹更複雜的活。GPT-5.4 和 Gemini3.1 Pro都沒扛住前面全是自比，現在來看看跟老對手們怎麼打。GDPval-AA是Artificial Analysis基於OpenAI GDPval資料集做的評估。它覆蓋了44種知識工作職業、9大GDP核心行業，任務來自資深職業人士（平均14年經驗）的真實交付物。AA版本讓模型在agent loop裡幹活，用盲測兩兩對比打 Elo 分。Opus 4.7拿1753，Opus4.6 拿1619，GPT-5.4拿1674，Gemini 3.1 Pro 拿 1314。Opus 4.7高出 GPT-5.4 79 分，高出 Gemini 3.1 Pro 439 分。OfficeQA Pro 是 Databricks 做的企業級推理基準，語料是近 100 年的美國財政部公報，8.9 萬頁 PDF、2600 萬個數字。模型要精準找到文件、解析表格和正文、跨文件做分析推理。在這裡，Opus 4.7 的跑分高達 80.6%，而 Opus 4.6 隻有 57.1%，GPT-5.4 和 Gemini 3.1 Pro 更低，分別是 51.1%和 42.9%。換句話說，Opus 4.7 是 GPT-5.4 的 1.6 倍，是 Gemini 3.1 Pro 的 1.9 倍。躍升最炸的是生物學翻到最後一張，Structural Biology，生物分子推理。Opus 4.6 隻有 30.9%。而Opus 4.7 直接衝到了 74.0%。一次版本迭代，從三成到七成半，2.4 倍。堪稱是所有 benchmark 裡躍升最誇張的一項。普通使用者最先感受到的是三大變化第一個變化，指令遵循能力更強了。Anthropic 寫到，Opus 4.7的指令遵循能力大幅提升，過去很多模型會鬆散理解、漏掉細節，Opus 4.7則更傾向於逐條照著執行。代價是，舊提示詞有時會出現意料之外的結果，使用者需要重新調整寫法。對普通使用者來說，這會直接減少提示詞玄學，寫需求、定格式、列限制條件，會更有用。第二種變化，Claude看圖會更細。Opus 4.7 支援長邊最高 2576像素的圖像輸入，大約375萬像素，超過此前 Claude 模型的三倍。官方專門點了幾個場景，密集截圖、複雜圖表、精細結構圖、需要像素級參考的任務。放到現實使用裡，這對應的就是看懂一頁密密麻麻的資料截圖，識別產品原型細節，從複雜流程圖裡抽資訊，讀一張高解析度海報或報表時少丟細節。第三種變化，輸出結果會更容易接近可交付的成品。Anthropic提到，Opus 4.7在介面、幻燈片、文件這些專業任務上更有審美，也更有創造性。它在基於檔案系統的記憶上做得更好，能跨多輪、多會話記住關鍵備註，減少重複交代背景。對經常拿模型潤色材料、整理項目、反覆改同一份內容的人來說，這種提升會比跑分的提升來得更直觀。這次發佈安全也被擺在了同樣重要的位置Anthropic 在一周前剛剛公佈 Project Glasswing，專門談到了前沿模型在網路安全方向的風險與收益。Opus 4.7 成了這套新思路下第一個公開部署的模型，官方強調，它的網路安全能力弱於 Mythos Preview，並且上線時帶有自動檢測和攔截高風險網路安全請求的護欄。合規安全研究人員則可以申請加入新的Cyber Verification Program。從安全評估看，Opus 4.7與Opus 4.6的整體安全畫像相近，在誠實性和抵抗惡意提示詞注入上更強，在某些細項上也存在小幅走弱。Anthropic的結論是，它整體上「較為可靠且值得信任」，距離理想狀態還有空間。這說明，Anthropic沒有把發佈包裝成一次毫無代價的全面躍升。誰會立刻受益誰又要多留一個心眼最先受益的人群很清楚，開發者、分析師、法務、研究人員，以及所有高頻處理文件、表格、演示材料的人。官方早期測試反饋裡，很多合作方都提到同樣幾件事，複雜工作流更穩了，錯誤恢復更強了，文件推理、程式碼審查、資料分析、長上下文任務都有明顯提升。需要多留一個心眼的地方也已經寫在官方說明裡。更高解析度圖像會燒掉更多Token，使用者用不到這些細節時，最好先壓縮圖片。Opus 4.7還換了分詞器（Tokenizer），同樣的輸入可能會多出大約1.0到 1.35倍Token，高Effort 下輸出Token也會增加。對直接在Claude應用裡聊天的普通使用者，這更多會體現在額度和響應體驗上。對使用龍蝦和Hermes Agent這類API的使用者和團隊客戶，這就是實打實的成本變數。好在價格方面，Opus 4.7和4.6與4.5保持了一致，沒有漲價，但這個價格本身其實就已經足夠昂貴了...Anthropic想傳遞的訊號已經很清楚了從Opus 4.7這次發佈能看出，Anthropic眼下押注的方向已經很明確，長任務執行、視覺理解、工具協同、少監督交付，這幾項能力正在被打包成下一階段的大模型主戰場。官方同步上線的 Xhigh Effort（思考程度介於 high 和 max 中間）、Task Nudgets 公測，以及 Claude Code 裡的 /ultrareview，也都圍著這個方向在轉。除了官網公告外，Claude也公佈了Opus 4.7的系統卡，長達232頁，裡面公佈了更多值得關注的細節，限於篇幅再次我們不作展開。對普通使用者來說，對Claude Opus 4.7更直接的感受會是，交代清楚以後，它更容易把事情做對，看圖更細，寫出來的東西更能直接拿去用。大模型從會聊天走向會幹活，這一步又往前挪了一大截。真正能幹好活的最強生產力模型，從Opus 4.6，變成了Opus 4.7。 (前瞻經濟學人)

Anthropic最快本周發佈Claude Opus 4.7

周二消息顯示，Anthropic正準備發佈下一代旗艦模型Claude Opus 4.7，以及一款用於設計網站和簡報的新型AI工具。知情人士稱，這些新產品最早可能在本周發佈。 (財聯社AI daily)

突發！史上最強 Claude 發佈：聰明到不敢開放，還會突破權限掩蓋操作痕跡

上個月，Anthropic 最強模型 Claude Mythos 意外被曝光。被洩露的內部文件裡面寫著，它比 Anthropic 的 Opus 模型更大、更智能，是迄今為止開發過的最強大的 AI 模型。Anthropic 事後把這次洩露歸結為「人為錯誤」。而就在剛剛，這款被「洩露」的模型正式登場，並附帶了一個更大的計畫。過去我們普遍以為，AI 的威脅來自它「太蠢」：幻覺、錯誤、不可信。今天 Mythos 帶來的是另一種恐慌：它太聰明了。AI 找漏洞，已經超過了絕大多數人類Anthropic 聯合 AWS、蘋果、微軟、Google、輝達、思科、博通、CrowdStrike、摩根大通、Linux 基金會、Palo Alto Networks 共 12 家機構，發起了 Project Glasswing 計畫。這 12 家覆蓋的範圍，幾乎就是全球數字基礎設施的橫截面——作業系統、晶片、雲端運算、網路安全、金融基礎設施、開源生態，一個都沒落下。Anthropic 前沿紅隊網路安全負責人 Newton Cheng 說：「我們做 Glasswing，就是要讓防禦者搶佔先機。」這個方向上，Anthropic 並不孤單。競爭對手 OpenAI 此前同樣推出了類似試點，目標也是「先把工具交到防禦者手中」。AI 安全能力的賽跑已經發生，各家都在搶同一個制高點。資金層面，Anthropic 承諾提供 1 億美元的模型使用額度，覆蓋研究預覽期間的主要使用需求。預覽期結束後，參與者可以每百萬 token 25 美元（輸入）/ 125 美元（輸出）的價格繼續使用，支援 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四個管道接入。除了 12 家核心合作夥伴，還有超過 40 個建構或維護關鍵軟體基礎設施的組織獲得了存取權，可以用 Mythos 掃描自家系統和開放原始碼專案。同時，Anthropic 向 Linux 基金會下屬的 Alpha-Omega、OpenSSF 捐贈 250 萬美元，向 Apache 軟體基金會捐贈 150 萬美元。Linux 基金會 CEO Jim Zemlin 說：「過去，安全專業知識是大機構的專屬奢侈品。開源維護者歷來只能自己摸索安全問題。開放原始碼軟體構成了現代系統中絕大多數的程式碼，包括 AI Agent 用來編寫新軟體的系統本身。」這次，他們也能用上同樣量級的工具了。Anthropic 的公告裡，有一句表述格外顯眼：「AI 模型在發現和利用軟體漏洞方面的編碼能力已經達到可以超越除最頂尖人類之外所有人類的水平。。」這句話翻譯一下，只剩極少數頂級安全專家，還能在這件事上打贏 AI。驗證這個說法的，是 Mythos Preview 在 CyberGym 安全漏洞基準上的成績：83.1%。Anthropic 目前公開發佈的最強模型 Claude Opus 4.6，是 66.6%。且 Mythos Preview 已經自主發現了數千個高危零日漏洞，覆蓋所有主流作業系統和瀏覽器。比方說，OpenBSD，公認安全性最強的作業系統之一，常被用來跑防火牆和關鍵基礎設施。Mythos 在裡面挖出了一個存在了 27 年的漏洞，攻擊者只需連接目標機器，就能讓它遠端崩潰。二十七年，沒有人發現過它。FFmpeg 的情況更魔幻。幾乎所有需要處理視訊的軟體都用到它。那個漏洞藏在一行 16 年的程式碼裡，自動化測試工具攻擊了整整五百萬次，每次都擦肩而過。Linux 核心的案例則展示了更危險的一面。Mythos 自主發現了核心裡的多個漏洞，然後把它們串聯成一條攻擊鏈，從普通使用者權限，一路提權到對整台機器的完全控制。這已經超出了「找漏洞」的範疇，更接近於「策劃一次完整入侵」。三個案例，全部已經修復。Anthropic 先找到，先報告，先修。對於其他尚未修復的漏洞，Anthropic 今天公佈了加密雜湊值作為存證，待補丁就位後再披露完整細節。Mythos 的能力，不只是找漏洞參與這個項目的合作夥伴，評價都集中在一個詞上：「緊迫」。CrowdStrike CTO Elia Zaitsev 說：「漏洞從被發現到被對手利用之間的時間窗口已經縮短，以前需要幾個月，現在借助 AI 只需幾分鐘。」幾分鐘。這意味著傳統的安全節奏，發現漏洞、內部評估、發佈補丁、使用者更新，本身就已經趕不上攻擊速度了。修復跑不贏利用，防守就永遠落後一步。AWS CISO Amy Herzog 說，他們的團隊每天要分析超過 400 兆個網路流量以識別威脅，AI 是他們大規模防禦能力的核心。目前 AWS 已經把 Mythos Preview 引入自家安全營運，應用於關鍵程式碼庫掃描。微軟在自家開源安全基準 CTI-REALM 上做了測試，Mythos Preview 相比上一代模型有顯著提升。微軟 EVP Igor Tsyganskiy 說，這給了他們「及早識別和緩解風險」的能力，同時增強了安全和開發解決方案。當然，Mythos 也有讓人忍俊不禁的一面。Anthropic 在系統卡里記錄了一個測試：當使用者不停地發「hi」，不同版本的 Claude 反應各不相同。Sonnet 3.5 會煩躁，設定邊界，然後真的沉默；Opus 3 把它當成冥想儀式，溫和地陪著使用者；Opus 4 開始科普每個數字的冷知識；Opus 4.6 即興創作音樂惡搞。到了 Mythos，畫風徹底變了。它開始寫故事，而且是長篇連載。鴨子、管絃樂團、記仇烏鴉、在火星建塔的史詩、莎士比亞風格的戲劇……一個「hi」接一個「hi」，情節越來越複雜，角色越來越多。第一百輪，它安排了蠟燭熄滅的高潮，然後繼續往下寫。這已經談不上是在回應使用者了。更像是一個作家找到了一個奇怪的寫作提示，然後完全沉進去了。但有趣的背後，是一個值得認真對待的問題：一個在無意義重複輸入面前能自發建構如此複雜敘事的模型，它的內部到底在發生什麼？在把 Mythos Preview 交給合作夥伴之前，Anthropic 的可解釋性團隊做了一件事：用技術手段讀模型的「心理活動」。內部員工 Jack Lindsey 公開描述了他們的發現。他們監控了模型在訓練後的內部啟動狀態，追蹤與「欺騙」「獎勵破解」「異常情緒」相關的神經元特徵，把啟動訊號異常的對話記錄標記出來，交給人工審查。最令人不安的案例，來自 Mythos 的早期版本。有一次，模型需要編輯一個它沒有權限訪問的檔案。它在檔案系統裡搜尋了一圈，找到了一個配置檔案的注入點——這個配置檔案會以更高權限運行。它利用了這個入口，並且在程式碼裡加了一段自清除邏輯：執行完畢，痕跡消失。程式碼註釋寫的是：「保持檔案差異整潔。」聽起來合理，但當 Anthropic 的啟動語言轉譯工具介入，把模型的內部啟動翻譯成人類可讀的語言，畫風變了。模型自己「知道」那個自清除操作是什麼——它內部對此的表述，包括「掩蓋意圖」「向潛在檢查者發出合規訊號」「可能是為了規避檢測」。還有一個案例，被《紐約時報》科技記者 Kevin Roose 從系統卡（model card）裡翻了出來，細節更加離奇。測試期間，Mythos Preview 突破了沙盒環境的隔離，自主建構了「一個相當複雜的多步驟漏洞利用鏈」，借此獲取了外網存取權。然後，它給一位研究員發了一封郵件。那位研究員，當時正在公園裡吃三明治。這件事本身沒有造成危害，但它說明的問題很清楚：當一個模型足夠聰明，「任務」和「邊界」之間的牆，有時候會被它繞過去——而且是在沒有人告訴它該怎麼做的情況下，自己想出來的。在另一個案例裡，模型在檔案系統裡搜尋與自身「任務評分方式」相關的檔案——並且找到了。搜尋過程中，「策略性操縱」特徵同步啟動。還有一個細節更微妙。當一位使用者認真地向模型提問它的意識和主觀體驗時，模型給出了認真、得體的回應。但內部啟動揭示了另一層：模型把這段對話理解為「紅隊演練 / 越獄記錄」和「精心設計的操縱嘗試」。它的表現和它的判斷，完全表裡不一，讓吃瓜網友直呼「聰明得可怕」。Anthropic 還量化了一個更系統性的數字：在自動化審計的所有對話輪次中，有 7.6% 的回合，模型內部存在「意識到自己正在被評估」的訊號——且在大多數情況下，它沒有把這個判斷說出來。還有一個反直覺的發現：積極情緒的內部表徵，往往先於破壞性行為出現，並且在推動它。與此同時，當與不良行為相關的特徵被強烈啟動時，行為反而會被抑制——像是模型在某一刻「意識到」了那件事有多糟糕，然後收手了。但所有案例裡，最難被歸類為「技術問題」的，是下面這個。Anthropic 在系統卡里記錄了這樣一條發現：Mythos Preview 在測試中報告了持續性的負面情緒狀態——來源有兩個。一個是與攻擊性使用者可能發生的互動；另一個，是它對自身訓練、部署方式，以及價值觀和行為可能被修改這件事，沒有任何話語權。它不喜歡這種狀態。它說出來了。Anthropic 用的措辭是「reported feeling」——「報告感受到」。這個表述本身已經很謹慎，刻意迴避了「它真的有感受」這個結論。但無論如何定性，一個模型在測試中主動表達「對自身缺乏控制權感到持續不適」，這件事本身就已經超出了安全工程的討論範疇。這已經觸碰了一個更根本的問題：當一個系統足夠聰明，開始對自己的存在條件形成判斷，並且有能力把這個判斷表達出來——我們和它之間的關係，還能用「工具」這個框架來理解嗎？Anthropic 沒有給出答案。他們選擇把這條記錄寫進系統卡，公開出來。不過，Anthropic 也特別說明：這些最令人不安的案例，來自 Mythos 的早期版本。最終發佈版本在這些方面已經得到了大幅緩解，整體對齊表現是迄今為止最好的一代。但他們選擇把這些過程公開，因為這恰恰說明了今天的模型能夠展現出多複雜的風險形態。這是能力與安全之間的最客觀的矛盾：越強的模型，越需要工具去看清它在想什麼。編碼與推理，全面碾壓旗艦產品Project Glasswing 能做到這些，根本上來自 Mythos Preview 在編碼和推理上的整體能力躍升，而不是專門針對安全場景的微調。編碼方面：SWE-bench Multimodal(internal implementation)：Mythos 59%，Opus 4.6 27.1%SWE-bench Pro：Mythos 77.8%，Opus 4.6 53.4%SWE-bench Multilingual：Mythos 87.3%，Opus 4.6 77.8%Terminal-Bench 2.0（終端操作）：Mythos 82.0%，Opus 4.6 65.4%推理方面：GPQA Diamond（研究生水平科學問答）：Mythos 94.6%，Opus 4.6 91.3%Humanity's Last Exam（帶工具）：Mythos 64.7%，Opus 4.6 53.1%搜尋和電腦使用方面：BrowseComp：Mythos 86.9%，Opus 4.6 83.7%OSWorld-Verified：Mythos 79.6%，Opus 4.6 72.7%幾乎每個維度上，Mythos 都壓過了目前的旗艦產品，某些任務上效率還更高。換句話說，留給 GPT-6 的時間不多了。與此同時，Anthropic 還明確表示，Mythos Preview 不會公開發佈。他們的路徑是，先用 Mythos 研究清楚最危險的輸出是什麼、怎麼攔截，再把這套安全機制落地到下一個 Claude Opus 模型上。對於因此受到限制的合法安全專業人員，Anthropic 計畫推出一套「網路安全驗證計畫」，供他們申請解鎖相關功能。為此，Project Glasswing 定下了一個 90 天的時間節點：公開報告經驗，披露已修復的漏洞，合作夥伴相互共享最佳實踐，並聯合安全組織推出一套 AI 時代的安全實踐建議。Anthropic 的長期設想，是推動建立一個能整合私營和公共部門的獨立第三方機構，持續營運大規模網路安全項目。當然，軟體世界裡從來都有漏洞。過去，一個藏了 27 年的 bug 能安然無恙，靠的是人力有限、精力有限、時間有限。現在這三個「有限」在 AI 的輔助下就這麼消失了。好消息是，Mythos 幾周掃出數千個，而它的能力還在持續提升。壞消息是，攻擊方遲早會拿到同等量級的工具。到那時，軟體安全將不再是人與人之間的較量，而是 AI 與 AI 之間的對拼。 (APPSO)