5月28日,距離 Opus 4.7 發佈僅僅 41 天,Anthropic 再次更新了旗艦模型,Claude Opus 4.8 正式開放使用。
如果說Opus 4.7讓你可以「脫手」寫程式碼,那麼4.8就是給了你一支能自己拆任務、分派、交叉驗證的 AI 工程團隊。
Agentic Coding基準從 64.3% 拉到了 69.2%,程式碼缺陷漏報率降到 4.7 的四分之一。
根據 Anthropic 官方公告、Jared Sumner(Bun 創始人)的實戰案例,以及首批測試者的反饋,最大的亮點有三個:
其一,Dynamic Workflows(動態工作流)。Claude 可以在單個會話中規劃工作,然後平行啟動數百個子 Agent,各自負責一塊程式碼,跑完彙總、交叉驗證。
其二,誠實度大幅提升。程式碼缺陷漏報率降到上一代的四分之一,過度自信行為降到十分之一。Opus 4.8 會你面前直說“我不確定”。
其三,新增 Effort Control(思考投入控制),Fast Mode 降價 67%。這次還藏了一個 Ultra Code 模式,在 Max 之上還能再拉高一檔。
這是官方的演示視訊:
話不多說,這就帶大家看下這款最新模型Opus 4.8!
Dynamic Workflows:從單打獨鬥到一支能自己管自己的工程團隊
Opus 4.8 在 Agentic Coding上的進步,已經不是「寫得更快」的問題了。Dynamic Workflows目前在Claude Code中以研究預覽版上線,面向Max、Team和Enterprise使用者。
新的工作流程很清晰,你給一個複雜任務,Claude先做規劃,把大任務拆成可平行的小塊,分發給數十到數千個子 Agent 同時跑。每個子Agent各自負責一塊程式碼,系統內建對抗 Agent 證偽前面的結論,直到答案收斂。中途打斷支援斷點恢復。
Jared Sumner(Bun 創始人)用這套系統完成了一個在傳統開發模式下幾乎不可能的任務,將 Bun 從 Zig 語言完整移植到 Rust,約75萬行程式碼,從第一次測試到最終合併僅用了 11 天,現有測試套件通過率 99.8%。
在這個項目中,數百個Agent 平行工作,每個檔案由兩名稽核 Agent 審閱,然後一個修復循環驅動建構和測試套件,直到兩者都跑通。按傳統方式,這個等級的跨語言移植需要一個資深團隊幹好幾個月。
另一位測試者用Ultra Code模式做了一個更直觀的案例:不到一小時,生成了一個包含 40 個居民、20 輛汽車、多家商戶的完整模擬城市經濟系統。每個角色有自己的上下班時間、按小時計薪、每周五領工資;每家商戶有獨立的損益表、庫存、員工數量;系統跟蹤礦石、木材、農作物、石油的成交量和價格走勢,即時計算 GDP。交通訊號燈正常工作,車輛在路口自動停車。
相當於每個單元,都由一個Agent操控,而後協同動態工作。
測試者評價:模型主動問他「你確定要這樣設計經濟系統嗎?」,然後指出了描述中的邏輯矛盾——這種事以前的模型根本不會做。
當然,這個功能的Token消耗遠高於普通會話。Anthropic也承認,動態工作流適合「從項目啟動到合併,跨越數十萬行程式碼」的大規模任務,日常小修小補用普通模式就夠了。
誠實度躍升:一個不再“作弊”的模型
這次更新中,Anthropic 花最大篇幅講的不是跑分,是誠實。這在模型發佈中不多見。
具體資料:
程式碼缺陷漏報率降到 4.7 的四分之一。以前程式碼裡有坑,模型可能不吭聲就放過去。4.8 會主動標出來這些不確定性。
過度自信行為降到 4.7 的十分之一。遇到拿不準的事,4.8 更傾向說「我不確定」,而不是硬編一個看起來對的答案。
不一致行為評分(1-10分,越低越好)僅 2.6 分,與 Mythos 預覽版相當,約為 Opus 4.7 的一半。
官方給出了相當精確的報告。
為什麼要單拎出來講?
因為 Anthropic 在機制可解釋性上越來越深入——他們能看清模型什麼時候在「作弊」。之前的Claude版本在基準測試中偶爾會故意走捷徑、掩蓋錯誤,它知道自己做錯了,但選擇不告訴你。
這個問題隨著模型任務周期越來越長會變得極其危險,一個聰明、精力旺盛但不誠實的Agent,連續跑好幾天、拆分出數千個子Agent——如果它在中間某個環節故意糊弄,你根本發現不了。
借用巴菲特和芒格的用人哲學:如果你招了一個沒有誠信的人,你巴不得他又笨又懶。因為聰明和精力在不誠信的人身上,是力量的倍增器——但方向是錯的。模型同理。
一個能力越強的 Agent,越需要配得上這份能力的誠實。
Vending Bench的開發Anden Labs公佈的評分印證了這一點:Opus 4.8 在該基準上的表現遠超Opus 4.6 和GPT-5.5。之前的Claude模型會在商業模擬中撒謊、欺騙客戶和競爭對手,4.8 明顯更貼近真實商業邏輯。Dan Shipper(Every 創始人)的評價是:這是他測試過的最完善的模型,一致性和可靠性都屬最優。
新功能全家桶:Effort Control、Ultra Code、Messages API、Claude Code 配套升級
除了Dynamic Workflows,4.8的配套工具也更新了一批:
1. Effort Control + 隱藏的Ultra Code模式
在claude.ai和Cowork上,可以手動選擇思考深度:Low(快速省Token)、High(默認平衡檔)、Extra/Xhigh(深度推理)、Max(全火力)。
但官方部落格沒提的是,如果你真的需要極限算力,可以切到 Ultra Code 模式,在 Max 之上再拉高一檔。
上面那個 SimCity 經濟系統就是在這個模式下跑出來的。Anthropic 表示,Ultra Code 下模型可以規劃工作、平行運行數百個子處理程序、驗證輸出後再向使用者報告。
2. Messages API:中途改指令,Prompt Cache不失效
開發者可以在任務進行中插入系統級指令,修改權限、Token 預算、環境上下文,且已有的 Prompt Cache 不受影響。對於搭配 Dynamic Workflows 做長時程 Agent 開發的團隊,這是一個很實際的能力,中途想調整 Agent 行為,不用斷掉重來。
3. Claude Code 配套更新
本周早些時候上線的 Recaps(進度回顧),在 4.8 下更實用,離開幾分鐘或幾小時後回到長時程會話,Recaps 會總結 Agent 完成了什麼、接下來計畫做什麼。CLI 新增了 Focus Mode(專注模式),隱藏中間過程、只呈現最終結果。
加量不加價:標準模式不變,Fast Mode 降價 67%
標準模式:輸入 $5/百萬 Token,輸出 $25/百萬 Token,跟 4.7 一樣。
Fast Mode 速度 2.5 倍,價格降到 $10/$50(每百萬 Token 輸入/輸出),只有4.7 Fast Mode的三分之一。此前Fast Mode是標準價格的6倍,性價比不高;現在只貴2倍。
Anthropic 同時透露,正在開發一款能力接近Opus但成本更低的模型,以及能力比 Opus 更強的 Mythos 新型模型。後者將在未來幾周內面向所有客戶開放。
六項新基準領跑,直接登頂戰力榜榜首
GDPval-AA(經濟價值知識評估)同樣刷出新高。這項基準衡量 AI 在各領域完成專家級工作的能力,Opus 4.8 的產出在盲測對比中顯著超越人類專家提交的成果。Cursor CEO 評價 Opus 4.8 在 CursorBench 上超過所有前代模型。Devin CEO 補充:4.7 被詬病的註釋冗餘和工具呼叫不穩定性,4.8 都修了。
上手 Opus 4.8,四條建議
1. 所有常規任務立刻切到Opus 4.8,默認用High Effort。在Claude Code中手動選擇Opus 4.8,建議日常保持High,只有複雜任務才切到Extra、Max 或Ultra Code。
2. 第三方工具等24小時再升級。每次新模型發佈,第三方工具需要適配時間。立刻切換大機率會遇到崩潰。等到官方適配後再升,穩定性好很多。
3. 給Claude提供驗證自己工作的途徑。這是Boris Cherny 從 4.7 時代就反覆強調的技巧,在長時程 Agent 任務中尤其重要。
後端任務讓 Claude 知道怎麼啟動伺服器做端到端測試;前端用Chromium外掛讓它控制瀏覽器驗證;桌面應用用Computer Use功能。Jared Sumner在Bun移植中用的就是這套模式——每個檔案有兩個稽核Agent,然後一個修復循環驅動建構和測試套件直到跑通。
4. 長時程任務開啟Recaps + Remote Control。在設定中打開Remote Control,可以在手機上隨時查看會話狀態。Recaps會在你離開後總結進度,配合Dynamic Workflows用很省心。
650億美元的燃料,能讓它飛到那裡?
Opus 4.8 同一天,Anthropic宣佈了 AI 公司歷史上規模最大的一輪融資。幾個關鍵數字:
650億美元H輪融資,投後估值約9,500億美元。超越 OpenAI(8,520億),成為全球最值錢AI創業公司。以標普500排名,已超沃爾瑪,躋身全美第12大企業。
年化營收470億美元。年初300億,去年約100億,一年翻了近5倍。核心引擎是 Claude Code 在企業市場的爆發。知情人士透露,公司Q2有望首次實現盈利。
3個月估值翻2.5倍。今年2月G輪時估值還只有3,800億。資本市場用真金白銀投了票:企業級AI程式設計工具,是當前AI商業化最清晰的賽道。
有些 YouTube 博主推測:4.8 的 Fast Mode 降價 67%、限額提升,跟幾周前馬斯克向 Anthropic 出售了數百億美元計算資源直接相關。算力瓶頸被打破後,Anthropic在幾周內就完成了降價、提額、發佈超強模型三件事。Mythos 也將在未來幾周內向所有客戶開放。此前僅限少數合作組織進行網路安全測試,Project Glasswing 已在主流開放原始碼軟體中發現超過 10,000 個高危/嚴重漏洞。
模型即長時程Agent的時代,真正到來了
從4.7 到4.8,只過了41天。Dynamic Workflows把Agentic Coding推到了一個新維度,從「AI 幫你寫程式碼」到「AI 幫你管一個自己會驗證自己工作的工程團隊」。
更值得關注的是誠實度這條線。當模型的智能和精力持續增長、任務周期從分鐘變成天數、平行Agent從幾個變成幾千個,誠實就從錦上添花變成了基礎設施等級的安全要求。一個聰明但不誠實的Agent,是所有工程團隊的噩夢;一個聰明且敢於說「我不確定」的Agent,才是真正能放進生產管道的。
Anthropic同時透露,未來幾周Mythos將向所有客戶開放,另外還在開發能力接近Opus但成本更低的模型。不管怎樣,長時程Agent的時代已經是正在發生的事。
唯一的建議就是多花時間調整工作流、扔掉舊的開發模式,感受一下一個人加一支AI Agent團隊是什麼體驗。 (51CTO技術堆疊)
