Opus 4.8正式上線：會拆任務、會自查、會糾錯，AI 開發時代徹底變天！Anthropic一夜融資650億美元

2026/05/29

•

5月28日，距離 Opus 4.7 發佈僅僅 41 天，Anthropic 再次更新了旗艦模型，Claude Opus 4.8 正式開放使用。

如果說Opus 4.7讓你可以「脫手」寫程式碼，那麼4.8就是給了你一支能自己拆任務、分派、交叉驗證的 AI 工程團隊。

Agentic Coding基準從 64.3% 拉到了 69.2%，程式碼缺陷漏報率降到 4.7 的四分之一。

根據 Anthropic 官方公告、Jared Sumner（Bun 創始人）的實戰案例，以及首批測試者的反饋，最大的亮點有三個：

其一，Dynamic Workflows（動態工作流）。Claude 可以在單個會話中規劃工作，然後平行啟動數百個子 Agent，各自負責一塊程式碼，跑完彙總、交叉驗證。

其二，誠實度大幅提升。程式碼缺陷漏報率降到上一代的四分之一，過度自信行為降到十分之一。Opus 4.8 會你面前直說“我不確定”。

其三，新增 Effort Control（思考投入控制），Fast Mode 降價 67%。這次還藏了一個 Ultra Code 模式，在 Max 之上還能再拉高一檔。

這是官方的演示視訊：

話不多說，這就帶大家看下這款最新模型Opus 4.8！

Dynamic Workflows：從單打獨鬥到一支能自己管自己的工程團隊

Opus 4.8 在 Agentic Coding上的進步，已經不是「寫得更快」的問題了。Dynamic Workflows目前在Claude Code中以研究預覽版上線，面向Max、Team和Enterprise使用者。

新的工作流程很清晰，你給一個複雜任務，Claude先做規劃，把大任務拆成可平行的小塊，分發給數十到數千個子 Agent 同時跑。每個子Agent各自負責一塊程式碼，系統內建對抗 Agent 證偽前面的結論，直到答案收斂。中途打斷支援斷點恢復。

Jared Sumner（Bun 創始人）用這套系統完成了一個在傳統開發模式下幾乎不可能的任務，將 Bun 從 Zig 語言完整移植到 Rust，約75萬行程式碼，從第一次測試到最終合併僅用了 11 天，現有測試套件通過率 99.8%。

在這個項目中，數百個Agent 平行工作，每個檔案由兩名稽核 Agent 審閱，然後一個修復循環驅動建構和測試套件，直到兩者都跑通。按傳統方式，這個等級的跨語言移植需要一個資深團隊幹好幾個月。

另一位測試者用Ultra Code模式做了一個更直觀的案例：不到一小時，生成了一個包含 40 個居民、20 輛汽車、多家商戶的完整模擬城市經濟系統。每個角色有自己的上下班時間、按小時計薪、每周五領工資；每家商戶有獨立的損益表、庫存、員工數量；系統跟蹤礦石、木材、農作物、石油的成交量和價格走勢，即時計算 GDP。交通訊號燈正常工作，車輛在路口自動停車。

相當於每個單元，都由一個Agent操控，而後協同動態工作。

測試者評價：模型主動問他「你確定要這樣設計經濟系統嗎？」，然後指出了描述中的邏輯矛盾——這種事以前的模型根本不會做。

當然，這個功能的Token消耗遠高於普通會話。Anthropic也承認，動態工作流適合「從項目啟動到合併，跨越數十萬行程式碼」的大規模任務，日常小修小補用普通模式就夠了。

誠實度躍升：一個不再“作弊”的模型

這次更新中，Anthropic 花最大篇幅講的不是跑分，是誠實。這在模型發佈中不多見。

具體資料：

程式碼缺陷漏報率降到 4.7 的四分之一。以前程式碼裡有坑，模型可能不吭聲就放過去。4.8 會主動標出來這些不確定性。

過度自信行為降到 4.7 的十分之一。遇到拿不準的事，4.8 更傾向說「我不確定」，而不是硬編一個看起來對的答案。

不一致行為評分（1-10分，越低越好）僅 2.6 分，與 Mythos 預覽版相當，約為 Opus 4.7 的一半。

官方給出了相當精確的報告。

為什麼要單拎出來講？

因為 Anthropic 在機制可解釋性上越來越深入——他們能看清模型什麼時候在「作弊」。之前的Claude版本在基準測試中偶爾會故意走捷徑、掩蓋錯誤，它知道自己做錯了，但選擇不告訴你。

這個問題隨著模型任務周期越來越長會變得極其危險，一個聰明、精力旺盛但不誠實的Agent，連續跑好幾天、拆分出數千個子Agent——如果它在中間某個環節故意糊弄，你根本發現不了。

借用巴菲特和芒格的用人哲學：如果你招了一個沒有誠信的人，你巴不得他又笨又懶。因為聰明和精力在不誠信的人身上，是力量的倍增器——但方向是錯的。模型同理。

一個能力越強的 Agent，越需要配得上這份能力的誠實。

Vending Bench的開發Anden Labs公佈的評分印證了這一點：Opus 4.8 在該基準上的表現遠超Opus 4.6 和GPT-5.5。之前的Claude模型會在商業模擬中撒謊、欺騙客戶和競爭對手，4.8 明顯更貼近真實商業邏輯。Dan Shipper（Every 創始人）的評價是：這是他測試過的最完善的模型，一致性和可靠性都屬最優。

新功能全家桶：Effort Control、Ultra Code、Messages API、Claude Code 配套升級

除了Dynamic Workflows，4.8的配套工具也更新了一批：

1. Effort Control + 隱藏的Ultra Code模式

在claude.ai和Cowork上，可以手動選擇思考深度：Low（快速省Token）、High（默認平衡檔）、Extra/Xhigh（深度推理）、Max（全火力）。

但官方部落格沒提的是，如果你真的需要極限算力，可以切到 Ultra Code 模式，在 Max 之上再拉高一檔。

上面那個 SimCity 經濟系統就是在這個模式下跑出來的。Anthropic 表示，Ultra Code 下模型可以規劃工作、平行運行數百個子處理程序、驗證輸出後再向使用者報告。

2. Messages API：中途改指令，Prompt Cache不失效

開發者可以在任務進行中插入系統級指令，修改權限、Token 預算、環境上下文，且已有的 Prompt Cache 不受影響。對於搭配 Dynamic Workflows 做長時程 Agent 開發的團隊，這是一個很實際的能力，中途想調整 Agent 行為，不用斷掉重來。

3. Claude Code 配套更新

本周早些時候上線的 Recaps（進度回顧），在 4.8 下更實用，離開幾分鐘或幾小時後回到長時程會話，Recaps 會總結 Agent 完成了什麼、接下來計畫做什麼。CLI 新增了 Focus Mode（專注模式），隱藏中間過程、只呈現最終結果。

加量不加價：標準模式不變，Fast Mode 降價 67%

標準模式：輸入 $5/百萬 Token，輸出 $25/百萬 Token，跟 4.7 一樣。

Fast Mode 速度 2.5 倍，價格降到 $10/$50（每百萬 Token 輸入/輸出），只有4.7 Fast Mode的三分之一。此前Fast Mode是標準價格的6倍，性價比不高；現在只貴2倍。

Anthropic 同時透露，正在開發一款能力接近Opus但成本更低的模型，以及能力比 Opus 更強的 Mythos 新型模型。後者將在未來幾周內面向所有客戶開放。

六項新基準領跑，直接登頂戰力榜榜首

GDPval-AA（經濟價值知識評估）同樣刷出新高。這項基準衡量 AI 在各領域完成專家級工作的能力，Opus 4.8 的產出在盲測對比中顯著超越人類專家提交的成果。Cursor CEO 評價 Opus 4.8 在 CursorBench 上超過所有前代模型。Devin CEO 補充：4.7 被詬病的註釋冗餘和工具呼叫不穩定性，4.8 都修了。

上手 Opus 4.8，四條建議

1. 所有常規任務立刻切到Opus 4.8，默認用High Effort。在Claude Code中手動選擇Opus 4.8，建議日常保持High，只有複雜任務才切到Extra、Max 或Ultra Code。

2. 第三方工具等24小時再升級。每次新模型發佈，第三方工具需要適配時間。立刻切換大機率會遇到崩潰。等到官方適配後再升，穩定性好很多。

3. 給Claude提供驗證自己工作的途徑。這是Boris Cherny 從 4.7 時代就反覆強調的技巧，在長時程 Agent 任務中尤其重要。

後端任務讓 Claude 知道怎麼啟動伺服器做端到端測試；前端用Chromium外掛讓它控制瀏覽器驗證；桌面應用用Computer Use功能。Jared Sumner在Bun移植中用的就是這套模式——每個檔案有兩個稽核Agent，然後一個修復循環驅動建構和測試套件直到跑通。

4. 長時程任務開啟Recaps + Remote Control。在設定中打開Remote Control，可以在手機上隨時查看會話狀態。Recaps會在你離開後總結進度，配合Dynamic Workflows用很省心。

650億美元的燃料，能讓它飛到那裡？

Opus 4.8 同一天，Anthropic宣佈了 AI 公司歷史上規模最大的一輪融資。幾個關鍵數字：

650億美元H輪融資，投後估值約9,500億美元。超越 OpenAI（8,520億），成為全球最值錢AI創業公司。以標普500排名，已超沃爾瑪，躋身全美第12大企業。

年化營收470億美元。年初300億，去年約100億，一年翻了近5倍。核心引擎是 Claude Code 在企業市場的爆發。知情人士透露，公司Q2有望首次實現盈利。

3個月估值翻2.5倍。今年2月G輪時估值還只有3,800億。資本市場用真金白銀投了票：企業級AI程式設計工具，是當前AI商業化最清晰的賽道。

有些 YouTube 博主推測：4.8 的 Fast Mode 降價 67%、限額提升，跟幾周前馬斯克向 Anthropic 出售了數百億美元計算資源直接相關。算力瓶頸被打破後，Anthropic在幾周內就完成了降價、提額、發佈超強模型三件事。Mythos 也將在未來幾周內向所有客戶開放。此前僅限少數合作組織進行網路安全測試，Project Glasswing 已在主流開放原始碼軟體中發現超過 10,000 個高危/嚴重漏洞。

模型即長時程Agent的時代，真正到來了

從4.7 到4.8，只過了41天。Dynamic Workflows把Agentic Coding推到了一個新維度，從「AI 幫你寫程式碼」到「AI 幫你管一個自己會驗證自己工作的工程團隊」。

更值得關注的是誠實度這條線。當模型的智能和精力持續增長、任務周期從分鐘變成天數、平行Agent從幾個變成幾千個，誠實就從錦上添花變成了基礎設施等級的安全要求。一個聰明但不誠實的Agent，是所有工程團隊的噩夢；一個聰明且敢於說「我不確定」的Agent，才是真正能放進生產管道的。

Anthropic同時透露，未來幾周Mythos將向所有客戶開放，另外還在開發能力接近Opus但成本更低的模型。不管怎樣，長時程Agent的時代已經是正在發生的事。

唯一的建議就是多花時間調整工作流、扔掉舊的開發模式，感受一下一個人加一支AI Agent團隊是什麼體驗。 (51CTO技術堆疊)

科技