Claude Sonnet 4.5發佈，可連續程式設計30小時，Claude Code同款建構工具也開放了

2025/09/30

•

看起來10月又是一個大月，DeepSeek用v3.2開場，Anthropic，Google，OpenAI都有大動作

剛剛，Anthropic發佈了其最新前沿模型——Claude Sonnet 4.5

官方稱，這是目前全球最強的程式碼模型、最強的複雜智能體建構模型、以及最擅長使用電腦的模型，並且在推理和數學能力上取得了顯著進步

伴隨新模型發佈的，還有一系列產品全家桶的升級，Anthropic還首次開放了建構Claude Code的同款工具，最後還發佈了一個比較科幻的東西叫Imagine with Claude，可以即時動態生成軟體，不過目前還是研究預覽

Claude Sonnet 4.5現已全面可用，通過API呼叫claude-sonnet-4-5即可。價格與上一代Sonnet 4保持不變，為每百萬token輸入3美元/輸出15美元

Anthropic表示，Claude Sonnet 4.5在衡量真實世界軟體編碼能力的SWE-bench Verified評估中達到了業界頂尖（SOTA）水平。在實際測試中，該模型能在複雜的多步驟任務上保持超過30小時的專注

在電腦使用能力方面，Sonnet 4.5也實現了巨大飛躍。在測試AI模型真實世界電腦任務的OSWorld基準上，Sonnet 4.5以61.4%的得分領先。就在四個月前，Sonnet 4還以42.2%的成績保持領先

此外，該模型在一系列廣泛的評估中也展示了更強的能力，包括推理和數學：

來自金融、法律、醫學和STEM領域的專家發現，與包括Opus 4.1在內的舊模型相比，Sonnet 4.5在特定領域的知識和推理能力上表現出了顯著的提升

Claude Code發佈 v2.0 了，升級了 UI 介面，推出了全新的VS Code擴展外掛。此外，還有一個實用的新功能：檢查點（checkpoints）。通過它，你可以快速撤銷Claude剛剛做出的修改，只需輕鬆按下Esc+Esc快速鍵，或者輸入指令/rewind即可實現

Claude API增加了新的上下文編輯功能和記憶工具，使智能體能夠運行更長時間並處理更複雜的任務。

Claude App中，程式碼執行和檔案建立（電子表格、幻燈片和檔案）功能被直接整合到對話中

Claude for Chrome擴展已向所有上個月加入等待名單的Max使用者開放

Anthropic此次還開放了他們用於建構Claude Code的基石——Claude Agent SDK

官方表示，他們解決了建構AI智能體過程中的多個難題：智能體如何在長時間任務中管理記憶、如何平衡自主性與使用者控制的權限系統、以及如何協調多個子智能體以實現共同目標

現在，這套為Anthropic前沿產品提供動力的基礎設施正式向所有開發者開放，可用於建構自己的智能體

地址：

https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk（使用 Claude Agent SDK 建構 Agent）

Anthropic稱，Claude Sonnet 4.5是其迄今為止最對齊的前沿模型

通過提升模型能力和進行廣泛的安全訓練，模型的行為得到了顯著改善，減少了逢迎、欺騙、權力尋求和鼓勵妄想等不良行為。針對智能體和電腦使用能力，模型在抵禦提示注入攻擊方面也取得了長足進步

Claude Sonnet 4.5在AI安全等級3（ASL-3）的保護下發佈。這些保護措施包括旨在檢測潛在危險輸入和輸出的分類器，特別是與化學、生物、放射性和核（CBRN）武器相關的內容

如果分類器意外標記了正常內容，使用者可以方便地切換到CBRN風險較低的Sonnet 4模型繼續對話。Anthropic表示，自最初引入分類器以來，他們已將誤報率降低了十倍

與Sonnet 4.5一同發佈的還有一個名為“Imagine with Claude”的限時研究預覽

在這個實驗中，Claude能夠即時動態地生成軟體，沒有任何預定功能或預寫程式碼。使用者可以看到Claude根據互動請求進行即時建立和調整

該功能向Max訂閱使用者開放，為期五天

上手小測試

我用之前測試新模型前端能力的提示詞測了一下，並且至少進行了5次抽卡，沒有一次成功，感覺Claude Sonnet 4.5程式碼能力提升貌似不大，提示詞如下：

模擬，一個由彈力球組成的正方體漂浮在半空中，從正方體最下一層慢慢塌方，注意是，一層一層塌方，小球落在桌子上彈起來，直到靜止，模擬整個塌方過程，整個過程符合物理規律，效果要酷炫，整個環境要儘量逼近真實，在單個HTML中實現

實現效果：一次掉落了兩層後，小球就不往下掉落了，核心的邏輯沒有實現

完整的技術細節和評估結果，可參閱官方發佈的系統卡、模型頁面和檔案

https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf（整整148頁）

https://www.anthropic.com/claude/sonnet

https://docs.claude.com/en/docs/about-claude/models/overview

https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents（這篇也很重要，講如何為Agent建構的上下文工程context engineering，詳細請看下一篇文章）

官方測試方法說明

SWE-bench Verified: 所有Claude結果均使用一個包含bash和檔案編輯兩個工具的簡單框架報告。在完整的500個問題的SWE-bench Verified資料集上，通過10次試驗平均，無測試時計算，200K思考預算，得分為77.2%

OSWorld: 所有分數均使用官方OSWorld-Verified框架報告，最大步數為100，4次運行取平均值

MMMLU: 所有分數均為在14種非英語語言上進行5次運行的平均值，並使用了擴展思考（最高128K）。

其他模型的得分均引用自OpenAI和Google發佈的官方文章或排行榜 (AI寒武紀)