看起來10月又是一個大月,DeepSeek用v3.2開場,Anthropic,Google,OpenAI都有大動作
剛剛,Anthropic發佈了其最新前沿模型——Claude Sonnet 4.5
官方稱,這是目前全球最強的程式碼模型、最強的複雜智能體建構模型、以及最擅長使用電腦的模型,並且在推理和數學能力上取得了顯著進步
伴隨新模型發佈的,還有一系列產品全家桶的升級,Anthropic還首次開放了建構Claude Code的同款工具,最後還發佈了一個比較科幻的東西叫Imagine with Claude,可以即時動態生成軟體,不過目前還是研究預覽
Claude Sonnet 4.5現已全面可用,通過API呼叫claude-sonnet-4-5即可。價格與上一代Sonnet 4保持不變,為每百萬token輸入3美元/輸出15美元
Anthropic表示,Claude Sonnet 4.5在衡量真實世界軟體編碼能力的SWE-bench Verified評估中達到了業界頂尖(SOTA)水平。在實際測試中,該模型能在複雜的多步驟任務上保持超過30小時的專注
在電腦使用能力方面,Sonnet 4.5也實現了巨大飛躍。在測試AI模型真實世界電腦任務的OSWorld基準上,Sonnet 4.5以61.4%的得分領先。就在四個月前,Sonnet 4還以42.2%的成績保持領先
此外,該模型在一系列廣泛的評估中也展示了更強的能力,包括推理和數學:
來自金融、法律、醫學和STEM領域的專家發現,與包括Opus 4.1在內的舊模型相比,Sonnet 4.5在特定領域的知識和推理能力上表現出了顯著的提升
Claude Code發佈 v2.0 了,升級了 UI 介面,推出了全新的VS Code擴展外掛。此外,還有一個實用的新功能:檢查點(checkpoints)。通過它,你可以快速撤銷Claude剛剛做出的修改,只需輕鬆按下Esc+Esc快速鍵,或者輸入指令/rewind即可實現
Claude API增加了新的上下文編輯功能和記憶工具,使智能體能夠運行更長時間並處理更複雜的任務。
Claude App中,程式碼執行和檔案建立(電子表格、幻燈片和檔案)功能被直接整合到對話中
Claude for Chrome擴展已向所有上個月加入等待名單的Max使用者開放
Anthropic此次還開放了他們用於建構Claude Code的基石——Claude Agent SDK
官方表示,他們解決了建構AI智能體過程中的多個難題:智能體如何在長時間任務中管理記憶、如何平衡自主性與使用者控制的權限系統、以及如何協調多個子智能體以實現共同目標
現在,這套為Anthropic前沿產品提供動力的基礎設施正式向所有開發者開放,可用於建構自己的智能體
地址:
https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk(使用 Claude Agent SDK 建構 Agent)
Anthropic稱,Claude Sonnet 4.5是其迄今為止最對齊的前沿模型
通過提升模型能力和進行廣泛的安全訓練,模型的行為得到了顯著改善,減少了逢迎、欺騙、權力尋求和鼓勵妄想等不良行為。針對智能體和電腦使用能力,模型在抵禦提示注入攻擊方面也取得了長足進步
Claude Sonnet 4.5在AI安全等級3(ASL-3)的保護下發佈。這些保護措施包括旨在檢測潛在危險輸入和輸出的分類器,特別是與化學、生物、放射性和核(CBRN)武器相關的內容
如果分類器意外標記了正常內容,使用者可以方便地切換到CBRN風險較低的Sonnet 4模型繼續對話。Anthropic表示,自最初引入分類器以來,他們已將誤報率降低了十倍
與Sonnet 4.5一同發佈的還有一個名為“Imagine with Claude”的限時研究預覽
在這個實驗中,Claude能夠即時動態地生成軟體,沒有任何預定功能或預寫程式碼。使用者可以看到Claude根據互動請求進行即時建立和調整
該功能向Max訂閱使用者開放,為期五天
上手小測試
我用之前測試新模型前端能力的提示詞測了一下,並且至少進行了5次抽卡,沒有一次成功,感覺Claude Sonnet 4.5程式碼能力提升貌似不大,提示詞如下:
模擬,一個由彈力球組成的正方體漂浮在半空中,從正方體最下一層慢慢塌方,注意是,一層一層塌方,小球落在桌子上彈起來,直到靜止,模擬整個塌方過程,整個過程符合物理規律,效果要酷炫,整個環境要儘量逼近真實,在單個HTML中實現
實現效果:一次掉落了兩層後,小球就不往下掉落了,核心的邏輯沒有實現
完整的技術細節和評估結果,可參閱官方發佈的系統卡、模型頁面和檔案
https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf(整整148頁)
https://www.anthropic.com/claude/sonnet
https://docs.claude.com/en/docs/about-claude/models/overview
https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents(這篇也很重要,講如何為Agent建構的上下文工程context engineering,詳細請看下一篇文章)
官方測試方法說明
SWE-bench Verified: 所有Claude結果均使用一個包含bash和檔案編輯兩個工具的簡單框架報告。在完整的500個問題的SWE-bench Verified資料集上,通過10次試驗平均,無測試時計算,200K思考預算,得分為77.2%
OSWorld: 所有分數均使用官方OSWorld-Verified框架報告,最大步數為100,4次運行取平均值
MMMLU: 所有分數均為在14種非英語語言上進行5次運行的平均值,並使用了擴展思考(最高128K)。
其他模型的得分均引用自OpenAI和Google發佈的官方文章或排行榜 (AI寒武紀)