Anthropic發佈全球首個混合推理模型與全新程式碼“神器”：雙面王牌組合

2025/02/25

•

Anthropic公司正式發佈了他們最新的AI王牌組合—— Claude 3.7 Sonnet 和 Claude Code！各種能力超群，只是數學能力還是不及DeepSeek等，感覺Claude所有重點都在程式碼能力

第一時間（熬夜🤣）給大家劃個重點

Claude 3.7 Sonnet：混合推理架構登場，打造前所未有的智能巔峰！

Anthropic毫不掩飾對Claude 3.7 Sonnet的自信，直接稱其為 “迄今為止最智能的模型”，更重要的是，它還開創性地成為了 “市場上首個混合推理模型”！

與以往模型不同，Claude 3.7 Sonnet 的獨特之處在於其 “混合” 能力：

極速響應與深度思考並存： 它既能像獵豹一樣 “即時響應”，滿足對速度有極致要求的場景；又能進行 “擴展的、逐步思考”，處理需要複雜推理的任務。深度思考的過程不再是黑箱操作，而是 “對使用者可見的”！
思考時長由你掌控： 對於API開發者而言，Anthropic 開放了 “思考預算 (budget for thinking)” 的精細控制權。你可以根據任務的複雜程度和對結果質量的要求，設定模型思考的tokens上限 (最高可達 128K tokens 輸出限制)。這意味著開發者可以根據實際需求，在 速度、成本和答案質量 之間自由調優，實現真正的 “按需定製”！👍 這種靈活性是前所未有的，也體現了Anthropic對開發者需求的深刻理解
標準模式與擴展思考模式： Claude 3.7 Sonnet 在 標準模式 下，是 Claude 3.5 Sonnet 的升級版，性能已經非常出色。而在 擴展思考模式 下，它會進行 “自我反思 (self-reflects)” 後再給出答案，這使得它在 數學、物理、指令跟隨、編碼 等多個領域的性能都得到顯著提升。更棒的是，無論在那種模式下，prompt的編寫方式都基本一致，降低了使用者的學習成本

💪 程式碼能力史詩級躍升！Claude Code橫空出世，賦能智能體編碼新範式！

如果你是一名開發者，尤其是專注於 程式設計和前端Web開發，那麼Claude 3.7 Sonnet 和 Claude Code 的組合絕對會不失所望！ Anthropic 明確指出，新模型在 “編碼和前端Web開發” 領域取得了 “特別強勁的改進”

更重要的是“Claude Code” —— 一個跨時代的 “智能體編碼命令列工具”！這不僅是 Claude 系列的首款程式碼工具，更預示著AI輔助程式設計進入了一個全新的階段。目前 Claude Code 以 “限量研究預覽版” 的形式推出

Claude Code 的強大之處在於，它將 AI 的程式碼智能直接融入開發者的工作流中，讓你能夠在熟悉的 終端環境 下，“直接委託實質性的工程任務給 Claude”。想像一下，你只需在命令列輸入指令，就能讓 AI 智能體完成程式碼搜尋、檔案編輯、測試編寫和運行、程式碼提交和推送等一系列複雜的程式設計任務

Claude Code 的核心能力包括：

程式碼檢索與閱讀： 快速搜尋和理解程式碼庫，不再需要在海量程式碼中手動翻找
檔案編輯： 智能修改程式碼檔案，無論是簡單的bug修復還是複雜的重構，都能輕鬆應對
測試編寫與運行： 自動生成和執行測試用例，確保程式碼質量，提升軟體可靠性
程式碼提交與推送 (GitHub 整合)： 無縫整合 GitHub，方便程式碼的版本控制和協作
命令列工具整合： 靈活使用各種命令列工具，擴展功能，滿足更複雜的需求。

Anthropic 強調，Claude Code 在 測試驅動開發、複雜問題偵錯和大規模重構 等場景中尤其得心應手。在早期測試中，Claude Code 能夠在 “單次操作中完成通常需要 45 分鐘以上的手動工作”，顯著縮短開發時間和成本

Claude Code 目前處於研究預覽的 beta 階段：

https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

📊 權威評測資料震撼發佈：實力碾壓，問鼎多項榜單！

性能是檢驗 AI 模型實力的硬指標。Anthropic 在公告中展示了 Claude 3.7 Sonnet 在多個權威基準測試上的卓越表現，用資料說話，實力盡顯：

SWE-bench Verified (軟體工程基準測試): Claude 3.7 Sonnet 以 70.3% (使用定製 scaffold) 和 62.3% (標準 scaffold) 的驚人成績，再次成為該榜單的王者，遠超 OpenAI 的 GPT-4 和 DeepSeek R1 等強勁對手。 SWE-bench Verified 專注於評估 AI 模型解決真實世界軟體問題的能力，Claude 3.7 Sonnet 的優異表現充分證明了其在實際編碼場景中的強大實力。值得注意的是，70.3% 的高分使用了 “定製 scaffold”，並在問題子集上進行了內部評分，而 62.3% 的分數則使用了 bash/editor 工具和一個 “思考工具”，在 500 個問題上進行了單次嘗試，沒有額外的測試時計算

TAU-bench (智能體工具使用基準測試): Claude 3.7 Sonnet 在 TAU-bench 的 零售 (retail) 和 航空 (airline) 兩個場景中，分別取得了 81.2% 和 58.4% 的領先成績。 TAU-bench 考察的是 AI 智能體在複雜的真實世界任務中，與使用者和各種工具進行有效互動的能力。Claude 3.7 Sonnet 在此項測試中再次拔得頭籌，印證了其作為智能體工具的卓越性能。為了獲得這些分數，Anthropic 使用了 prompt addendum 指導 Claude 更好地利用 “planning” tool，鼓勵模型寫下思考過程

通用benchmark測試

總而言之，Claude 3.7 Sonnet 在 指令跟隨、通用推理、多模態能力和智能體編碼 等多個關鍵領域都展現出了卓越的性能，在 數學和科學 方面，擴展思考模式帶來了顯著的提升但是沒有超越deepseek等模型。在 Anthropic 內部的 Pokémon gameplay tests (寶可夢遊戲測試) 中，Claude 3.7 Sonnet 也超越了以往的所有模型

寫在最後：

按照Anthropic的說法：Claude 3.7 Sonnet 和 Claude Code 的發佈，是在 “建構真正增強人類能力的 AI 系統” 道路上邁出的重要一步。 Anthropic 堅信，憑藉其強大的 “深度推理、自主工作和有效協作” 能力，AI 將把我們帶向一個更加美好的未來，在那裡，AI 將 “豐富和擴展人類所能成就的一切”

Anthropic 也在公告中展望了 Claude 的發展藍圖，描繪了 Claude 從 “助手 (assists)” 到 “合作者 (collaborates)” 再到 “先鋒 (pioneers)” 的進化路徑，預示著 AI 在未來將扮演越來越重要的角色，最終將能夠 “找到突破性的解決方案，解決需要團隊數年才能完成的挑戰性問題”。 (AI寒武紀)