Anthropic發佈全球首個混合推理模型與全新程式碼“神器”:雙面王牌組合



Anthropic公司正式發佈了他們最新的AI王牌組合—— Claude 3.7 Sonnet 和 Claude Code!各種能力超群,只是數學能力還是不及DeepSeek等,感覺Claude所有重點都在程式碼能力

第一時間(熬夜🤣)給大家劃個重點

Claude 3.7 Sonnet:混合推理架構登場,打造前所未有的智能巔峰!

Anthropic毫不掩飾對Claude 3.7 Sonnet的自信,直接稱其為 “迄今為止最智能的模型”,更重要的是,它還開創性地成為了 “市場上首個混合推理模型”



與以往模型不同,Claude 3.7 Sonnet 的獨特之處在於其 “混合” 能力:

  •  極速響應與深度思考並存: 它既能像獵豹一樣 “即時響應”,滿足對速度有極致要求的場景;又能進行 “擴展的、逐步思考”,處理需要複雜推理的任務。深度思考的過程不再是黑箱操作,而是 “對使用者可見的”
  •  思考時長由你掌控: 對於API開發者而言,Anthropic 開放了 “思考預算 (budget for thinking)” 的精細控制權。你可以根據任務的複雜程度和對結果質量的要求,設定模型思考的tokens上限 (最高可達 128K tokens 輸出限制)。 這意味著開發者可以根據實際需求,在 速度、成本和答案質量 之間自由調優,實現真正的 “按需定製”!👍 這種靈活性是前所未有的,也體現了Anthropic對開發者需求的深刻理解
  •  標準模式與擴展思考模式: Claude 3.7 Sonnet 在 標準模式 下,是 Claude 3.5 Sonnet 的升級版,性能已經非常出色。 而在 擴展思考模式 下,它會進行 “自我反思 (self-reflects)” 後再給出答案,這使得它在 數學、物理、指令跟隨、編碼 等多個領域的性能都得到顯著提升。更棒的是,無論在那種模式下,prompt的編寫方式都基本一致,降低了使用者的學習成本


💪 程式碼能力史詩級躍升!Claude Code橫空出世,賦能智能體編碼新範式!

如果你是一名開發者,尤其是專注於 程式設計和前端Web開發,那麼Claude 3.7 Sonnet 和 Claude Code 的組合絕對會不失所望! Anthropic 明確指出,新模型在 “編碼和前端Web開發” 領域取得了 “特別強勁的改進”



更重要的是“Claude Code” —— 一個跨時代的 “智能體編碼命令列工具”! 這不僅是 Claude 系列的首款程式碼工具,更預示著AI輔助程式設計進入了一個全新的階段。 目前 Claude Code 以 “限量研究預覽版” 的形式推出

Claude Code 的強大之處在於,它將 AI 的程式碼智能直接融入開發者的工作流中,讓你能夠在熟悉的 終端環境 下,“直接委託實質性的工程任務給 Claude”。 想像一下,你只需在命令列輸入指令,就能讓 AI 智能體完成程式碼搜尋、檔案編輯、測試編寫和運行、程式碼提交和推送等一系列複雜的程式設計任務

Claude Code 的核心能力包括:

  •  程式碼檢索與閱讀: 快速搜尋和理解程式碼庫,不再需要在海量程式碼中手動翻找
  •  檔案編輯: 智能修改程式碼檔案,無論是簡單的bug修復還是複雜的重構,都能輕鬆應對
  •  測試編寫與運行: 自動生成和執行測試用例,確保程式碼質量,提升軟體可靠性
  •  程式碼提交與推送 (GitHub 整合): 無縫整合 GitHub,方便程式碼的版本控制和協作
  •  命令列工具整合: 靈活使用各種命令列工具,擴展功能,滿足更複雜的需求。

Anthropic 強調,Claude Code 在 測試驅動開發、複雜問題偵錯和大規模重構 等場景中尤其得心應手。 在早期測試中,Claude Code 能夠在 “單次操作中完成通常需要 45 分鐘以上的手動工作”,顯著縮短開發時間和成本

Claude Code 目前處於研究預覽的 beta 階段:

https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview


📊 權威評測資料震撼發佈:實力碾壓,問鼎多項榜單!

性能是檢驗 AI 模型實力的硬指標。Anthropic 在公告中展示了 Claude 3.7 Sonnet 在多個權威基準測試上的卓越表現,用資料說話,實力盡顯:

  •  SWE-bench Verified (軟體工程基準測試): Claude 3.7 Sonnet 以 70.3% (使用定製 scaffold) 和 62.3% (標準 scaffold) 的驚人成績,再次成為該榜單的王者,遠超 OpenAI 的 GPT-4 和 DeepSeek R1 等強勁對手。 SWE-bench Verified 專注於評估 AI 模型解決真實世界軟體問題的能力,Claude 3.7 Sonnet 的優異表現充分證明了其在實際編碼場景中的強大實力。值得注意的是,70.3% 的高分使用了 “定製 scaffold”,並在問題子集上進行了內部評分,而 62.3% 的分數則使用了 bash/editor 工具和一個 “思考工具”,在 500 個問題上進行了單次嘗試,沒有額外的測試時計算



  •  TAU-bench (智能體工具使用基準測試): Claude 3.7 Sonnet 在 TAU-bench 的 零售 (retail) 和 航空 (airline) 兩個場景中,分別取得了 81.2% 和 58.4% 的領先成績。 TAU-bench 考察的是 AI 智能體在複雜的真實世界任務中,與使用者和各種工具進行有效互動的能力。Claude 3.7 Sonnet 在此項測試中再次拔得頭籌,印證了其作為智能體工具的卓越性能。為了獲得這些分數,Anthropic 使用了 prompt addendum 指導 Claude 更好地利用 “planning” tool,鼓勵模型寫下思考過程



通用benchmark測試



總而言之,Claude 3.7 Sonnet 在 指令跟隨、通用推理、多模態能力和智能體編碼 等多個關鍵領域都展現出了卓越的性能,在 數學和科學 方面,擴展思考模式帶來了顯著的提升但是沒有超越deepseek等模型。 在 Anthropic 內部的 Pokémon gameplay tests (寶可夢遊戲測試) 中,Claude 3.7 Sonnet 也超越了以往的所有模型


寫在最後:

按照Anthropic的說法:Claude 3.7 Sonnet 和 Claude Code 的發佈,是在 “建構真正增強人類能力的 AI 系統” 道路上邁出的重要一步。 Anthropic 堅信,憑藉其強大的 “深度推理、自主工作和有效協作” 能力,AI 將把我們帶向一個更加美好的未來,在那裡,AI 將 “豐富和擴展人類所能成就的一切”

Anthropic 也在公告中展望了 Claude 的發展藍圖,描繪了 Claude 從 “助手 (assists)” 到 “合作者 (collaborates)” 再到 “先鋒 (pioneers)” 的進化路徑,預示著 AI 在未來將扮演越來越重要的角色,最終將能夠 “找到突破性的解決方案,解決需要團隊數年才能完成的挑戰性問題”。 (AI寒武紀)