劍指OpenAI，Anthropic推出全球首個“混合推理模型”，最新估值615億美元

2025/02/25

•

2月25日消息，美國當地時間週一，由OpenAI前員工創辦的人工智慧公司Anthropic突發連招。在技術方面，Anthropic宣布推出全球首個「混合推理」AI模型，向OpenAI、DeepSeek等對手發起挑戰。在營運方面，該公司表示即將完成35億美元融資，估值達615億美元。

Anthropic此次發布的新模型名為Claude 3.7 Sonnet，它賦予了用戶前所未有的控制權，讓他們可以決定AI在生成回答前花費多少時間進行「思考」。同時，Anthropic也推出了AI程式助理Claude Code。這些措施標誌著Anthropic正大舉進軍企業AI市場，或將徹底改變企業建置軟體和自動化工作的方式。

Claude 3.7 Sonnet引入了「思考模式」切換功能，讓使用者可以根據任務複雜度優化AI的回應時間。 Anthropic研究產品管理負責人Dianne Penn表示：“我們認為推理是AI的核心組成部分，而不是需要額外付費才能使用的功能。就像人類一樣，AI應該既能快速響應，又能進行複雜思考。對於簡單問題，它應該立即給出答案；但對於復雜的任務，它則需要更多的處理時間。”

她補充說：“我們不將推理、規劃和自我修正視為AI的獨立能力。在理想情況下，模型本身應該能夠識別問題是否需要更深入的思考，並自動調整，而不是要求用戶來選擇不同的推理模式。”

基準測試數據支持了Anthropic的雄心。在擴展思考模式下，Claude 3.7 Sonnet在研究生級別的推理任務中，準確率達到78.2%，不僅對OpenAI的最新模型發起挑戰，還超越了DeepSeek-R1的表現。

以下為Anthropic官文全文：

今天，我們正式推出Claude 3.7 Sonnet，這是我們迄今為止最聰明的模型，也是市場上首款「混合推理」模型。 Claude 3.7 Sonnet能夠產生近乎即時的回應，也能進行長時間的推理，並將這些思考過程展示給使用者。 API使用者還可以精細控制模型的思考時間。

Claude 3.7 Sonnet在程式設計和前端Web開發方面表現尤為突出。伴隨著新模型的發布，我們也推出了一款命令列工具Claude Code，專門用於輔助程式設計。 Claude Code目前以有限研究預覽的形式提供，允許開發者直接從終端將大量工程任務委託給Claude完成。

Claude 3.7 Sonnet現已登陸所有Claude訂閱方案（包括免費版、Pro版、Team版和企業版），並支援Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI平台。除了免費版Claude之外，其他版本都可以使用擴展思考模式。

無論是標準模式或擴展思考模式，Claude 3.7 Sonnet的定價均與先前版本保持一致：每百萬輸入token收費3美元，每百萬輸出token收費15美元（其中包含思考token）。

Claude 3.7 兒子：讓前沿推理變得實用

Claude 3.7 Sonnet的開發理念與市場上其他推理模型截然不同。就像人類的大腦既可以處理快速反應，也能進行深度思考，我們認為推理應該是前沿模型的整合能力，而非完全獨立的模型。這種統一的方法也為使用者創造了更無縫的體驗。

Claude 3.7 Sonnet透過多種方式體現了這一理念：

——雙重模式： Claude 3.7 Sonnet既是普通的大語言模型（LLM），也是推理模型。使用者可以選擇讓模型在正常模式下給予快速反應，或進行更長的思考後再回答。在標準模式下，Claude 3.7 Sonnet是Claude 3.5 Sonnet的升級版；在擴展思考模式下，它會在回答問題前進行自我反思，從而在數學、物理、指令遵循、編程等任務中表現更佳。我們發現，無論在哪種模式下，提示模型的方式都相似。

——精細控制：透過API使用Claude 3.7 Sonnet時，使用者可以設定思考的token預算，最高可達128K token。這使得用戶能夠在速度（和成本）與回答品質之間做出權衡。

——現實任務最佳化：在發展推理模型時，我們減少了數學和電腦科學競賽題的最佳化，轉而更專注於反映企業實際使用LLM的現實任務。

早期測試表明，Claude的程式設計能力處於行業領先地位。

Cursor表示，Claude再次成為處理實際程式設計任務的最佳選擇，特別是在處理複雜程式碼庫和高階工具使用方面取得了顯著進展。

Cognition發現，Claude在規劃程式碼變更和處理全端更新方面遠遠超越其他任何模型。

Vercel強調了Claude在複雜代理工作流程中的卓越表現，而Replit成功利用Claude從零開始建立複雜的網路應用程式和儀表板，而其他模型則難以勝任。

Canva的評估顯示，Claude總是能產生生產級程式碼，設計品味出眾，且錯誤率大幅降低。

在SWE-bench Verified和TAU-bench等基準測試中，Claude 3.7 Sonnet都達到了最先進的性能水平，展現了其解決現實世界軟體問題和複雜任務的能力。

圖註：在SWE-bench Verified基準測試中，Claude 3.7 Sonnet的效能表現最佳。該測試旨在評估AI模型解決現實世界軟體問題的能力

圖註：Claude 3.7 Sonnet在TAU-bench基準測試中表現優異。此測試框架專注於評估AI模型在複雜現實任務中的表現，包括與使用者和工具的交互

圖註：Claude 3.7 Sonnet在指令遵循、通用推理、多模態能力以及智能體編碼方面表現卓越，其擴展思考模式在數學和科學任務中尤為突出，顯著提升了性能。不僅如此，在傳統基準測試之外，其表現甚至在內部Pokémon遊戲測試中超越了所有先前的模型

Claude Code：增強開發者程式設計體驗

自2024年6月以來，Sonnet已成為全球開發者的首選模式。今天，我們進一步賦能開發者，推出首款智慧體級編碼工具Claude Code，並以有限研究預覽的形式提供。

Claude Code是一個活躍的協作者，能夠搜尋和讀取程式碼、編輯檔案、編寫和運行測試、提交程式碼到GitHub，並使用命令列工具——同時讓使用者隨時掌握每一步進度。

儘管Claude Code尚處於早期階段，但它已成為我們團隊不可或缺的工具，尤其是在測試驅動開發、調試複雜問題和大規模重構方面。在早期測試中，Claude Code一次完成了通常需要45分鐘以上手動工作的任務，明顯減少了開發時間和工作量。

未來幾週，我們將根據使用情況不斷改進Claude Code，包括增強工具呼叫的可靠性、支援長時間運行的命令、優化應用程式內渲染，並擴展Claude對其自身能力的理解。

我們也改進了Claude.ai的編碼體驗。 GitHub整合現已涵蓋所有Claude訂閱計劃，使開發者能夠直接將程式碼庫連接到Claude。

Claude 3.7 Sonnet是我們迄今為止最強大的編碼模型。透過對個人、工作和開源專案的深入理解，它成為修復漏洞、開發新功能和建立文件的強力夥伴。

展望未來

Claude 3.7 Sonnet和Claude Code標誌著AI系統朝著真正增強人類能力的方向邁出了重要一步。透過深度推理、自主工作和高效協作能力，它們使我們更接近一個AI能夠豐富和擴展人類成就的未來。

在發布新模型的同時，知情人士透露Anthropic即將完成一輪35億美元融資，估值達615億美元。這輪融資顯示，儘管DeepSeek的崛起帶來了衝擊，但投資人仍對潛力巨大的人工智慧公司充滿信心。

最初計劃融資20億美元，但在與投資者洽談後成功提高了融資額度。該公司由前OpenAI員工於2021年創立，先前的估值為180億美元，現已成為少數幾家擁有足夠人才和資金與OpenAI競爭的AI新創公司。

此次融資使得Anthropic的估值攀升至615億美元，這項估值包含了公司此次融資所籌集的資金。

本輪融資的投資人包括創投公司Lightspeed Venture Partners、General Catalyst和Bessemer Venture Partners。此外，總部位於阿布達比的MGX投資公司也正在與Anthropic商談參與投資事宜。

雖然Anthropic在消費者用戶市場仍落後於OpenAI，但其推出的Claude聊天機器人在程式設計師和企業客戶中逐漸獲得青睞。

知情人士透露，Anthropic的年化收入（基於近期銷售數據推算的未來12個月收入）已達約12億美元。儘管如此，該公司目前仍處於虧損狀態，並計劃利用此次融資支持開發更強大的AI模型。

相較之下，OpenAI在2024年10月的融資輪中透露，預計2024年的營收將達到37億美元。

自從DeepSeek發布了一款與美國最強大AI模型相媲美的新型AI模型後，矽谷的一些投資者對Anthropic等公司的前景表示擔憂。 DeepSeek的模型不僅開發成本極低，而且可以免費使用。

對此，Anthropic執行長達裡奧·阿莫代伊（Dario Amodei）在一篇部落格中指出，DeepSeek的成功並未改變開發AI技術的經濟邏輯。

這輪大規模融資表明，投資者仍然願意押注於像Anthropic這樣開發專有AI模型的公司。

同時，OpenAI也在洽談籌集高達400億美元的資金，估值為3,000億美元。此外，馬斯克旗下的xAI公司也正在進行非正式的融資洽談，並計劃進行一輪大規模融資。（騰訊科技）

科技