劍指OpenAI,Anthropic推出全球首個“混合推理模型”,最新估值615億美元

2月25日消息,美國當地時間週一, 由OpenAI前員工創辦的人工智慧公司Anthropic突發連招。在技​​術方面,Anthropic宣布推出全球首個「混合推理」AI模型,向OpenAI、DeepSeek等對手發起挑戰。在營運方面,該公司表示即將完成35億美元融資,估值達615億美元。




全球首款「混合推理」AI模型


Anthropic此次發布的新模型名為Claude 3.7 Sonnet,它賦予了用戶前所未有的控制權,讓他們可以決定AI在生成回答前花費多少時間進行「思考」。同時,Anthropic也推出了AI程式助理Claude Code。這些措施標誌著Anthropic正大舉進軍企業AI市場,或將徹底改變企業建置軟體和自動化工作的方式。

Claude 3.7 Sonnet引入了「思考模式」切換功能,讓使用者可以根據任務複雜度優化AI的回應時間。 Anthropic研究產品管理負責人Dianne Penn表示:“我們認為推理是AI的核心組成部分,而不是需要額外付費才能使用的功能。就像人類一樣,AI應該既能快速響應,又能進行複雜思考。對於簡單問題,它應該立即給出答案;但對於復雜的任務,它則需要更多的處理時間。”

她補充說:“我們不將推理、規劃和自我修正視為AI的獨立能力。在理想情況下,模型本身應該能夠識別問題是否需要更深入的思考,並自動調整,而不是要求用戶來選擇不同的推理模式。”

基準測試數據支持了Anthropic的雄心。在擴展思考模式下,Claude 3.7 Sonnet在研究生級別的推理任務中,準確率達到78.2%,不僅對OpenAI的最新模型發起挑戰,還超越了DeepSeek-R1的表現。

以下為Anthropic官文全文:

今天,我們正式推出Claude 3.7 Sonnet,這是我們迄今為止最聰明的模型,也是市場上首款「混合推理」模型。 Claude 3.7 Sonnet能夠產生近乎即時的回應,也能進行長時間的推理,並將這些思考過程展示給使用者。 API使用者還可以精細控制模型的思考時間。

Claude 3.7 Sonnet在程式設計和前端Web開發方面表現尤為突出。伴隨著新模型的發布,我們也推出了一款命令列工具Claude Code,專門用於輔助程式設計。 Claude Code目前以有限研究預覽的形式提供,允許開發者直接從終端將大量工程任務委託給Claude完成。

Claude 3.7 Sonnet現已登陸所有Claude訂閱方案(包括免費版、Pro版、Team版和企業版),並支援Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI平台。除了免費版Claude之外,其他版本都可以使用擴展思考模式。

無論是標準模式或擴展思考模式,Claude 3.7 Sonnet的定價均與先前版本保持一致:每百萬輸入token收費3美元,每百萬輸出token收費15美元(其中包含思考token)。

Claude 3.7 兒子:讓前沿推理變得實用

Claude 3.7 Sonnet的開發理念與市場上其他推理模型截然不同。就像人類的大腦既可以處理快速反應,也能進行深度思考,我們認為推理應該是前沿模型的整合能力,而非完全獨立的模型。這種統一的方法也為使用者創造了更無縫的體驗。

Claude 3.7 Sonnet透過多種方式體現了這一理念:

——雙重模式: Claude 3.7 Sonnet既是普通的大語言模型(LLM),也是推理模型。使用者可以選擇讓模型在正常模式下給予快速反應,或進行更長的思考後再回答。在標準模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升級版;在擴展思考模式下,它會在回答問題前進行自我反思,從而在數學、物理、指令遵循、編程等任務中表現更佳。我們發現,無論在哪種模式下,提示模型的方式都相似。

——精細控制:透過API使用Claude 3.7 Sonnet時,使用者可以設定思考的token預算,最高可達128K token。這使得用戶能夠在速度(和成本)與回答品質之間做出權衡。

——現實任務最佳化:在發展推理模型時,我們減少了數學和電腦科學競賽題的最佳化,轉而更專注於反映企業實際使用LLM的現實任務。

早期測試表明,Claude的程式設計能力處於行業領先地位。

Cursor表示,Claude再次成為處理實際程式設計任務的最佳選擇,特別是在處理複雜程式碼庫和高階工具使用方面取得了顯著進展。

Cognition發現,Claude在規劃程式碼變更和處理全端更新方面遠遠超越其他任何模型。

Vercel強調了Claude在複雜代理工作流程中的卓越表現,而Replit成功利用Claude從零開始建立複雜的網路應用程式和儀表板,而其他模型則難以勝任。

Canva的評估顯示,Claude總是能產生生產級程式碼,設計品味出眾,且錯誤率大幅降低。

在SWE-bench Verified和TAU-bench等基準測試中,Claude 3.7 Sonnet都達到了最先進的性能水平,展現了其解決現實世界軟體問題和複雜任務的能力。


圖註:在SWE-bench Verified基準測試中,Claude 3.7 Sonnet的效能表現最佳。該測試旨在評估AI模型解決現實世界軟體問題的能力


圖註:Claude 3.7 Sonnet在TAU-bench基準測試中表現優異。此測試框架專注於評估AI模型在複雜現實任務中的表現,包括與使用者和工具的交互


圖註:Claude 3.7 Sonnet在指令遵循、通用推理、多模態能力以及智能體編碼方面表現卓越,其擴展思考模式在數學和科學任務中尤為突出,顯著提升了性能。不僅如此,在傳統基準測試之外,其表現甚至在內部Pokémon遊戲測試中超越了所有先前的模型

Claude Code:增強開發者程式設計體驗

自2024年6月以來,Sonnet已成為全球開發者的首選模式。今天,我們進一步賦能開發者,推出首款智慧體級編碼工具Claude Code,並以有限研究預覽的形式提供。

Claude Code是一個活躍的協作者,能夠搜尋和讀取程式碼、編輯檔案、編寫和運行測試、提交程式碼到GitHub,並使用命令列工具——同時讓使用者隨時掌握每一步進度。

儘管Claude Code尚處於早期階段,但它已成為我們團隊不可或缺的工具,尤其是在測試驅動開發、調試複雜問題和大規模重構方面。在早期測試中,Claude Code一次完成了通常需要45分鐘以上手動工作的任務,明顯減少了開發時間和工作量。

未來幾週,我們將根據使用情況不斷改進Claude Code,包括增強工具呼叫的可靠性、支援長時間運行的命令、優化應用程式內渲染,並擴展Claude對其自身能力的理解。

我們也改進了Claude.ai的編碼體驗。 GitHub整合現已涵蓋所有Claude訂閱計劃,使開發者能夠直接將程式碼庫連接到Claude。

Claude 3.7 Sonnet是我們迄今為止最強大的編碼模型。透過對個人、工作和開源專案的深入理解,它成為修復漏洞、開發新功能和建立文件的強力夥伴。

展望未來

Claude 3.7 Sonnet和Claude Code標誌著AI系統朝著真正增強人類能力的方向邁出了重要一步。透過深度推理、自主工作和高效協作能力,它們使我們更接近一個AI能夠豐富和擴展人類成就的未來。


即將完成35億美元融資估值達615億美元


在發布新模型的同時,知情人士透露Anthropic即將完成一輪35億美元融資,估值達615億美元。這輪融資顯示,儘管DeepSeek的崛起帶來了衝擊,但投資人仍對潛力巨大的人工智慧公司充滿信心。

最初計劃融資20億美元,但在與投資者洽談後成功提高了融資額度。該公司由前OpenAI員工於2021年創立,先前的估值為180億美元,現已成為少數幾家擁有足夠人才和資金與OpenAI競爭的AI新創公司。

此次融資使得Anthropic的估值攀升至615億美元,這項估值包含了公司此次融資所籌集的資金。

本輪融資的投資人包括創投公司Lightspeed Venture Partners、General Catalyst和Bessemer Venture Partners。此外,總部位於阿布達比的MGX投資公司也正在與Anthropic商談參與投資事宜。

雖然Anthropic在消費者用戶市場仍落後於OpenAI,但其推出的Claude聊天機器人在程式設計師和企業客戶中逐漸獲得青睞。

知情人士透露,Anthropic的年化收入(基於近期銷售數據推算的未來12個月收入)已達約12億美元。儘管如此,該公司目前仍處於虧損狀態,並計劃利用此次融資支持開發更強大的AI模型。

相較之下,OpenAI在2024年10月的融資輪中透露,預計2024年的營收將達到37億美元。

自從DeepSeek發布了一款與美國最強大AI模型相媲美的新型AI模型後,矽谷的一些投資者對Anthropic等公司的前景表示擔憂。 DeepSeek的模型不僅開發成本極低,而且可以免費使用。

對此,Anthropic執行長達裡奧·阿莫代伊(Dario Amodei)在一篇部落格中指出,DeepSeek的成功並未改變開發AI技術的經濟邏輯。

這輪大規模融資表明,投資者仍然願意押注於像Anthropic這樣開發專有AI模型的公司。

同時,OpenAI也在洽談籌集高達400億美元的資金,估值為​​3,000億美元。此外,馬斯克旗下的xAI公司也正在進行非正式的融資洽談,並計劃進行一輪大規模融資。 (騰訊科技)