Anthropic稱,作為全球最佳程式設計模型,Claude Opus 4能在需要專注努力和數千步驟的長時間任務中保持穩定表現,電商樂天驗證它可連續工作七小時;SWE-bench測評中,Claude Sonnet 4精準度72.7%,較Sonnet 3.7版的62.3% 4精準度72.7%,較Sonnet 3.7版的62.3%。
OpenAI的勁敵Anthropic發佈Claude 4系列模型,稱Opus 4為"全球最佳編程模型",對AI投資者而言標誌著模型能力的新紀元,可能重塑軟件開發行業格局。
除了新模型,Anthropic還宣佈,編程工具Claude Code正式上線,並提供新的功能供連接到其模型的開發者使用,包括將推理與網頁搜尋和其他工具相結合的能力。
Anthropic的新發表加劇了與OpenAI、Google在頂級模型領域的競爭,為投資者提供了重新評估AI領域競爭格局的機會。
美國東部時間5月22日周四,Anthropic在公司首屆"Code with Claude"開發者大會上推出了Claude 4系列的兩款全新模型:Claude Opus 4和Claude Sonnet 4。
Anthropic將Claude Opus 4稱為"公司迄今最強大的模型,也是全球最佳編程模型",而Claude Sonnet 4 是Claude Sonnet 3.7版的重大升級,提供卓越的編碼和推理能力,同時更精確地響應用戶指令。
Anthropic稱,Opus 4在編碼、研究、寫作和科學發現方面突破了界限,而Sonnet 4 作為Sonnet 3.7 的即時升級,為日常用例帶來了前沿性能。
在SWE-bench軟件工程任務基準測試中,Opus 4得到72.5%的精準度成績,在Terminal-bench達到43.2%。 Sonnet 4則在SWE-bench上達到72.7%,相比得到62.3%成績的Sonnet 3.7版本有顯著提升。
Opus 4和Sonnet 4都採用了混合模式設計,既可提供幾乎即時的回應,也能進行更深入的推理思考、即擴張思維。
在Anthropic的Pro、Max、Team 和Enterprise Claude 套餐中包含了上述兩種型號的能力,Sonnet 4型號也對免費用戶開放。新模型均可在Anthropic API、Amazon Bedrock 和Google Cloud 的Vertex AI 上使用。
定價與之前的Opus 和Sonnet 模型一樣:Opus 4 為每百萬token輸入和輸出分別收費15美元和75 美元,Sonnet 4的百萬token輸入和輸出分別收取3美元和15 美元。
Anthropic產品負責人Scott White表示,這次發表標誌著
"Claude從提供答案的工具轉變為真正有能力的協作夥伴"。
Opus 4最引人注目的特點是其驚人的持續工作能力。根據Anthropic介紹,該模型能夠在需要專注努力和數千步驟的長時間任務中保持穩定表現,可以連續工作數小時。
Anthropic稱,日本電商巨頭樂天(Rakuten)已驗證了Opus 4的能力,在樂天要求嚴格的一項開源重構任務中,該模型獨立運行了7小時,且這期間保持穩定的性能。
這種持久的注意力和工作能力使Opus 4特別適合複雜的編碼和問題解決場景。
代碼編輯平台Cursor稱,Opus 4為"程式設計領域的最新技術,在復雜代碼庫理解方面實現了飛躍"。程式設計平台Replit表示,在跨多個檔案的複雜變更方面,Opus 4取得"顯著改進"。
兩個新模型都引入了"擴展思考與工具使用"功能(測試版),允許Claude在思考過程中使用網絡搜尋等工具,在推理和工具使用之間交替以改進響應。這些模型還能平行使用工具,更精確地遵循指令,並在開發者授予本地檔案存取權時展示顯著改進的記憶能力。
特別值得注意的是,Opus 4在記憶能力方面大幅超越了所有先前的模型。當開發者建構的應用程式提供Claude本地檔案存取權時,Opus 4能夠建立和維護"記憶檔案"來儲存關鍵資訊,這解鎖了更好的長期任務意識、連貫性和代理任務效能。
在模型發布的同時,Anthropic宣佈,在測試收到「廣泛的積極反饋」後,Claude Code正式全面推出。現在透過GitHub Actions支援後台任務,並與VS Code和JetBrains原生整合,直接在開發者檔案中顯示編輯,實現無縫結對程式設計。
Claude Code 由Opus 4 和Sonnet 4 提供支援,讓Anthropic 的大語言模型(LLM)擁有更多功能,因為它可以編寫程式碼來分析資料。使用者甚至可能不知道Claude 在為完成任務編寫和調試代碼,但它的編碼能力將使模型在分析大量資料時能夠運用思維。
Scott White表示:"編碼是一個快速成長、非常令人興奮的市場。"
White 任務,Claude Code 不僅適合那些希望為其軟件工程師提供工具進而提升自身專業技能的公司,也適合那些可能不懂程式設計的人。
他舉例說,如果一位產品經理正在向團隊推薦一個點子,他們就不必僅僅建立一份檔案來解釋相關概念,而是可以找到Claude,並請Claude 建立這個點子的原型。
Anthropic的新模型面世正逢AI領域的巨頭們頻傳訊息「上頭條」。
本周稍早,微軟宣佈了新的編碼智能體,並與馬斯克旗下xAI的Grok模型合作,將Grok納入微軟雲平台;Google加速將AI智能體融入公司服務,推出AI模式的新型搜尋功能;OpenAI宣佈了65億美元的交易,降收購由「iPhone之父io」、前蘋果設計總監Jony Ive創立的AI硬體初創公司。
這表明Anthropic、Google和OpenAI之間的"最佳前沿模型"競爭正在升溫,同時對這些公司能否將當前AI技術推向新高度的疑問依然存在。
對投資者而言,Claude 4系列的推出標誌著AI能力的一個新時代。特別是在程式設計領域,Anthropic聲稱已經取得了領先地位,這可能對軟件開發行業產生深遠影響。 GitHub已表示Claude Sonnet 4將成為GitHub Copilot中新編碼代理的基礎模型,這進一步驗證了其能力。
隨著AI競爭的加劇,投資人需要重新評估產業格局,尤其是Anthropic相對於OpenAI和Google等競爭對手的地位。 Claude 4系列在編碼、推理和代理任務方面的強大表現,可能為Anthropic贏得更多市場份額和企業客戶提供了機會。 (硬AI)