11月25日凌晨,Anthropic發佈了其迄今最強大的AI模型Claude Opus 4.5。該公司宣稱,新模型在軟體工程任務上實現了“最先進性能”,進一步加劇了其與OpenAI、Google等對手之間的競爭。
Claude Opus 4.5在Anthropic軟體工程測試中表現出色,得分超越Gemini 3 Pro、GPT-5.1等一眾對手。
公司資料顯示,該模型在SWE-bench Verified(一項評估現實世界軟體工程能力的基準測試)中達到了80.9%的精準率,表現超越了OpenAI的GPT-5.1-Codex-Max(77.9%)、Anthropic自家的Sonnet 4.5(77.2%)以及Google的Gemini 3 Pro(76.2%)。
同時,Anthropic大幅下調了這款模型的定價:輸入token降至每百萬5美元,輸出token為每百萬25美元,較前代產品Claude Opus 4.1(輸入15美元/百萬,輸出75美元/百萬)下降約三分之二。
降價使得尖端AI技術對廣大開發者和企業更加觸手可及,同時也給競爭對手帶來了性能與價格的雙重壓力。
測試人員普遍反饋,新模型在各種任務中展現出更強的判斷力與直覺。他們將這種進步描述為:模型開始領悟現實情境中的“關鍵所在”。
“這個模型好像突然‘開竅’了,”開發者關係負責人阿爾伯特表示,“它在處理許多現實問題時表現出的直覺和判斷力,讓人感覺相比前代模型實現了一次質的跨越。”
阿爾伯特以自身工作為例進一步說明:過去他僅利用AI收集資訊,而對它們的整合與優先順序排序能力持保留態度。如今,借助Opus 4.5,他已開始委託更完整的任務,通過連接Slack和內部文件,模型能生成與他預期高度契合的連貫摘要。
賓夕法尼亞大學沃頓商學院教授、生成式AI實驗室聯合主任伊桑·莫利克測試後評論道,新模型的能力確實處於技術前沿。其最顯著的提升在於實際應用,例如跨軟體操作(如用Excel製作PPT)。
Claude Opus 4.5在Anthropic內部一項高難度工程評估中創下了新紀錄。這項評估本是公司為性能工程師崗位設計的限時程式設計測試,要求求職者在兩小時內完成,旨在考察其技術能力與問題判斷力。
Anthropic透露,通過採用“平行測試時計算”技術,即彙總模型的多次解題嘗試並篩選最優結果,Opus 4.5的最終得分超越了所有曾參與該測試的人類工程師。
在不限時間的條件下,若在其專用編碼環境Claude Code中運行,Claude Opus 4.5的解題表現更是與史上最高分的人類工程師持平。
不過該公司也坦言,這類測試無法衡量其他關鍵專業技能,例如團隊協作、有效溝通,或是經年累月形成的專業直覺。
除原始性能突破外,Anthropic更將效率提升視為Claude Opus 4.5的核心競爭力。新模型在達成相同甚至更優結果時,所需處理的計算token數量顯著減少。
具體資料顯示,在“中等”投入等級下,Opus 4.5可在SWE-bench Verified測試中達到與Sonnet 4.5相同的最高分,而輸出token消耗量卻大幅降低了76%。即便在“高”投入等級追求極限性能時,其表現比Sonnet 4.5再提升4.3個百分點,token使用量仍減少了近一半(48%)。
為賦予開發者更精細的控制權,Anthropic引入了全新的“投入”參數。使用者可通過此參數,動態調節模型處理每個任務時所投入的計算工作量,從而在性能、響應速度和成本之間找到最佳平衡點。
GitHub首席產品官馬里奧·羅德里格斯也證實了類似發現:“早期測試表明,Opus 4.5在token消耗減半的同時,性能仍超越了我們的內部編碼基準,尤其在程式碼遷移與重構等複雜任務上表現尤為出色。”
阿爾伯特對此現象作出技術解讀:Claude Opus 4.5並非直接更新其底層參數,而是在持續最佳化解決問題的工具與方法。“我們看到它在迭代精進任務技能,通過自主最佳化執行方式來提升最終效果,”他解釋道。
這種自我進化能力已突破程式設計領域。阿爾伯特透露,在專業文件生成、電子表格處理和簡報製作等場景中,模型表現均有顯著提升。
伴隨新模型的發佈,Anthropic同步推出了一系列面向企業場景的重要更新。
專為Excel設計的Claude功能現已向Max、Team及Enterprise使用者全面開放,新增了對資料透視表、可視化圖表及檔案上傳的完整支援。同時,Chrome瀏覽器擴充套件也已向全體Max使用者開放使用。
本次更新最具革命性的當屬“無限聊天”功能——該技術通過智能總結長對話中的早期內容,有效突破了傳統上下文窗口的限制。“在Claude AI產品中,憑藉我們創新的內容壓縮與記憶體管理技術,使用者實際上獲得了近乎無限的對話效果,”阿爾伯特解釋道。
面向開發者群體,Anthropic推出了更具工程價值的“程序化工具呼叫”能力,使得Claude能夠直接編寫並執行可呼叫外部函數的程式碼。同時,Claude Code不僅升級了“計畫模式”,更以研究預覽版形式推出了桌面客戶端,首次支援開發者平行運行多個AI智能體會話。
模型迭代速度正成為競爭焦點。
Opus 4.5距前代Haiku 4.5和Sonnet 4.5發佈僅相隔數周,這折射出整個行業的加速態勢。2025年間,OpenAI持續推出多個GPT-5變體,並於11月發佈可自主運行24小時的Codex Max模型;Google也經過數月打磨,在11月中旬正式推出Gemini 3。
值得注意的是,Anthropic正利用AI技術反哺自身研發。阿爾伯特透露:“無論是產品建構還是模型研究,Claude本身都在為我們提供助力,顯著加速了開發處理程序。”
面對價格戰可能帶來的利潤壓力,阿爾伯特持樂觀態度:“降價將推動更多初創公司深度整合並主推我們的技術,從而擴大市場基礎。”然而,儘管AI市場預計十年內將突破兆美元規模,主要實驗室在巨額投入計算設施與人才的同時,盈利之路依然漫長,尚未有任何供應商確立絕對主導地位。
對企業和開發者而言,這場競賽正轉化為持續提升的性能與不斷下降的成本。但隨著AI在專業技術任務上逼近甚至超越人類水平,其對各行業工作模式的顛覆已從理論探討變為現實挑戰。
談及AI在工程測試中超越人類的表現,阿爾伯特坦言:“這無疑是一個值得高度重視的訊號。”(騰訊科技)