大幅降價、無限聊天、編碼能力超越人類專家，Claude Opus 4.5重奪最強模型王冠

2025/11/25

•

11月25日凌晨，Anthropic發佈了其迄今最強大的AI模型Claude Opus 4.5。該公司宣稱，新模型在軟體工程任務上實現了“最先進性能”，進一步加劇了其與OpenAI、Google等對手之間的競爭。

Claude Opus 4.5在Anthropic軟體工程測試中表現出色，得分超越Gemini 3 Pro、GPT-5.1等一眾對手。

公司資料顯示，該模型在SWE-bench Verified（一項評估現實世界軟體工程能力的基準測試）中達到了80.9%的精準率，表現超越了OpenAI的GPT-5.1-Codex-Max（77.9%）、Anthropic自家的Sonnet 4.5（77.2%）以及Google的Gemini 3 Pro（76.2%）。

同時，Anthropic大幅下調了這款模型的定價：輸入token降至每百萬5美元，輸出token為每百萬25美元，較前代產品Claude Opus 4.1（輸入15美元/百萬，輸出75美元/百萬）下降約三分之二。

降價使得尖端AI技術對廣大開發者和企業更加觸手可及，同時也給競爭對手帶來了性能與價格的雙重壓力。

現實任務中展現更優判斷力

測試人員普遍反饋，新模型在各種任務中展現出更強的判斷力與直覺。他們將這種進步描述為：模型開始領悟現實情境中的“關鍵所在”。

“這個模型好像突然‘開竅’了，”開發者關係負責人阿爾伯特表示，“它在處理許多現實問題時表現出的直覺和判斷力，讓人感覺相比前代模型實現了一次質的跨越。”

阿爾伯特以自身工作為例進一步說明：過去他僅利用AI收集資訊，而對它們的整合與優先順序排序能力持保留態度。如今，借助Opus 4.5，他已開始委託更完整的任務，通過連接Slack和內部文件，模型能生成與他預期高度契合的連貫摘要。

賓夕法尼亞大學沃頓商學院教授、生成式AI實驗室聯合主任伊桑·莫利克測試後評論道，新模型的能力確實處於技術前沿。其最顯著的提升在於實際應用，例如跨軟體操作（如用Excel製作PPT）。

核心工程測試中超越所有人類工程師

Claude Opus 4.5在Anthropic內部一項高難度工程評估中創下了新紀錄。這項評估本是公司為性能工程師崗位設計的限時程式設計測試，要求求職者在兩小時內完成，旨在考察其技術能力與問題判斷力。

Anthropic透露，通過採用“平行測試時計算”技術，即彙總模型的多次解題嘗試並篩選最優結果，Opus 4.5的最終得分超越了所有曾參與該測試的人類工程師。

在不限時間的條件下，若在其專用編碼環境Claude Code中運行，Claude Opus 4.5的解題表現更是與史上最高分的人類工程師持平。

不過該公司也坦言，這類測試無法衡量其他關鍵專業技能，例如團隊協作、有效溝通，或是經年累月形成的專業直覺。

核心基準測試token消耗大幅降低76%

除原始性能突破外，Anthropic更將效率提升視為Claude Opus 4.5的核心競爭力。新模型在達成相同甚至更優結果時，所需處理的計算token數量顯著減少。

具體資料顯示，在“中等”投入等級下，Opus 4.5可在SWE-bench Verified測試中達到與Sonnet 4.5相同的最高分，而輸出token消耗量卻大幅降低了76%。即便在“高”投入等級追求極限性能時，其表現比Sonnet 4.5再提升4.3個百分點，token使用量仍減少了近一半（48%）。

為賦予開發者更精細的控制權，Anthropic引入了全新的“投入”參數。使用者可通過此參數，動態調節模型處理每個任務時所投入的計算工作量，從而在性能、響應速度和成本之間找到最佳平衡點。

GitHub首席產品官馬里奧·羅德里格斯也證實了類似發現：“早期測試表明，Opus 4.5在token消耗減半的同時，性能仍超越了我們的內部編碼基準，尤其在程式碼遷移與重構等複雜任務上表現尤為出色。”

阿爾伯特對此現象作出技術解讀：Claude Opus 4.5並非直接更新其底層參數，而是在持續最佳化解決問題的工具與方法。“我們看到它在迭代精進任務技能，通過自主最佳化執行方式來提升最終效果，”他解釋道。

這種自我進化能力已突破程式設計領域。阿爾伯特透露，在專業文件生成、電子表格處理和簡報製作等場景中，模型表現均有顯著提升。

深度整合Office突破上下文長度限制

伴隨新模型的發佈，Anthropic同步推出了一系列面向企業場景的重要更新。

專為Excel設計的Claude功能現已向Max、Team及Enterprise使用者全面開放，新增了對資料透視表、可視化圖表及檔案上傳的完整支援。同時，Chrome瀏覽器擴充套件也已向全體Max使用者開放使用。

本次更新最具革命性的當屬“無限聊天”功能——該技術通過智能總結長對話中的早期內容，有效突破了傳統上下文窗口的限制。“在Claude AI產品中，憑藉我們創新的內容壓縮與記憶體管理技術，使用者實際上獲得了近乎無限的對話效果，”阿爾伯特解釋道。

面向開發者群體，Anthropic推出了更具工程價值的“程序化工具呼叫”能力，使得Claude能夠直接編寫並執行可呼叫外部函數的程式碼。同時，Claude Code不僅升級了“計畫模式”，更以研究預覽版形式推出了桌面客戶端，首次支援開發者平行運行多個AI智能體會話。

AI步入“自我進化”與盈利挑戰並存新階段

模型迭代速度正成為競爭焦點。

Opus 4.5距前代Haiku 4.5和Sonnet 4.5發佈僅相隔數周，這折射出整個行業的加速態勢。2025年間，OpenAI持續推出多個GPT-5變體，並於11月發佈可自主運行24小時的Codex Max模型；Google也經過數月打磨，在11月中旬正式推出Gemini 3。

值得注意的是，Anthropic正利用AI技術反哺自身研發。阿爾伯特透露：“無論是產品建構還是模型研究，Claude本身都在為我們提供助力，顯著加速了開發處理程序。”

面對價格戰可能帶來的利潤壓力，阿爾伯特持樂觀態度：“降價將推動更多初創公司深度整合並主推我們的技術，從而擴大市場基礎。”然而，儘管AI市場預計十年內將突破兆美元規模，主要實驗室在巨額投入計算設施與人才的同時，盈利之路依然漫長，尚未有任何供應商確立絕對主導地位。

對企業和開發者而言，這場競賽正轉化為持續提升的性能與不斷下降的成本。但隨著AI在專業技術任務上逼近甚至超越人類水平，其對各行業工作模式的顛覆已從理論探討變為現實挑戰。

談及AI在工程測試中超越人類的表現，阿爾伯特坦言：“這無疑是一個值得高度重視的訊號。”（騰訊科技）

科技