Claude Opus 4.6殺死程式設計比賽！挖出500個day0漏洞，生成k線成交量分佈，還有PPT直出

2026/02/06

•

凌晨突襲，Opus 4.6多場景性能領先GPT-5.2。

智東西2月6日報導，今天凌晨，Anthropic正式發佈旗艦模型Claude Opus 4.6，是Anthropic首款開啟100萬token上下文窗口測試功能的旗艦級模型。

Opus 4.6具備更縝密的規劃能力，能維持更長時間的智能體任務執行，可以在龐大程式碼庫中穩定運行，並能夠進行自我糾錯。

在基準測試中，Opus 4.6在智能體程式設計評估Terminal-Bench 2.0中獲得最高分，於綜合性多學科推理測試Humanity's Last Exam中也坐穩了第一名的寶座。

針對金融、法律等經濟價值領域的GDPval-AA評估中，Opus 4.6也是第一，並較第二名的GPT-5.2拉開約144個Elo分差，較前代版本Claude Opus 4.5提升了190分。

就在Opus 4.6發佈後幾分鐘，OpenAI把GPT-5.3-Codex也搬了出來“正面硬剛”。截至台北時間2月6日11點，X平台上有關“Claude VS Codex”的話題下已有4.1萬條討論。

Varick Agent的CEO“vas”發帖稱：“Claude 4.6 Opus僅用一次呼叫就重構了我的整個程式碼庫。25次工具呼叫，新增3000多行程式碼，建立了12個全新檔案。它模組化了所有內容，拆解了單體架構，理順了混亂的邏輯。結果沒一個能運行，但重構後的程式碼，實在是美得驚人。”

有網友展示出他用Opus 4.6一次性做出的k線成交量分佈表。評論區紛紛感嘆：這要是真的，那一切都結束了。

在話題討論中，有不少網友都自發測評了Opus 4.6與GPT-5.3 Codex這兩款模型，還曬出了測試Agent在複雜現實世界任務中的表現的Terminal-Bench，結果顯示GPT-5.3 Codex比Opus 4.6領先了11.9%。

在網友的測評中，在程式設計方面GPT-5.3 Codex獲得的好評似乎更多。有網友發出對比：“Opus 4.6有100萬上下文+企業/知識工作+發現500個零日漏洞+Claude程式碼中的Agent叢集-基準測試成績不如Codex 5.3；而gpt-5.3-codex有程式碼基準測試勝出+速度更快+任務中轉向，但上下文窗口不到Opus的一半。”

還有網友放出了更直觀的性能對比圖：

價格上，在200K上下文以內（包括200K），Opus 4.6輸入每百萬token的價格為5美元（約合人民幣34.69元），輸出每百萬token的價格為25美元（約合人民幣173.45元）；超過200K上下文，Opus 4.6輸入每百萬token的價格為10美元（約合人民幣69.38元），輸出每百萬token的價格為37.5美元（約合人民幣260.18元）。

此外，Anthropic還將向Pro與Max使用者限時贈送價值50美元（約合人民幣346.9元）的額外使用額度，不適用於Team版、企業版及API/控制台使用者。

使用額外額度的使用者需同時滿足以下兩個條件：

1、已於2026年2月4日（太平洋時間）晚11:59前開通Pro或Max訂閱；

2、在2026年2月16日（太平洋時間）晚11:59前啟用額外用量功能。

Claude Opus 4.6即日起在claude.ai官網、API介面及所有主流雲平台同步上線。開發者可通過Claude API呼叫claude-opus-4-6模型。

01. “大海撈針”測試得分76% 緩解“上下文衰減”問題

在多語言程式設計測試SWE-bench Multilingual中，Opus 4.6的成績較Opus 4.5提升1.6分；在網路安全漏洞復現測試CyberGym中，Opus 4.6獲得66.6分，較Opus 4.5提升15.6分，是Sonnet 4.5分數的兩倍多。

Opus 4.6在長文字連貫性測試Vending-Bench 2中以 8017.59 的分數大幅領先，在計算生物學BioPipelineBench測試中也以53.1分的成績位居第一。

Opus 4.6在從海量文件中檢索相關資訊方面能力較上一代有所提升。這一優勢延伸至長上下文任務，它能在處理數十萬token時更穩定地保持和追蹤資訊，減少資訊漂移，並能捕捉到可能遺漏的深層細節。

Anthropic團隊在部落格中稱，使用者常抱怨AI模型存在“上下文衰減”問題——即對話超過一定token數量後性能會下降。

對此，研究團隊對Opus 4.6進行了MRCR v2的“8針-100萬”變體測試，這是類似於一種在浩瀚文字中檢索隱藏資訊的“大海撈針”式基準測試。在這個測試中Opus 4.6得分達76%，而Sonnet 4.5僅得18.5%。

Opus 4.6的綜合基準測試如下圖所示。總而言之，Opus 4.6在長上下文中尋找資訊更精準，吸收資訊後的推理能力更強。

02. 行為失范率極低新增六類網路安全探測工具

智能水平的飛躍並未以犧牲安全性為代價。在Anthropic的自動化行為審計中，Opus 4.6的行為失范率極低，行為失范包括欺騙、奉承、助長使用者妄想以及配合濫用等情形。

其安全對齊程度與前代旗艦模型，即迄今為止對齊度最高的Claude Opus 4.5保持同等水準。

值得注意的是，Opus 4.6在所有近期Claude模型中展現出最低的過度拒絕率，即模型未能回應良性查詢的情況。

在部落格中，Anthropic團隊透露，針對Opus 4.6，他們開展了迄今最全面的安全評估體系，首次應用多項全新測試方法並對既有評估方案進行升級。Anthropic團隊新增了使用者福祉評估、更複雜的危險請求拒答能力測試，並更新了模型隱蔽執行有害行為的評估標準。

同時，其運用可解釋性科學的新方法進行實驗，開始探究模型特定行為背後的成因，以期發現標準測試可能遺漏的問題。

針對Opus 4.6在特定領域可能被危險利用的突出能力，研究團隊同步部署了新的防護機制。尤其鑑於該模型顯著增強的網路安全能力，他們開發了6種新型網路安全探測工具以幫助追蹤不同形式的潛在濫用行為。

同時，Anthropic也在加速推進Opus 4.6在網路防禦領域的應用，通過其協助發現並修復開放原始碼軟體漏洞。

他們認為網路防禦者利用Claude這類AI模型來平衡攻防態勢至關重要。網路安全領域發展迅速，Anthropic將根據對潛在威脅的認知持續調整和更新防護措施，近期其可能啟動即時干預機制以阻斷濫用行為。

03. API新增自適應思考功能 Claude Code現可多智能體平行

通過API介面，開發者們還可以獲取到更精細的模型算力控制方案，並為長期運行的智能體任務帶來更高靈活性。具體新增以下功能：

1、自適應思考：此前開發者僅能在啟用或停用深度思考模式間二選一。現在通過自適應思考功能，Claude可自主判斷何時需要深度推理。在默認算力等級（高）下，模型會在必要時啟動深度思考，開發者也可通過調整算力等級來改變其觸發頻率。

2、算力調控：現提供四個可調節的算力等級：低、中、高（默認）、極致。

3、上下文壓縮（測試版）：長程對話與智能體任務常觸及上下文窗口限制。當對話接近可配置閾值時，上下文壓縮功能將自動總結並替換早期對話內容，使Claude能夠執行更長任務而不受限制。

4、100萬token上下文（測試版）：當提示內容超過20萬token時，將適用高級定價。

5、128k輸出token：Opus 4.6支援最高128k token的輸出長度，使Claude能完整處理需要大規模輸出的任務，無需拆分為多次請求。

6、美國境內推理：對於需要在美國境內運行的工作負載，可選擇美國專屬推理服務，定價為標準token費用的1.1倍。

在Claude與Claude Code平台，Anthropic新增了多項功能：

Claude Code中新增智能體團隊的研究預覽功能。現在使用者可以啟動多個平行工作的智能體，它們將自主協同配合，特別適用於程式碼庫審查這類可拆分為獨立、重讀取的子任務。

在與常用辦公工具的協作體驗方面，Claude Excel整合版現在能夠處理長時程與高難度任務，支援先規劃後執行、自主解析非結構化資料並推斷正確格式，還能單次完成多步驟修改。

Excel整合版還能搭配PowerPoint整合版使用，使用者可先在Excel中處理並結構化資料，再通過PowerPoint實現可視化呈現。

PowerPoint整合功能現已面向Max、Team及企業版使用者開放研究預覽。

04. 放手兩千次會話智能體團隊“煉”出十萬行C編譯器

Anthropic官方還給出了一個開發者使用平行Claude智能體團隊建構C語言編譯器的案例。在這個案例中，開發者指派Opus 4.6率領智能體團隊建構一個C語言編譯器，隨後便基本放手任其運行，僅用兩周，就完成了一個小團隊一個月的工作。

在為期兩周、近2000次Claude Code會話中，Opus 4.6消耗了20億個輸入token並生成1.4億個輸出token，總成本略低於2萬美元（約合人民幣13.88萬元），這個成本僅相當於開發者個人獨立完成所需投入的零頭。

最終Opus 4.6做出了一個有著10萬行程式碼規模的編譯器，並且是淨室實現，即開發全程Claude無網路存取權，僅依賴Rust標準庫。

這個編譯器能在x86、ARM和RISC-V架構上建構可啟動的Linux 6.9核心，還能編譯QEMU、FFmpeg、SQLite、PostgreSQL、Redis等大型項目。

該編譯器在包括GCC torture測試套件在內的大多數編譯器測試中達到99%通過率，甚至通過了編譯器、作業系統等底層技術的 “終極測試”：成功編譯並運行第一人稱射擊遊戲《Doom》。

經過多輪實踐，開發者總結出了協調多個Claude高效協作的四大核心方法：

1、改進測試框架：

在項目後期，Claude每次實現新功能時都會頻繁破壞現有功能。為此開發者建構了持續整合流水線，實施更嚴格的檢查機制，讓Claude能更好地測試自身工作，確保新提交不會破壞現有程式碼。

2、站在Claude的視角設計適配環境：

每個智能體都啟動於無上下文的新容器中，會花費大量時間自我定位，尤其在大型項目中。甚至在運行測試前，為幫助Claude自助，開發者需要在說明中要求維護詳細的README文件和進度檔案，並需頻繁更新當前狀態。

3、簡化平行機制：

當存在多個獨立失敗的測試時，平行化輕而易舉，但當智能體開始編譯Linux核心時卻陷入困境。與包含數百個獨立測試的套件不同，編譯Linux核心是單項巨型任務，所有智能體都會遇到相同的bug，修復後卻互相覆蓋修改，運行16個智能體也不行，因為它們都卡在解決同一問題上。

為此，開發者編寫了新測試框架，將GCC作為線上驗證編譯器進行比對。這讓每個智能體都能平行工作，在不同檔案中修復不同bug，直至Claude的編譯器最終能編譯所有檔案。

4、多元智能體角色分工：

LLM編寫的程式碼常重複實現現有功能，因此開發者指派了一個智能體專門合併發現的重複程式碼。另一個負責最佳化編譯器本身的性能，第三個則專攻輸出高效的編譯程式碼，還讓一個智能體以Rust開發者視角批判項目設計並進行結構性改進，另設智能體專注文件工作。

開發者稱，該成果已經逼近Opus的能力邊界，但仍有需要提升的方面：

1、16位x86編譯器缺失：缺乏從真實模式啟動Linux必需的16位x86編譯器，該環節需呼叫GCC（x86_32和x86_64編譯器為自主實現）；

2、彙編器與連結器不完善：這兩部分是Claude最後開始自動化的模組，目前仍存在較多缺陷。演示視訊中使用的是GCC彙編器與連結器；

3、相容性未達全替代標準：雖能成功建構眾多項目，但尚不能完全替代真實編譯器；

4、程式碼生成效率偏低：即使啟用所有最佳化選項，其輸出程式碼效率仍低於停用最佳化的GCC；

5、Rust程式碼質量有限：程式碼質量尚可，但遠未達到專業Rust程式設計師的水準。

05. 結語：Anthropic在安全性上下了狠功夫

Opus 4.6在長上下文理解、複雜推理與智能體協作等方面的性能提升，為企業級高密度、長周期任務提供了新的解決方案。

同時，在Anthropic的部落格中，他們用了很大篇幅來寫新模型的安全性。Anthropic通過增強安全評估體系與部署主動防護機制，展現出對AI風險治理的前置性投入。 (智東西)