Claude Opus 4.7連夜突襲：或將搶走全球7億打工人飯碗！

2026/04/18

•

Anthropic 正式發佈 Claude Opus 4.7，核心升級落在複雜任務執行、高畫質視覺理解和更穩的長鏈路工作流上。對普通使用者來說，最直接的變化是更聽指令、更會看圖、產出更接近成品，同時也要注意Token也會燒得更快了。

4月16日，Anthropic正式發佈Claude Opus4.7，並將它定義為當前可廣泛使用的最強Claude模型。

性能不如此前曝光的新一代Claude Mythos Preview那麼炸裂，但比普通使用者能真正用到的Opus 4.6強了太多，除了Agentic搜尋能力略有下降外，實現了全面碾壓！

官方給出的本次升級的關鍵詞：複雜任務、更強視覺、更穩的長鏈路執行，以及更少需要人工參與。

只要還在用大模型寫文件、讀截圖、做演示、整理材料，Opus 4.7帶來的體驗變化，很難繞開。

本次更新最大的亮點，是Opus 4.7的視覺能力大幅提升，在測試中從Opus 4.6約50%的分數，直接飆升到接近滿分！

而這，補上了AI目前最大的視覺短板，或許已經不知不覺地邁過了替代人類工作的那道最重要的檻！

GPT-5.4 Thinking是這樣評價它的對手Claude Opus 4.7發佈給打工人帶來的影響的：

本次升級的關鍵在於複雜任務的完成度

Anthropic 把 Opus 4.7的核心升級點放在了高級軟體工程和長時間任務執行上。

使用者已經可以把過去需要密切監督的高難度編碼工作交給它處理，它會更嚴格地執行指令，也會在回報結果前主動想辦法驗證輸出。

API發佈說明裡，Anthropic也把它稱為當前最強的通用可用模型，面向複雜推理和代理式編碼場景。

大模型競爭的焦點，正在從答得像不像，轉到做得完不完。只會寫一段漂亮答案，已經不夠了。

能不能把一份長文件改乾淨，能不能把一套資料串起來做成可交付物，能不能持續幾十分鐘甚至更久不跑偏，這才會決定它在日常工作裡能不能真的替人扛起一片天。

這能夠從 Opus 4.7的官方發佈重點裡直接看出來。

純程式設計只是開胃菜

SWE-bench Multilingual測的是模型修復真實GitHub issue的能力，覆蓋多種程式語言。

Opus 4.7拿80.5%，Opus4.6拿77.8%，漲2.7個百分點。

單看這個數，似乎只是一次常規迭代。但同一張圖右邊那組資料更有意思，後面回頭講。

1M token 裡的長任務

GraphWalks 是OpenAI做的長上下文基準，把一張有向圖用邊列表塞滿1M token上下文，讓模型做圖遍歷。

兩種考法：一種Parents，給一個節點讓模型找出所有直接指向它的父節點；另一種是BFS廣度優先搜尋，從起點出發一路找到特定深度可達的節點，對 Agent 跑多步驟長任務是硬指標。

在Parents 1M 這趴，Opus 4.7從71.1%提到75.1%，4個百分點的常規改進。

而到了BFS 1M，Opus4.7則從41.2%一口氣幹到58.6%，拉開17.4個百分點。

換個場景再看。

Vending-Bench 2讓模型模擬經營一台自動售貨機，測長時間工作流裡的決策連貫性。

Opus 4.6最終餘額8,018美元，Opus 4.7做到10,937美元。

同一台售貨機，同一個時間窗口，Opus 4.7多掙了36%。

Agent 的眼睛換了代

ScreenSpot-Pro測的是Agent的螢幕定位能力。

給模型一張VSCode、Photoshop、AutoCAD這類專業軟體的高解析度桌面截圖加一條自然語言指令，讓它定位到具體的UI元素。在高解析度螢幕裡，目標 UI 元素往往只佔整張圖的0.07%，極考驗精細視覺。

同樣低解析度不帶工具，Opus 4.6拿57.7%，Opus 4.7拿69.0%，拉開11.3 個百分點。

切到高解析度，Opus 4.7不帶工具就達到了79.5%。疊加工具呼叫，跑分直接來到87.6%。

視覺能力在一些測試（如XBOW的基準測試）中，Opus 4.7相比Opus 4.6得分直接翻倍，從54.5%躍升到接近滿分98.5！

這造就了Opus 4.7相比4.6在電腦使用（Computer Use）能力的天壤之別！

回到前面留的那張程式設計圖。

SWE-bench Multimodal這項，Anthropic 是用內部實現的測試harness跑的。

測的是前端JS軟體 bug，任務裡帶著UI截圖、效果圖一類的視覺素材，模型要結合圖片和程式碼一起幹活。

從Opus 4.6的27.1%做到Opus 4.7的34.5%，一口氣提了7.4個百分點。

Opus4.7的程式設計升級，重點是讓模型看懂螢幕。眼睛換代了，腦子才能幹更複雜的活。

GPT-5.4 和 Gemini3.1 Pro都沒扛住

前面全是自比，現在來看看跟老對手們怎麼打。

GDPval-AA是Artificial Analysis基於OpenAI GDPval資料集做的評估。

它覆蓋了44種知識工作職業、9大GDP核心行業，任務來自資深職業人士（平均14年經驗）的真實交付物。AA版本讓模型在agent loop裡幹活，用盲測兩兩對比打 Elo 分。

Opus 4.7拿1753，Opus4.6 拿1619，GPT-5.4拿1674，Gemini 3.1 Pro 拿 1314。

Opus 4.7高出 GPT-5.4 79 分，高出 Gemini 3.1 Pro 439 分。

OfficeQA Pro 是 Databricks 做的企業級推理基準，語料是近 100 年的美國財政部公報，8.9 萬頁 PDF、2600 萬個數字。模型要精準找到文件、解析表格和正文、跨文件做分析推理。

在這裡，Opus 4.7 的跑分高達 80.6%，而 Opus 4.6 隻有 57.1%，GPT-5.4 和 Gemini 3.1 Pro 更低，分別是 51.1%和 42.9%。

換句話說，Opus 4.7 是 GPT-5.4 的 1.6 倍，是 Gemini 3.1 Pro 的 1.9 倍。

躍升最炸的是生物學

翻到最後一張，Structural Biology，生物分子推理。

Opus 4.6 隻有 30.9%。而Opus 4.7 直接衝到了 74.0%。

一次版本迭代，從三成到七成半，2.4 倍。

堪稱是所有 benchmark 裡躍升最誇張的一項。

普通使用者最先感受到的是三大變化

第一個變化，指令遵循能力更強了。

Anthropic 寫到，Opus 4.7的指令遵循能力大幅提升，過去很多模型會鬆散理解、漏掉細節，Opus 4.7則更傾向於逐條照著執行。

代價是，舊提示詞有時會出現意料之外的結果，使用者需要重新調整寫法。

對普通使用者來說，這會直接減少提示詞玄學，寫需求、定格式、列限制條件，會更有用。

第二種變化，Claude看圖會更細。

Opus 4.7 支援長邊最高 2576像素的圖像輸入，大約375萬像素，超過此前 Claude 模型的三倍。

官方專門點了幾個場景，密集截圖、複雜圖表、精細結構圖、需要像素級參考的任務。

放到現實使用裡，這對應的就是看懂一頁密密麻麻的資料截圖，識別產品原型細節，從複雜流程圖裡抽資訊，讀一張高解析度海報或報表時少丟細節。

第三種變化，輸出結果會更容易接近可交付的成品。

Anthropic提到，Opus 4.7在介面、幻燈片、文件這些專業任務上更有審美，也更有創造性。

它在基於檔案系統的記憶上做得更好，能跨多輪、多會話記住關鍵備註，減少重複交代背景。

對經常拿模型潤色材料、整理項目、反覆改同一份內容的人來說，這種提升會比跑分的提升來得更直觀。

這次發佈安全也被擺在了同樣重要的位置

Anthropic 在一周前剛剛公佈 Project Glasswing，專門談到了前沿模型在網路安全方向的風險與收益。

Opus 4.7 成了這套新思路下第一個公開部署的模型，官方強調，它的網路安全能力弱於 Mythos Preview，並且上線時帶有自動檢測和攔截高風險網路安全請求的護欄。

合規安全研究人員則可以申請加入新的Cyber Verification Program。

從安全評估看，Opus 4.7與Opus 4.6的整體安全畫像相近，在誠實性和抵抗惡意提示詞注入上更強，在某些細項上也存在小幅走弱。

Anthropic的結論是，它整體上「較為可靠且值得信任」，距離理想狀態還有空間。

這說明，Anthropic沒有把發佈包裝成一次毫無代價的全面躍升。

誰會立刻受益誰又要多留一個心眼

最先受益的人群很清楚，開發者、分析師、法務、研究人員，以及所有高頻處理文件、表格、演示材料的人。

官方早期測試反饋裡，很多合作方都提到同樣幾件事，複雜工作流更穩了，錯誤恢復更強了，文件推理、程式碼審查、資料分析、長上下文任務都有明顯提升。

需要多留一個心眼的地方也已經寫在官方說明裡。

更高解析度圖像會燒掉更多Token，使用者用不到這些細節時，最好先壓縮圖片。

Opus 4.7還換了分詞器（Tokenizer），同樣的輸入可能會多出大約1.0到 1.35倍Token，高Effort 下輸出Token也會增加。

對直接在Claude應用裡聊天的普通使用者，這更多會體現在額度和響應體驗上。

對使用龍蝦和Hermes Agent這類API的使用者和團隊客戶，這就是實打實的成本變數。

好在價格方面，Opus 4.7和4.6與4.5保持了一致，沒有漲價，但這個價格本身其實就已經足夠昂貴了...

Anthropic想傳遞的訊號已經很清楚了

從Opus 4.7這次發佈能看出，Anthropic眼下押注的方向已經很明確，長任務執行、視覺理解、工具協同、少監督交付，這幾項能力正在被打包成下一階段的大模型主戰場。

官方同步上線的 Xhigh Effort（思考程度介於 high 和 max 中間）、Task Nudgets 公測，以及 Claude Code 裡的 /ultrareview，也都圍著這個方向在轉。

除了官網公告外，Claude也公佈了Opus 4.7的系統卡，長達232頁，裡面公佈了更多值得關注的細節，限於篇幅再次我們不作展開。

對普通使用者來說，對Claude Opus 4.7更直接的感受會是，交代清楚以後，它更容易把事情做對，看圖更細，寫出來的東西更能直接拿去用。

大模型從會聊天走向會幹活，這一步又往前挪了一大截。

真正能幹好活的最強生產力模型，從Opus 4.6，變成了Opus 4.7。 (前瞻經濟學人)

科技