在Agent大考中慘敗的Claude祭出了「永久大腦」，意味著什麼？

2026/05/27

•

“為什麼說Anthropic想成為Agent時代的「大管家」？”

AI Agent如何才能擺脫實驗室的真空環境，真正替人類工作？

就在昨天，UniPat AI團隊發佈的SaaS-Bench測試中，106個真實辦公任務，Claude只完整通過了4個，完全通過率僅3.8%。

在實驗室中測試良好的Agent系統，為何在放到真實場景下就“失智”了？

一個很重要的原因在於，目前大模型的“記憶”一般是把使用者長期有效的資訊做成結構化的條目/摘要，這種模式對資訊抽取和結構化質量要求很高，因此在面對複雜的、多步驟的、需要長時間運行任務時，容易出現混亂。

就在測試發佈的同一天，著名AI追蹤平台TestingCatalog爆出猛料，Anthropic正為Claude測試一套更強大的記憶系統，疑似是之前提出的“知識庫”的最新版本。

Anthropic此舉的意義在那？歸根結底還是戰略問題。

5月25日，UniPat AI發佈了SaaS-Bench。這不是又一個模擬環境測試，23個真實SaaS系統跑在Docker裡，從OpenProject到Mattermost，每個系統都填入了真實業務資料。106個任務中，93.4%需要跨越至少兩個應用。

一個典型的任務是：在OpenProject中建立一個研發項目，分配給三個團隊成員，設定里程碑日期，然後在Mattermost中發起項目啟動通知，三個應用、跨系統呼叫、15個操作步驟。

最長的任務操作步數超過300步。從建立客戶檔案開始，到生成季度財務報告結束。

結果慘到什麼程度？

Claude Opus 4.7，整個行業公認的最強模型，106個任務只完整完成了4個。完全通過率3.8%。Kimi K2.5和Gemini 3.1 Pro是0%，一個都沒走到底。

但故事還有另一面。如果放寬標準看“檢查點分數”，只要求部分完成、按權重計算進度，Claude的得分是43.9%。這意味著它幾乎在每個任務中都走到了一半左右，然後在某個環節突然卡住。

評測團隊總結了四種失敗模式：

第一種，任務越長越做不對。模型前20步的表現和後20步判若兩人。隨著上下文越長，注意力渙散越嚴重，這是一個不可逆的衰減曲線。

第二種，一步錯、步步錯。上游一個微小錯誤，比如在建立客戶檔案時把“企業客戶”選成了“個人客戶”，會導致下游所有相關任務全部失敗。Agent沒有從錯誤中恢復的能力，也沒有“退一步重來”的設計。

第三種，做完不檢查。Agent在輸出層面認為任務已完成，但實際上系統狀態並未改變。它缺少嚴謹的反思閉環，沒有人教它“做完之後回頭看一眼”。

第四種，成績忽高忽低。同一個模型、同一個任務、相同的初始狀態下，兩次運行結果可能一個接近滿分、一個接近零分。這不是能力問題，是穩定性問題，執行過程像賭博。

這不是修bug能解決的。這是架構層面的缺陷。

某人形機器人公司創始人曾向雷峰網表達過類似問題，他表示，目前的大模型像是個沒有OS的小電腦，只能先滿足一個很特別的應用，你有需求的時候才找它一下，這個邏輯是不對的，AI Agent最後會變成一個大管家，隨時線上，就像你的助理一樣，什麼事都能找他。

沒有OS層的支援，Agent就沒有持久狀態管理能力。你讓它跨應用做一個長流程任務，它在第50步時已經忘了第10步的狀態。

沒有OS層，就沒有記憶。

但就在同一天，另一條消息說明Claude正在解決這個“沒有記憶”的問題。

Anthropic為Claude推出了一套雙模記憶系統。核心是兩項技術：

“檔案記憶”讓Claude在對話中自動把資訊分類整理成結構化文件。以後再遇到相關話題，Claude不會翻找全部歷史，而是精準讀取對應的檔案。容量理論上無限，使用者可以像編輯Wiki詞條一樣隨時增刪改。

“夢境”是一種非同步後台機制。靈感來自人類的REM睡眠，在Claude空閒時，它會自動對積累的記憶檔案做深度維護：合併重複項、替換過時條目、解決邏輯矛盾、挖掘隱藏模式。觸發條件很簡單：累積5次對話，或者距離上次整合超過24小時。使用者也可以手動敲“/dream”觸發。

Netflix等首批企業的反饋是：首次處理錯誤率暴降97%，文件驗證提速30%。

與此同時曝光的還有Conway Agent，一個7x24小時永不下線的AI智能體平台。它不需要使用者輸入提示詞才回覆，而是常駐後台，監聽外部事件、主動觸發任務、通過Webhook接收訊號、自主操控瀏覽器和運行Claude Code。

把這三件事串起來：Memory Files提供無限儲存 → Dreams提供自動維護 → Conway提供自主執行階段。從“儲存”到“反思”到“行動”，這是一個完整的閉環。

矽谷AI生態觀察專家在雷峰網採訪中提供了一個關鍵的格局判斷，程式設計賽道“Anthropic第一、Cursor第二、Copilot第三”。Claude Code是這個賽道的絕對王者。之前需要10人的產品經理團隊，現在可能只需要一個人+Agent就夠了。

Anthropic押注記憶系統的策略很清晰：為其核心的Code場景提供更流暢穩定的使用者體驗。隨著使用者逐漸將更多、更複雜的任務交給Agent，這種使用者體驗可能直接影響使用者“用腳投票”。

面對OpenAI龐大的使用者基礎，Anthropic沒有著急和對家搶人，而是先把一個核心場景做透、建立不可替代性，再往外擴展。這和當下國內AI公司“什麼都想做、什麼都做到60分”的思路截然不同。

業界把這叫“從builder到大眾使用者”的路徑：先讓開發者離不開你，再慢慢擴展到普通使用者。Claude Code鎖定了開發者，Conway Agent鎖定了智能體的執行階段框架，永久記憶鎖定了使用者的資料遷移成本。

SaaS-Bench還有一個更深層的結論。

評測團隊發現，當前SaaS介面是為人類設計的，按鈕、下拉菜單、彈出對話方塊，全部依賴人類的視覺識別和操作邏輯。當Agent成為主要使用者時，這些介面就成了累贅。Agent需要的是API、結構化資料、可程式設計介面，不是“點這個按鈕然後確認”的互動。

這意味著，未來軟體需要為Agent重新設計。不是給SaaS系統加一個API介面，而是從底層重構，讓Agent能直接運算元據層，而不是通過UI層繞一圈。

Claude的Conway Agent本質上就是在建構這個“Agent時代的作業系統框架”。如果開發者生態（Claude Code）和智能體運行框架（Conway）都被Anthropic鎖定，未來任何一家公司想做Agent，都可能繞不開Anthropic定義的架構。

這是比模型能力更深層的競爭壁壘。

模型能力可以追，跑分可以刷，但開發者的工作流習慣、使用者的記憶資料、Agent的運行框架一旦被鎖定，遷移成本會越來越高。

三年窗口期內，Anthropic賭的是當範式固化時，它已經站在了開發者生態和Agent執行階段的交叉點上。 (雷峰網)