在Agent大考中慘敗的Claude祭出了「永久大腦」,意味著什麼?

“為什麼說Anthropic想成為Agent時代的「大管家」?”

AI Agent如何才能擺脫實驗室的真空環境,真正替人類工作?

就在昨天,UniPat AI團隊發佈的SaaS-Bench測試中,106個真實辦公任務,Claude只完整通過了4個,完全通過率僅3.8%。

在實驗室中測試良好的Agent系統,為何在放到真實場景下就“失智”了?

一個很重要的原因在於,目前大模型的“記憶”一般是把使用者長期有效的資訊做成結構化的條目/摘要,這種模式對資訊抽取和結構化質量要求很高,因此在面對複雜的、多步驟的、需要長時間運行任務時,容易出現混亂。

就在測試發佈的同一天,著名AI追蹤平台TestingCatalog爆出猛料,Anthropic正為Claude測試一套更強大的記憶系統,疑似是之前提出的“知識庫”的最新版本。

Anthropic此舉的意義在那?歸根結底還是戰略問題。

01

Agent測試幾近全軍覆沒,Claude怎麼了?

5月25日,UniPat AI發佈了SaaS-Bench。這不是又一個模擬環境測試,23個真實SaaS系統跑在Docker裡,從OpenProject到Mattermost,每個系統都填入了真實業務資料。106個任務中,93.4%需要跨越至少兩個應用。

一個典型的任務是:在OpenProject中建立一個研發項目,分配給三個團隊成員,設定里程碑日期,然後在Mattermost中發起項目啟動通知,三個應用、跨系統呼叫、15個操作步驟。

最長的任務操作步數超過300步。從建立客戶檔案開始,到生成季度財務報告結束。

結果慘到什麼程度?

Claude Opus 4.7,整個行業公認的最強模型,106個任務只完整完成了4個。完全通過率3.8%。Kimi K2.5和Gemini 3.1 Pro是0%,一個都沒走到底。

但故事還有另一面。如果放寬標準看“檢查點分數”,只要求部分完成、按權重計算進度,Claude的得分是43.9%。這意味著它幾乎在每個任務中都走到了一半左右,然後在某個環節突然卡住。

評測團隊總結了四種失敗模式:

第一種,任務越長越做不對。模型前20步的表現和後20步判若兩人。隨著上下文越長,注意力渙散越嚴重,這是一個不可逆的衰減曲線。

第二種,一步錯、步步錯。上游一個微小錯誤,比如在建立客戶檔案時把“企業客戶”選成了“個人客戶”,會導致下游所有相關任務全部失敗。Agent沒有從錯誤中恢復的能力,也沒有“退一步重來”的設計。

第三種,做完不檢查。Agent在輸出層面認為任務已完成,但實際上系統狀態並未改變。它缺少嚴謹的反思閉環,沒有人教它“做完之後回頭看一眼”。

第四種,成績忽高忽低。同一個模型、同一個任務、相同的初始狀態下,兩次運行結果可能一個接近滿分、一個接近零分。這不是能力問題,是穩定性問題,執行過程像賭博。

這不是修bug能解決的。這是架構層面的缺陷。

某人形機器人公司創始人曾向雷峰網表達過類似問題,他表示,目前的大模型像是個沒有OS的小電腦,只能先滿足一個很特別的應用,你有需求的時候才找它一下,這個邏輯是不對的,AI Agent最後會變成一個大管家,隨時線上,就像你的助理一樣,什麼事都能找他。

沒有OS層的支援,Agent就沒有持久狀態管理能力。你讓它跨應用做一個長流程任務,它在第50步時已經忘了第10步的狀態。

沒有OS層,就沒有記憶。

02

永久大腦:記憶系統的三層架構

但就在同一天,另一條消息說明Claude正在解決這個“沒有記憶”的問題。

Anthropic為Claude推出了一套雙模記憶系統。核心是兩項技術:

“檔案記憶”讓Claude在對話中自動把資訊分類整理成結構化文件。以後再遇到相關話題,Claude不會翻找全部歷史,而是精準讀取對應的檔案。容量理論上無限,使用者可以像編輯Wiki詞條一樣隨時增刪改。

“夢境”是一種非同步後台機制。靈感來自人類的REM睡眠,在Claude空閒時,它會自動對積累的記憶檔案做深度維護:合併重複項、替換過時條目、解決邏輯矛盾、挖掘隱藏模式。觸發條件很簡單:累積5次對話,或者距離上次整合超過24小時。使用者也可以手動敲“/dream”觸發。

Netflix等首批企業的反饋是:首次處理錯誤率暴降97%,文件驗證提速30%。

與此同時曝光的還有Conway Agent,一個7x24小時永不下線的AI智能體平台。它不需要使用者輸入提示詞才回覆,而是常駐後台,監聽外部事件、主動觸發任務、通過Webhook接收訊號、自主操控瀏覽器和運行Claude Code。

把這三件事串起來:Memory Files提供無限儲存 → Dreams提供自動維護 → Conway提供自主執行階段。從“儲存”到“反思”到“行動”,這是一個完整的閉環。

03

使用者基數不是缺陷,核心場景做透才是戰略

矽谷AI生態觀察專家在雷峰網採訪中提供了一個關鍵的格局判斷,程式設計賽道“Anthropic第一、Cursor第二、Copilot第三”。Claude Code是這個賽道的絕對王者。之前需要10人的產品經理團隊,現在可能只需要一個人+Agent就夠了。

Anthropic押注記憶系統的策略很清晰:為其核心的Code場景提供更流暢穩定的使用者體驗。隨著使用者逐漸將更多、更複雜的任務交給Agent,這種使用者體驗可能直接影響使用者“用腳投票”。

面對OpenAI龐大的使用者基礎,Anthropic沒有著急和對家搶人,而是先把一個核心場景做透、建立不可替代性,再往外擴展。這和當下國內AI公司“什麼都想做、什麼都做到60分”的思路截然不同。

業界把這叫“從builder到大眾使用者”的路徑:先讓開發者離不開你,再慢慢擴展到普通使用者。Claude Code鎖定了開發者,Conway Agent鎖定了智能體的執行階段框架,永久記憶鎖定了使用者的資料遷移成本。

SaaS-Bench還有一個更深層的結論。

評測團隊發現,當前SaaS介面是為人類設計的,按鈕、下拉菜單、彈出對話方塊,全部依賴人類的視覺識別和操作邏輯。當Agent成為主要使用者時,這些介面就成了累贅。Agent需要的是API、結構化資料、可程式設計介面,不是“點這個按鈕然後確認”的互動。

這意味著,未來軟體需要為Agent重新設計。不是給SaaS系統加一個API介面,而是從底層重構,讓Agent能直接運算元據層,而不是通過UI層繞一圈。

Claude的Conway Agent本質上就是在建構這個“Agent時代的作業系統框架”。如果開發者生態(Claude Code)和智能體運行框架(Conway)都被Anthropic鎖定,未來任何一家公司想做Agent,都可能繞不開Anthropic定義的架構。

這是比模型能力更深層的競爭壁壘。

模型能力可以追,跑分可以刷,但開發者的工作流習慣、使用者的記憶資料、Agent的運行框架一旦被鎖定,遷移成本會越來越高。

三年窗口期內,Anthropic賭的是當範式固化時,它已經站在了開發者生態和Agent執行階段的交叉點上。 (雷峰網)