噓，Claude正在「做夢」！睡一覺瘋狂進化，一夜暴漲6倍戰力

2026/05/07

•

【新智元導讀】Claude開發者大會來了！這一次，Anthropic讓Agent學會了「做夢」，兩次幹活的間隙自動反芻記憶、自我進化。配合多Agent兵團作戰和自動評分官，AI任務完成率直接暴漲6倍。

就在剛剛，Anthropic讓AI學會做夢了！

Code with Claude舊金山開發者大會上，Anthropic真的給Claude託管智能體加了一個叫Dreaming的功能——

AI可以在兩次工作的間隙，像人類進入REM睡眠一樣，自動回顧歷史會話、整理碎片記憶、發現隱藏規律。

一覺醒來，直接滿級。

同時發佈的還有Outcomes（自動評分）和多智能體編排（multiagent orchestration）。

讓Claude睡一覺，醒來自己變強

任何用過AI Agent的人都知道一個痛點，Agent幹活時會往記憶庫裡寫東西，但這些記錄是零散的、遞增的。

跑了幾十次會話之後，記憶庫裡一團糟，重複條目、過時資訊、前後矛盾的內容堆在一起。

Agent自己意識不到這個問題，因為它們每次只看到當前會話的局部視角。

而Dreaming就是來解決這件事的。

它是一個定時運行的非同步任務，會同時讀取Agent現有的記憶庫和過去最多100個會話的完整文字記錄，然後生成一個全新的、經過重新梳理的記憶庫。

具體做三件事：（1）合併重複項；（2）用最新值替換掉過時或矛盾的條目；（3）從歷史會話中挖掘出Agent自己沒注意到的宏觀規律。

熟悉神經科學的人會立刻反應過來，這就是人腦REM睡眠在干的事。

白天大腦吸收原始資訊存成短期記憶，夜間REM階段把當天經歷重放一遍，強化有價值的連接、丟棄無用資訊、整合成長期記憶。

Anthropic的工程師顯然也想到了這層對應關係，所以直接把功能叫做Dreaming。

1968年菲利普·K·迪克問了一個問題，「仿生人會夢見電子羊嗎」？58年後，Anthropic給出了一個工程層面的回答。

值得注意的是，這裡還有一個關鍵設計。

Dreaming永遠不會修改輸入的原始記憶庫。它生成的是一個全新的輸出記憶庫，開發者可以先審查結果，不滿意就直接丟棄。

也就是說，你對AI的「夢境」有完全的控制權，可以選擇讓它自動生效，也可以人工稽核後再決定是否採納。

AI做夢，全程直播

具體來說，Dream任務進入running狀態後，會暴露一個session_id，開發者可以流式訂閱這個會話的事件流，即時看到AI正在讀取那條記憶、正在寫入什麼新條目。如果發現問題，還可以隨時「叫醒」（取消）。

換句話說就是，你趴在AI的床邊，看著它做夢。

跑完之後，底層會話會被歸檔保留，事後還能回看完整的「夢境記錄」。

更關鍵的是，開發者可以通過instructions欄位告訴AI「做什麼夢」。

由於輸入記憶庫不會被修改，理論上你可以對同一份記憶跑多次Dreaming，每次聚焦不同主題，產出不同維度的整理結果。

Agent交完卷，還有一個評分官在等著

光會做夢還不夠，幹活的質量誰來把關？

這就是Outcomes的作用。

開發者可以寫一套評分標準，描述「什麼算交付成功」，然後系統會分配一個獨立的評估器，在它自己的上下文窗口中對Agent輸出進行打分。

由於評估器和幹活的Agent完全隔離，因此不會被Agent自身的推理過程帶偏。

只要它發現問題，就會精準指出需要修改的地方，並讓Agent重新打磨再跑一輪。

此時，開發者還可以設定最大迭代次數來控製成本。

根據Anthropic的內部測試，相比標準prompt循環，Outcomes把任務成功率提升了最高10個百分點。越難的問題，提升越明顯。

在檔案生成場景下效果更直觀，docx文件任務成功率提高8.4%，pptx幻燈片提高10.1%。

這個功能對主觀質量評估同樣有效。

比如文案語氣是否符合品牌調性，設計稿是否遵循視覺規範，這類以前必須靠人盯的活兒，現在Agent自己就能對照標準反覆打磨。

一個Agent搞不定，那就組隊上

第三件套是多智能體編排。

邏輯很簡單，當任務太大或太複雜，單個Agent搞不定時，讓一個主智能體（lead agent）把總任務拆成多個小塊，分別派發給搭載不同模型、不同提示詞、不同工具的專家級子智能體。

這些子智能體基於同一個共享檔案系統平行工作，各自的成果彙總到主智能體的全域上下文中。

主智能體可以在工作流進行到一半時隨時找其他智能體對齊進度。

過程中，開發者還能在Claude控制台裡追溯每一步細節，那個Agent幹了什麼、先後順序、決策理由，全部可見。

6個著陸點砸了2個，睡一覺全修好了

大會上，Anthropic用一個月球採礦無人機著陸任務，把三個功能一口氣串了起來。

第一步，搭兵團。

Commander作為主Agent統籌全域，底下掛兩個專家Agent：Detector負責地質探測，判斷採礦點是否值得開採；Navigator負責導航，判斷地形那裡可以安全降落。

第二步，定標準。

Outcomes評分標準就是一個普通的Markdown檔案，幾行文字寫清通過條件：軟著陸速度≤2.0 m/s、地面不能有巨石和隕石坑、剩餘燃料≥5%。

第三步，跑模擬。

大屏上同時顯示6個著陸點的即時狀態。

結果，4個綠色LANDED，但Site 3以398 m/s的速度直接砸了（紅色CRASH），Site 4也沒達標。整體安全評分67%。

這個結果，顯然是不合格的。

於是，她打開Claude控制台的Dreams頁面，選了Opus 4.7模型，點選「Start dreaming」，讓Dreaming跑了一整夜。

Opus 4.7花了8分鐘，從530萬token的歷史會話中蒸餾出一份98行的「Lumara Descent Commander's Playbook」，覆蓋危險規則、懸停掃描流程、燃料底線、中止走廊等維度。每條規則都標註了來源於那次任務。

第二天早上回來，用升級後的記憶庫重新跑了一輪模擬。

原來失敗的2個站點全部修復，原來成功的4個沒有倒退。

整個過程，就是在控制台裡按了幾下按鈕。

Harvey用完漲了6倍，靠的就是這三件套

託管智能體平台從4月公測以來，核心賣點一直是「你別自己搭Agent基礎設施了，我幫你託管」。

但光託管運行環境還不夠，Agent要真正好用，必須解決三個問題——

1. 跨會話的記憶衰退

2. 不穩定的輸出質量

3. 單Agent搞不定的複雜任務

這次，Dreaming解決第一個，Outcomes解決第二個，多Agent編排解決第三個。三件套一起上，把Agent從「能跑」推向「能用」。

早期客戶已經在驗證這套組合拳。法律AI公司Harvey用上Dreaming後，任務完成率飆升了大約6倍。

目前，Dreaming作為研究預覽版上線，支援Claude Opus 4.7和Claude Sonnet 4.6，需要申請權限。Outcomes和多Agent編排已進入公測。

費用方面，託管智能體在標準API token費率之外，額外收取每會話小時0.08美元的執行階段費用。有開發者算過帳，24個Agent每天跑8小時，光執行階段就是15.36美元/天，還沒算token。

One More Thing 算力自由

同一天還有一個重磅消息。

Anthropic官宣與SpaceX達成協議，租下馬斯克Colossus 1資料中心的全部算力，共22萬張GPU。

Dreaming一次跑530萬token，多Agent平行開工，Outcomes反覆迭代打分，全都是吃算力的重活。22萬張GPU，正好給託管智能體這套服務兜底。

同時，「算力自由」也帶來了更直接的使用者福利——

· Claude Code五小時使用限額即刻翻倍。

· 取消Pro/MAX中，Claude Code高峰時段限制額度削減。

· Opus API速率限制大幅上漲。

今天，Anthropic給AI裝上了REM睡眠，但這場夢才剛開始做。

迪克當年真正想問的，或許不是仿生人會不會做夢，而是做完夢之後，它還算不算機器。 (新智元)