Anthropic首次公開Claude「深度研究」功能建構細節:全藏在“指揮家-演奏家”模式裡

Anthropic把自家的深度研究功能建構過程分享出來了,非常值得一讀

當面對需要跨越海量資訊、探索未知領域的複雜研究任務時,單一的大語言模型(LLM)往往會遇到瓶頸。為了更有效地解決這類問題,Anthropic 的工程師們建構了一套先進的多智能體研究系統,並將其整合為 Claude 的“研究”(Research)功能。

Anthropic詳細分享了該系統從原型到產品的全過程,為我們揭示了建構一個高效、可靠的智能體系統所必需的核心原則、架構設計和工程智慧

一、為什麼選擇多智能體系統?

研究工作本質上是開放和動態的,無法預設固定的路徑。它需要根據新發現不斷調整方向,這恰好是 AI 智能體(Agent)的優勢所在。然而,單智能體在處理需要“廣度優先”搜尋的複雜查詢時,仍然會因順序執行而效率低下

多智能體系統通過以下方式解決了這一難題:

平行壓縮與分工: 系統的核心思想是“壓縮”——從海量資訊中提煉洞見。多個“子智能體”(Subagents)可以平行工作,各自擁有獨立的上下文窗口,同時探索問題的不同方面。這種分工不僅減少了路徑依賴,還實現了關注點分離(例如,不同的子智能體使用不同的工具或提示)

性能的指數級提升: Anthropic 的內部評估顯示,在處理需要分解任務的複雜查詢時(如“找出標普500資訊技術類股所有公司的董事會成員”),一個由 Claude Opus 4 擔任主智能體、Claude Sonnet 4 擔任子智能體的多智能體系統,其性能比單個 Claude Opus 4 智能體高出 90.2%

代價與權衡: 強大的性能並非沒有代價。多智能體系統是“token消耗大戶”。資料顯示,智能體互動的 token 消耗約為普通聊天的 4 倍,而多智能體系統則高達 15 倍。因此,這類系統最適用於那些能夠通過其卓越性能創造足夠高價值的任務

二、系統核心架構:“指揮家-演奏家”模式

該研究系統採用了一種經典的 “指揮家-演奏家”(Orchestrator-Worker)模式

主智能體(Lead Agent / 指揮家): 當使用者提交一個複雜查詢後,系統會建立一個主智能體。它負責:

*   **理解和規劃:** 分析使用者意圖,制定一個全面的研究策略。
*   **任務分解與授權:** 將大任務分解為多個獨立的子任務。
*   **建立子智能體:** 為每個子任務生成專門的“子智能體”,並分配任務。
*   **結果合成:** 彙總所有子智能體返回的資訊,進行綜合分析,形成最終報告。

子智能體(Subagents / 演奏家): 它們是平行的工作單元,接收主智能體的指令,獨立地執行搜尋、評估資訊,然後將關鍵發現返回給主智能體

外部記憶(Memory): 為了處理超過模型上下文窗口(如200K tokens)的超長任務,系統使用外部記憶來持久化儲存研究計畫等關鍵資訊,防止上下文丟失

引用智能體(Citation Agent): 在生成最終報告後,一個專門的引用智能體會負責檢查報告中的所有聲明,並將其與原始信源進行匹配,確保所有資訊都有據可查。

整個流程是一個動態的、迭代的循環。主智能體可以根據初步結果調整策略,建立更多的子智能體進行深入或補充研究,直到收集到足夠的資訊為止。

三、成功的關鍵:提示工程與評估的最佳實踐

讓一群智能體高效協作遠比控制單個智能體複雜。Anthropic 分享了他們在提示工程和系統評估方面的八大原則:

提示工程(Prompt Engineering)的八大原則:

  1. 像智能體一樣思考: 通過模擬系統,逐步觀察智能體的行為,理解其“心智模型”,從而發現失敗模式(如過度搜尋、選擇錯誤工具)並進行針對性最佳化
  2. 教會“指揮家”如何授權: 給子智能體的指令必須清晰具體,包含明確的目標、輸出格式、工具使用建議和任務邊界,避免模糊指令導致的重複工作或任務失敗。
  3. 根據任務複雜度調整投入: 在提示中嵌入規則,指導主智能體根據任務的複雜性(簡單事實查詢、對比分析、複雜研究)來決定啟動的子智能體數量和工具呼叫次數,避免資源浪費。
  4. 精心設計工具(Tool): 工具的介面和描述至關重要。為智能體提供明確的啟髮式規則(如優先使用專用工具、先廣泛搜尋再深入),確保它們能選擇正確的工具。
  5. 讓智能體自我改進: Claude 4 模型本身就是優秀的提示工程師。Anthropic 建立了一個“工具測試智能體”,當發現一個工具描述有問題時,它能自我診斷、重寫描述以避免未來出錯,使任務完成時間減少了 40%。
  6. 先拓寬,再深入(Start wide, then narrow down): 引導智能體模仿人類專家的研究方式——先用寬泛的查詢探索全景,評估可用資訊,再逐步縮小焦點。
  7. 引導思考過程(Extended thinking): 利用模型的“思考”能力作為可控的草稿紙。主智能體通過“思考”來規劃、評估和分配任務。子智能體則在每次工具呼叫後進行“思考”,評估結果質量並規劃下一步行動。
  8. 平行化提升速度與性能: 系統實現了兩個層面的平行化:主智能體平行啟動多個子智能體;每個子智能體可以平行呼叫多個工具。這使得複雜研究的耗時從數小時縮短到幾分鐘。

有效評估(Effective Evaluation)的三大原則:

  1. 從小樣本開始快速迭代: 在開發早期,一個小的、有代表性的測試集(約20個查詢)就足以發現重大問題並驗證改進效果。不要等到建構完美的大型評估集才開始測試
  2. 利用 LLM 作為“裁判”: 對於難以程序化評估的自由格式文字輸出,LLM 是理想的“裁判”。Anthropic 使用一個 LLM 裁判,根據一套標準(事實精準性、引用精準性、完整性、信源質量等)對輸出進行打分。
  3. 人工評估不可或缺: 自動化評估無法捕捉所有邊緣案例。人工測試員能發現微妙的偏見(如早期版本偏愛SEO最佳化的內容農場而非學術PDF)和系統性故障。

四、從原型到產品:生產環境的可靠性挑戰

將一個複雜的智能體系統投入生產環境,會遇到傳統軟體開發中不常見的挑戰

狀態與錯誤累積: 智能體是長時運行且有狀態的。任何一個小錯誤都可能被放大,導致整個任務失敗。因此,系統必須具備 從故障點恢復(Resume)的能力,而不是從頭開始。

偵錯困難: 智能體的非確定性使得復現和偵錯問題異常困難。解決方案是引入 高等級的生產追蹤(Tracing,監控智能體的決策模式和互動結構,而非具體對話內容,以保護使用者隱私

部署協調: 由於智能體是持續運行的,不能簡單地停止舊版本、啟動新版本。Anthropic 採用 “彩虹部署”(Rainbow Deployments),新舊版本的系統同時運行,流量逐步從舊版本遷移到新版本,確保平穩過渡

性能瓶頸: 目前的同步執行模式(主智能體等待一批子智能體完成後再繼續)簡化了協調,但造成了瓶頸。未來的方向是非同步執行,雖然會增加複雜性,但性能收益將是巨大的。

結論

建構一個生產等級的多智能體研究系統是一項艱巨的工程挑戰,“最後一公里”往往最為艱難。從原型到可靠的產品,需要細緻的工程設計、全面的測試、精巧的提示與工具設計,以及跨團隊的緊密合作。 (AI寒武紀)