Anthropic首次公開Claude「深度研究」功能建構細節：全藏在“指揮家-演奏家”模式裡

2025/06/17

•

Anthropic把自家的深度研究功能建構過程分享出來了，非常值得一讀

當面對需要跨越海量資訊、探索未知領域的複雜研究任務時，單一的大語言模型（LLM）往往會遇到瓶頸。為了更有效地解決這類問題，Anthropic 的工程師們建構了一套先進的多智能體研究系統，並將其整合為 Claude 的“研究”（Research）功能。

Anthropic詳細分享了該系統從原型到產品的全過程，為我們揭示了建構一個高效、可靠的智能體系統所必需的核心原則、架構設計和工程智慧

一、為什麼選擇多智能體系統？

研究工作本質上是開放和動態的，無法預設固定的路徑。它需要根據新發現不斷調整方向，這恰好是 AI 智能體（Agent）的優勢所在。然而，單智能體在處理需要“廣度優先”搜尋的複雜查詢時，仍然會因順序執行而效率低下

多智能體系統通過以下方式解決了這一難題：

平行壓縮與分工： 系統的核心思想是“壓縮”——從海量資訊中提煉洞見。多個“子智能體”（Subagents）可以平行工作，各自擁有獨立的上下文窗口，同時探索問題的不同方面。這種分工不僅減少了路徑依賴，還實現了關注點分離（例如，不同的子智能體使用不同的工具或提示）

性能的指數級提升： Anthropic 的內部評估顯示，在處理需要分解任務的複雜查詢時（如“找出標普500資訊技術類股所有公司的董事會成員”），一個由 Claude Opus 4 擔任主智能體、Claude Sonnet 4 擔任子智能體的多智能體系統，其性能比單個 Claude Opus 4 智能體高出 90.2%。

代價與權衡： 強大的性能並非沒有代價。多智能體系統是“token消耗大戶”。資料顯示，智能體互動的 token 消耗約為普通聊天的 4 倍，而多智能體系統則高達 15 倍。因此，這類系統最適用於那些能夠通過其卓越性能創造足夠高價值的任務

二、系統核心架構：“指揮家-演奏家”模式

該研究系統採用了一種經典的 “指揮家-演奏家”（Orchestrator-Worker）模式

主智能體（Lead Agent / 指揮家）： 當使用者提交一個複雜查詢後，系統會建立一個主智能體。它負責：

*   **理解和規劃：** 分析使用者意圖，制定一個全面的研究策略。
*   **任務分解與授權：** 將大任務分解為多個獨立的子任務。
*   **建立子智能體：** 為每個子任務生成專門的“子智能體”，並分配任務。
*   **結果合成：** 彙總所有子智能體返回的資訊，進行綜合分析，形成最終報告。

子智能體（Subagents / 演奏家）： 它們是平行的工作單元，接收主智能體的指令，獨立地執行搜尋、評估資訊，然後將關鍵發現返回給主智能體

外部記憶（Memory）： 為了處理超過模型上下文窗口（如200K tokens）的超長任務，系統使用外部記憶來持久化儲存研究計畫等關鍵資訊，防止上下文丟失

引用智能體（Citation Agent）： 在生成最終報告後，一個專門的引用智能體會負責檢查報告中的所有聲明，並將其與原始信源進行匹配，確保所有資訊都有據可查。

整個流程是一個動態的、迭代的循環。主智能體可以根據初步結果調整策略，建立更多的子智能體進行深入或補充研究，直到收集到足夠的資訊為止。

三、成功的關鍵：提示工程與評估的最佳實踐

讓一群智能體高效協作遠比控制單個智能體複雜。Anthropic 分享了他們在提示工程和系統評估方面的八大原則：

提示工程（Prompt Engineering）的八大原則：

像智能體一樣思考： 通過模擬系統，逐步觀察智能體的行為，理解其“心智模型”，從而發現失敗模式（如過度搜尋、選擇錯誤工具）並進行針對性最佳化
教會“指揮家”如何授權： 給子智能體的指令必須清晰具體，包含明確的目標、輸出格式、工具使用建議和任務邊界，避免模糊指令導致的重複工作或任務失敗。
根據任務複雜度調整投入： 在提示中嵌入規則，指導主智能體根據任務的複雜性（簡單事實查詢、對比分析、複雜研究）來決定啟動的子智能體數量和工具呼叫次數，避免資源浪費。
精心設計工具（Tool）： 工具的介面和描述至關重要。為智能體提供明確的啟髮式規則（如優先使用專用工具、先廣泛搜尋再深入），確保它們能選擇正確的工具。
讓智能體自我改進： Claude 4 模型本身就是優秀的提示工程師。Anthropic 建立了一個“工具測試智能體”，當發現一個工具描述有問題時，它能自我診斷、重寫描述以避免未來出錯，使任務完成時間減少了 40%。
先拓寬，再深入（Start wide, then narrow down）： 引導智能體模仿人類專家的研究方式——先用寬泛的查詢探索全景，評估可用資訊，再逐步縮小焦點。
引導思考過程（Extended thinking）： 利用模型的“思考”能力作為可控的草稿紙。主智能體通過“思考”來規劃、評估和分配任務。子智能體則在每次工具呼叫後進行“思考”，評估結果質量並規劃下一步行動。
平行化提升速度與性能： 系統實現了兩個層面的平行化：主智能體平行啟動多個子智能體；每個子智能體可以平行呼叫多個工具。這使得複雜研究的耗時從數小時縮短到幾分鐘。

有效評估（Effective Evaluation）的三大原則：

從小樣本開始快速迭代： 在開發早期，一個小的、有代表性的測試集（約20個查詢）就足以發現重大問題並驗證改進效果。不要等到建構完美的大型評估集才開始測試
利用 LLM 作為“裁判”： 對於難以程序化評估的自由格式文字輸出，LLM 是理想的“裁判”。Anthropic 使用一個 LLM 裁判，根據一套標準（事實精準性、引用精準性、完整性、信源質量等）對輸出進行打分。
人工評估不可或缺： 自動化評估無法捕捉所有邊緣案例。人工測試員能發現微妙的偏見（如早期版本偏愛SEO最佳化的內容農場而非學術PDF）和系統性故障。

四、從原型到產品：生產環境的可靠性挑戰

將一個複雜的智能體系統投入生產環境，會遇到傳統軟體開發中不常見的挑戰

狀態與錯誤累積： 智能體是長時運行且有狀態的。任何一個小錯誤都可能被放大，導致整個任務失敗。因此，系統必須具備從故障點恢復（Resume）的能力，而不是從頭開始。

偵錯困難： 智能體的非確定性使得復現和偵錯問題異常困難。解決方案是引入高等級的生產追蹤（Tracing，監控智能體的決策模式和互動結構，而非具體對話內容，以保護使用者隱私

部署協調： 由於智能體是持續運行的，不能簡單地停止舊版本、啟動新版本。Anthropic 採用 “彩虹部署”（Rainbow Deployments），新舊版本的系統同時運行，流量逐步從舊版本遷移到新版本，確保平穩過渡

性能瓶頸： 目前的同步執行模式（主智能體等待一批子智能體完成後再繼續）簡化了協調，但造成了瓶頸。未來的方向是非同步執行，雖然會增加複雜性，但性能收益將是巨大的。

結論

建構一個生產等級的多智能體研究系統是一項艱巨的工程挑戰，“最後一公里”往往最為艱難。從原型到可靠的產品，需要細緻的工程設計、全面的測試、精巧的提示與工具設計，以及跨團隊的緊密合作。 (AI寒武紀)