如何使用多个Claude AI 智能体构建多智能体研究系统

—

如何使用

多个

/Claude AI 智能体/

构建多智能体研究系统

How we built our multi-agent research system

什么任务需要多智能体？

多个 AI 智能体如何协作？

怎么解决上下文和记忆问题?

……

最近一段时间，关于智能体的研究层出不穷。但这也为广大研究者带来一些困惑。

面对这些问题，你不妨读读 Anthropic 的这篇文章，或许能找到答案。

Anthropic原文链接

来源：Anthropic官网

发布日期：Jun 13, 2025

⬇️

在这之前，或许你想先了解……

Claude是什么？

Claude 是由 Anthropic 公司开发的一种人工智能助手，类似于 ChatGPT，DeepSeek等。它能够理解和生成自然语言，用于写作、代码、总结、问答等任务。Claude 的名字来自于信息论奠基人 Claude Shannon，象征其背后的技术基础。Claude 特别强调安全性、可控性和对话能力，适用于从日常对话到专业工作的多种场景。

你可以点击这个链接访问官网

智能体是什么？

智能体，或称 AI Agent，是能够自主完成任务的人工智能“角色”。它们通常具备目标意识、执行能力和反馈机制，能自动完成一系列步骤，例如在网页上查资料、调用工具、分析信息等。你可以把它想象成“一个能接指令办事的虚拟助手”，有时候还会多个智能体协同工作，像是一个迷你AI团队。

Anthropic是一家怎样的公司？

Anthropic 是一家由前 OpenAI 成员创立的人工智能公司，专注于打造更安全、透明、可靠的大语言模型。它强调“宪法式AI”（Constitutional AI）设计理念，让模型在训练时遵循一套明确的价值规范。目前，Anthropic 的核心产品就是 Claude 系列模型。公司总部位于美国旧金山，致力于推动有益于人类的通用人工智能发展。

⬇️以下是重点正文

How we built our multi-agent research system

如何使用多个 Claude AI 智能体构建多智能体研究系统

Claude 现在具备了“研究（Research）”功能，它能够跨越网页、Google Workspace 和其他集成工具进行搜索，以完成复杂任务。

这个多智能体系统从原型到产品的构建过程，让我们在系统架构、工具设计和提示词工程方面收获了许多关键经验。

一个多智能体系统

由多个智能体组成，这些智能体是能够

自主调用工具并持续循环运行

的大语言模型（LLMs）

，彼此协作完成任务。在 Claude 的 Research 功能中，一个主智能体会根据用户的提问规划研究流程，并调用工具来生成多个并行的子智能体，同时搜索相关信息。

多智能体系统带来了智能体间协调、评估和稳定性等全新的挑战。本文将拆解我们在实践中验证有效的设计原则，帮助你在构建自己的多智能体系统时加以借鉴。

Benefits of a multi-agent system

/多智能体系统的优势

多智能体系统（Multi-Agent System）在处理复杂、动态、开放式的研究任务中展现出显著优势。传统的研究流程往往无法预设完整路径，需要根据不断变化的信息灵活调整方向，这种高度不确定性对系统的响应能力提出了更高要求。

更重要的是，随着模型智能的提升，“协作”逐渐成为突破单体性能瓶颈的关键。就像人类社会因集体智能实现飞跃一样，AI 多智能体结构也展现出显著的协同增益。例如，Anthropic 的测试显示：在研究类任务中，由 Claude Opus 4 领导、Claude Sonnet 4 担任子智能体的系统，表现比单个 Claude Opus 4

提升了 90.2%

Claude 的 Research 功能采用

“主智能体 + 子智能体”

的架构，主智能体负责制定策略并分派任务，多个子智能体并行工作，各自探索不同的信息方向。这种结构不仅提高了效率，也实现了信息压缩与分工协作，有效应对了研究任务中信息碎片化、路径依赖强的问题。

多智能体系统的核心优势在于能够通过充分的 token 消耗来解决问题。分析显示，在 BrowseComp 评估（该测试衡量浏览型智能体定位高难度信息的能力）中，三个因素共同解释了

95% 的性能差异。研究发现：

token 消耗量单独解释了 80% 的差异；

工具调用次数和模型选择构成是另外两个关键因素。

当然，这种架构也有一个

缺点

：在实际应用中，它们会

非常快速地消耗 tokens

。根据 Anthropic 统计，智能体通常会使用大约是普通聊天交互

4 倍

的 tokens，而多智能体系统的 token 消耗甚至是聊天的

15 倍

左右。

智能体通常消耗约为普通聊天的 4 倍 tokens

多智能体消耗约为普通聊天的 15倍 tokens

⬇️

多智能体系统最擅长的场景

需要大量并行处理、信息量超出单一上下文窗口、以及需要与大量复杂工具交互的任务

Architecture overview for Research

架构

Anthropic

的 Research 系统采用多智能体架构，遵循

“协调者-执行者（orchestrator-worker）”

模式

，其中主智能体负责整体流程的协调，同时将任务分派给多个并行运行的专门子智能体。

*多智能体架构的实际运作方式是：用户的查询会先由主智能体接收处理，随后主智能体创建多个专门化的子智能体，分别并行地搜索问题的不同方面。

当用户提交查询后，主智能体会对其进行分析、制定策略，并生成多个子智能体，同时从不同方面展开探索。如上图所示，这些子智能体通过反复调用搜索工具，起到“智能过滤器”的作用。

传统的

增强式检索（RAG）方法

依赖的是静态检索：也就是说，它们会提取一批与输入查询最相似的文本片段（chunks），并基于这些片段生成回答。而我们所采用的架构则是多步骤动态搜索，能够主动查找相关信息，持续适应中间发现，并在此基础上分析结果、生成高质量的回答。

这张流程图展示了我们多智能体 Research 系统是如何工作的

➡️

/01

当用户提交查询后，系统会创建一个 LeadResearcher 智能体。它会先思考研究策略，并将计划写入 Memory，以防上下文窗口超出 200,000 tokens 时被截断，确保关键信息得以保留。

/02

LeadResearcher 会生成一个或多个具有明确任务的 Subagents，并行执行各自的研究方向。每个 Subagent 会独立进行网页搜索、使用工具，并通过 interleaved thinking 对结果进行分析，再将发现返回给 LeadResearcher。

/03

主智能体会整合所有结果，并判断是否需要继续研究。如果还不够，它可以调整策略或创建新的 Subagent 继续查找。

当收集的信息足够后，系统会调用 CitationAgent，它负责处理研究内容并添加准确的引用，确保所有结论都能追溯来源。

/05

最后，带有引用的完整研究结果返回给用户。

Prompt engineering and evaluations for research agents

/智能体的提示词工程和评价体系

多智能体系统与单智能体系统有一些关键性的不同，其中最显著的是协调复杂度会迅速上升。在早期测试中，

智能体曾犯过一些典型错误

，比如：面对简单问题却生成了 50 个子智能体、大量在网上搜索根本不存在的信息、彼此之间频繁更新进度反而互相干扰。

由于每个智能体的行为都是由提示词（prompt）驱动的，因此

提示词设计（prompt engineering）

成为我们优化这些行为的主要手段。下面是我们在为智能体设计提示词时总结出的一些

原则

。

像你的智能体那样思考

要改进提示词，就必须理解它们产生的实际效果。要设计出有效的提示词，关键在于建立对智能体行为的准确心理模型，这样才能清晰识别出最需要优化的部分。

教会协调者如何分派任务

在我们的系统中，主智能体会将用户的问题拆解为多个子任务，并将这些任务说明发送给子智能体。每个子智能体都需要明确的目标、输出格式、应使用的工具与信息来源指导，以及清晰的任务边界

如果任务描述不够详细，智能体可能会重复劳动、遗漏关键点，或者找不到所需信息。起初，我们允许主智能体只给出简单的指令，比如“研究半导体短缺”，但很快发现这种表述太模糊，容易被误解，导致多个子智能体重复查找相同的信息，或者朝着不同方向跑偏。

根据问题复杂度匹配投入力度

智能体往往难以判断不同任务所需的合理投入，因此我们在提示词中嵌入了规模控制规则。比如：简单的事实查询只需要 1 个智能体，调用工具 3 到 10 次即可；需要直接对比的问题，可能需要 2 到 4 个子智能体，每个调用工具 10 到 15 次；而复杂的研究任务可能需要 10 个以上的子智能体，并进行明确的职责划分。

这些明确的指导规则能帮助主智能体

合理分配资源，避免在简单问题上投入过多

。

工具的设计与选择至关重要

智能体与工具之间的接口，就像人类与计算机的界面一样重要。选择合适的工具不仅能提高效率，有时更是完成任务的前提。例如，如果一个智能体试图在网页上搜索某个只存在于 Slack 聊天记录中的信息，那它一开始就注定会失败。

在 MCP 服务器为模型提供外部工具接入能力的环境下，这个问题会进一步加剧——因为智能体会接触到各种质量参差不齐的工具描述，导致使用判断失误。

因此我们为智能体设定了明确的启发式规则，例如：先审视所有可用工具、根据用户意图匹配使用场景、在进行广泛探索时优先使用网页搜索、在面对具体任务时优先使用专业化工具而非通用工具。

如果工具描述不清晰，智能体很容易走上完全错误的方向。因此

每一个工具都必须具备清晰的用途说明和明确的功能边界。

让智能体自我改进

Anthropic发现 Claude 4 系列模型本身就是非常优秀的提示词工程师。当它们被提供一个提示词和相应的失败模式时，能够诊断出失败原因，并提出改进建议。

Anthropic创建了一个工具测试智能体。当它被分配到一个有缺陷的 MCP 工具时，会尝试使用该工具，并根据使用过程中遇到的问题重新撰写工具描述，以避免未来出现类似失败。

通过反复测试几十次，这个智能体能够识别出工具中的关键细节与漏洞。这种提升工具易用性的过程，使得后续使用新版描述的智能体在任务完成时间上减少了

40%

，因为它们可以避开大多数常见错误。

从广泛探索开始，再逐步聚焦

搜索策略应当像专家级的人类研究一样：先了解整体概况，再深入具体细节。但智能体往往习惯使用冗长且过于具体的查询语句，结果反而返回的信息很少。为了解决这个问题，我们通过提示词引导智能体从简短、宽泛的查询开始，先评估可获得的信息，再逐步收窄关注点。

引导思考过程

扩展思考模式（extended thinking）

会引导 Claude 在生成内容时展示更多思维过程，这相当于一个可控的“草稿板”。主智能体会利用这种方式来规划策略，比如判断使用哪些工具、任务的复杂程度、应生成多少个子智能体，以及每个子智能体的职责是什么。

Anthropic的测试表明，扩展思考模式可以提升指令执行力、推理能力和效率。子智能体也会先进行规划，然后在获取工具结果后通过

interleaved thinking（交错式思考）

来评估信息质量、发现遗漏，并优化下一轮查询。这让子智能体在适应不同任务时更加高效。

并行调用工具带来速度与性能的飞跃

复杂的研究任务天然需要查询多个信息来源。早期版本的智能体采用的是顺序搜索，速度非常慢。为提升效率，我们引入了

两种并行机制

：

主智能体可以同时启动 3–5 个子智能体，而不是一个一个地生成；

每个子智能体可以同时调用 3 个以上的工具，并发处理多个信息源。

这些改进使得在处理复杂查询时，整体研究时间最多缩短了

90%

，不仅效率提升显著，覆盖的信息范围也远超传统系统。Research 系统因此能在几分钟内完成原本可能需要几个小时的任务。

Production reliability and engineering challenges

/生产环境下的

可靠性

与

工程挑战

在传统软件中，Bug 可能会导致某个功能失效、性能下降或服务中断。而在智能体系统中，即便是细微的改动，也可能引发大范围的行为变化，这使得为复杂、需要长期维护状态的智能体编写稳定代码变得极具挑战。

智能体具备状态性，错误会被放大

智能体通常会运行较长时间，并在多次工具调用之间持续维护内部状态。因此，系统不仅要能可靠地执行代码，还必须具备处理执行过程中的各种错误的能力。否则，哪怕是轻微的系统故障，也可能对智能体造成灾难性影响。

一旦出错，我们无法简单地从头重启流程——这种方式代价高昂，且用户体验极差。

而 Claude 构建的智能体的灵活适应性，与传统系统的可控性机制结合使用，如

重试逻辑和定期设置检查点

（checkpoints），来提升系统稳定性。

调试需要新的方式

智能体在运行时会做出动态决策，即使使用相同的提示，结果也具有非确定性，这使得调试变得更加困难。通过添加完整的

生产追踪

，Anthropic 能够系统地诊断智能体失败的原因并修复问题。

部署需要精细协调

多智能体系统是由提示词、工具和执行逻辑构成的高度状态化网络，而且这些系统几乎是持续运行的。也就是说，在我们部署更新时，各个智能体可能正处于流程的不同阶段。

因此，我们必须避免“好心办坏事”的代码改动破坏正在运行的智能体。我们不能强制所有智能体同时切换到新版本，而是使用一种

彩虹部署（rainbow deployments）

策略：逐步将流量从旧版本平滑切换到新版本，两个版本会并行运行，确保不中断任务。

同步执行会造成瓶颈

目前，主智能体是同步调用子智能体的：它会等待一批子智能体全部完成后，才继续下一步。这种方式虽然便于协调，但也带来了

信息流的瓶颈

。

例如：主智能体无法实时引导子智能体、子智能体之间无法相互协作，而整个系统可能因为某个子智能体还在搜索而被“卡住”。

如果改用异步执行，将允许各智能体并行工作，并在需要时动态生成新的子智能体。但与此同时，也会引入新的复杂性，比如结果协调、状态一致性维护、跨智能体的错误传递等挑战。

随着模型处理更长、更复杂任务的能力提升，我们相信性能上的提升将足以抵消这些新挑战带来的开发成本。

⬇️

Conclusion

/总结

在构建 AI 智能体时，

“最后一公里”往往成了最漫长的路。

那些在开发者机器上能正常运行的代码，要真正变成可靠的生产系统，仍需大量工程投入。

在智能体系统中，

错误具有复合效应

：对传统软件而言的小问题，可能会让整个智能体流程完全偏离轨道。一旦某一步失败，智能体可能就会走向完全不同的路径，最终导致不可预测的结果。因此，从原型到落地生产之间的差距，常常比预期更大。

尽管如此，多智能体系统在处理开放式研究任务中展现出了巨大价值。

只要有精细的工程设计、全面的测试流程、细致的提示词与工具设计、可靠的运维机制，以及产品、工程与研究团队之间的紧密协作，并对智能体的能力有清晰认识，这类多智能体研究系统就能实现大规模、稳定运行。

我们已经在看到，这些系统正在改变人们解决复杂问题的方式。

*一张 Clio 嵌入图展示了用户当前使用 Research 功能的常见方式。排名前几的使用场景包括：在专业领域中开发软件系统（10%）；撰写和优化专业与技术内容（8%）；制定业务增长与营收策略（8%）；辅助学术研究与教育资料的开发（7%）；查询和核实有关人物、地点或组织的信息（5%）

—

如何使用

多个

/Claude AI 智能体/

构建多智能体研究系统

谢谢观看