如何使用

多个

/Claude AI 智能体/

构建多智能体研究系统

How we built our multi-agent research system

?

什么任务需要多智能体?

多个 AI 智能体如何协作?

怎么解决上下文和记忆问题?

……

最近一段时间,关于智能体的研究层出不穷。但这也为广大研究者带来一些困惑。

面对这些问题,你不妨读读 Anthropic 的这篇文章,或许能找到答案。

Anthropic原文链接

来源:Anthropic官网

发布日期:Jun 13, 2025

⬇️

在这之前,或许你想先了解……

Claude是什么?

Claude 是由 Anthropic 公司开发的一种人工智能助手,类似于 ChatGPT,DeepSeek等。它能够理解和生成自然语言,用于写作、代码、总结、问答等任务。Claude 的名字来自于信息论奠基人 Claude Shannon,象征其背后的技术基础。Claude 特别强调安全性、可控性和对话能力,适用于从日常对话到专业工作的多种场景。

你可以点击这个链接访问官网

智能体是什么?

智能体,或称 AI Agent,是能够自主完成任务的人工智能“角色”。它们通常具备目标意识、执行能力和反馈机制,能自动完成一系列步骤,例如在网页上查资料、调用工具、分析信息等。你可以把它想象成“一个能接指令办事的虚拟助手”,有时候还会多个智能体协同工作,像是一个迷你AI团队。

Anthropic是一家怎样的公司?

Anthropic 是一家由前 OpenAI 成员创立的人工智能公司,专注于打造更安全、透明、可靠的大语言模型。它强调“宪法式AI”(Constitutional AI)设计理念,让模型在训练时遵循一套明确的价值规范。目前,Anthropic 的核心产品就是 Claude 系列模型。公司总部位于美国旧金山,致力于推动有益于人类的通用人工智能发展。

⬇️以下是重点正文

How we built our multi-agent research system

如何使用多个 Claude AI 智能体构建多智能体研究系统

Claude 现在具备了“研究(Research)”功能,它能够跨越网页、Google Workspace 和其他集成工具进行搜索,以完成复杂任务。

这个多智能体系统从原型到产品的构建过程,让我们在系统架构、工具设计和提示词工程方面收获了许多关键经验。

一个多智能体系统

由多个智能体组成,这些智能体是能够

自主调用工具并持续循环运行

的大语言模型(LLMs)

,彼此协作完成任务。在 Claude 的 Research 功能中,一个主智能体会根据用户的提问规划研究流程,并调用工具来生成多个并行的子智能体,同时搜索相关信息。

多智能体系统带来了智能体间协调、评估和稳定性等全新的挑战。本文将拆解我们在实践中验证有效的设计原则,帮助你在构建自己的多智能体系统时加以借鉴。

Benefits of a multi-agent system

/多智能体系统的优势

多智能体系统(Multi-Agent System)在处理复杂、动态、开放式的研究任务中展现出显著优势。传统的研究流程往往无法预设完整路径,需要根据不断变化的信息灵活调整方向,这种高度不确定性对系统的响应能力提出了更高要求。

更重要的是,随着模型智能的提升,“协作”逐渐成为突破单体性能瓶颈的关键。就像人类社会因集体智能实现飞跃一样,AI 多智能体结构也展现出显著的协同增益。例如,Anthropic 的测试显示:在研究类任务中,由 Claude Opus 4 领导、Claude Sonnet 4 担任子智能体的系统,表现比单个 Claude Opus 4

提升了 90.2%

Claude 的 Research 功能采用

“主智能体 + 子智能体”

的架构,主智能体负责制定策略并分派任务,多个子智能体并行工作,各自探索不同的信息方向。这种结构不仅提高了效率,也实现了信息压缩与分工协作,有效应对了研究任务中信息碎片化、路径依赖强的问题。

多智能体系统的核心优势在于能够通过充分的 token 消耗来解决问题。分析显示,在 BrowseComp 评估(该测试衡量浏览型智能体定位高难度信息的能力)中,三个因素共同解释了

95% 的性能差异。研究发现:

token 消耗量单独解释了 80% 的差异;

工具调用次数和模型选择构成是另外两个关键因素。

当然,这种架构也有一个

缺点

:在实际应用中,它们会

非常快速地消耗 tokens

。根据 Anthropic 统计,智能体通常会使用大约是普通聊天交互

4 倍

的 tokens,而多智能体系统的 token 消耗甚至是聊天的

15 倍

左右。

智能体通常消耗约为普通聊天的 4 倍 tokens

多智能体消耗约为普通聊天的 15倍 tokens

⬇️

多智能体系统最擅长的场景

需要大量并行处理、信息量超出单一上下文窗口、以及需要与大量复杂工具交互的任务

Architecture overview for Research

/

架构

Anthropic

的 Research 系统采用多智能体架构,遵循

“协调者-执行者(orchestrator-worker)”

模式

,其中主智能体负责整体流程的协调,同时将任务分派给多个并行运行的专门子智能体。

*多智能体架构的实际运作方式是:用户的查询会先由主智能体接收处理,随后主智能体创建多个专门化的子智能体,分别并行地搜索问题的不同方面。

当用户提交查询后,主智能体会对其进行分析、制定策略,并生成多个子智能体,同时从不同方面展开探索。如上图所示,这些子智能体通过反复调用搜索工具,起到“智能过滤器”的作用。

传统的

增强式检索(RAG)方法

依赖的是静态检索:也就是说,它们会提取一批与输入查询最相似的文本片段(chunks),并基于这些片段生成回答。而我们所采用的架构则是多步骤动态搜索,能够主动查找相关信息,持续适应中间发现,并在此基础上分析结果、生成高质量的回答。

这张流程图展示了我们多智能体 Research 系统是如何工作的

➡️

/01

当用户提交查询后,系统会创建一个 LeadResearcher 智能体。它会先思考研究策略,并将计划写入 Memory,以防上下文窗口超出 200,000 tokens 时被截断,确保关键信息得以保留。

/02

LeadResearcher 会生成一个或多个具有明确任务的 Subagents,并行执行各自的研究方向。每个 Subagent 会独立进行网页搜索、使用工具,并通过 interleaved thinking 对结果进行分析,再将发现返回给 LeadResearcher。

/03

主智能体会整合所有结果,并判断是否需要继续研究。如果还不够,它可以调整策略或创建新的 Subagent 继续查找。

/

04

当收集的信息足够后,系统会调用 CitationAgent,它负责处理研究内容并添加准确的引用,确保所有结论都能追溯来源。

/05

最后,带有引用的完整研究结果返回给用户。

Prompt engineering and evaluations for research agents

/智能体的提示词工程和评价体系

多智能体系统与单智能体系统有一些关键性的不同,其中最显著的是协调复杂度会迅速上升。在早期测试中,

智能体曾犯过一些典型错误

,比如:面对简单问题却生成了 50 个子智能体、大量在网上搜索根本不存在的信息、彼此之间频繁更新进度反而互相干扰。

由于每个智能体的行为都是由提示词(prompt)驱动的,因此

提示词设计(prompt engineering)

成为我们优化这些行为的主要手段。下面是我们在为智能体设计提示词时总结出的一些

原则

像你的智能体那样思考

要改进提示词,就必须理解它们产生的实际效果。要设计出有效的提示词,关键在于建立对智能体行为的准确心理模型,这样才能清晰识别出最需要优化的部分。

教会协调者如何分派任务

在我们的系统中,主智能体会将用户的问题拆解为多个子任务,并将这些任务说明发送给子智能体。每个子智能体都需要明确的目标、输出格式、应使用的工具与信息来源指导,以及清晰的任务边界

如果任务描述不够详细,智能体可能会重复劳动、遗漏关键点,或者找不到所需信息。起初,我们允许主智能体只给出简单的指令,比如“研究半导体短缺”,但很快发现这种表述太模糊,容易被误解,导致多个子智能体重复查找相同的信息,或者朝着不同方向跑偏。

根据问题复杂度匹配投入力度

智能体往往难以判断不同任务所需的合理投入,因此我们在提示词中嵌入了规模控制规则。比如:简单的事实查询只需要 1 个智能体,调用工具 3 到 10 次即可;需要直接对比的问题,可能需要 2 到 4 个子智能体,每个调用工具 10 到 15 次;而复杂的研究任务可能需要 10 个以上的子智能体,并进行明确的职责划分。

这些明确的指导规则能帮助主智能体

合理分配资源,避免在简单问题上投入过多

工具的设计与选择至关重要

智能体与工具之间的接口,就像人类与计算机的界面一样重要。选择合适的工具不仅能提高效率,有时更是完成任务的前提。例如,如果一个智能体试图在网页上搜索某个只存在于 Slack 聊天记录中的信息,那它一开始就注定会失败。

在 MCP 服务器为模型提供外部工具接入能力的环境下,这个问题会进一步加剧——因为智能体会接触到各种质量参差不齐的工具描述,导致使用判断失误。

因此我们为智能体设定了明确的启发式规则,例如:先审视所有可用工具、根据用户意图匹配使用场景、在进行广泛探索时优先使用网页搜索、在面对具体任务时优先使用专业化工具而非通用工具。

如果工具描述不清晰,智能体很容易走上完全错误的方向。因此

每一个工具都必须具备清晰的用途说明和明确的功能边界。

让智能体自我改进

Anthropic发现 Claude 4 系列模型本身就是非常优秀的提示词工程师。当它们被提供一个提示词和相应的失败模式时,能够诊断出失败原因,并提出改进建议。

Anthropic创建了一个工具测试智能体。当它被分配到一个有缺陷的 MCP 工具时,会尝试使用该工具,并根据使用过程中遇到的问题重新撰写工具描述,以避免未来出现类似失败。

通过反复测试几十次,这个智能体能够识别出工具中的关键细节与漏洞。这种提升工具易用性的过程,使得后续使用新版描述的智能体在任务完成时间上减少了

40%

,因为它们可以避开大多数常见错误。

从广泛探索开始,再逐步聚焦

搜索策略应当像专家级的人类研究一样:先了解整体概况,再深入具体细节。但智能体往往习惯使用冗长且过于具体的查询语句,结果反而返回的信息很少。为了解决这个问题,我们通过提示词引导智能体从简短、宽泛的查询开始,先评估可获得的信息,再逐步收窄关注点。

引导思考过程

扩展思考模式(extended thinking)

会引导 Claude 在生成内容时展示更多思维过程,这相当于一个可控的“草稿板”。主智能体会利用这种方式来规划策略,比如判断使用哪些工具、任务的复杂程度、应生成多少个子智能体,以及每个子智能体的职责是什么。

Anthropic的测试表明,扩展思考模式可以提升指令执行力、推理能力和效率。子智能体也会先进行规划,然后在获取工具结果后通过

interleaved thinking(交错式思考)

来评估信息质量、发现遗漏,并优化下一轮查询。这让子智能体在适应不同任务时更加高效。

并行调用工具带来速度与性能的飞跃

复杂的研究任务天然需要查询多个信息来源。早期版本的智能体采用的是顺序搜索,速度非常慢。为提升效率,我们引入了

两种并行机制

主智能体可以同时启动 3–5 个子智能体,而不是一个一个地生成;

每个子智能体可以同时调用 3 个以上的工具,并发处理多个信息源。

这些改进使得在处理复杂查询时,整体研究时间最多缩短了

90%

,不仅效率提升显著,覆盖的信息范围也远超传统系统。Research 系统因此能在几分钟内完成原本可能需要几个小时的任务。

Production reliability and engineering challenges

/生产环境下的

可靠性

工程挑战

在传统软件中,Bug 可能会导致某个功能失效、性能下降或服务中断。而在智能体系统中,即便是细微的改动,也可能引发大范围的行为变化,这使得为复杂、需要长期维护状态的智能体编写稳定代码变得极具挑战。

智能体具备状态性,错误会被放大

智能体通常会运行较长时间,并在多次工具调用之间持续维护内部状态。因此,系统不仅要能可靠地执行代码,还必须具备处理执行过程中的各种错误的能力。否则,哪怕是轻微的系统故障,也可能对智能体造成灾难性影响。

一旦出错,我们无法简单地从头重启流程——这种方式代价高昂,且用户体验极差。

而 Claude 构建的智能体的灵活适应性,与传统系统的可控性机制结合使用,如

重试逻辑和定期设置检查点

(checkpoints),来提升系统稳定性。

调试需要新的方式

智能体在运行时会做出动态决策,即使使用相同的提示,结果也具有非确定性,这使得调试变得更加困难。通过添加完整的

生产追踪

,Anthropic 能够系统地诊断智能体失败的原因并修复问题。

部署需要精细协调

多智能体系统是由提示词、工具和执行逻辑构成的高度状态化网络,而且这些系统几乎是持续运行的。也就是说,在我们部署更新时,各个智能体可能正处于流程的不同阶段。

因此,我们必须避免“好心办坏事”的代码改动破坏正在运行的智能体。我们不能强制所有智能体同时切换到新版本,而是使用一种

彩虹部署(rainbow deployments)

策略:逐步将流量从旧版本平滑切换到新版本,两个版本会并行运行,确保不中断任务。

同步执行会造成瓶颈

目前,主智能体是同步调用子智能体的:它会等待一批子智能体全部完成后,才继续下一步。这种方式虽然便于协调,但也带来了

信息流的瓶颈

例如:主智能体无法实时引导子智能体、子智能体之间无法相互协作,而整个系统可能因为某个子智能体还在搜索而被“卡住”。

如果改用异步执行,将允许各智能体并行工作,并在需要时动态生成新的子智能体。但与此同时,也会引入新的复杂性,比如结果协调、状态一致性维护、跨智能体的错误传递等挑战。

随着模型处理更长、更复杂任务的能力提升,我们相信性能上的提升将足以抵消这些新挑战带来的开发成本。

⬇️

Conclusion

/总结

在构建 AI 智能体时,

“最后一公里”往往成了最漫长的路。

那些在开发者机器上能正常运行的代码,要真正变成可靠的生产系统,仍需大量工程投入。

在智能体系统中,

错误具有复合效应

:对传统软件而言的小问题,可能会让整个智能体流程完全偏离轨道。一旦某一步失败,智能体可能就会走向完全不同的路径,最终导致不可预测的结果。因此,从原型到落地生产之间的差距,常常比预期更大。

尽管如此,多智能体系统在处理开放式研究任务中展现出了巨大价值。

只要有精细的工程设计、全面的测试流程、细致的提示词与工具设计、可靠的运维机制,以及产品、工程与研究团队之间的紧密协作,并对智能体的能力有清晰认识,这类多智能体研究系统就能实现大规模、稳定运行。

我们已经在看到,这些系统正在改变人们解决复杂问题的方式。

*一张 Clio 嵌入图展示了用户当前使用 Research 功能的常见方式。排名前几的使用场景包括: 在专业领域中开发软件系统(10%) ;撰写和优化专业与技术内容(8%) ;制定业务增长与营收策略(8%) ;辅助学术研究与教育资料的开发(7%) ;查询和核实有关人物、地点或组织的信息(5%)

如何使用

多个

/Claude AI 智能体/

构建多智能体研究系统

谢谢观看