Anthropic实践发现：Multi-Agent系统的核心仍然是Prompt设计！

近期Anthropic分享了他们在构建多智能体（multi-agent）研究系统的最佳实践，核心是**8条研究智能体的提示工程与评估原则**：

朝阳区靓仔_James

1004人浏览 · 2025-06-20 22:37:08

朝阳区靓仔_James · 2025-06-20 22:37:08 发布

近期Anthropic分享了他们在构建多智能体（multi-agent）研究系统的最佳实践，核心是8条研究智能体的提示工程与评估原则：

Claude 现在具备研究能力，能够通过网络搜索、Google Workspace 以及任何集成工具来完成复杂的任务。

Anthropic多智能体研究系统的架构采用协调者-工作者模式：系统采用一个首席智能体（Lead Agent）和多个子智能体（Subagents）的架构。首席智能体负责协调和分配任务，子智能体并行执行具体任务。

对比传统的RAG方法使用静态检索，Anthropic的架构使用多步骤搜索，动态地查找相关信息，适应新发现，并分析结果以制定高质量的答案。

研究智能体的提示工程与评估

多智能体系统与单智能体系统有关键区别，包括协调复杂性的快速增长。早期的智能体会出现错误，例如为简单查询生成 50 个子智能体，在网络上无休止地搜索不存在的来源，或者通过过多的更新相互干扰。由于每个智能体都由Prompt引导，因此提示工程是改进这些行为的主要手段：

像你的智能体一样思考。 要迭代提示，你必须理解它们的效果。使用系统中的确切提示和工具，然后逐步观察智能体的工作。这立即揭示了失败模式：智能体在已经获得足够结果时继续运行，使用过于冗长的搜索查询，或者选择错误的工具。有效的提示依赖于开发智能体的准确心理模型，这可以使最具影响力的更改变得显而易见。
教协调者如何委派任务。 首席智能体将查询分解为子任务，并向子智能体描述这些任务。每个子智能体需要一个目标、输出格式、关于要使用的工具和来源的指导以及清晰的任务边界。如果没有详细的任务描述，智能体会重复工作、留下空白，或者找不到必要的信息。最初允许首席智能体给出简单、简短的指令，如“研究半导体短缺”，但发现这些指令往往过于模糊，导致子智能体误解任务或者与其他智能体进行完全相同的搜索。
根据查询复杂性调整工作量。 智能体难以判断不同任务的适当工作量，因此在Prompt中嵌入了调整规则。简单的事实查找只需要 1 个智能体进行 3-10 次工具调用，直接比较可能需要 2-4 个子智能体，每次调用 10-15 次，而复杂的研究可能需要超过 10 个子智能体，并且每个子智能体都有明确的职责划分。这些明确的指导方针有助于首席智能体高效分配资源，并防止在简单查询上过度投入，。
工具设计和选择至关重要。智能体与工具的接口和人机界面一样重要。使用正确的工具是高效的——很多时候，这是绝对必要的。为智能体提供了明确的启发式规则：例如，先检查所有可用的工具，将工具的使用与用户意图相匹配，通过网络搜索进行广泛的外部探索，或者优先选择专业工具而不是通用工具。糟糕的工具描述可能会让智能体走上完全错误的道路，因此每个工具都需要有明确的目的和清晰的描述。
让智能体自我改进。 Claude 4 模型可以成为出色的提示工程师。当给定一个提示和一个失败模式时，它们能够诊断智能体失败的原因并提出改进建议。甚至创建了一个工具测试智能体——当给定一个有缺陷的 MCP 工具时，它会尝试使用该工具，然后重写工具描述以避免失败。通过多次测试工具，这个智能体能够发现关键的细微差别和漏洞。这种改进工具易用性的过程使后续使用新描述的智能体的任务完成时间减少了 40%，因为它们能够避免大多数错误。
先广泛探索，然后逐步缩小范围。搜索策略应该像专家人类研究一样：先探索整体情况，然后再深入具体细节。通过提示智能体先从简短且广泛的查询开始，评估可用信息，然后逐步缩小关注范围，从而抵消了这种倾向。
引导思考过程。扩展思考模式（导致 Claude 以可见的思考过程输出额外Token）可以作为一种可控的草稿。首席智能体使用思考来规划其方法，评估哪些工具适合任务，确定查询的复杂性和子智能体的数量，并定义每个子智能体的角色。
并行工具调用改变了速度和性能。复杂的研究任务自然涉及探索许多来源。为了提高速度，引入了两种并行化：（1）首席智能体同时启动 3-5 个子智能体，而不是依次启动；（2）子智能体同时使用 3 个或更多的工具。这些改变将复杂查询的研究时间缩短了高达 90%，使研究能够在几分钟内完成更多工作，而不是像其他系统那样需要数小时，同时覆盖了更多的信息。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

『低代码开发的终极形态：AI 驱动的可视化编程』

CSDN-OPC开发者社区

上下文工程完全指南：打造高确定性AI Agent的四大支柱（建议收藏）

CSDN-OPC开发者社区

Python内存管理终极指南：优化大型数据集处理性能的5个技巧

Python内存管理在处理大型数据集时常常成为性能瓶颈，掌握有效的内存优化技巧能让你的程序运行速度提升数倍。在python-mastery课程中，我们深入探讨了如何通过不同的数据结构选择来显著降低内存使用。## 🚀 为什么Python内存管理如此重要？当处理像芝加哥公交系统数据（包含577,000多行记录）这样的大型数据集时，内存使用可能从12MB激增到50MB以上！这不仅仅是数字问题，