AI Agent:从RAG到多智能体
现如今,AI Agent 已经成为大模型落地企业级应用的核心形态,不再是简单的对话问答,而是具备自主规划、工具调用、记忆存储、多智能体协作的智能执行体。
本文将系统性梳理 AI Agent 开发完整知识体系,从核心底座 RAG 检索增强生成,到单智能体架构、推理范式、记忆机制,再到 Multi-Agent 多智能体协作、MCP/A2A 前沿通信协议,一站式帮开发者搭建完整的 AI Agent 开发认知体系,适配入门学习、项目实战、技术复盘全场景。
一、RAG 检索增强生成:AI Agent 的知识底座
RAG(Retrieval-Augmented Generation,检索增强生成)是所有落地类 AI 应用的核心基础,主要用于解决大模型原生能力的固有缺陷,是企业知识库、智能问答、专属 Agent 必备技术。
1.1 大模型原生三大痛点(RAG 核心解决问题)
原生 LLM 训练完成后,参数与知识完全固定,存在无法规避的三大短板,也是传统大模型无法落地企业场景的核心原因:
-
知识时效性缺失:模型静态知识库无法获取训练后的最新信息,无法适配实时资讯、迭代更新的业务文档。
-
私有知识空白:企业内部文档、业务数据、产品手册等私有数据未参与训练,模型无法应答专属业务问题。
-
模型幻觉严重:面对未知问题,模型会基于概率生成看似合理、实则错误的内容,无依据、不可溯源。
而 RAG 的核心思路就是外接动态知识库,先检索、后生成,从根源解决上述问题:实时更新知识库解决时效性问题、导入私有文档适配业务场景、依托检索内容生成答案,大幅降低幻觉,实现答案可溯源、可校验。
1.2 RAG 与 LoRA 微调的核心区别(面试/实战高频考点)
很多开发者会混淆 RAG 和模型微调,用一个通俗的比喻即可彻底区分:
RAG = 开卷考试翻书本:答题时实时查阅资料,知识可随时更新,不改动模型本身。
LoRA 微调 = 考前背诵记忆:提前把知识固化到模型中,考试直接调取记忆,无法实时更新。
详细对比维度如下:
|
对比维度 |
RAG 检索增强 |
LoRA 微调 |
|---|---|---|
|
知识更新成本 |
极低,仅更新知识库无需动模型 |
极高,需重新训练、微调、部署 |
|
推理速度 |
较慢,多一轮检索开销 |
快速,无额外检索步骤 |
|
模型影响 |
不改动模型权重、输出风格 |
彻底改变模型输出风格、话术、格式 |
|
适用场景 |
频繁更新的企业文档、知识库、实时问答 |
固定风格、话术定制、速度敏感场景 |
|
答案溯源 |
支持精准溯源,可定位具体文档片段 |
溯源困难,输出结果无明确来源 |
1.3 标准 RAG 文档处理全流程
文档预处理是决定 RAG 效果的核心环节,标准流水线如下:
原始文档 → 内容解析 → 结构化处理 → 数据清洗 → 语义重建 → 切片Chunk → 向量Embedding
针对不同格式文档,行业通用最优处理方案:
|
文档格式 |
实战推荐处理方案 |
|---|---|
|
|
layout parser 布局解析 + pdfplumber 提取文字 + OCR 识别扫描件 |
|
PPT |
python-pptx 解析,按单 Slide 切片分块 |
|
Excel |
pandas 结构化解析,或自然语言格式化转换 |
|
HTML |
基于 DOM 结构精准切片,保留页面语义结构 |
|
图片 |
OCR 文字识别 + 文本结构化整理 |
1.4 Chunk 切片核心策略(决定检索精准度)
切片策略直接影响检索召回效果,不合理的切片会导致语义断裂、信息缺失,主流实战方案如下:
-
固定大小切片:入门最简单方案,设置固定字符长度,搭配前后内容重叠(Overlap),弥补语义断裂问题,适合通用场景。
-
语义边界切片:优先按标题、段落、句子层级切割,适配 Markdown、HTML 结构化文档,最大程度保留完整语义。
-
父子层级切片:小 Chunk 用于向量检索,匹配后返回关联的大 Chunk 内容,兼顾检索精准度和上下文完整性。
-
特殊内容定制切片:代码按函数/类切割,表格整体保留不拆分,避免结构化数据损坏。
-
Contextual Retrieval 高阶方案:由 LLM 补全切片缺失语义,不修改原切片内容,大幅提升检索匹配度,适合高精度场景(成本相对较高)。
1.5 向量数据库选型指南(生产级落地)
向量数据库是 RAG 的存储核心,不同业务量级适配不同方案,避免过度运维或性能不足:
|
业务场景 |
推荐数据库 |
核心优势说明 |
|---|---|---|
|
中小项目、快速上线 |
Qdrant |
Rust 开发、性能稳定、API简洁、Docker一键部署,支持分布式,生产首选 |
|
原型验证、快速测试 |
Chroma |
零配置、pip直接安装,原生适配LangChain/LlamaIndex,开发效率极高 |
|
千万/亿级数据、企业分布式 |
Milvus |
国内主流方案,索引类型丰富,集群方案成熟,适配大规模业务 |
|
云上托管、无需运维 |
Pinecone |
全托管SaaS服务,按量付费,无需搭建集群(注意数据合规) |
|
已有PostgreSQL业务库 |
pgvector |
零额外运维,支持向量与业务数据SQL联查,适配传统业务迁移 |
行业通用迁移路径:Chroma(原型开发)→ Qdrant(生产落地)
1.6 Query 改写优化(解决语义鸿沟)
用户输入多为口语化、模糊、不完整的问句,而知识库是标准书面文本,存在语义鸿沟,极易导致检索漏召、错召。主流优化策略:
-
直接规范改写:将口语化词汇替换为专业术语,统一提问格式。
-
HyDE 假设文档检索:让LLM先生成一份假设答案,基于答案向量进行检索,大幅提升匹配精度。
-
Step-back 回溯提问:从具体问题提炼泛化核心问题,先检索宏观内容,再细化答案。
-
多Query扩展检索:将单条问题拆解为3-5个不同角度的提问,多路检索、合并去重,扩大检索覆盖范围。
1.7 Rerank 精排机制
多路检索召回后,会存在大量低相关、冗余内容。精排(Rerank)模块的核心作用是:对所有候选切片进行相关性打分、重排序,过滤无效内容,将最匹配、最高质量的内容送入LLM上下文,大幅提升生成答案的准确性。
1.8 全方位规避大模型幻觉
幻觉是RAG落地的核心痛点,实战可通过四种方案严格规避:
-
Prompt强约束:强制模型仅基于检索内容作答,禁止自由发挥。
-
置信度阈值拦截:检索内容质量过低时,直接拒绝回答,不强行生成。
-
答案溯源校验:生成答案后,逐句校验是否有检索切片支撑。
-
强制来源标注:模型输出结果必须附带对应文档来源编号,可追溯可核验。
1.9 完整 RAG 评估体系
RAG 优化不能靠体感,需标准化指标量化评估:
|
评估层级 |
核心评估指标 |
|---|---|
|
检索层 |
召回率、精准率、命中位次、覆盖率 |
|
生成层 |
答案忠实度、内容相关性、无幻觉率、完整性 |
|
线上业务层 |
用户满意度、问题解决率、响应延迟、报错率 |
1.10 高阶 RAG 主流范式
基础RAG仅支持固定检索流程,高阶范式实现了检索智能化、动态化、自主化:
-
Self-RAG:模型自主判断是否需要检索、自动评估检索结果质量,动态调整检索次数和策略。
-
CRAG 纠错RAG:检测到检索内容质量差、无匹配信息时,自动触发纠错流程,降级调用全网搜索等备用数据源。
-
GraphRAG 图谱RAG:抽取文档实体与关系构建知识图谱,通过社区聚类、Map-Reduce 汇总信息,擅长处理跨文档、关联性、综合性复杂问题。
-
Agentic RAG:将RAG封装为智能Agent,检索不再是固定流程,由Agent根据任务上下文自主决策检索时机、检索内容、检索次数。
二、AI Agent 核心架构与开发实战
RAG 解决了知识获取问题,而 AI Agent 解决自主思考、自主执行任务的问题,是大模型从「对话问答」走向「自动化执行」的核心形态。
2.1 AI Agent 四大核心模块
完整的生产级 Agent 系统,由规划、工具、记忆、反馈四大模块组成,缺一不可:
-
规划模块(Planner):理解用户最终目标,拆解复杂任务为可执行的原子步骤,制定全局执行计划。
-
工具调用层(Tool Use):对接外部API、数据库、脚本、第三方服务,突破大模型原生能力限制。
-
记忆模块(Memory):存储短期对话上下文和长期历史经验,保持对话连贯性和任务延续性。
-
执行反馈层(Reflection):评估任务执行结果,识别错误、优化流程,支持重试和动态调优。
2.2 三大经典 Agent 推理范式对比
2.2.1 ReAct 范式(思考-行动-观察)
最经典、应用最广的推理范式,核心逻辑:思考 → 行动 → 观察 → 循环迭代,直至任务完成。
优势:灵活适配动态场景,实时纠错;缺点:长任务易丢失目标、上下文扩散、单步出错易导致整体链路崩溃,无全局规划。
2.2.2 Plan-and-Execute 规划执行范式
核心流程:目标输入 → 全局规划生成任务列表 → 按序执行 → 结果汇总
优势:具备全局视角,适合结构化、流程固定的长任务;缺点:计划固化,无法根据执行反馈动态调整。
2.2.3 Reflection 自我反思范式
任务执行完成后,Agent 自主对输出结果进行批判性校验,识别漏洞、修正错误,支持多轮「生成-批评-修订」迭代,主打高质量输出。
2.2.4 范式选型与进阶优化
|
推理范式 |
规划时机 |
错误处理能力 |
适用场景 |
|---|---|---|---|
|
ReAct |
实时逐步规划 |
当场即时纠错 |
短任务、工具密集型场景 |
|
Plan-and-Execute |
事前全局规划 |
重新规划迭代 |
结构化长任务、流程固定场景 |
|
Reflection |
事后复盘优化 |
迭代修订改进 |
论文撰写、方案生成等高质量输出场景 |
进阶优化:Replan 动态重规划(执行中实时调整计划)、Reflexion 经验固化(将失败经验沉淀为技能,规避重复错误)。
2.3 复杂任务分层拆分策略
Agent 处理复杂业务任务时,标准分层拆解逻辑:
-
目标拆解:将顶层大目标拆解为多个独立子目标。
-
任务树构建:子目标进一步拆解为可直接执行的原子操作。
-
依赖分析:识别任务前后依赖关系,支持并行执行,提升效率。
-
动态调优:根据执行反馈、异常报错,实时修改任务树。
2.4 Agent 四层记忆机制(核心核心)
记忆是 Agent 拥有「持续智能」的关键,行业通用四层记忆体系,完全对标人类记忆逻辑:
|
记忆类型 |
存储位置 |
核心特点 |
对标人类记忆 |
|---|---|---|---|
|
感知记忆 |
当前输入窗口 |
瞬时有效,仅当前轮对话可见 |
感官暂存记忆 |
|
短期工作记忆 |
模型上下文窗口 |
单次对话内生效,有长度限制 |
大脑工作记忆 |
|
长期情节记忆 |
向量数据库/外部存储 |
跨会话持久存储,无容量上限 |
过往经历记忆 |
|
程序技能记忆 |
系统提示词/技能库 |
固化操作规则、工具技能、执行规范 |
肌肉记忆/技能习惯 |
高阶优化:通过知识图谱强化关系记忆,支持多跳推理;定期压缩短期记忆、沉淀长期记忆,避免上下文无限膨胀。
2.5 上下文窗口压缩方案
对话轮次越多,上下文冗余越严重,主流高效压缩策略:
-
摘要压缩:LLM 自动总结历史对话,保留核心信息,精简冗余内容。
-
滑动窗口:仅保留最近N轮有效对话,舍弃老旧历史。
-
重要性打分:对每轮对话打分,仅保留高价值核心内容。
-
结构化抽取:提取关键事实、决策、状态,以结构化数据存储替代原始对话。
2.6 赋能 LLM 强规划能力的核心手段
-
结构化输出约束:强制模型输出JSON格式任务列表,规范规划逻辑。
-
Few-shot 少样本提示:在Prompt中植入优质规划案例,引导模型模仿。
-
思维链CoT:强制模型先推理、后执行,输出完整思考过程。
-
外部规划器辅助:引入符号规划器约束模型规划逻辑,避免乱拆解任务。
三、Multi-Agent 多智能体协作系统
单一 Agent 受限于上下文窗口、能力边界、任务复杂度,无法处理超大规模、跨领域、高并发的复杂任务,Multi-Agent 分工协作成为高阶落地形态。
3.1 多智能体的核心价值
-
专业分工:不同Agent承担不同职能(写作、检索、代码、审核),各司其职。
-
并行处理:多子Agent同步执行任务,大幅提升处理效率。
-
容错协同:单点Agent出错不影响整体任务,支持相互校验、纠错、补全。
3.2 四大主流多智能体拓扑结构
|
拓扑结构 |
核心特点 |
适用业务场景 |
|---|---|---|
|
主从调度结构 |
主Agent规划调度,子Agent专项执行,中央统一协调 |
任务分工明确、需要统一管控的场景 |
|
流水线结构 |
Agent链式传递,分段处理,前序输出为后序输入 |
流程固定、前后依赖强的串行任务 |
|
对等协作结构 |
所有Agent平等通信、相互辩论、交叉验证 |
需要内容校验、观点碰撞、多维度分析场景 |
|
竞争投票结构 |
多Agent独立执行同一任务,投票筛选最优结果 |
高可靠性、低容错、高精度要求场景 |
3.3 Harness 驱动框架:多智能体的系统骨架
Harness 是 Multi-Agent 系统的核心调度框架,负责整个智能体集群的运转管控,核心能力:
-
工具统一管理:工具注册、描述、路由、权限管控。
-
循环链路控制:管控Agent思考-行动-观察循环,设置最大步数防止死循环。
-
全局状态管理:维护任务树、执行状态、中间结果、异常日志。
-
流式输出展示:实时推送Agent思考与执行过程,优化交互体验。
-
异常容错处理:捕获调用异常,自动重试、回退、降级。
四、MCP 模型上下文协议:工具标准化基石
4.1 MCP 核心定义与价值
MCP(Model Context Protocol,模型上下文协议)是 LLM 应用与外部工具、服务通信的标准化通用协议。
通俗类比:MCP 就像 AI 领域的「USB通用接口」。在 MCP 标准化之前,每一个 AI 工具都需要单独开发适配代码,接入成本极高;MCP 统一了请求、响应、调用规范,实现工具一次开发、全域复用、即插即用。
核心价值:降低工具集成成本、标准化通信链路、繁荣AI工具生态、支持快速迭代落地。
五、A2A 智能体通信协议:多Agent生态核心
5.1 A2A 协议介绍
A2A(Agent-to-Agent)是多智能体系统中,不同Agent之间自动发现、身份认证、通信交互的标准化协议,是构建去中心化智能体生态的核心底座。
5.2 Agent Card:智能体身份名片
每个独立Agent都拥有一张专属 Agent Card,相当于智能体的「身份证+能力说明书」,声明自身ID、能力、接口、鉴权方式,支持主Agent自动发现和调用。
标准Agent Card示例:
{
"id": "translator-agent-001",
"name": "Multilingual Translator Agent",
"description": "多语言翻译 Agent",
"endpoint": "https://api.example.com/agent/translate",
"capabilities": [
{
"name": "translation",
"input": {
"type": "object",
"properties": {
"text": {
"type": "string"
},
"source_lang": Object{...},
"target_lang": Object{...}
},
"required": [
"text",
"target_lang"
]
}
}
],
"auth": {
"type": "apiKey",
"in": "header"
},
"links": {
"self": "https://api.example.com/.well-known/agent.json"
}
}
六、Context Engineering 上下文工程
上下文工程是 AI Agent 开发的顶层设计思想,核心宗旨:精准管控送入大模型的所有上下文信息,最大化Agent执行效果。
核心设计原则:
-
相关性优先:过滤所有无效噪声,仅推送当前任务所需信息。
-
动态适配:根据任务阶段,动态切换系统提示、工具描述、记忆内容。
-
精简压缩:对长历史对话、长文本内容做摘要精炼,规避上下文溢出。
-
结构化组织:以结构化格式整理状态、数据、结果,替代无序文本堆叠,提升模型理解效率。
七、全文核心技术总结(落地必备)
|
核心技术 |
核心价值 |
实战落地建议 |
|---|---|---|
|
RAG |
解决模型知识滞后、私有知识缺失、幻觉问题 |
优先优化切片与精排,原型用Chroma,生产换Qdrant |
|
ReAct |
轻量化、灵活的工具调用循环 |
适配所有工具密集型短任务,入门首选 |
|
Plan-and-Execute |
具备全局规划能力,任务可控性强 |
长流程、结构化业务任务必备 |
|
Reflection |
自我纠错、迭代优化,提升输出质量 |
文案、方案、代码生成等高精场景必备 |
|
Multi-Agent |
突破单Agent能力上限,实现分工协作 |
新手优先从主从调度结构入手,简单易落地 |
|
MCP协议 |
工具标准化接入,降低集成成本 |
企业级AI应用生态搭建必备标准 |
|
A2A协议 |
智能体之间标准化通信与发现 |
大规模多智能体集群的核心基础 |
八、写在最后
AI Agent 开发已经从早期简单的 ReAct 循环,快速迭代到多智能体协作、标准化协议、精细化上下文工程的成熟阶段。技术栈和框架在不断更新,但核心逻辑始终不变:让人工智能更稳定、更精准、更自主地落地真实业务场景,替代重复性人工工作。
本文覆盖从底层RAG、单智能体架构、推理范式,到高阶多智能体、前沿通信协议的全栈知识,适合开发者系统性学习、项目实战参考、技术复盘沉淀。
更多推荐

所有评论(0)