AI Agent架构优缺点浅析和选型

sinat_39125415

338人浏览 · 2026-07-04 10:10:44

sinat_39125415 · 2026-07-04 10:10:44 发布

1. 为什么「架构」比「模型」更重要

2024 年前后，行业焦点是「哪个 LLM 更强」。到 2025–2026 年，共识已经转移：生产级 Agent 的瓶颈，80% 在架构与工程，20% 在模型能力。

一个典型的 Agent 系统至少包含：

组件	职责
推理循环	决定何时思考、何时行动、何时停止
工具层	API、数据库、代码沙箱、浏览器等外部能力
记忆层	会话上下文、用户偏好、组织知识
编排层	多步流程、分支、重试、人机协同
治理层	权限隔离、审计、护栏、可观测性

同一模型，用 ReAct 单循环 vs. Plan-and-Execute vs. 层级多 Agent，在成本、可靠性、可调试性上可能相差一个数量级。因此，先选对架构，再选框架和模型，是当前工程实践的基本顺序。

2. 主流AI Agent架构分类体系

业界已收敛出一套「四象限 + 八模式」分类（参考 Digital Applied 2026 Taxonomy 等综述）：

大多数生产系统并非单一模式，而是 2–3 种模式的组合。例如：ReAct + Reflexion + Human-in-the-Loop，或 Supervisor-Worker + Verifier-Critic + Graph 编排。

3. 单 Agent 架构模式（由简到繁）

3.1 ReAct（Reason + Act）—— 默认基线

原理：在 Thought → Action → Observation 的 tight loop 中交替推理与工具调用，根据每步观察动态调整策略。

优点：

实现简单，几乎所有框架都内置支持
适合开放式、探索型任务（研究、排障、信息搜集）
对中途变化的环境适应性强
Token 开销相对可控（无全局规划阶段）

缺点：

存在「局部最优陷阱」：每步决策只看当前状态，难以保证全局最优
长链路任务容易「推理漂移」（reasoning drift）
复杂依赖关系（并行步骤、条件分支）难以自然表达
工具输出过大时迅速耗尽上下文窗口

适用场景：客服问答、代码助手、轻量 research agent、MVP 验证。

不适用：强顺序依赖的多步工作流、需审计的合规流程、步骤数 >15 的复杂任务。

3.2 Plan-and-Execute（规划-执行分离）

原理：Planner 先生成完整多步计划（可为线性列表或 DAG），Executor 逐步执行；Planner 可在执行失败时 replan。

优点：

全局视角，减少逐步决策的短视性
Planner 可用强模型，Executor 可用便宜模型 → 成本优化
计划可审计、可人工预审（Human-in-the-Loop 友好）
DAG 形式支持并行执行独立子任务（2025 年 AAAI 论文 Beyond ReAct 在此方向有 SOTA 结果）

缺点：

计划生成后环境变化时，replan 成本高
两阶段分离增加延迟（首 token 时间更长）
计划质量成为单点瓶颈；计划错误会被放大
对需要大量探索的任务不如 ReAct 灵活

适用场景：ETL 流水线、报告生成、多 API 编排、企业审批流、ToolQA 类复杂工具链任务。

变体：

RP-ReAct（2025 论文）：Reasoner-Planner Agent 负责战略级子步骤规划与结果分析，Proxy-Execution Agent 用 ReAct 执行具体工具调用，并采用外部存储管理大工具输出——专为企业私有化部署设计。

3.3 Reflexion（反思/自修正）

原理：Agent 完成任务后，Critic（可以是同一模型或独立模型）评估输出，生成反思文本写入记忆，下次运行时参考历史反思改进。

优点：

对重复性失败模式效果显著（如格式错误、遗漏步骤）
可与 ReAct 叠加，改动小、收益高
LangChain 2026 调研显示 32% 从业者将输出质量列为部署首要障碍，Reflexion 直接针对此痛点

缺点：

增加 1–2 轮 LLM 调用，延迟和成本上升
反思质量依赖 Critic 能力；可能「越反思越偏」
需要持久化反思存储

适用场景：代码生成、结构化输出、质量敏感但可接受多轮迭代的任务。

3.4 Tree of Thoughts / Graph Search（搜索型推理）

原理：在决策点展开多条推理路径（树或图），用启发式或 LLM 评分选择最优路径。

优点：

理论上可突破单路径 ReAct 的局部最优
适合有明确评估标准的任务（数学、逻辑谜题）

缺点：

计算开销极大（分支数 × 深度 × LLM 调用）
生产环境极少全量部署；多用于研究或高价值单次决策
可观测性和调试复杂

适用场景：研究原型、高 stakes 单次决策（如医疗辅助诊断候选方案生成）。

3.5 Agentic RAG（Agent 控制检索）

这是 2025–2026 年知识增强 Agent 的主流方向，与传统固定 RAG 管道有本质区别：

模式	检索时机	灵活性
Naive RAG	固定：先检索再生成	低
Corrective RAG (CRAG)	按置信度分级处理	中
Self-RAG	模型自决是否检索	中高
Agentic RAG	Agent 决定何时、如何、检索几次	高

Agentic RAG 子模式：

RAG as Tool：检索器作为一个 tool，Agent 按需调用
Multi-step RAG：多轮检索-推理-再检索
Tool RAG：当工具数 >50 时，先语义检索相关工具子集再注入 context（解决 tool selection 退化问题）
Graph RAG：结合知识图谱做多跳推理

优点：动态适应查询复杂度，支持多源知识融合。
缺点：链路更长，幻觉与错误检索的复合风险更高，需要 CRAG/Self-RAG 等纠错机制。

4. 多 Agent 架构模式

4.1 Supervisor-Worker（监督者-工作者）

原理：Supervisor Agent 负责任务分解、路由、质量门控、结果合成；Worker Agent 专注领域执行，通常工具集隔离。

优点：

职责清晰，可测试、可审计
支持并行 scatter-gather
工具权限可按角色隔离（Governed Autonomy 架构核心）
符合企业「审批链」心智模型

缺点：

Supervisor 是单点瓶颈与单点故障
协调开销（Agent 间 context 传递）显著
需要设计清晰的 Agent 间契约（输入/输出 schema）
调试需还原跨 Agent 因果链

适用场景：贷款审批、合规审查、复杂代码生成（architect + coder + reviewer）、Databricks Agent Bricks / Google ADK 等企业方案。

规模建议：Worker 数量控制在 3–7 个；超过 7 个考虑嵌套层级 Supervisor。

4.2 Role-based Crew（角色协作，CrewAI 范式）

原理：定义 Agent 角色（goal、backstory、tools），通过 Task 链或 Flow 事件驱动协作；Agent 不直接互发消息，而是传递 Task 输出。

优点：

心智模型直观（「组建一个团队」）
快速原型，CrewAI 内置 100+ 工具
Pydantic 结构化输出验证
Flows 提供事件驱动控制，弥补纯 Crew 的线性局限

缺点：

无原生持久化/checkpoint——步骤 7/10 失败需从头开始
长时运行工作流运维成本高
可观测性弱于 LangGraph + LangSmith
已从 LangChain 解耦，生态独立

适用场景：内容营销流水线、市场调研、快速 PoC、角色分工明确的短流程。

4.3 Debate / Critic-Verifier（辩论与验证）

原理：多个 Agent 对同一问题提出方案并互相 critique，或由独立 Verifier 打分/拒绝。

优点：

高 stakes 场景下显著降低幻觉和逻辑错误
输出可解释性更强

缺点：

Token 成本成倍增长
可能陷入「无效辩论循环」
需要终止条件设计

适用场景：法律合同审查、医疗 second opinion、安全关键代码 review。

4.4 Message Passing / Group Chat（AutoGen 范式）

原理：每个 Agent 是独立 Actor，通过异步消息协调；GroupChat 选择下一发言者。

优点：

组合性极强，可动态增减 Agent
适合对话式协作、研究实验
AutoGen v0.4 基于 Actor 模型，支持 .NET + Python（AG2 社区 fork）

缺点：

无 Agent 拥有全局视图，调试 = 读消息日志
AutoGen 官方已进入 maintenance mode，Microsoft 推荐迁移至 Microsoft Agent Framework (MAF)
持久化、HITL、fault recovery 需自建

适用场景：学术研究、对话式 brainstorming；新生产项目优先考虑 MAF 或 LangGraph。

5. 编排拓扑：三种底层协调范式

这是选框架时最应关注的维度——不是「哪个框架 star 多」，而是「你的失败模式能否被该拓扑调试」。

维度	Graph（LangGraph）	Crew（CrewAI）	Message（AutoGen/MAF）
状态模型	Typed StateGraph + reducer	Pydantic BaseModel + Flow	Actor 私有状态 + 消息
持久化	Postgres/SQLite checkpoint	无自动 resume	手动 save/load
Fault Recovery	从 checkpoint 自动恢复	从头重跑	需自建
HITL	`interrupt()` 原生可恢复	基础支持	UserProxy / MAF approval gates
Time Travel	支持 replay 任意 checkpoint	不支持	不支持
调试方式	看状态图 + trace	看 process events	读消息日志
学习曲线	中高	低	中

LangGraph 已成为长时运行、需审计、需 HITL 的生产首选（Klarna、Uber、Replit 等案例）。其本质是有向图状态机：Node = 计算单元，Edge = 条件路由，Checkpoint = 持久化快照。

Microsoft Agent Framework 是 2025–2026 年 Azure 生态的统一答案，合并 AutoGen Actor 原语 + Semantic Kernel 的企业治理能力，适合 .NET/Python 混合栈。

OpenAI Agents SDK（Swarm 的生产继任者）强调 handoffs（Agent 间委托）、guardrails、tracing 作为一等概念，与 OpenAI 模型和 Built-in Tools（web search、file search、computer use）深度集成。

6. 横切能力层

6.1 MCP（Model Context Protocol）

Anthropic 开源、现已成为工具与数据接入的事实标准。Host 应用通过 MCP Client 连接 MCP Server，Server 暴露 Tools、Resources、Prompts 三类原语。

2026-07-28 RC 版重大变化：

无状态核心：移除 session handshake，每请求自描述
Tasks 扩展：长时任务通过 task handle 异步驱动
MCP Apps：UI 组件与 Agent 交互

架构意义：Agent 框架（LangGraph / OpenAI SDK / CrewAI）负责「怎么编排」，MCP 负责「怎么连外部世界」。二者互补，不应混为一谈。

6.2 记忆分层

类型	内容	典型实现
Working Memory	当前会话 in-context	Context window
Episodic Memory	历史交互记录	Vector DB / Mem0
Semantic Memory	事实与知识	RAG / Knowledge Graph
Procedural Memory	工具使用启发式	System prompt / LoRA

Mem0 适合个性化；Letta（原 MemGPT）适合自编辑记忆块；Zep/Graphiti 适合时序推理；LangMem 适合 LangGraph 生态。

关键原则：Memory ≠ RAG。Memory 是「这个用户/session 发生了什么」，RAG 是「组织知道什么」。

6.3 Human-in-the-Loop（HITL）

生产 Agent 几乎都需要 HITL，但实现深度差异巨大：

LangGraph interrupt()：执行暂停 → checkpoint → 人工输入 → 精确恢复
CrewAI：基础支持，无原生 resume
OpenAI Agents SDK：guardrails 可触发人工审核

合规、金融、医疗场景，HITL 不是可选项。

6.4 可观测性

2026 年 OpenTelemetry 成为 Agent trace 的默认格式。必备能力：

每次 LLM 调用、tool call、retrieval 的可追溯 span
成本归因（按 Agent / 按用户 / 按任务）
评估闭环（LangSmith、Braintrust、Future AGI 等）

没有 observability 的 Agent，等于「黑盒自动化」——无法上线。

7. 框架选型对比

框架	架构范式	最佳场景	主要风险
LangGraph	Graph 状态机	长时工作流、HITL、生产 SLA	学习曲线陡
CrewAI	Role + Flow	快速原型、角色分工短流程	无 checkpoint，长流程脆弱
OpenAI Agents SDK	Handoff 委托	OpenAI 栈、Built-in Tools	厂商绑定
Microsoft Agent Framework	Actor + Workflow	Azure/.NET 企业栈	生态较新
AutoGen / AG2	Group Chat	研究、遗留项目	官方 maintenance
Google ADK	层级 Agent	GCP 生态	相对封闭
Dify / Coze 等低代码	可视化编排	非工程团队、简单 Bot	复杂逻辑受限

8. 选型决策

三条铁律（2026 行业共识）：

默认单 Agent：多 Agent 的协调 tax 常被低估。LangChain 2026 报告与多篇生产复盘均指出，多数「多 Agent 系统」用单 Agent + 更好 prompt/tool 即可达到同等效果。
先测量失败模式，再选架构：是 planning 瓶颈？→ Plan-and-Execute。是重复性错误？→ Reflexion。是输出质量？→ Verifier。是 context 溢出？→ 外部记忆 + Tool output 压缩。
可观测性先于复杂度：每增加一个 Agent 或一层编排，debug 难度指数上升。没有 trace 的多 Agent = 技术债。

9. 按场景的具体推荐

9.1 企业内部知识助手

架构：ReAct + RAG as Tool + CRAG 纠错
框架：LangGraph（如需 HITL 审批）或 Dify（快速上线）
工具接入：MCP Server 连接内部 Wiki/Confluence/数据库
记忆：Mem0 或 LangMem 做用户级个性化

9.2 复杂 API 编排（如「查库存 → 算运费 → 下单 → 发通知」）

架构：Plan-and-Execute（DAG 计划）+ 结构化 tool schema
框架：LangGraph（checkpoint 必须）
模型策略：Planner 用强推理模型，Executor 用便宜模型

9.3 代码生成 Agent

架构：ReAct + Reflexion + Sandbox 执行
框架：LangGraph 或 Cursor Agent 类自建循环
关键：代码执行沙箱（E2B、Modal、Daytona）+ 测试工具作为 verifier

9.4 金融/合规审查

架构：Supervisor-Worker + Critic-Verifier + HITL interrupt
框架：LangGraph（原生 interrupt + audit trail）
治理：Role-based tool isolation，Worker 不可越权调用

9.5 快速 MVP / Demo

架构：ReAct 单 Agent 或 CrewAI 3 角色 Crew
框架：CrewAI 或 OpenAI Agents SDK
注意：PoC 架构 ≠ 生产架构，提前规划迁移路径

9.6 研究型 / 探索型 Agent

架构：ReAct + Agentic RAG + 多源 Tool
框架：LangGraph（灵活分支）或 OpenAI Agents SDK（Built-in web search）
可选：ToT 用于高价值决策点

10. 2026 趋势与反模式

趋势

Planning 与 Execution 解耦成为复杂任务主流（RP-ReAct、Planner-centric DAG）
MCP 成为工具层标准，框架层竞争加剧
OpenTelemetry trace 成为 Agent 可观测性基线
Memory 产品化（Mem0、Letta、Zep 独立成层）
Computer Use Agent（浏览器/桌面自动化）与 MCP 工具链融合
Eval-driven development：先定义 eval set，再迭代架构

反模式（务必避免）

❌ 一上来就 Multi-Agent Swarm：通信开销和 debug 噩梦
❌ 把 RAG 当 Memory 混用：导致 context 污染和检索噪声
❌ 工具列表无限膨胀：>30 工具应引入 Tool RAG
❌ 无 checkpoint 的长工作流：一次失败全部重来
❌ 无 eval 的架构迭代：无法判断是模型问题还是架构问题
❌ 忽略 context 经济学：大 tool output 不压缩，再强的模型也会退化

11. 总结

2026 年的 AI Agent 架构已从「实验玩具」进入「工程学科」阶段。核心结论：

层次	推荐默认	升级路径
推理循环	ReAct	→ Plan-and-Execute → DAG Planner
质量保障	结构化输出 schema	→ Reflexion → Critic-Verifier
知识	RAG as Tool	→ Agentic RAG + CRAG
多 Agent	先不要	→ Supervisor-Worker → 嵌套层级
编排	简单循环	→ LangGraph 状态机
工具接入	直接 API	→ MCP Server
治理	Prompt 约束	→ HITL + OTel + Eval