从“会聊天”到“会做事”:一篇看懂 AI Agent 架构的底层逻辑
从“会聊天”到“会做事”:一篇看懂 AI Agent 架构的底层逻辑
很多人刚接触大模型时,对 AI 的印象还停留在一个阶段:
- 你问一句,它答一句
- 你给个 Prompt,它生成一段文本
- 它很聪明,但也仅限于“说得像懂”
但当你开始学习 Google 的 AI Agents 课程后,会很快发现:真正值得关注的变化,不是模型更会聊天了,而是 AI 开始具备“完成任务”的能力。
这就是 AI Agent(智能体)的核心意义。
它不再只是一个被动的“文本生成器”,而是一个能围绕目标进行理解、规划、调用工具、执行动作、根据结果继续调整的系统。这门课程的主线也正是围绕这件事展开:如何把生成式 AI 从 Demo 变成能落到生产环境的系统。
摘要(先看结论)
- Agent 擅长“完成任务”,LLM 擅长“回答问题”;前者是任务闭环,后者是文本响应。
- 一个可落地的 Agent,最少由三部分组成:Model(决策)+ Tools(行动)+ Orchestration Layer(编排)。
- Agent 的灵魂是控制回路:Think → Act → Observe → Think,在多轮中迭代推进目标。
- 能力分层可以用 Level 0-4 评估:从纯模型到工具调用、多步策略、多智能体协作与自我扩展。
- 生产落地的难点不在“模型有多大”,而在工程化:工具契约、上下文与记忆、评测、可观测性、安全与治理。
快速导航(按你关心的问题)
| 你想搞清楚什么 | 直接看 | 你会得到什么 |
|---|---|---|
| Agent 和普通大模型差在哪 | 一 | 任务闭环与工作方式的本质差异 |
| 一个 Agent 的最小架构是什么 | 二 | 三件套的职责边界与分工 |
| Agent 怎么“跑起来” | 六 | Think-Act-Observe 循环的工程视角 |
| 为什么 Agent 不是“高级 Prompt” | 七 | 多步任务的不可替代性与边界 |
| 我该做哪一层复杂度的 Agent | 八 | Level 0-4 的能力分级与选型 |
| Demo 到生产要补哪些关键能力 | 九 | 工具、记忆、评测、可观测与权限治理抓手 |
一、AI Agent 到底和普通大模型有什么区别?
先说结论:普通大模型擅长“回答问题”,AI Agent 擅长“完成任务”。
1)普通 LLM:像一个知识型顾问
你问它问题,它基于训练数据和当前上下文生成回答。它能解释概念、总结资料、润色文案,但它的输出形态本质上仍然是“文本”。
典型任务是:
- 解释什么是 Transformer
- 帮我写封邮件
- 总结这篇文章
这类任务往往是“单轮理解 + 单次输出”。
2)AI Agent:像一个会做事的执行者
Agent 的目标不是“把话说对”,而是“把事情做成”。
例如:
- 帮我安排团队出差
- 帮我查询订单并回复客户
- 帮我比较竞品价格并产出结论
- 帮我收集信息、分析、再执行后续操作
这类任务通常不是一步能完成的,它需要持续做决策并闭环推进:
- 理解目标与约束
- 拆解步骤与优先级
- 选择合适的工具
- 执行动作
- 读取结果与更新状态
- 基于新信息继续下一步,直到完成或失败退出
分界线在于:Agent 是“任务闭环”,普通 LLM 是“文本响应”。
二、一个 AI Agent 的最小可用架构:3 个部分就够了
把 AI Agent 拆到底层,它并不神秘。一个可运行且可扩展的 Agent,至少由三部分组成:
- Model(模型):大脑与决策中枢
- Tools(工具):手和脚,连接外部世界
- Orchestration Layer(编排层):总指挥,管流程与状态
你可以把它想象成一个“会思考的员工”:
- 模型负责想和选
- 工具负责做
- 编排层负责把“想”和“做”组织成稳定的流程
三、Model:Agent 的大脑,不只是“会生成字”
很多人一提到 Agent,就默认“核心就是 LLM”。这话只对一半。
LLM 确实是 Agent 的推理核心,但在 Agent 里,它最重要的工作不是写一段漂亮回答,而是在每一步里判断:
- 当前最重要的信息是什么
- 下一步应该做什么
- 该调用哪个工具、传什么参数
1)模型的核心职责:管理上下文
在 Agent 工作过程中,信息来源很多:
- 用户目标(我要完成什么)
- 历史记忆(之前发生过什么)
- 工具返回结果(刚刚查到了什么)
- 当前限制条件(预算、权限、规则)
模型要做的,是把这些信息组织进当前上下文中,判断哪些值得关注,再基于这些信息做下一步推理。
很多时候,Agent 的好坏并不取决于“模型参数有多大”,而取决于:
- 它有没有拿到对的信息
- 它有没有在对的时机看到这些信息
- 它有没有据此做出对的判断
换句话说:Agent 里的模型更像“决策中枢”,而不只是“文本输出器”。
四、Tools:没有工具,再聪明也只是“纸上谈兵”
如果模型是大脑,那工具就是 Agent 的手和脚。模型再聪明,如果不能接触外部世界,它也做不了真正的任务。
1)工具的本质:连接真实世界
工具可以是很多东西:
- 搜索 API
- 地图 API
- 日历 API
- 数据库查询接口
- CRM 系统接口
- 向量检索系统
- 本地代码函数
- Python 沙箱执行环境
有了工具,Agent 才能真正做到:
- 查订单、查库存
- 读日程、发请求
- 调接口、更新数据
- 执行代码与工作流
一句话:工具决定了 Agent 能“做到什么”,模型决定了 Agent 知道“该什么时候做什么”。
2)关键不在“有工具”,而在“会选工具”
真正难的不是接工具,而是让模型在当前步骤判断:
- 现在该查数据库,还是该调用搜索?
- 先查团队名单,还是先看预算?
- 要不要发邮件?要不要创建日历事件?
Agent 的价值不在于写死流程,而是在任务推进中动态选择合适的工具,并能把结果继续转化为下一步的高质量输入。
五、Orchestration Layer:真正让 Agent “活起来”的总指挥
把 Agent 简化成“模型 + 工具”是不完整的。少了编排层,模型和工具只是零散能力,拼不成一个可执行的系统。
补充:Coze / LangChain 在这里对应什么?
很多人会把“编排层”直接等同于某个框架或平台。更准确的理解是:编排层是一种职责,而 Coze / LangChain 是把这类职责做成可复用能力的载体。
- LangChain 更像“编排层的 SDK/框架”:它提供 Agent loop、工具调用、记忆、chain/graph 等积木,你用它写出来的 runner/graph 才是你系统里的编排层实现。
- Coze 更像“一体化 Agent 平台”:除了编排(workflow/多分支/人审节点),通常还覆盖工具管理、发布运行时、日志与观测、权限与治理,所以它往往包含编排层,但不止编排层。
1)编排层负责什么?
它主要负责三件事:
- 管理任务循环
- 维护状态与记忆
- 决定执行策略
更具体一点,它会处理:
- 什么时候让模型思考
- 什么时候调用工具
- 工具结果回来后如何合并进上下文
- 是否继续下一轮、什么时候算结束
- 失败要不要重试、回退、降级或告警
2)它让 Agent 从“一次回答”变成“持续执行”
没有编排层,LLM 往往只能一次性吐出一段结果;有了编排层,系统才能形成闭环:
Think → Act → Observe → Think
这也是 Agent 真正“有行动力”的根本。
六、Agent 最核心的运行机制:Think → Act → Observe 循环
理解 Agent,最重要的不是记概念,而是理解它的工作循环:每一轮都用最新的观察结果来更新“下一步怎么干”。
用工程视角抽象,可以把它想成一个带状态的 while 循环:
while not done:
thought = model.decide(goal, state, memory, observations)
action = policy.pick_action(thought)
observation = tools.execute(action)
state = orchestration.update(state, observation)
例子:帮团队安排出差
假设用户说:“帮我安排团队出差。”
一个 Agent 不会直接“拍脑袋输出一段方案”,更可能这样运行:
- 接收目标:总任务是“安排出差”
- 检查资源:是否能访问团队名单、日历、航班/酒店、预算规则
- 制定当前一步计划:先拿名单,再确认成员时间,再查航班酒店
- 执行动作:调用“获取团队名单”工具
- 读取结果:拿到团队成员列表
- 进入下一轮:基于名单继续查可用时间,再回来继续推理
这类循环的重点在于:每一步都会改变“下一步的输入”,所以必须允许多轮迭代。
七、为什么说 Agent 是“多步任务系统”,不是“高级 Prompt”?
很多人第一次接触 Agent,会误以为它只是“把 Prompt 写长一点,让模型自己规划”。这只说对了一小部分。
Prompt 能描述目标,但无法替代过程推进。复杂任务往往有这些特点:
- 信息不全,需要边查边补
- 中途会出现新情况,需要动态调整
- 上一步结果会影响下一步选择
- 有些动作必须真实调用外部系统
- 存在权限、成本、风险等约束
这时靠单个 Prompt 很难一次性“猜完整答案”。Agent 的本质,是把任务拆成一个个可迭代的决策步骤,每一步都基于最新状态重新判断,而不是一次性输出一个看起来完整的文本。
八、AI Agent 的能力分层:从“会查资料”到“多智能体协作”
能力分级的价值在于:帮助你明确要做的是哪一层复杂度的 Agent,而不是一上来就做“万能智能体”。
Level 0:纯模型
只有 LLM,没有工具。能解释概念、写文本、做基础推理,但不能获取实时信息、访问系统或执行动作。
Level 1:连接世界的问题解决者
开始接工具,可以查实时数据、搜索网页、查询数据库、调 API 获取外部信息。这一层已经很实用,很多企业场景到这里就能产生价值。
Level 2:能处理多步任务的策略型 Agent
不仅会调用工具,还会把上一步结果加工成下一步的高质量输入。你可以把它理解为更强的上下文工程能力:用工具产物来不断缩小搜索空间、提高下一轮决策质量。
Level 3:多智能体协作系统
一个 Agent 不再单打独斗,而是开始调用别的 Agent:主控 Agent 做分解与调度,子 Agent 各自负责研究、分析、写作等专长任务,最后汇总产出。
Level 4:自我扩展与自我进化系统
更前沿的一层:能识别自身能力缺口,发现“我缺某个工具/能力”,并触发创建新工具或新 Agent 的流程。能力更强,但治理、权限与安全复杂度也会显著上升。
九、做 Agent,真正难的是工程化:从 Demo 到生产的 6 个抓手
一个看起来很聪明的 Agent,如果到了生产环境经常出错,它的价值几乎为零。生产落地的关键抓手通常集中在这几类:
1)模型选型与模型路由:不是越大越好
Agent 往往由多种步骤组成:
- 复杂规划、关键决策:需要强推理
- 简单摘要、字段提取:更看重速度与成本
更合理的做法是按步骤做模型路由,在效果、延迟、成本之间取得平衡。
2)工具接口设计:决定上限的往往不是模型
模型要正确调用工具,前提是它清楚:
- 工具是干什么的
- 需要哪些参数、参数格式是什么
- 返回结果是什么结构
当工具描述不清晰,常见失败模式包括:调错工具、参数拼错、漏传字段、误解返回结果,进而把错误观察带进后续推理,导致整个闭环崩掉。
3)记忆系统:让 Agent 不是“每次都第一次见你”
- 短期记忆:当前任务中的上下文缓存(流程走到哪、已调过哪些工具、最新结果是什么)
- 长期记忆:跨任务保存的信息(偏好、历史事实、常用规则),通常用检索系统在需要时回注入上下文
4)评测:Agent 不是“比字符串”,而是“评质量”
同一个问题,Agent 的措辞、路径、工具调用顺序可能不同,但结果仍然正确。因此评测重点应聚焦:
- 是否完成任务
- 是否符合约束与要求
- 是否有事实依据
- 是否出现高风险行为(越权、泄露、乱写系统)
5)可观测性:不看轨迹,你很难定位它错在哪
你至少要能回放关键轨迹:
- 每一步的输入(上下文拼装后是什么)
- 模型的决策产物(下一步意图/动作选择)
- 调了哪个工具、传了哪些参数
- 工具返回了什么
- 状态如何更新、为何进入下一步
6)安全与权限:Agent 越能干,风险越大
生产级 Agent 通常需要分层防护:
- 代码级硬规则:金额上限、敏感接口必须人工确认、永远不可访问的资源
- 模型级风险守卫:对高风险动作做二次审查
- 独立身份与最小权限:把 Agent 当作独立身份,只授予完成任务所需的最小权限
当系统走向多 Agent 协作时,还要额外关注治理能力:统一认证、日志、监控、权限与入口,避免 Agent 数量与能力蔓延导致失控。
十、学习 Google AI Agent 课程时,最值得抓住的主线是什么?
如果你正在学这门课,不建议陷入“概念记忆”,而建议抓住一条更可迁移的主线:
- 先理解:Agent 不是聊天机器人升级版,它的核心是任务闭环
- 再理解:Agent = 模型 + 工具 + 编排,分别解决思考、行动与流程组织
- 重点理解:灵魂是循环(Think → Act → Observe → Think)
- 最后理解:生产落地靠工程化(工具、上下文、记忆、评测、可观测、安全治理)
十一、一句话总结
AI Agent 不是“更聪明的聊天机器人”,而是“以大模型为大脑、以工具为手脚、以编排层为中枢”的任务执行系统。它的核心价值不在于会说什么,而在于能否把任务拆开、选对工具、根据结果持续调整,并在真实世界里稳定地把事情做完。
更多推荐


所有评论(0)