什么是大模型 Agent?它与传统的 AI 系统有什么不同?
大模型 Agent 是基于大型语言模型并结合模块化规划、记忆和工具调用的自主决策系统,它能够根据最终目标把复杂任务拆分成子任务,调用 API、检索数据库或使用插件,再通过内部循环不断优化执行流程,基本不需要人在每一步都监督。
传统 AI 是你问一个问题它回答一个问题,每次都是独立的,被动响应;而 Agent 有自己的规划能力,你给它一个复杂目标,它会自己把任务拆成多步,通过调工具、访问记忆、感知环境来一步步执行,直到完成。它不只是输出文字,而是真的能做事。
主要区别如下:
- 目标导向 vs 被动响应:传统大模型通常根据用户输入生成文本,缺乏主动性;而 Agent 以明确目标为驱动,能够主动规划并执行任务。
- 记忆与状态管理:Agent具备短期和长期记忆能力,能够维护状态信息并根据历史经验调整行为;而传统大模型通常依赖于上下文窗口进行信息处理。
- 多任务协同能力:Agent 能够处理复杂的多步骤任务,协调多个子任务的执行;而传统大模型只能一问一答,缺乏任务协同能力。
- 推理与环境适应能力:和传统 AI 系统主要依赖预先设定的规则引擎或静态模型不同,大模型Agent 具备多步推理能力和动态环境适应能力,它能在执行过程中不断评估结果、调整策略,真正实现端型端的目标导向执行。
面试时答这道题,一定要点出三件事:一是 Agent 有自主规划能力,给它一个复杂目标它能自己拆解成多步;二是它能行动,通过工具调用跟外部世界真实交互;三是它有闭环,每步的结果会反馈回来指导下一步,而不是一次性生成完就结束。另外还要提一句容易混的点:模型本身只是「大脑」,工具的真正执行是你的代码,模型只负责决策。
什么是 AI Agent?其核心思想是什么?
AI Agent(人工智能智能体)是一种能够感知环境、进行决策并执行动作的自主软件系统。它以大语言模型(LLM)为大脑,代表用户自动化完成复杂任务,例如自动化处理电子邮件、生成报告、执行多步查询或控制智能设备。
不同于单纯的聊天机器人,AI Agent 强调自主性和交互性,能够在动态环境中持续迭代,直到任务完成。
核心公式:Agent = LLM + Planning(规划)+ Memory(记忆)+ Tools(工具)
LLM Agent 的基本架构有哪些组成部分?
- Agent核心(LLM本身):作为“大脑”,负责理解输入、生成计划和下发指令,串联其他模块协同工作。
- 工具使用(Tools):接入搜索、计算、数据库、代码执行、第三方插件等多种外部工具,为执行模块提供能力扩展。模型本身不执行工具,它只是输出「调哪个工具、传什么参数」的决策,真正执行的是代码
- 记忆模块(Memory):短期记忆放在 context window 里,存当前任务的中间状态;长期记忆用向量数据库实现,能跨任务保存用户偏好和历史。
- 规划模块(Planning)):将复杂目标拆解成有序的子任务,制定多步执行方案,并在必要时动态重规划。规划模块的底层其实依赖的是 LLM 的推理能力
Agent智能体的工作过程是怎样的?
- 接收与理解输入:Agent首先“感知”环境或用户输入,将自然语言指令转为内部可处理的表示,以明确目标和约束条件。
- 规划:基于输入,LLM生成多步行动计划,拆解为子任务并排序,就像制定详细食谱确保烹饪思路清晰。
- 决策:基于记忆内容和任务目标,Agent判断是否继续执行下一步操作或结束流程
- 工具调用:Agent根据计划动态选择并调用外部工具或API(如搜索、数据库、计算器等)来完成各子任务。
- 观测:在每次工具执行后,Agent将输出作为“Observation”反馈给LLM,用于更新当前状态和后续决策
- 记忆:关键观测和交互细节被存入短期或长期记忆,提高多轮对话或复杂任务中的上下文一致性。
- 决策:基于最新的观测结果、记忆内容和任务目标,Agent判断是否继续执行下一步操作或结束流程
- 输出:在所有必要步骤完成后,Agent汇总信息,生成并返回最终结果给用户。
- 反思与纠错:可选地启动自我反思模块,评估已执行行动的正确性,必要时重规划或修正策略,避免重复错误。
我用一段伪代码来还原整个运行过程,看完你就能理解它们是怎么协作的:
python
# Agent 运行的核心 loop(伪代码)
def agent_run(user_goal: str):
# 第一步:规划模块上场,把目标拆成步骤列表
plan = llm.plan(user_goal)
memory = [] # 短期记忆,用来存每一步的中间结果
for step in plan:
# 第二步:LLM 核心做决策,这一步该怎么做?
action = llm.decide(
step=step,
history=memory, # 把短期记忆传进去,让它知道之前做了什么
long_term=vector_db.search(step) # 从长期记忆里捞出相关历史
)
if action.type == "tool_call":
# 第三步:工具系统负责真正执行
result = tools.execute(action.tool_name, action.args)
memory.append({"step": step, "result": result}) # 执行结果存入短期记忆
elif action.type == "final_answer":
return action.content # LLM 判断任务完成,返回最终答案
看完这段伪代码,你会发现 Agent 的核心节奏其实很简单:规划 -> 决策 -> 执行 -> 结果存入记忆 -> 再决策,循环往复,直到任务完成。LLM 始终是那个做决策的角色,工具系统是执行者,记忆系统让它不会「失忆」,规划模块帮它把大目标拆成小步骤。
LangChain、LlamaIndex、AutoGen 这些主流框架,本质上都是围绕这四个组件来设计的,只是封装方式和侧重点各有不同
什么是 Agent Loop?其工作流程是什么?
Agent Loop 是所有 Agent 范式共享的运行引擎,其本质是一个 while 循环:每一次迭代完成"LLM 推理 → 工具调用 → 上下文更新"的完整链路,直至任务终止。
标准工作流:
- 初始化:加载 System Prompt、可用工具列表及用户初始请求,组装第一轮上下文。
- 循环迭代(核心):读取当前完整上下文 → LLM 推理决定下一步行动(调用工具 or 直接回复)→ 触发并执行对应工具 → 捕获工具返回结果(Observation)→ 将 Observation 追加至上下文。
- 终止条件:当 LLM 在某轮判断任务完成,直接输出最终回复而不再调用工具时,退出循环。
- 安全兜底:为防止模型陷入死循环,须设置强制中断条件,如最大迭代轮次上限(通常 10 ~ 20 轮)或 Token 消耗阈值。
工程视角:Agent Loop 的设计难点不在循环本身,而在于如何高效管理随迭代不断增长的上下文。上下文过长会导致关键信息被稀释、推理质量下降,这也正是 Context Engineering 要解决的核心问题。
在 LangChain、LlamaIndex、Spring AI 等主流框架中,Agent Loop 均有封装实现,可通过监控迭代次数、Token 消耗等指标诊断 Agent 性能瓶颈。
Workflow,Agent,Tools 这三个的概念和区别介绍一下?
这三个概念是粒度从小到大的三层结构。
- Tools 是最小的能力单元,就是封装好的可调用函数,比如搜索、执行代码、发邮件,它只负责「执行」,本身没有任何决策能力;
- Agent 是一个完整的决策系统,内部用 LLM 做大脑,自己判断什么时候调哪个 Tool、要不要继续、什么时候结束,是主动的;
- Workflow 是更上层的编排框架,把 Agent、LLM、Tools 组织成一条确定性流程,每个节点做什么、按什么顺序流转都是开发者事先写死的。
三者最核心的区别就一句话:Tools 不做决策只执行,Agent 自己做决策,Workflow 是开发者替所有节点把决策提前写好。
完全靠 Agent 自主决策 的系统其实很少在生产环境里出现,原因很现实:行为太难控制,一旦出问题很难排查,成本也容易失控(LLM 调太多轮)。
完全靠 Workflow 写死 的系统又太脆,因为你没法把所有情况都穷举到代码里,遇到预料之外的输入就容易失败或者给出很差的结果。
所以目前生产环境里最主流的模式是Agentic Workflo:用 Workflow 固定主流程的骨架,在需要灵活判断的节点嵌入 Agent,其余固定节点直接用 LLM 或 Tools。 骨架是确定的,让你能控制整体行为、便于调试;关键节点是灵活的,让你能应对各种复杂情况。两个优点都有,两个缺点都被削弱了。这样兼顾了可控性和灵活性。
Workflow和Agent的区别是什么?
先把两者的本质区别说清楚。Workflow就是一个确定性的流程图,你提前定好「第一步做A,A完了做B,B失败了走分支C」,每一步的逻辑都是你硬编码进去的,LLM只是其中某个节点的执行工具,不负责决策流程本身。好处是行为完全可预测、容易测试、出了问题好排查;坏处是灵活性低,遇到你没预料到的情况就会走入死胡同。
Agent则相反,它把「下一步做什么」这个决策权交给了LLM。你只告诉它目标,它自己判断该调哪个工具、该不该继续、什么时候算完成。好处是能处理你事先没设计进去的情况;坏处是行为不确定,同样的输入可能走出不同的路径,线上出了问题也很难复现。
Agent 推理模式有哪些?
Agent 的推理模式我用过几种。
最基础的是直接输出答案,没有中间推理;
CoT 是让 LLM 先把推理过程写出来再给答案,准确率更高;
ReAct 是在 CoT 基础上加了「行动」,让 LLM 交替输出思考和工具调用,每次行动后再根据结果继续思考,形成一个循环。
ReAct 是目前 Agent 用得最广的模式,因为它推理过程可见,又能动态利用外部工具,两个优点都有。
如何赋予 LLM 规划能力?
给 LLM 加规划能力主要靠这几种思路。
- CoT 是让 LLM 把推理步骤写出来,线性地一步步推导到答案;
- ToT 是让它同时探索多条推理路径,选最优的继续深入;
- GoT 是图结构推理,推理节点可以复用和合并,适合更复杂的任务。
工程上我用 CoT 最多,因为实现成本最低,就是改个 prompt;ToT 效果更好但调用次数多,成本大概是 3 到 5 倍;GoT 目前还比较学术,生产环境我没见过有人真正落地用的
什么是 CoT 思维链?如何实现 CoT 思维链?
LLM 的工作原理,是根据你给它的输入,一个 token 一个 token 地往后预测。你问它一个简单问题,它可以直接说出答案。但如果你问的是一个需要多步推导的问题,LLM 在没有任何辅助的情况下,往往直接给你一个感觉对的答案,而这个答案可能是错的。原因在于,当它一口气预测答案时,中间的推导步骤都是隐式的,没有办法强制自己在每一步都做出正确的推断。误差会在中间某个暗处悄悄累积,最终暴露在答案里。
CoT(Chain of Thought)思维链的目的是让 AI 像人类一样“思考”
在处理复杂问题的时候,引导模型展示推理过程,按步骤进行思考,从而提高回答的准确性,尤其对于复杂的推理类问题效果更佳。
与此同时,让模型展示推理过程也可以帮助我们理解和优化 AI的决策路径。
CoT 核心想法极其朴素:在 prompt 里加一句「让我们一步步思考」,LLM 就会先把推理步骤写出来,再给答案,而不是直接蹦出结论。为什么加一句话就有效?
什么是 CoT 思维链和 ReAct 模式?它们如何提高 AI 推理能力?
CoT 思维链(Chain of Thought) 和 ReAct 模式 (Reasoning + Acting) 都是增强大型语言模型推理和解决复杂问题能力的技术
- CoT思维链:生成最终答案之前,先引导AI 模型输出一系列中间的、连贯的推理步现,引导模型“思考过程化”,模拟人类解决问题时逐步分析和推导的过程。它通过让模型显式地写出思考步骤,可以帮助模型分解复杂问题,减少在复杂逻辑链条中出错的概率。这些中间步骤也为我们理解模型的“思路”提供了便利,调试和优化都会更简单方便。
- ReAct模式:ReAct 是 Reasoning and Acting 的缩写,核心思路是在 CoT 的推理链里,插入真实的「行动」。它让 LLM 按照「思考 -> 行动 -> 观察」这个循环来推进任务:先思考当前该怎么做,然后调用一个工具去获取信息或执行操作,把工具返回的结果作为新的「观察」接收回来,再进入下一轮思考,直到 LLM 判断任务完成。
CoT主要关注提升模型内部的逻辑推理连贯性和深度,通过显化思考过程实现。ReAct 更注重于让模型与外部世界互动,,通过“推里驱动行动,,行动反馈观察,观察指导推理”的闭环来解决那些需要外部信息或操作才能完成的复杂任务,更考验模型动态调整推理路径的能力。
ReAct 是什么?说说它的原理
ReAct 是 Reasoning and Acting 的缩写,核心思路是在 CoT 的推理链里,插入真实的「行动」。
它让 LLM 按照「思考 -> 行动 -> 观察」这个循环来推进任务:先思考当前该怎么做,然后调用一个工具去获取信息或执行操作,把工具返回的结果作为新的「观察」接收回来,再进入下一轮思考,直到 LLM 判断任务完成。
ReAct让模型在生成回答时交替输出“思考”和“行动”步骤,从而在内部推理与外部交互之间形成闭环,能够边“想”边“做”来完成复杂任务,
核心原理
更多推荐




所有评论(0)