AI Agent 的记忆机制：从短期记忆到向量数据库

开发小能手-roy

27人浏览 · 2026-06-29 08:11:36

开发小能手-roy · 2026-06-29 08:11:36 发布

AI Agent 的记忆机制：从短期记忆到向量数据库

在构建 AI Agent 的过程中，记忆（Memory）是一个经常被低估却至关重要的模块。没有记忆的 Agent 就像金鱼——每次对话都从零开始，无法记住用户的偏好、历史上下文，更别提从长期经验中学习和优化。本文将系统梳理 AI Agent 的记忆体系，从短期记忆到向量数据库持久化，深入探讨记忆检索与更新策略，并附上可运行的代码示例。

一、为什么 Agent 需要记忆？

大语言模型（LLM）本身是无状态的，每次请求都是独立的。然而，一个实用的 Agent 必须能够： - 记住用户身份与偏好：如用户的职业、习惯、常用语气等； - 维护对话上下文：避免在对话中重复提问或丢失关键信息； - 积累长期经验：从过去的成功或失败中优化未来决策； - 跨会话保持状态：用户今天离开，明天回来，Agent 仍然记得之前的交流。没有记忆机制的 Agent，本质上只是一个高级的问答机器人，而非真正能够持续学习和协作的智能体。

二、短期记忆 vs 长期记忆

AI Agent 的记忆体系通常分为两个层次：

2.1 短期记忆（Short-Term Memory）

短期记忆承载的是当前对话回合或任务中的上下文信息。它的特点是： - 生命周期短：通常只在当前会话或任务期间有效； - 容量有限：受 LLM 上下文窗口（Context Window）的硬约束，一般为 4K~200K tokens； - 访问快：直接作为 Prompt 的一部分输入模型，无需额外检索。短期记忆最常见的实现方式是对话历史（Chat History）。在 LangChain 中，这通常由 ConversationBufferMemory 或 ConversationBufferWindowMemory 管理。但短期记忆的天然瓶颈是：当对话历史超出上下文窗口时，早期信息会被截断，导致信息丢失。

2.2 长期记忆（Long-Term Memory）

长期记忆用于存储跨越会话、任务甚至用户生命周期的信息。它的特点是： - 持久化存储：写入数据库、文件或向量存储，服务重启后仍然存在； - 容量几乎无限：不再受上下文窗口限制，可存储海量的历史经验； - 按需检索：通过检索机制将相关记忆片段注入当前 Prompt，而非全部加载。长期记忆是 Agent 从"一次性工具"进化为"持续伙伴"的关键。

三、工作记忆：连接短期与长期的桥梁

工作记忆（Working Memory）是认知心理学中的概念，在 AI Agent 中有着重要的工程意义。它指的是：

Agent 在当前任务中，从长期记忆中有选择地加载到短期记忆中的一组信息。

换句话说，工作记忆是"短期记忆中真正被使用的那部分长期记忆"。它解决了一个核心问题： - 长期记忆太大，无法全部塞进 Prompt； - 工作记忆太小，必须筛选最相关的信息。工程上，工作记忆的构建通常依赖以下步骤： 1. 查询生成：将当前对话或任务状态转化为检索 query； 2. 记忆检索：从长期记忆存储中检索最相关的片段； 3. 信息注入：将检索结果格式化后拼入当前 Prompt 的 system 或 user 部分； 4. 动态更新：根据当前交互结果，将新信息写回长期记忆。

四、向量数据库持久化

长期记忆最常见的载体是向量数据库（Vector Database）。其核心原理是： - 将记忆文本通过嵌入模型（Embedding Model）编码为稠密向量； - 存入向量数据库，支持高效的近似最近邻（ANN）检索； - 检索时，将当前 query 同样编码为向量，查询最相似的 Top-K 记忆片段。 为什么选向量数据库？ | 存储方式 | 检索能力 | 语义理解 | 扩展性 | 适用场景 | |---------|---------|---------|--------|---------| | 纯文本文件 | 无 | 无 | 差 | 调试、日志 | | 关系型数据库 | 精确匹配 | 无 | 中 | 结构化元数据 | | 向量数据库 | 语义相似度 | 强 | 高 | 长期记忆检索 | Chroma、Weaviate、Pinecone、Milvus 等向量数据库已成为 Agent 记忆持久化的标配。Chroma 因轻量、易集成而尤为适合快速原型。

五、记忆检索策略

检索策略直接决定了 Agent 能否"想起"正确的信息。常见策略包括：

5.1 向量相似度检索（Vector Similarity Search）

最基础的检索方式，将 query 向量化后在向量空间中寻找最近邻。优点是简单高效，缺点是可能召回不相关或过时的信息。

5.2 时间加权检索（Time-Weighted Retrieval）

在相似度基础上加入时间衰减因子，越新的记忆权重越高。适合需要"最近发生的事记得更清楚"的场景。

5.3 多路召回与重排序（Multi-Recall + Rerank）

结合关键词检索（BM25/TF-IDF）和向量检索，通过交叉编码器（Cross-Encoder）对召回结果重排序，提升精度。

5.4 结构化记忆（Structured Memory）

对记忆进行分类和结构化存储，如"用户属性"、"任务历史"、"知识事实"等，检索时按类型过滤，降低噪声。

六、记忆衰减与更新机制

人类记忆会随时间衰退，Agent 的记忆同样需要衰减和更新机制：

6.1 遗忘与衰减

- 时间衰减：设定半衰期，久未访问的记忆相似度得分乘以衰减系数； - 容量上限：设定记忆总量上限，新记忆写入时淘汰最旧的或得分最低的； - 主动遗忘：Agent 根据任务结果判断某些记忆为"错误经验"，主动标记删除。

6.2 记忆巩固与摘要

- 对话摘要：当对话历史过长时，使用 LLM 将其压缩为摘要，替代原始对话存入长期记忆； - 知识提取：从对话中抽取结构化事实（如"用户喜欢 Python"），以键值对形式存入记忆库； - 冲突解决：新旧记忆冲突时，以时间戳或置信度为依据更新或合并。

七、代码示例：LangChain Memory + Chroma

以下是一个完整的示例，展示如何在 LangChain 中实现基于 Chroma 的向量记忆系统：

from langchain.memory import VectorStoreRetrieverMemory
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains import ConversationChain
from langchain.prompts import PromptTemplate
import chromadb
from langchain_community.vectorstores import Chroma

`1. 初始化 Chroma 向量数据库`

client = chromadb.Client() collection = client.get_or_create_collection("agent_memory")

`2. 使用 OpenAI Embedding 模型`

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

`3. 构建 LangChain Chroma 向量存储`

vectorstore = Chroma( client=client, collection_name="agent_memory", embedding_function=embeddings, )

`4. 创建记忆检索器，k=3 表示每次检索 3 条最相关记忆`

retriever = vectorstore.as_retriever(search_kwargs={"k": 3}) memory = VectorStoreRetrieverMemory(retriever=retriever)

`5. 预设一些示例记忆（模拟历史交互）`

memory.save_context({"input": "你好，我叫李明，是一名数据工程师。"}, {"output": "你好李明，很高兴认识你！有什么我可以帮你的吗？"}) memory.save_context({"input": "我平时主要用 Python 和 SQL。"}, {"output": "Python 和 SQL 是数据工程的利器，我们可以深入聊聊。"}) memory.save_context({"input": "我对 AI Agent 很感兴趣。"}, {"output": "AI Agent 是非常热门的前沿方向，我们可以从记忆机制开始聊。"})

`6. 自定义 Prompt，将历史记忆注入上下文`

_template = """你是一个有帮助的 AI 助手。以下是与用户的已知信息（按相关度排序）： {history} 当前对话： Human: {input} AI:""" prompt = PromptTemplate(input_variables=["history", "input"], template=_template)

`7. 构建对话链`

llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.7) conversation = ConversationChain( llm=llm, prompt=prompt, memory=memory,

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

Atomic Mail Agentic 深度技术拆解：面向自主 AI 智能体的 JMAP 原生邮件基础设施

本文聚焦面向自主 AI 智能体的 Atomic Mail Agentic 底层技术，摒弃营销视角，剖析其基于 JMAP（RFC8620/8621）构建邮件服务的架构逻辑。系统以 PoW 工作量证明机制实现 30 秒全自动开户，无需人机验证与服务器运维；分层搭载 MCP 适配层、JMAP 网关、分布式存储及反垃圾出站网关，统一 JSON 协议替代 IMAP+SMTP，大幅降低 LLM 解析重试与网络

CSDN-OPC开发者社区

当AI Agent“记住”了所有内容，却忘记了项目现在站在哪里

在构建AI驱动的产品管理工具时，大多数系统默认采用一种“全量记忆”策略：把所有会议记录、Slack线程、转录稿、策略文档一股脑塞进上下文，希望模型能凭此“记住”项目全貌。这种设计在演示中看起来强大——Agent仿佛无所不知。但在真实的产品迭代现场，它却经常制造一种诡异的断裂感。一次领导力会议决定把Q3重点从移动端转向留存，设计团队担心入职流程会显得被抛弃，团队还需明确已有承诺如何处理。所有人散会时