AI Agent 记忆机制综述
·
AI Agent 记忆机制综述
基于 “Memory in the Age of AI Agents” 论文列表的系统梳理
整理目的:系统梳理 AI Agent 记忆领域的核心论文与技术体系,面向产研汇报.
github: https://github.com/Shichun-Liu/Agent-Memory-Paper-List/tree/main
资料来源:Agent-Memory-Paper-List | arXiv: 2512.13564

目录
- 概述与背景
- 统一分类框架(三维模型)
- 记忆形式(Forms)
- 记忆功能(Functions)
- 记忆动态(Dynamics)
- 核心代表性论文解析
- 生产级记忆系统
- 评测基准体系
- 技术挑战与研究方向
- 核心速查表
一、概述与背景
1.1 为什么记忆对 Agent 至关重要?
大模型 Agent 系统在近两年经历了爆发式发展,但一个根本性的瓶颈始终制约着 Agent 的实用化:跨会话持久记忆的缺失。
┌─────────────────────────────────────────────────────────────────┐
│ Agent 记忆的核心价值 │
├─────────────────────────────────────────────────────────────────┤
│ ① 连续性 │ 跨会话保持用户偏好、历史记录和个性化信息 │
│ ② 效率性 │ 避免重复处理,直接复用已有知识和解决方案 │
│ ③ 适应性 │ 从交互中学习,随时间演化改进行为 │
│ ④ 可靠性 │ 基于历史事实做出更准确的判断和预测 │
└─────────────────────────────────────────────────────────────────┘
核心矛盾:LLM 上下文窗口虽已扩展至百万 token,但仍无法解决跨会话持久化、高效检索与动态演化等问题。
1.2 领域现状
- arXiv 2512.13564(“Memory in the Age of AI Agents”)于 2025 年 12 月发布,是迄今最全面的 Agent 记忆综述
- 论文长度 102 页,作者 48 位(多机构合作),已成为该领域的权威参考
- 配套的 GitHub 论文列表(Shichun-Liu/Agent-Memory-Paper-List)收录 200+ 篇论文,按月持续更新,至 2026 年 1 月已获 1k+ Star
- 论文指出:传统的"长/短期记忆"二分法 已不足以 捕捉当代 Agent 记忆系统的多样性,需要更精细的统一框架
二、统一分类框架(三维模型)
论文提出从三个正交维度对 Agent 记忆进行系统分类:
┌─────────────────────────────────────────┐
│ Agent 记忆统一三维框架 │
└─────────────────────────────────────────┘
维度1 Forms 维度2 Functions 维度3 Dynamics
(记忆如何存储) (记忆为何存在) (记忆如何演化)
│ │ │
┌────┴───┐ ┌─────┴──────┐ ┌─────┴──────┐
│ │ │ │ │ │
Token Parametric Factual Experiential Formation Evolution
级文本 参数权重 事实记忆 经验记忆 形成 演化
│ │ │ │ │
Latent ┌───┴────┐ Retrieval (巩固/遗忘)
潜在状态 │ │ 检索
Episodic Semantic
情节记忆 语义记忆
│
Procedural
程序记忆
这三个维度相互独立、缺一不可:
- Forms 回答"记忆存在哪"
- Functions 回答"记忆用来做什么"
- Dynamics 回答"记忆怎么更新"
三、记忆形式(Forms)
3.1 三种存储形式对比
┌──────────────────┬────────────────────┬───────────────────┬─────────────────────┐
│ 形式 │ 特征 │ 代表实现 │ 优劣势 │
├──────────────────┼────────────────────┼───────────────────┼─────────────────────┤
│ Token-level │ 显式、离散、可读 │ 向量数据库、文本DB │ 可解释、灵活 │
│ 文本级记忆 │ 存储在外部存储系统 │ RAG、知识图谱 │ 检索延迟、存储开销 │
├──────────────────┼────────────────────┼───────────────────┼─────────────────────┤
│ Parametric │ 隐式、压缩、高效 │ LoRA、知识编辑 │ 零检索延迟 │
│ 参数级记忆 │ 编码在模型权重中 │ 持续学习 │ 难解释、可能遗忘 │
├──────────────────┼────────────────────┼───────────────────┼─────────────────────┤
│ Latent │ 连续、稠密、高信息 │ KV缓存压缩 │ 实时处理效率高 │
│ 潜在状态记忆 │ 存在模型激活空间 │ RNN隐层扩展 │ 容量受限、不可持久 │
└──────────────────┴────────────────────┴───────────────────┴─────────────────────┘
3.2 Token 级记忆(当前主流)
Token 级记忆是目前工程实践中最常见的形式,包含:
- 结构化存储:关系型数据库、知识图谱
- 非结构化存储:向量数据库(ChromaDB、Pinecone、FAISS)
- 混合存储:Mem0 的"向量 + 图数据库"双轨架构
典型检索策略三类:
- Multi-round Retrieval(多轮迭代检索):通过多次检索扩大覆盖范围
- Post-retrieval(后处理检索):先生成查询意图描述再检索
- Hybrid-source Retrieval(混合源检索):内部记忆 + 外部知识库并行
四、记忆功能(Functions)
4.1 功能分类体系(源自认知科学)
人类记忆系统 Agent 记忆对应
┌────────────────┐ ┌─────────────────────┐
│ 工作记忆 │ ←→ │ 上下文窗口 │
│ (中央执行器) │ │ 当前任务状态管理 │
└────────────────┘ └─────────────────────┘
┌────────────────┐ ┌─────────────────────┐
│ 情节记忆 │ ←→ │ 对话历史、操作轨迹 │
│ (时序事件) │ │ 带时间戳的经历记录 │
└────────────────┘ └─────────────────────┘
┌────────────────┐ ┌─────────────────────┐
│ 语义记忆 │ ←→ │ 用户偏好、世界知识 │
│ (抽象知识) │ │ 从情节中提炼的规律 │
└────────────────┘ └─────────────────────┘
┌────────────────┐ ┌─────────────────────┐
│ 程序记忆 │ ←→ │ 可复用技能库、SOP │
│ (技能/习惯) │ │ 工具使用模式 │
└────────────────┘ └─────────────────────┘
4.2 事实记忆(Factual Memory)
- 通用事实:世界知识、常识
- 领域特定事实:医疗、法律、技术领域知识
- 技术路径:知识库 RAG、知识图谱(KG)、参数化知识注入
4.3 经验记忆(Experiential Memory)
情节记忆 vs 语义记忆的演化关系:
原始经历(情节) 抽象化提炼(语义)
───────────────── ─────────────────
"用户在1月5日修正了DD/MM格式" → "用户偏好 DD/MM/YYYY 格式"
"3次任务中用户都选择了简洁模式" → "用户偏好简洁输出"
"上周完成了数学辅导5次" → "用户是高中数学学生"
程序记忆(Procedural Memory)代表系统:
- Voyager(2023):Minecraft 游戏 Agent 的可复用 JavaScript 技能库
- LEGOMem(arXiv:2510.04851):模块化程序记忆,支持多 Agent 系统
4.4 工作记忆(Working Memory)
- 对应 LLM 上下文窗口,作为"心理草稿本"
- 核心挑战:容量限制 与 内容选择
- 研究热点:上下文压缩、动态剪枝、重要性评分
五、记忆动态(Dynamics)
5.1 三个核心过程
┌─────────────────────────────────────────────────────────────────────┐
│ 记忆生命周期(Memory Lifecycle) │
│ │
│ 新输入 → [Formation 形成] → [Storage 存储] → [Evolution 演化] │
│ 提取关键信息 组织、索引、分类 巩固/遗忘/更新 │
│ ↕ │
│ 查询 ← [Retrieval 检索] ←───────────────── │
│ 相关记忆召回 │
└─────────────────────────────────────────────────────────────────────┘
5.2 记忆形成(Formation)
- 提取策略:LLM 驱动的信息提炼 vs 规则提取
- 粒度选择:粗粒度(会话摘要)vs 细粒度(句子级情节存储)
- 权衡:MemMachine 的"原始保全"方案 vs Mem0 的"LLM 提炼"方案
5.3 记忆演化(Evolution)
两类演化机制:
| 类型 | 描述 | 代表工作 |
|---|---|---|
| 内部自演化 | 记忆系统内部的巩固与抽象 | A-MEM(关联链接更新) |
| 外部自探索 | 基于新环境反馈主动更新 | AgeMem(RL 驱动) |
巩固(Consolidation):短期→长期记忆的压缩与强化
遗忘(Forgetting):移除过时/冗余记忆,避免污染
5.4 记忆检索(Retrieval)
三种控制策略:
- 基于规则:阈值触发、关键词匹配(如 MemGPT 的中断机制)
- 基于启发:重要性评分、时间衰减(如 Generative Agents 的三维评分)
- 基于学习:RL 驱动的自适应检索(如 AgeMem、MemRL)
六、核心代表性论文解析
6.1 奠基性工作
MemGPT(arXiv:2310.08560,2023)
操作系统隐喻:LLM = CPU,上下文窗口 = RAM,持久存储 = 硬盘
用户请求
│
LLM(CPU)
├── 上下文窗口(RAM)← 活跃记忆
│ │ 超限时触发"中断"
└── 持久存储(硬盘)← 不活跃记忆
├── main_context(核心要点)
└── archival_storage(完整历史)
- 核心创新:引入虚拟内存分页思想,通过中断机制主动管理上下文边界
- 适用场景:长文档分析、多会话连续对话
- 局限:LLM 驱动的记忆操作决策可能引入延迟,管理逻辑复杂
Generative Agents(arXiv:2304.03442,2023)
记忆流(Memory Stream)设计:
每条观测记录 = {
内容文本,
时间戳,
重要性分数(1-10,由 LLM 评估),
近期性分数(随时间指数衰减),
相关性分数(与当前查询的语义相似度)
}
检索分数 = α₁ × 重要性 + α₂ × 近期性 + α₃ × 相关性
- 核心创新:三维评分的记忆检索机制,以及从情节到规划/反思的层级架构
- 影响:成为 Agent 模拟场景的经典范式
6.2 知识图谱型记忆
HippoRAG(arXiv:2405.14831,NeurIPS 2024)
仿海马索引机制:
LLM 提取三元组 → 知识图谱构建
│
Personalized PageRank 算法
│
情节搜索 + 语义搜索 → 统一图检索框架
- 仿照人脑海马体的记忆索引机制
- 将情节搜索和语义搜索统一在图检索框架下
MAGMA(arXiv:2601.03236,2026 年 1 月)
多图架构:每条记忆同时在四个正交图上表示
记忆项 M
├── 语义图 → 概念相似关系
├── 时序图 → 时间先后顺序
├── 因果图 → 因果依存关系
└── 实体图 → 实体共现关系
检索 = 策略引导的跨图遍历(查询自适应选择图类型)
- 核心创新:解耦记忆表示与检索逻辑,提供透明推理路径
- 实验效果:在 LoCoMo 和 LongMemEval 上持续超越 SOTA
- 适用场景:长时域推理、关系复杂的对话任务
Zep / 时序知识图谱(arXiv:2501.13956,2025)
- 追踪事实随时间的演变轨迹(不覆盖而是版本化)
- 结合图基记忆和向量搜索
- 已进入生产部署阶段
6.3 Zettelkasten 启发的记忆
A-MEM(arXiv:2502.12110,2025 年 2 月)
Zettelkasten 原则映射:
传统卡片笔记法 A-MEM 实现
───────────── ─────────────
每张卡片独立完整 → 每条记忆含上下文描述+关键词+标签
卡片之间互相引用 → 分析历史记忆建立相关连接
新卡片影响旧卡片解读 → 新记忆触发历史记忆的属性更新(记忆演化)
- 核心创新:将卡片笔记法的结构化组织原则与 Agent 决策灵活性结合
- 实验:在 6 个基础模型上相比 SOTA 基线有显著提升
- 特点:记忆形成时自动生成知识网络,而非线性存储
6.4 强化学习驱动的记忆
AgeMem(arXiv:2601.01885,2026 年 1 月)
统一 LTM + STM 的 RL 框架:
Agent 策略网络
│
┌──────────┼──────────┐
│ │ │
存储 检索 更新
LTM 相关记忆 删除过时
│ │ │
长期记忆库 短期上下文 遗忘机制
训练:三阶段渐进 RL + step-wise GRPO
(处理记忆操作引发的稀疏不连续奖励)
- 核心创新:将记忆管理完全纳入 Agent 策略,通过 RL 端到端学习
- 实验:在 5 个长时域基准上超越强记忆增强基线
- 意义:记忆管理从"规则触发"→"学习决策"的范式转移
MemRL(arXiv:2601.03192,2026 年 1 月)
- 将记忆检索建模为 MDP(马尔可夫决策过程)
- 用非参数 RL(不更新模型权重)解决稳定性-可塑性困境
- 在运行时通过 RL 实现 Agent 在情节记忆上的自演化
Memory-R1(arXiv:2508.19828,2025 年 8 月)
- 将强化学习引入 LLM Agent 的记忆管理与使用
- 基于 R1 系列的推理增强思路,扩展至记忆操作决策
6.5 其他重要 2025-2026 年论文
| 论文 | arXiv | 时间 | 方法概要 |
|---|---|---|---|
| EverMemOS | 2601.02163 | 2026.01 | 用于长时域推理的自组织记忆操作系统 |
| MemOS | 2505.22101 | 2025.05 | 记忆操作系统:参数/激活/明文三类记忆统一调度 |
| MemEvolve | 2512.18746 | 2025.12 | 通过元演化自动优化 Agent 记忆系统配置 |
| O-Mem | 2511.13593 | 2025.11 | 全场景记忆系统,支持自演化 Agent |
| LEGOMem | 2510.04851 | 2025.10 | 模块化程序记忆,面向多 Agent 系统 |
| R3Mem | 2502.15957 | 2025.02 | 通过可逆压缩桥接记忆保留与检索 |
| MIRIX | 2507.07957 | 2025.07 | 多模态多 Agent 记忆系统,比 RAG 准确率高 35% |
| GAM | 2604.12285 | 2026.04 | 解耦编码与整合,解决流式记忆污染问题 |
| SeCom | — | 2025 | 主题分割优于按轮/会话的朴素分块 |
| G-Memory | 2506.07398 | 2025.06 | 多 Agent 系统的层级记忆追踪 |
七、生产级记忆系统
7.1 Mem0(arXiv:2504.19413,2025 年 4 月)
Mem0 架构(面向生产的记忆层):
对话输入
│
▼
LLM 提取关键事实
│
├──→ 向量数据库(语义搜索)
└──→ 图数据库(关系推理)
│
▼
四级作用域模型:
user scope / agent scope / run scope / org scope
性能数据(vs 全上下文方案):
- 延迟(p95)降低 91%
- Token 成本降低 90%+
- 精度下降约 6%(可接受范围)
限制:逐条消息的 LLM 提取成本较高,可能引入事实漂移
7.2 MemMachine(arXiv:2604.04853,2026 年 4 月)
三层记忆架构(地面真实保全设计):
对话历史
│
┌───────────┼───────────┐
▼ ▼ ▼
STM(短期) 情节库 用户画像
当前上下文 原始对话 偏好/行为
句子级索引 模式摘要
│
▼
上下文化检索(核心创新):
核心匹配 + 邻近情节扩展 → 情节簇
性能数据:
- LoCoMo 总分 0.9169(gpt-4.1-mini)
- LongMemEvalS 准确率 93.0%
- 比 Mem0 节省约 80% input tokens
三种检索路由:直接检索 / 并行分解 / 迭代链式查询
7.3 DeerFlow 2.0 记忆实现(实际工程案例)
文件:backend/.deer-flow/memory.json
记忆格式:
{
"content": "记忆内容文本",
"confidence": 0.85, // 置信度 ≥ 0.7 才纳入
"source_thread_uuid": "xxx", // 来源追踪
"timestamp": "...",
"memory_type": "semantic"
}
技术栈:
- ChromaDB(向量存储)
- TIAMAT 云端后端(持久化)
- LangGraph(工作流编排)
7.4 NousResearch Hermes 记忆四层架构
Plugin(插件层) Hindsight (知识图谱增强)
↓
MemoryProvider(提供层) 注入系统提示:冻结快照(会话开始时)
↓
MemoryManager(管理层) 认知记忆操作(LLM 驱动):
encode / consolidate / recall / extract / forget
↓
MemoryStore(存储层) FTS5 全文检索 + 向量语义检索
八、评测基准体系
8.1 主流基准对比
┌──────────────────┬──────────────────────────────┬─────────────┬──────────────┐
│ 基准 │ 特点 │ 核心指标 │ 发布时间 │
├──────────────────┼──────────────────────────────┼─────────────┼──────────────┤
│ LoCoMo │ 长期对话记忆,多轮问答 │ 综合得分 │ 2024 │
│ LongMemEval │ 六维度长期记忆评测(ICLR 2025)│ 准确率 │ 2025 │
│ MemBench │ 引入学习式记忆控制,多维评测 │ 多维度 │ 2025 │
│ MemoryArena │ 多会话相互依赖任务 │ 任务完成率 │ 2025 │
│ AlpsBench │ 真实对话数据(arXiv 2603.26680)│ 自然度 │ 2026 │
│ HotpotQA │ 多跳推理检索评测 │ EM/F1 │ 经典 │
└──────────────────┴──────────────────────────────┴─────────────┴──────────────┘
8.2 典型性能数据对比
| 系统 | LoCoMo | LongMemEvalS | Token 效率 |
|---|---|---|---|
| Full Context(基线) | ~52.9% | — | 最差 |
| Mem0 | — | — | 省 90% |
| MemMachine | 0.9169 | 93.0% | 省 80% vs Mem0 |
| MAGMA | SOTA | SOTA | — |
| PowerMem | 78.70% | — | 省 vs full-context |
九、技术挑战与研究方向
9.1 当前五大挑战
┌─────────────────────────────────────────────────────────────────┐
│ Agent 记忆五大挑战 │
├─────────────────────┬───────────────────────────────────────────┤
│ 有用性 │ 记忆真的帮到当前任务了吗? │
│ (Usefulness) │ 挑战:相关性判断、噪声过滤 │
├─────────────────────┼───────────────────────────────────────────┤
│ 效率性 │ 低延迟获取正确记忆 │
│ (Efficiency) │ 挑战:检索速度 vs 精度权衡 │
├─────────────────────┼───────────────────────────────────────────┤
│ 适应性 │ 记忆能随时间演化改进吗? │
│ (Adaptability) │ 挑战:稳定性-可塑性困境 │
├─────────────────────┼───────────────────────────────────────────┤
│ 忠实性 │ 记忆准确、不产生幻觉吗? │
│ (Faithfulness) │ 挑战:事实漂移、知识冲突 │
├─────────────────────┼───────────────────────────────────────────┤
│ 治理性 │ 记忆的访问控制、隐私保护 │
│ (Governance) │ 挑战:跨用户隔离、敏感信息处理 │
└─────────────────────┴───────────────────────────────────────────┘
9.2 六大前沿研究方向
① 记忆自动化(Memory Automation)
- 从手动设计记忆结构 → 自动发现最优记忆策略
- 代表:MemEvolve(元演化方式自动优化记忆系统)
② 强化学习集成(RL Integration)
- 将记忆管理决策纳入 Agent 策略学习
- 代表:AgeMem、MemRL、Memory-R1
- 核心挑战:记忆操作引发的稀疏奖励问题
③ 多模态记忆(Multimodal Memory)
- 图像、音频、视频内容的记忆存储与检索
- 代表:MIRIX(比 RAG 准确率高 35%)
④ 多智能体记忆(Multi-agent Memory)
- Agent 间记忆共享与隔离的权衡
- 代表:G-Memory、LEGOMem
⑤ 可信度问题(Trustworthiness)
- 记忆的准确性验证、偏见检测、隐私保护
⑥ 评测标准化
- 从静态问答评测 → 多会话 Agent 行为评测
- 从单维度 → 多维度综合评估体系
十、核心速查表
10.1 论文选型指南
| 需求场景 | 推荐论文/方案 | 核心优势 |
|---|---|---|
| 长期对话个性化 | Mem0 + MemMachine | 生产就绪,Token 效率高 |
| 复杂关系推理 | MAGMA + HippoRAG | 多图表示,结构化检索 |
| 知识演化追踪 | Zep(时序知识图谱) | 版本化事实存储 |
| 技能复用/工具学习 | LEGOMem + Voyager | 模块化程序记忆 |
| RL 自适应学习 | AgeMem + MemRL | 端到端记忆策略学习 |
| 知识网络构建 | A-MEM | Zettelkasten 关联记忆 |
| 多模态场景 | MIRIX | 跨模态记忆检索 |
| 多智能体系统 | G-Memory + LEGOMem | 层级共享记忆 |
10.2 三维框架速查
Forms(存什么): Token文本 / 参数权重 / 潜在状态
Functions(做什么): 事实记忆 / 情节记忆 / 语义记忆 / 程序记忆 / 工作记忆
Dynamics(怎么变): 形成(提取) → 存储(索引) → 演化(巩固/遗忘) ⟵ 检索(召回)
10.3 关键论文索引
| 分类 | 代表论文 | arXiv | 年份 |
|---|---|---|---|
| 综述 | Memory in the Age of AI Agents | 2512.13564 | 2025.12 |
| 综述 | Graph-based Agent Memory Survey | 2602.05665 | 2026.02 |
| 奠基 | MemGPT | 2310.08560 | 2023 |
| 奠基 | Generative Agents | 2304.03442 | 2023 |
| 知识图谱 | HippoRAG | 2405.14831 | 2024 |
| 知识图谱 | MAGMA | 2601.03236 | 2026.01 |
| 知识图谱 | Zep | 2501.13956 | 2025 |
| Zettelkasten | A-MEM | 2502.12110 | 2025.02 |
| RL驱动 | AgeMem | 2601.01885 | 2026.01 |
| RL驱动 | MemRL | 2601.03192 | 2026.01 |
| RL驱动 | Memory-R1 | 2508.19828 | 2025.08 |
| 生产级 | Mem0 | 2504.19413 | 2025.04 |
| 生产级 | MemMachine | 2604.04853 | 2026.04 |
| 记忆OS | MemOS | 2505.22101 | 2025.05 |
| 多模态 | MIRIX | 2507.07957 | 2025.07 |
| 自演化 | MemEvolve | 2512.18746 | 2025.12 |
| 自演化 | EverMemOS | 2601.02163 | 2026.01 |
附录:Agent 记忆 vs 相关概念辨析
┌─────────────────────────────────────────────────────────────────────────┐
│ 概念边界辨析 │
├──────────────────┬──────────────────────────────────────────────────────┤
│ Agent Memory │ ✓ 跨会话持久化 ✓ 与行动紧耦合 ✓ 自适应演化 │
├──────────────────┼──────────────────────────────────────────────────────┤
│ LLM Memory │ × 无跨会话 × 不主动管理 ≈ 上下文窗口内知识 │
├──────────────────┼──────────────────────────────────────────────────────┤
│ RAG │ × 静态外部知识库 × 被动检索 × 不随交互演化 │
├──────────────────┼──────────────────────────────────────────────────────┤
│ 上下文工程 │ × 会话内有效 × 不跨会话 × 手动管理 │
└──────────────────┴──────────────────────────────────────────────────────┘
关键判断标准:是否"跨会话持久化"且"与 Agent 行动双向耦合"
更多推荐

所有评论(0)