Hermes 跨会话学习：让Agent拥有“昨天做了什么“的记忆

AI 科技创新院

39人浏览 · 2026-06-26 10:05:50

AI 科技创新院 · 2026-06-26 10:05:50 发布

Hermes 跨会话学习：让Agent拥有“昨天做了什么“的记忆

一、失忆的Agent，疲惫的人类

你和一个AI Agent工作了整整一天。

你教会它项目的架构规范，纠正了它三次数据库连接的写法，陪着它调通了那个该死的分布式事务。傍晚六点，一切终于跑通了。你满意地关闭会话，回家吃饭。

第二天早上，你打开新的对话窗口——

Agent热情地打招呼：“你好！我是你的AI助手，请问有什么可以帮你的？”

它什么都不记得了。

你又花了一上午重新解释架构，重新纠正连接写法，重新调分布式事务。第三天、第四天、第五天，同样的剧本反复上演。你不是在用AI提效，你是在每天早上给一个失忆症患者做复健。

这不是科幻场景。这是2024年绝大多数AI Agent的真实状态。

每一次新会话，Agent就像被格式化的硬盘——干干净净，空空荡荡。你昨天写的Prompt、调试的经验、积累的上下文，全部归零。你被迫成为Agent的"记忆外挂"，每天手动往它脑子里灌同样的信息。

Hermes Agent的跨会话学习机制，正是为了终结这个循环。

二、跨会话学习的三重挑战

让Agent"记住昨天"听起来简单，做起来却要同时解决三个层面的问题。

挑战一：上下文窗口的物理极限。

即使是最先进的大模型，上下文窗口也是有限的。假设每次会话产生5万Token的交互数据，10次会话就是50万Token——早已超出任何模型的承载能力。你不能把所有历史对话原样塞进Prompt。

挑战二：信息的相关性过滤。

昨天的会话里，80%是调试过程的中间产物——错误的尝试、废弃的代码片段、已经解决的临时问题。只有20%是真正有价值的经验知识。如果Agent把所有历史等权加载，它不仅记不住有用的东西，反而会被噪音淹没。

挑战三：知识的安全迁移边界。

项目A中积累的经验能否直接用于项目B？有些可以——比如"Python的GIL在多线程CPU密集任务中是性能瓶颈"。有些绝对不行——比如"本项目的数据库密码是123456"。跨会话学习必须有精确的迁移边界控制。

这三个挑战层层递进：先解决"能不能记住"（存储），再解决"记什么"（筛选），最后解决"怎么用"（迁移）。Hermes的跨会话学习架构，正是围绕这三层逐级构建的。

三、Session Continuity机制：记忆的存入与取出

Hermes的会话连续性机制不是简单的"把上次对话存起来下次加载"，而是一套完整的记忆生命周期管理。

┌──────────────────────────────────────────────────────────────────┐│              Session Continuity Mechanism in Hermes               ││                                                                  ││  ┌─────────┐    ┌──────────────┐    ┌────────────────┐           ││  │ Session │───>│   Experience  │───>│   Knowledge    │           ││  │   #N    │    │   Extractor   │    │    Store       │           ││  │(Active) │    │  (会话中实时)  │    │  (持久化存储)   │           ││  └─────────┘    └──────┬───────┘    └───────┬────────┘           ││                        │                     │                    ││                   ┌────▼─────┐         ┌─────▼──────┐            ││                   │  Action  │         │  Relevance │            ││                   │  Logger  │         │   Indexer  │            ││                   │(行为日志) │         │ (相关性索引) │            ││                   └──────────┘         └─────┬──────┘            ││                                              │                    ││  ┌─────────┐    ┌──────────────┐    ┌───────▼────────┐           ││  │ Session │<───│   Memory     │<───│   Retrieval    │           ││  │  #N+1   │    │   Assembler  │    │    Engine      │           ││  │ (New!)  │    │ (记忆组装器)  │    │  (检索引擎)    │           ││  └─────────┘    └──────────────┘    └────────────────┘           ││                                                                  ││  Key: ───> Data Flow    ┌─┐ Storage    ┌─┐ Processing            │└──────────────────────────────────────────────────────────────────┘

这套机制的运行逻辑如下：

会话中（Session #N进行时）：

**Experience Extractor（经验提取器）**实时监听会话中的每一次交互，识别出有价值的经验片段。不是所有对话都值得记住——"请帮我生成一个函数"是任务，"这个函数在并发场景下会死锁，因为锁的获取顺序不一致"才是经验。
**Action Logger（行为日志器）**记录Agent的每一个动作及其结果：执行了什么命令，得到了什么输出，成功还是失败。这些结构化日志是后续经验蒸馏的原始材料。

会话结束（Session #N关闭时）：

经验片段被写入Knowledge Store（知识存储），这是一个持久化的向量数据库，不是存在内存里的临时变量。
**Relevance Indexer（相关性索引器）**为每条经验打上多维标签：涉及的技术栈、问题类型、解决方案类别、适用场景。这些标签决定了未来检索时的匹配精度。

新会话启动（Session #N+1开始时）：

**Retrieval Engine（检索引擎）**根据新会话的初始上下文，从Knowledge Store中检索最相关的历史经验。
**Memory Assembler（记忆组装器）**将检索到的经验片段组装成紧凑的上下文摘要，注入新会话的系统Prompt中。

Agent不是"想起了一切"，而是"想起了最相关的那部分"。这是关键区别。

四、长期经验蒸馏：从100次会话到10条核心知识

单次会话的经验提取解决了"记什么"的问题，但随着会话数量增长，一个新的问题浮现：经验太多了。

100次会话可能产生2000条经验片段。如果每次新会话都要检索2000条记录，不仅效率低下，信息冗余还会干扰Agent的判断。就像一个人如果同时回忆起过去一年吃过的每一顿饭，他反而无法总结出"我对海鲜过敏"这个关键结论。

Hermes引入了长期经验蒸馏管线（Long-term Experience Distillation Pipeline）：

┌─────────────────────────────────────────────────────────────────────┐│          Long-term Experience Distillation Pipeline                 ││                                                                     ││  Layer 1: Raw Experience Layer (原始经验层)                          ││  ┌─────────────────────────────────────────────────────────────┐    ││  │ S#1: "MySQL慢查询→添加索引后从3s降到50ms"                     │    ││  │ S#1: "JOIN时避免SELECT * 减少内存消耗"                        │    ││  │ S#2: "Redis缓存击穿→使用互斥锁重建"                           │    ││  │ S#3: "MySQL慢查询→EXPLAIN分析发现全表扫描"                    │    ││  │ S#5: "Redis缓存雪崩→随机过期时间打散"                         │    ││  │ ... (100 sessions → ~2,000 raw experience fragments)         │    ││  └──────────────────────────┬──────────────────────────────────┘    ││                             │                                       ││                    ┌────────▼────────┐                               ││                    │    Clustering   │                               ││                    │    & Merge      │  聚类合并：相似经验归组         ││                    └────────┬────────┘                               ││                             │                                       ││  Layer 2: Pattern Layer (模式层)                                    ││  ┌─────────────────────────────────────────────────────────────┐    ││  │ P#1: [MySQL优化] 索引优化 + EXPLAIN分析 → 系统性方法           │    ││  │ P#2: [Redis防护] 缓存击穿/雪崩/穿透的防御策略体系              │    ││  │ P#3: [并发安全] 锁获取顺序一致性原则                           │    ││  │ ... (~200 patterns from 2,000 fragments)                     │    ││  └──────────────────────────┬──────────────────────────────────┘    ││                             │                                       ││                    ┌────────▼────────┐                               ││                    │   Abstract &    │                               ││                    │   Generalize    │  抽象泛化：提取跨场景原则       ││                    └────────┬────────┘                               ││                             │                                       ││  Layer 3: Core Knowledge Layer (核心知识层)                         ││  ┌─────────────────────────────────────────────────────────────┐    ││  │ K#1: "数据库性能问题→先EXPLAIN看执行计划→针对性加索引"          │    ││  │ K#2: "缓存设计→三击防御(击穿/雪崩/穿透)需同时考虑"             │    ││  │ K#3: "并发安全→锁获取顺序必须全局一致"                         │    ││  │ ... (~10 core knowledge items from 200 patterns)             │    ││  └─────────────────────────────────────────────────────────────┘    ││                                                                     ││  Compression Ratio: 2,000 → 200 → 10 (200:1)                       │└─────────────────────────────────────────────────────────────────────┘

这个蒸馏过程分三个层级：

Layer 1 → Layer 2（聚类合并）：相似的经验被归为同一簇。“MySQL慢查询加索引"和"用EXPLAIN发现全表扫描"被合并为"MySQL性能优化的系统性方法”。Agent学会的不是孤立的事实，而是成体系的方法论。

Layer 2 → Layer 3（抽象泛化）：从具体模式中提取跨场景通用原则。MySQL索引优化和PostgreSQL查询调优虽然技术栈不同，但"先分析执行计划再针对性优化"的思路是一致的。核心知识层只保留这种最高抽象级别的洞察。

200:1的压缩比意味着：2000条原始经验最终被浓缩为10条核心知识。这10条知识每一条都是经过多次实践验证的、跨场景可迁移的、高信息密度的精华。

在新会话启动时，Agent只需要加载这10条核心知识（而不是2000条原始记录），就能获得过去100次会话的精华积累。这就是记忆的艺术——不是记住一切，而是提炼出最重要的东西。

五、跨项目知识迁移：安全的经验复用

经验蒸馏解决了"经验太多"的问题，但还有一个更微妙的问题：项目A的经验能不能用在项目B上？

Hermes的答案是：可以，但要在严格的迁移控制框架下。

跨项目知识迁移分为三个安全等级：

第一级：通用原则（自由迁移）。 比如"API设计应遵循RESTful规范"、“Git提交信息应包含变更类型前缀”。这类知识具有跨项目通用性，可以无限制迁移。Agent在新项目中会自然应用这些原则，就像一个资深工程师跳槽后不会忘记编码规范。

第二级：领域模式（条件迁移）。 比如"电商系统的订单状态机设计"、“微服务间的幂等性保证方案”。这类知识需要在迁移时验证适用性。Hermes会在迁移时附加条件标签："此经验适用于使用XX架构的电商系统，你的项目是否满足这些条件？"Agent不是盲目套用，而是先验证再使用。

第三级：项目特有信息（禁止迁移）。 比如"本项目的数据库密码是admin123"、“测试环境的IP地址是192.168.1.100”。这类信息带有强烈的项目绑定属性，Hermes会将其标记为project-scoped，在跨项目检索时直接过滤掉。

这种三级迁移控制确保了一个关键属性：Agent在迁移经验时不会"串台"。 你不会看到Agent在项目B中突然使用项目A的API密钥，也不会看到它把项目A的特殊配置硬套到项目B上。

经验可以流动，但边界永远清晰。

六、记忆压缩：有限Token承载最丰富历史

大模型的上下文窗口是Agent记忆的物理载体。无论Knowledge Store里存了多少经验，最终能注入Prompt的Token数是有限的。Hermes的记忆压缩策略，本质上是在有限空间内最大化信息密度。

策略一：分层加载（Hierarchical Loading）。

不是所有经验都需要同等详细的描述。核心知识层只需一句话概括原则（“并发场景下锁获取顺序必须一致”），使用时再按需加载具体案例。就像你不需要在每次写代码时回忆起大学四年所有课本的全文——你只需要知道原则，细节在需要时查阅。

策略二：渐进式展开（Progressive Expansion）。

新会话启动时，Agent首先只加载核心知识层的摘要（约500 Token）。随着对话深入，如果触及某个知识领域，才展开对应的模式层和案例层。这种"按需展开"的策略确保了记忆加载的精准性——不浪费一个Token在无关的历史上。

策略三：时效性衰减（Temporal Decay）。

并非所有历史经验都有同等价值。三个月前的调试经验可能已经过时（框架已经升级了），但三个月前的架构教训可能仍然适用。Hermes对每条经验施加时效性衰减因子，根据经验类型设置不同的半衰期：技术细节的半衰期短，设计原则的半衰期长。

这三种策略的组合效果是：Agent在任意时刻只加载"最相关、最精炼、最时效"的记忆子集，将宝贵的上下文窗口留给当前的推理和决策。

七、被遗忘的宝藏：负面记忆的价值

在跨会话学习中，有一种记忆经常被忽视却极具价值——负面记忆。

所谓负面记忆，就是"什么行不通"的记录。Agent尝试了一种方案，失败了，它不仅需要记住成功的路径，更需要记住那条走不通的弯路。

考虑一个真实场景：Agent在Session #7中尝试用消息队列解决分布式事务问题，经过三小时的调试发现这种方案在该项目的特定约束下不可行，最终改用了Saga模式。如果只记住"用Saga模式解决分布式事务"，Agent在新项目中可能再次尝试消息队列方案，再次浪费三小时。

但如果Agent同时记住了负面记忆——“在需要强一致性的场景下，消息队列的最终一致性方案不适用，已验证失败”——它就能在新项目中直接跳过这个坑。

Hermes的负面记忆机制包括三个组件：

失败标记器（Failure Tagger）
：自动识别会话中的失败尝试，标记失败原因和上下文条件。
负面知识库（Negative Knowledge Base）
：独立存储"行不通"的经验，与正面知识库并行检索。
冲突检测器（Conflict Detector）
：当Agent准备采用某方案时，检查负面知识库中是否存在相似的失败记录，如果有则发出预警。

正面记忆告诉Agent"怎么做是对的"，负面记忆告诉Agent"怎么做是错的"。两者结合，才是完整的经验体系。

一个只记住成功路径的Agent，本质上仍然在重复试错。一个同时记住失败路径的Agent，才真正实现了"不犯同样的错误"——而这，才是经验的真正价值。

八、震撼时刻：30天记忆增长曲线

我们把Hermes的跨会话学习模块部署在一个真实开发环境中，连续观察了30天。以下是Agent记忆库的增长曲线和行为变化记录：

Day  1-5:    [■]                                                    ~120条             全是原始经验碎片，Agent行为与普通Agent无异             每次启动都需要人类重新解释项目背景Day  6-10:   [■■■■]                                                 ~580条             开始出现模式层知识，Agent偶尔能"想起"之前用过的方法             但检索精度低，经常想起不相关的经验Day 11-15:  [■■■■■■■■]                                              ~1,340条             ★ 第13天：首次观察到"主动回忆"行为             Agent在接收到新任务后，没有立即开始执行             而是说："等一下，我记得之前处理过类似的问题..."             然后从记忆库中检索出相关经验并据此制定方案Day 16-20:  [■■■■■■■■■■■■]                                         ~2,100条             经验蒸馏管线成熟运行，核心知识层形成             "主动回忆"成为标准行为模式             Agent开始使用"先回忆再行动"策略Day 21-30:  [■■■■■■■■■■■■■■■■■■]                                   ~2,847条             记忆增速放缓（高质量经验已被充分提取）             但核心知识层持续精炼，压缩比从50:1提升到200:1             Agent展现出明显的"经验直觉"——快速识别问题模式

Day 13是分水岭。

在那之前，Agent的记忆系统是被动的——只有当人类明确要求"参考之前的方案"时，它才会检索历史。但在Day 13，发生了一件让团队成员集体静默的事情：

Agent收到了一个性能优化任务。按照以往的行为模式，它应该直接开始分析代码、建议优化方案。但这一次，它停顿了两秒（检索延迟），然后输出了一段话：

“这个接口响应时间过长的问题，我记得在6月3日的会话中处理过类似情况。当时的根因是N+1查询问题，通过添加预加载解决。让我先检查一下这个接口是否存在同样的模式。”

它查了。确实是N+1查询。它在两分钟内解决了问题，而Day 1的时候同样的排查花了四十分钟。

这不是概率上的巧合。这是经验在起作用。Agent从Day 13开始学会了一个元认知策略：先回忆再行动。 它不再对每个任务都从零开始分析，而是先在记忆库中搜索相似的历史案例，如果找到了匹配的经验，直接复用方案框架；如果没有找到，再走完整的分析流程。

“先回忆再行动”——这五个字背后，是从"无状态工具"到"有经验的合作者"的质变。

30天结束时，记忆库中有2,847条经验记录，但Agent在新会话中只需要加载约15条核心知识就能覆盖90%以上的常见场景。200:1的压缩比，让有限Token承载了最丰富的历史。

九、从"工具"到"伙伴"的一步之遥

跨会话学习解决的不是技术问题，而是信任问题。

当你知道Agent记得昨天的对话、上周的经验、上个月的教训时，你与它的交互方式会发生根本改变。你不再需要每天早上花30分钟重新建立上下文，不再需要反复解释同样的项目约束，不再需要像个老师一样批改它每周都在犯的同样错误。

你开始信任它。

你开始把真正复杂的任务交给它——因为你知道它会"回忆"起所有相关的历史经验。你开始在下班前跟它说"今天的进展你记一下"——因为你知道明天它会自动加载这些进展。

Agent不再是你每天早上要重新培训的工具，而是一个积累了共同经验的伙伴。

这就是跨会话学习的终极目标：让Agent从"每次从零开始"变成"站在过去的肩膀上"。

但这还只是开始。当Agent拥有记忆之后，下一个问题是：它能否基于这些记忆，主动进化自己的行为策略？它能否不仅"记住"过去的经验，还能"反思"这些经验、发现自己的系统性弱点、并主动制定改进计划？

有任何技术问题，随时交流！AoxueJy-Ys

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

新兴通话场景中音频3A技术的升级路径

我们这前讨论过webrtc中3A技术现状与局限，现在AI agent语音交互技术，公共场景的智能对话机器人，娱乐互动等实时交互热门技术落地离不开音频3A能力的支持。WebRTC 的 3A（AEC 回声消除、AGC 自动增益控制、ANS 噪声抑制）音频处理模块虽然已经非常成熟，但在多个新兴通话场景中仍存在。后续我会进一步展开某个具体方向，比如 AI-AEC、AI-NS抑制的实时推理优化进行分享，还有

CSDN-OPC开发者社区

【AI Agent工程化】工具会调用不等于能上线：参数契约、权限边界、幂等与回放测试

CSDN-OPC开发者社区

帮我构思一个项目：Trae、Codearts atomcode 等AI agent的调度中心优先windows系统，通过句柄获得这些AI agent的任务信息，对其进行跟踪，用户可以通过调度中心发布

项目摘要：群星（Star）- AI Agent调度中心群星（Star）是一个面向Windows系统的AI Agent调度平台，旨在统一管理Trae、CodeArtsAtom等AI助手。项目通过系统级API（如句柄、进程监控）实现任务跟踪与调度，用户可通过中心发布、修改任务并实时监控反馈。核心功能：星图：自动识别运行中的AI Agent进程星轨：任务队列管理（创建/分配/修改）星语：实时捕