编码 Agent 正在学会「自我进化」——从 Superpowers 到 OpenViking 的技术拆解

baidu_32885171

880人浏览 · 2026-03-17 11:08:44

baidu_32885171 · 2026-03-17 11:08:44 发布

编码 Agent 正在学会「自我进化」——从 Superpowers 到 OpenViking 的技术拆解

过去一周的 GitHub Trending 出现了一个有意思的现象：排行榜前十里，有一半跟 AI Agent 的「技能框架」相关。Superpowers 冲到了 89k stars，claude-mem 拿下 37k，learn-claude-code 接近 30k，字节跳动的 OpenViking 也到了 14k。

这不是巧合。编码 Agent 正在经历一次范式转变——从「接收指令，执行任务」变成「规划目标，调度资源，自己学着变聪明」。

我花了几天时间把这几个项目都跑了一遍，聊聊我的观察。

先说结论

如果你现在还在用「一个大 prompt + 一堆工具」的方式搭 Agent，可能需要重新想想了。2026 年 Q1 的趋势很明确：

Agent 需要「技能」而不只是「工具」
记忆管理从文本文件进化到语义数据库
子 Agent 协作从串行走向并行自治

下面挨个拆。

Superpowers：89k stars 背后的方法论

先聊 Superpowers，因为它的思路最有代表性。

这个项目的核心其实不是代码，是一套软件开发方法论。它给编码 Agent 加了几个关键约束：

用户提需求 → Agent 先提问搞清楚真实意图
           → 拆解成可执行的实施计划
           → 启动子 Agent 逐个完成任务
           → 主 Agent 审查子 Agent 的产出
           → 循环直到完成

听起来很简单？但真正跑起来你会发现，这套流程解决了一个最头疼的问题：Agent 跑偏。

在没有规划约束的情况下，让 Claude Code 或 Cursor 去做一个复杂功能，它大概率会在第三步开始偏离你的预期。加了测试也不好使，因为它写的测试本身就是按它理解的方向来的。

Superpowers 的做法是在「写代码」之前强制插入一个「对齐」环节。它不是直接开干，而是先把方案用人话写出来给你看，你点头了才开始实施。实施过程中每个子任务都是独立的 context window，不会互相污染。

这和传统的 ReAct 循环有本质区别。ReAct 是「想一步做一步」，Superpowers 是「先想完再做」。在实际体验里，后者的完成率高了不止一倍。

它强调 TDD（测试驱动）和 YAGNI（不做多余的事），这两条在 Agent 场景下意外地好用。Agent 最爱干的事就是加一堆你没要的功能，YAGNI 直接给它画了条线。

实战对比：有无规划约束的差异

我用同样一个需求（"给项目加一个 WebSocket 实时通知功能"）分别用普通 Claude Code 和 Superpowers 方式跑了一遍：

# 普通方式：Claude Code 直接开干
# 结果：
# - 改了 8 个文件
# - 引入了 Socket.IO（我没要求用这个库）
# - 加了一个完整的房间管理系统（我只要简单通知）
# - 自动加了心跳检测、断线重连、消息持久化
# - 总共 600+ 行代码
# - 有 3 个 bug

# Superpowers 方式：先规划再执行
# 规划阶段输出：
# "需求确认：只需要服务端推送通知到前端，不需要双向通信。
#  推荐方案：用原生 WebSocket，不引入 Socket.IO。
#  实施步骤：
#  1. 添加 WebSocket 服务端（ws 库，约 40 行）
#  2. 前端添加连接逻辑（约 30 行）
#  3. 添加通知触发接口（约 20 行）"
# 
# 结果：
# - 改了 3 个文件
# - 90 行代码
# - 0 个 bug

差异非常明显。规划约束让 Agent 不再「过度工程化」。

claude-mem：让 Agent 真正「记住」你的项目

如果 Superpowers 解决的是「怎么做」，claude-mem 解决的就是「记住做过什么」。

这个 Claude Code 插件做的事情说白了就一句话：自动记录 Agent 每次会话干了什么，压缩成摘要，下次开会话的时候自动注入回去。

# claude-mem 的核心循环（伪代码）
class ClaudeMem:
    def on_session_end(self):
        observations = self.capture_tool_usage()    # 抓取工具调用记录
        decisions = self.extract_decisions()         # 提取关键决策
        summary = self.compress(observations, decisions)  # AI 压缩成摘要
        self.store(summary, semantic_index=True)     # 存到语义索引

    def on_session_start(self):
        context = self.get_current_context()
        relevant = self.search(context, top_k=5)     # 检索相关记忆
        self.inject(relevant, position="system")     # 注入到当前会话

    def compress(self, observations, decisions):
        """不是存日志，是提炼决策"""
        prompt = f"""
        总结这次会话的关键决策和原因：
        工具调用：{observations}
        重要选择：{decisions}

        输出格式：
        - 做了什么
        - 为什么这样做
        - 有什么需要注意的
        """
        return llm.generate(prompt)

看起来不复杂。但实际用起来体验差别很大。

一个常见场景：你花了三天在一个项目上迭代，中间开了十几次 Claude Code 会话。到第四天再打开，Agent 对之前做的所有决定一无所知。你得重新解释一遍「为什么用这个库」「为什么 API 这样设计」。

claude-mem 把这个问题自动化了。它不只是记录「你做了什么」，而是记录「你为什么这样做」。这是语义压缩的价值——不是存日志，是提炼决策。

它现在有 37k stars，说明这个痛点是真实存在的。不过我得说，它的方案还比较初级。所有记忆都是文本级别的检索，没有结构化。这就引出了下一个项目。

OpenViking：字节跳动对 Agent 记忆的重新定义

OpenViking 的野心大得多。它不是做一个记忆插件，而是要做 Agent 的「上下文数据库」。

传统 RAG 的做法是把文本切片、向量化、扔进向量数据库。检索的时候用余弦相似度捞出来。问题在于——这是扁平的。你查「用户认证」，它可能把登录、注册、OAuth、JWT 全给你捞出来，但没有层次关系。

OpenViking 用「文件系统范式」来组织上下文。它把 Agent 需要的东西分成三类：

记忆（Memory）：对话历史、决策记录、经验教训
资源（Resource）：文档、代码、数据
技能（Skill）：可复用的操作模式

然后用类似目录树的结构组织起来，支持三层分级加载：

L0: 热数据 — 当前任务直接相关的上下文
    例：正在修改的那个文件、刚才的对话记录

L1: 温数据 — 同一项目的背景信息
    例：项目架构文档、API 设计规范、团队约定

L2: 冷数据 — 历史经验和通用知识
    例：之前踩过的坑、常用的设计模式、最佳实践

这跟操作系统的页面缓存思路很像——热数据常驻内存，冷数据按需加载。在 Agent 场景下，这解决了上下文窗口有限的核心矛盾：不是把所有东西塞进去，而是只加载当前需要的。

与 OpenClaw 记忆系统的对比

我自己用的 OpenClaw 也有类似的分层设计，但思路不太一样：

OpenClaw 四层记忆：
Layer 1: SOUL（不可变）   → 核心行为准则，类似 OpenViking 的系统配置
Layer 2: TOOLS（半静态）  → 工具使用约定，类似 OpenViking 的 Skill
Layer 3: USER（长期）     → 用户偏好和历史，类似 OpenViking 的 Memory
Layer 4: Session（短期）  → 当前对话上下文，类似 OpenViking 的 L0

OpenViking 三层上下文：
L0: 热数据 → 对应 OpenClaw Session
L1: 温数据 → 对应 OpenClaw TOOLS + USER 部分
L2: 冷数据 → 对应 OpenClaw USER 的深层历史

两者最大的区别：OpenClaw 用文件系统（JSONL + Markdown），OpenViking 用语义数据库。前者简单直接可调试，后者检索更精准但黑盒程度高。

在实际使用中，我倾向于混合方案——日常操作用文件系统（可读性好），需要跨会话检索时走语义搜索。

learn-claude-code：12 层架构拆解

这个项目比较特殊，它不是一个工具，是一本「教科书」——教你怎么把 Claude Code 用到极致。

它提出了一个 12 层架构体系，从底层到顶层依次是：

第 12 层：用户交互界面
第 11 层：任务编排引擎
第 10 层：多 Agent 协作协议
第 9 层：安全与权限沙箱
第 8 层：持久化状态管理
第 7 层：工具注册与调度
第 6 层：上下文窗口管理
第 5 层：记忆与检索系统
第 4 层：提示词工程层
第 3 层：模型适配层
第 2 层：运行时环境
第 1 层：基础设施

这 12 层里最值得关注的是第 10 层——多 Agent 协作。

传统做法是串行：主 Agent 调子 Agent，等结果回来再调下一个。learn-claude-code 提出了并行自治模式：

# 串行模式（传统）
result1 = agent_a.run("分析需求")
result2 = agent_b.run(f"设计方案，基于：{result1}")
result3 = agent_c.run(f"编写代码，基于：{result2}")

# 并行自治模式（learn-claude-code）
async def parallel_workflow():
    # 多个 Agent 同时启动，各自独立工作
    tasks = [
        agent_arch.run("分析现有架构"),
        agent_test.run("生成测试用例"),
        agent_doc.run("更新文档"),
    ]
    results = await asyncio.gather(*tasks)

    # 主 Agent 汇总审查
    final = agent_main.review(results)
    return final

并行模式的优势在于速度——三个 Agent 同时跑，总耗时接近最慢的那个，而不是三个的总和。代价是需要更精细的任务拆分，确保并行任务之间没有依赖。

实战建议：怎么把这些项目用起来

聊了这么多，给几个具体的建议：

1. 给你的 Agent 加规划约束

不管你用的是 Claude Code、Cursor 还是自己搭的 Agent，都可以借鉴 Superpowers 的思路。核心就一句话：写代码之前先出方案。

最简单的实现方式——在 system prompt 里加一段：

在执行任何代码修改之前，先输出一份简要的实施计划：
1. 要改哪些文件
2. 每个文件改什么
3. 预期的代码量
等用户确认后再开始实施。

2. 搭建记忆管理

如果你用 Claude Code，直接装 claude-mem。如果是自建 Agent，参考 OpenClaw 的四层记忆设计，至少做到：

会话结束时自动保存关键决策
新会话开始时注入相关历史
长期记忆定期整理压缩

3. 尝试多 Agent 协作

从简单场景开始——比如让一个 Agent 写代码，另一个 Agent 做 code review。不要一上来就搞复杂的并行调度。

# 最简单的双 Agent 协作
code = coder_agent.generate(requirement)
review = reviewer_agent.check(code)

if review.has_issues:
    code = coder_agent.fix(code, review.feedback)

这种模式的效果往往比单 Agent 反复修改要好——因为 reviewer 的视角和 coder 不同，能发现盲点。

总结

2026 年 Q1 的 Agent 生态正在经历快速分化。几个项目分别押注了不同的方向：

项目	Stars	核心方向	解决的问题
Superpowers	89k	规划约束	Agent 跑偏
claude-mem	37k	语义记忆	跨会话遗忘
learn-claude-code	29.5k	架构方法论	系统化构建
OpenViking	14.3k	上下文数据库	信息过载

一个有意思的观察：这四个项目都不是在「提升模型能力」，而是在「提升模型之外的工程能力」。这跟 Google 报告里说的「从 Prompt 工程到系统工程」的趋势完全一致。

模型的智商已经够了，现在拼的是工程纪律。

参考资料： - GitHub Trending (2026年3月第3周) - Superpowers: github.com/superpowers (89k stars) - claude-mem: github.com/claude-mem (37k stars) - learn-claude-code: github.com/learn-claude-code (29.5k stars) - OpenViking (字节跳动): github.com/openviking (14.3k stars) - Google Cloud《AI Agent Trends 2026》

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

当 AI 编程从“辅助”走向“治理”：一个前端工程师的 2026 年观察

2026 年，AI 编程正在从代码补全、AI IDE 进入 Agent 工程化阶段。它不再只是帮开发者写几段代码，而是开始参与 issue 处理、测试修复、重构迁移甚至 PR 提交。但真正的问题也随之变化：AI 是否能生成代码，已经不是核心；更关键的是，它生成的代码是否安全、可维护、可审计。本文结合 METR 开发者生产力研究、Agentic Coding 趋势、MCP 安全风险，以及实际开发中遇

CSDN-OPC开发者社区

AI Agent 是什么？

CSDN-OPC开发者社区

小型场景ai agent网络安全syslog日志接入方案——以flocks为例

（我在用的日志审计设备转发日志时，可以添加device自带标记真实源IP），第二种情况是某台服务器上可能部署了nginx等中间件日志，同时其操作系统日志也需要发给日志接收服务器，在日志中找出可以区分出的关键字后，也可以通过contains区分，实现同一服务器IP发出的nginx日志到nginx目录，服务器底层日志到其他指定目录，便于AI的分析。此类用户如果能实现flocks能读取操作系统日志、中间