Loop Engineering 深度分析报告

unique

326人浏览 · 2026-06-11 14:13:13

unique · 2026-06-11 14:13:13 发布

前言概要

本报告共五章，约 840 行。如果你只有 3 分钟，读完这一页就够了。

第一章：Loop Engineering 通俗介绍 — Loop Engineering 是设计「让 AI Agent 自己提示自己」的系统。你从「手动对话者」变成「自动化生产线设计师」。它由 Peter Steinberger、Boris Cherny、Karpathy 三个独立信号在 2026 年 6 月同时引爆，本质是 Prompt Engineering → Context Engineering → Loop Engineering 的第三次抽象层跃迁。Loop ≠ 定时任务——关键区别在于循环内部有一个能判断、能决策、能从失败中学习的 Agent。

第二章：核心内容点及设计原因 — 一个 Loop 由六要素构成：trigger + context + action + verification + state + retry/stop rules。Boris Cherny 定义了五大构建块（Automations、Worktrees、Skills、Connectors、Sub-agents）加 Memory。Claude Code 源码揭示了六条防线让循环稳定运行：多出口防卡死、看行动不看自报、反馈伪装成 user 消息、自然收敛配硬刹车、State 原子传递、TodoWrite 对冲遗忘。成本公式 迭代次数 × token × 并行实例数 提醒我们：Loop Engineering 不只是工程问题，也是经济问题。

第三章：与 Harness Engineering 的关联 — Loop 不是替代 Harness，而是在 Harness 之上加了两个关键能力：Automations（自动触发） 和 Memory（跨次记忆）。Harness 是「接住 Agent 的产出」，Loop 是「让 Agent 自己决定什么时候产出」。四层体系（Prompt → Context → Harness → Loop）层层包裹，内层从不消失。Inner Loop 管单次执行质量，Outer Loop 管跨会话知识沉淀，两者形成复利循环。

第四章：在 AI Coding 中运用 — 建 Loop 前先过三条检查：有可衡量 metric？失败代价可控？Harness 够硬？工作按适合度分三区——绿区（CI 修复、依赖更新等）强烈推荐，黄区（PR 审查、文档生成等）需人在关键节点，红区（架构设计、产品策略等）不建议 Loop 化。落地路径是渐进式的：从单个 Automation 观察一周开始，逐步加入 Maker-Checker 分离，最后扩展到多 Loop + Outer Loop 知识沉淀。

第五章：未来趋势展望 — 抽象层还会往上叠（Loop → Fleet），Metric 自动化会通过 AI 评估、组合信号、人类偏好学习三个方向突破，Inner/Outer Loop 融合会让 Agent 越用越聪明。但三个风险只会更尖锐而非消失：理解力债务（代码出货快于你理解的速度）、认知投降（停止思考接受一切）、自主性与安全性的张力。人设计 Loop，但设计 Loop 的那个人，不能停止当工程师。

第一章：Loop Engineering 通俗介绍

1.1 一句话定义

Loop Engineering 是设计「让 AI Agent 自己提示自己」的系统，而不是你亲自去提示它。

更准确地说：Loop Engineering 是构建一套自动化的闭环系统——它能按计划唤醒 AI Agent、给它分配任务、让它执行、验证结果、记住进度，然后决定下一步该做什么——整个过程不需要人坐在屏幕前逐条输入指令。

1.2 用日常类比理解

想象你经营一家面包店：

阶段	你的角色	类比到 AI Coding
手工烘焙时代	你亲手揉面、烤面包、检查品质	Prompt Engineering：你手动写提示词，一问一答地跟 AI 对话
半自动化时代	你买了搅拌机和烤箱，但每一步都要按按钮	Harness Engineering：你给 AI 搭好约束环境（测试、CI/CD），但每次任务都要人来触发和审查
全自动生产线	你设计了一条完整的生产线——原料自动进料、自动搅拌、自动烤制、自动质检、不合格的自动回炉	Loop Engineering：你设计一个闭环系统，AI 自动发现任务、自动执行、自动验证、自动迭代

关键区别：你从「操作员」变成了「生产线设计师」。你不再亲手做面包（写代码），也不再按按钮启动机器（手动提示 AI），而是设计那条能自己运转的生产线。

1.3 这个概念从哪来的？

Loop Engineering 在 2026 年 6 月集中爆发，三个独立信号同时指向了同一个方向：

Peter Steinberger（OpenClaw 作者）：

“You shouldn’t be prompting coding agents anymore. You should be designing loops that prompt your agents.”

他用 50 个 Codex 并行审查 3,000 个 PR，单日 627 次提交。他不是在讲理论——他每天就在这么干。

Boris Cherny（Anthropic Claude Code 负责人）：

“I don’t prompt Claude anymore. I have loops running that prompt Claude. My job is to write loops.”

他定义了 Loop 的五大构建块（Automations、Worktrees、Skills、Connectors、Sub-agents + Memory），把 Loop Engineering 从一个模糊概念变成了可操作的工程框架。

Andrej Karpathy（前 Tesla AI 总监）：用 630 行 Python 让一群 Agent 自主跑了 700 次实验，发现 20 个优化，实现 11% 的训练加速。他说：

“The goal is not to emulate a single PhD student, it’s to emulate a research community of them.”

Shopify CEO 复刻了 Karpathy 的做法：一个晚上跑了 37 次实验，内部 AI 模型性能提升 19%。

1.4 Loop Engineering 和之前那些概念有什么区别？

很多人会困惑：这和 Prompt Engineering、Context Engineering 到底有什么不同？下面这张表一目了然：

维度	Prompt Engineering	Context Engineering	Loop Engineering
你在优化什么	单条提示词的措辞	输入给模型的上下文信息	自动运行的闭环系统
工作单元	一次你手动输入的对话	围绕一次回答的条件设置	跨越多轮的自运行循环
人的角色	对话者	信息策展人	系统设计师
核心问题	“怎么问？”	“给它看什么？”	“怎么让它自己跑起来，还能自己停下来？”
时间线	2023-2024	2024-2025	2026 至今

重要澄清：这三层不是替代关系，而是包裹关系。Loop 里面包着 Context，Context 里面包着 Prompt。Loop Engineering 不是说 Prompt 不重要了——一个 Loop 里面的烂 Prompt 只会更快地生产垃圾。

1.5 Loop 不等于 Cron Job

有人会说：「这不就是定时任务吗？」

不是。 关键区别在于循环内部的决策者：

Cron Job 运行固定脚本：每次执行完全相同的操作，不管结果如何。
Loop 运行一个有判断力的 Agent：它会查看当前状态、选择下一步行动、执行、检查结果，然后决定下一步——继续、重试、回滚，还是停止。

用 Louis-François Bouchard 的话说：

“A cron job runs a fixed script. A loop runs an agent that looks at the current state, chooses the next action, does it, checks the result, and decides what to do next.”

一个 Loop 至少需要两个前提才能工作：

触发器（Trigger）：什么启动这个循环——可以是 PR 打开、CI 失败、定时调度、Slack 消息，或者你手动输入的一条命令。
可验证的目标（Verifiable Goal）：什么告诉循环可以停下来——可以是确定性的（所有测试通过、CI 变绿），也可以是柔性的（一个审查模型判断 UI 是否符合设计稿）。

没有可验证的目标，你建的不是 Loop，而是一台「自信的 Token 焚烧炉」。

1.6 是 Buzzword 吗？

坦率地说，是，也不是。

是 Buzzword 的部分：把本来就存在的事（自动化工作流 + CI/CD + 定时任务）换了一个新名字，然后宣称是「范式转移」。如果你之前就有好的 CI/CD、好的测试、好的 Agent 约束，你已经在做 Loop Engineering 的一部分了。

不是 Buzzword 的部分：LLM Agent 带来的真正新能力是「读上下文、产生假设、从失败中学习」。这不是传统的 cron job + 脚本能做到的。Karpathy 的 700 次实验不是随机搜索，是 Agent 在读之前的实验结果、形成新假设、写新代码。这是质的差异。

1.7 本章小结

Loop Engineering 的本质，可以浓缩为一句话：

人设计 Loop，Loop 提示 Agent，Agent 执行并验证，结果反馈回 Loop。人从「每一步都要参与」变成「设计系统、审查结果」。

但这不意味着人变得不重要——恰恰相反。每往上一个抽象层，你需要理解的东西更多，不是更少。你从写代码，到写 Prompt，到建 Harness，到设计 Loop。设计 Loop 的那个人，不能停止当工程师。

第二章：核心内容点及设计原因

2.1 Loop 的公式

Reddit 上一位务实派开发者给出了目前最简洁的 Loop 定义公式：

loop = trigger + context + action + verification + state + retry/stop rules

要素	含义	缺少会怎样
Trigger	什么触发循环启动（定时、事件、手动）	循环永远不会开始
Context	Agent 每轮能看到什么信息（代码、历史、规则）	Agent 盲猜，产出质量低下
Action	Agent 能做什么操作（编辑文件、运行命令、调用 API）	Agent 只能说不能做，沦为聊天机器人
Verification	怎么判断这一步做对了（测试通过、类型检查、审查模型）	Agent 自我感觉良好地一直跑下去
State	跨轮次的记忆（做到哪了、上次结果是什么）	每轮从零开始，第 15 轮忘了第 1 轮的目标
Retry/Stop Rules	什么时候重试、什么时候停止	要么卡死不动，要么无限空转烧钱

这六个要素缺一不可。缺少任何一个，Loop 就会退化为一个更低效的系统——要么是不会验证的盲跑脚本，要么是没有记忆的健忘症 Agent。

2.2 五大构建块 + Memory

Boris Cherny 在 Addy Osmani 的访谈中定义了构成一个 Loop 的五大构建块，加上一个贯穿始终的 Memory 层。这是目前业界引用最广的 Loop 架构框架：

构建块一：Automations（自动触发）

Automations 是 Loop 的心跳——让循环真正成为循环而不是一次性运行的关键。它是一个定期触发的发现和分类流程，不需要人来启动。

实现方式：

OpenAI Codex：在 App 中提供 Automations 标签页，可以选择项目、设定运行 Prompt、调度频率。找到工作就进入 Triage 收件箱，没找到就自动归档。
Claude Code：通过 /loop 命令设置定时运行的 Prompt（本质上转化为 cron job），也可以推送到 GitHub Actions 让它在关闭笔记本后继续运行。/goal 命令则持续运行直到一个可验证的条件成立。

设计原因：人不可能 24 小时盯着屏幕。如果每次都需要人来输入第一条指令，Loop 的吞吐量就被人的注意力瓶颈锁死了。Automations 解放了这个瓶颈——你设计好触发条件，系统自己发现工作。

构建块二：Worktrees（并行隔离）

当你同时运行多个 Agent 时，文件冲突是第一个要解决的问题。两个 Agent 同时写同一个文件，和两个工程师在同一行代码上提交但互不沟通，是完全一样的灾难。

Git Worktree 的方案：为每个 Agent 创建一个独立的工作目录和分支，共享同一份仓库历史，但彼此的编辑物理隔离。

实现方式：

Codex：内建 worktree 支持，多个线程可以并行操作同一仓库。
Claude Code：通过 --worktree 标志或 sub-agent 配置中的 isolation: worktree 实现。

设计原因：Loop 的价值很大程度上来自并行——同时让多个 Agent 处理不同任务。没有隔离机制，并行就是灾难。但 Worktree 只解决了机械层面的冲突，审查瓶颈仍在你身上——你能审查和合并多少变更，才是并行上限的真正天花板。

构建块三：Skills（知识编码）

Skill 是把项目知识写下来，让 Agent 不用每次从零开始猜你的项目规范。

格式统一为一个包含 SKILL.md 的文件夹，里面是指令、元数据，以及可选的脚本和参考资料。Agent 在任务匹配 Skill 描述时自动加载。

设计原因：Agent 每次会话都是冷启动的——它不记得上次你告诉过它什么。没有 Skill 的 Loop，每一轮都要重新发现你的项目结构、编码规范、构建命令。这不仅浪费 Token，更会导致每次猜测的结果不一致。Skill 让知识在循环间复利累积，而不是每轮归零。

Louis-François Bouchard 特别强调：

“A loop with no reusable skills just rediscovers your project from zero every run. It burns tokens re-learning what you already know. A loop with good skills starts to compound.”

最佳实践：一个 Skill 对应一个任务，尽可能密集，不要用大段 Skill 填满上下文。然后让 Agent 建立索引，自动检索需要的 Skill。

构建块四：Connectors / Plugins（外部工具连接）

一个只能看文件系统的 Loop 是一个微小的 Loop。Connectors 基于 MCP（Model Context Protocol），让 Agent 能读你的 Issue Tracker、查数据库、调用 Staging API、在 Slack 发消息。

设计原因：现实中的软件开发不只是编辑代码文件。开 PR、关联 Jira、跑 CI、通知团队——这些都是工作流的一部分。没有 Connectors，Loop 生产的代码只能停在本地，无法完成从「代码变更」到「交付上线」的最后一公里。

Daniel Demmel 进一步指出，CLI 工具是目前 Agent 最好的接口：

“CLI tools that are pipeable and progressively explorable are the optimal interface for current AI models… text-in, text-out interfaces are what these models are most fluent with.”

这和 Unix 哲学不谋而合——小工具、单一职责、文本流连接——半个世纪前的设计原则，在 AI Agent 时代重新焕发价值。

构建块五：Sub-agents（制作者与检查者分离）

一个 Loop 中最关键的结构性决策：写代码的 Agent 和审查代码的 Agent 必须分开。

模型对自己的作业打分太慷慨了。一个写了代码的 Agent，让它自己审查，它会说「看起来不错」——因为它倾向于合理化自己刚才的决策。用第二个 Agent（甚至不同的模型）来审查，才能捕捉第一个 Agent 说服自己忽略的问题。

实现方式：

Codex：在 .codex/agents/ 下定义 TOML 文件，每个 sub-agent 有独立的名称、指令、模型和推理强度。安全审查用强模型高强度，探索性任务用快模型只读模式。
Claude Code：在 .claude/agents/ 下定义，支持 agent teams 在 agent 之间传递工作。/goal 命令的底层就是用一个独立的小模型来判断循环是否完成——做工作的和判断完没完的，不是同一个。

设计原因：Loop 在你不看的时候运行——一个你真正信任的验证者是你能离开的唯一理由。制作者-检查者分离不是可选的优化，而是 Loop 能无人值守运行的必要条件。

第六要素：Memory（跨次记忆）

Memory 是所有长时间运行 Loop 的脊柱。Skills 存放的是持久的项目知识（我们怎么构建、规范是什么），Memory 存放的是变化中的状态（什么已完成、什么还在进行、下一步是什么）。

它可以是一个 Markdown 文件、一个 Linear Board、一个 GitHub Issue 列表。唯一的要求是：它必须活在上下文窗口之外，因为模型在两次运行之间会忘记一切。

Agent 会遗忘，但仓库不会。

设计原因：没有 Memory，明天早上的运行不知道今天下午做到了哪里。每次循环都从头开始，之前所有的工作成果都白费了。Memory 让 Loop 具备了跨会话的连续性——这是 Loop 和单次 Agent 对话的本质区别之一。

2.3 三种 Loop 的层次

虽然大家都在说 Loop Engineering，但仔细看会发现，不同人嘴里的「Loop」指的是三个不同层次的东西：

Karpathy Loop：单一指标的自主研究循环

Karpathy 用 630 行 Python 构建的系统非常纯粹。每一轮做三件事：

读研究论文和过去的实验记录
产生假设并编写代码修改
跑实验，测量一个明确的指标（训练速度）

关键数据：700 次实验、2 天、20 个有效发现、11% 训练加速。

关键限制：你需要一个可以自动衡量的 metric。有 metric 就能 loop，没有 metric 就只能靠人判断。Karpathy 自己也区分了这和 AutoML 的差别——AutoML 是随机搜索超参数，Karpathy Loop 是 Agent 读论文、形成假设、写代码、从失败中学习。

适用场景：机器学习训练优化、性能基准测试、任何有明确量化指标的探索性任务。

Boris Loop：多 Agent 开发工作流的编排

Boris Cherny 讲的是另一个维度。他的 Loop 是一套由五大构建块 + Memory 组成的完整开发工作流编排系统（详见 2.2 节）。这不是一个 Agent 跑很多次实验，而是多个 Agent 按角色分工协作——有的做分类、有的写代码、有的做审查——通过自动调度和状态持久化串联成一个自运行的开发流水线。

适用场景：日常软件开发中的重复性工作——CI 失败修复、Issue 分类、PR 审查、依赖更新等。

Reddit 实用派 Loop：只在边缘加循环

一位 Reddit 用户给出了最务实的定义。他把自己的工作流分成两段：

适合 Loop 化的部分（重复、可验证、风险可控）：

收集候选素材、去重、检查来源
验证链接有效性、事实查核、图片校验
输出草稿但不发布

不适合 Loop 化的部分（需要判断、创意、掌舵）：

选题决策、观点建构、叙事结构、最终定稿

他的结论是最清醒的一句话：

“Maybe loop engineering is more ‘add memory, verification, and guardrails around repetitive or risky parts.’”

不是把整个工作流 Loop 化，而是在重复和高风险的环节加上记忆、验证和护栏。其余需要判断和创意的部分，仍然是你的工作。

2.4 Agent Loop 源码级的六条防线

ATA 文章《Agent Loop：转圈的艺术》对 Claude Code 的 Agent Loop 源码做了深入解析，揭示了一个能稳定运行的 Loop 需要的六道防线。这些防线回答了一个核心问题：为什么同一个模型在 Claude Code 里三五轮就能修绿测试，换一个粗糙的循环框架却二十轮原地震荡？

差别不在模型的能力，而在循环本身怎么写。

防线一：多出口防卡死

Claude Code 的循环核心是 while (true)——语法上的无限循环。但它在循环体内散布了多个 return 出口：

出口	触发条件	含义
`reason: 'completed'`	模型本轮没有调用任何工具	自然收敛，活干完了
`reason: 'max_turns'`	轮数超过 maxTurns 上限	硬刹车，强制踢出
`reason: 'model_error'`	模型调用出错	异常退出，带着错误信息离开

设计原因：如果出口只有一个（靠模型自报"我完成了"），那种原地震荡的循环永远停不下来。多出口是循环不被自己卡死的第一层保险。

防线二：看行动不看自报

Claude Code 判断「模型有没有做完」的标准，不是模型嘴上说的 stop_reason（那个不可靠），而是它这一轮有没有真的往 toolUseBlocks 数组里塞过工具调用。

模型嘴上说「我已经做完了」不算数，它伸不伸手去调工具才算数。

设计原因：这正是早年 AutoGPT 最出圈的吐槽的镜像——「它会兴高采烈地一直转下去，自我感觉良好地把任务做歪。」根因是信了模型自报的「完成」。模型是一个会自我感觉良好的协作者，把停不停的决定权交给它，等于把刹车交给一个看不清路的人。

防线三：反馈伪装成 user 消息流回

工具执行完的结果，被 Claude Code 规整成 user 角色的消息塞回对话流。这是一个微妙但关键的设计：

在模型的处理权重中，system 消息被当背景设定，assistant 消息被当自己说过的话，而 user 消息被当作「需要回应的新输入」。文件内容、测试报错、命令输出，全都顶着 user 的身份流回来，模型于是天然地把它当作「我必须回应的新情况」。

设计原因：如果工具结果被截断、压缩或降级为 system 旁白，反馈回路的信噪比就崩了。模型拿到的不再是现实的精确回话，它只能猜——而猜，就意味着下一轮出错的概率大于零。一个角色标签的选择，决定了反馈到底会不会被模型认真对待。

防线四：自然收敛配硬刹车

自然收敛（模型没调工具 → 判定完成）是优雅出口。但闭环控制器有个尴尬：它不保证一定收敛。所以 Claude Code 配了硬刹车——maxTurns。转够指定轮数还没停，不管模型多想继续，return 直接踢出循环。

设计原因：这是一种「服软式设计」——承认控制器会卡住，所以配一根熔断丝。与其假装系统完美，不如诚实地为失控预留出口。

防线五：State 原子传递记忆

每轮结束若决定继续，Claude Code 不是修改旧的 State 对象，而是整包替换成一个全新的 State：

新 State = 老消息 + 模型刚说的话 + 工具刚返回的结果

设计原因：整包替换而不是逐字段修改，让「一轮结束」成为一个干净的原子操作——要么完整跨进下一轮，要么不跨，中间不留半新半旧的脏状态。State 就是循环的「工作记忆」，认知科学里人做多步骤任务时脑子里挂着的「我做到哪了」。

防线六：TodoWrite 对冲遗忘

循环转得越久，模型越容易忘了自己原本要干嘛。上下文里堆了十几轮工具输出，最初的目标早被淹在底下。

Claude Code 的 TodoWriteTool 让模型把任务清单写到循环外面去——三步以上的任务就该列清单，收到新指令就记下来，动手前先标为「进行中」，同一时刻只许一个 todo 处于进行中。

更妙的是收尾时的小动作：当模型关掉 3 项以上的 todo 却没有一项是「验证」步骤时，系统会追加一句提醒——「你确定不验证一下？」恰好在循环要退出、最容易偷懒的那一刻触发。

设计原因：没有外化记忆的长循环，会在第 15 轮丢掉第 1 轮的目标，把一个明确任务跑成一团发散的瞎忙——这是有别于原地震荡的另一种死法：方向漂移。

六条防线的实验验证

《Agent Loop：转圈的艺术》作者真的跑了 64 个多轮试次（4 组 × 8 任务 × 2 重复），每轮代码用 Python 3.12 真跑隐藏测试。实验证明：

拆掉反馈回路（不把工具结果喂回模型）→ 循环退化成开头那台二十轮修不绿的坏机器
拆掉硬刹车（不设 maxTurns）→ 循环可能无限空转
拆掉 TodoWrite→ 长任务方向漂移，第 15 轮忘了第 1 轮的目标

每一道防线的存在，都不是理论推导，而是「少了它循环就死」的实证结果。

2.5 Loop 的成本结构

这是大部分 Loop Engineering 讨论中被跳过的关键部分。

手动 Prompt Agent 的成本是线性的——打一次 prompt、花一次 token、看一次结果。Loop 的成本结构完全不同：

成本 = 迭代次数 × 每次 Agent 调用的 token × 并行实例数

三个乘数同时作用，成本可以指数级增长。举几个真实场景：

场景	成本估算
Karpathy 700 次实验，每次约 12K token	约 840 万 token
加上 sub-agent 做验证	成本直接翻倍
Loop 在你睡觉时也在跑	醒来时账单可能已经失控

必须的成本控制机制：

固定时间限制：Karpathy Loop 的第三要素就是「每次实验有固定时间限制」，同时也是成本上限
Budget Cap：设定每个 Loop 的 token 预算，超过就停
收敛检测：如果连续 N 次迭代都没有改善 metric，自动停止，不要空转烧钱
分层用模型：Loop 里的初筛用便宜模型（如 Haiku），只在关键判断点用贵模型（如 Opus）

ROI 计算也变了：以前是「AI 帮我省了多少小时人力成本」，现在是「Loop 的 API 成本 + 设计成本，有没有低于它发现的价值」。Karpathy 的 11% 训练加速，对一个前沿 AI 实验室来说，省下的 GPU 时间远超 API 成本。但如果你的 Loop 只是自动跑 lint 然后开 PR，先算一下 token 账单再决定值不值得。

Loop Engineering 不只是工程问题，也是经济问题。设计 Loop 的时候，停止条件和成本上限跟循环逻辑一样重要。

2.6 本章小结

Loop Engineering 的核心可以用一句话概括：用可验证的目标驱动、有记忆的闭环系统，替代人工逐条提示的线性交互。

它的五大构建块（Automations、Worktrees、Skills、Connectors、Sub-agents）加上 Memory，构成了从发现任务到验证交付的完整闭环。而 Claude Code 源码级的六条防线（多出口、看行动不看自报、user 角色伪装、自然收敛+硬刹车、State 原子传递、TodoWrite 对冲遗忘）则揭示了一个能稳定运行的 Loop 背后必须存在的工程纪律。

但最重要的认知是：Loop 不是万能的。 它有三个层次、有明确的适用边界、有不可忽视的成本结构。不是所有工作都该 Loop 化——只有重复的、可验证的、风险可控的环节，才是 Loop 的最佳战场。

第三章：Loop Engineering 与 Harness Engineering 的关联

3.1 三次迁移的脉络

Loop Engineering 不是凭空出现的。它是工程师与 AI 协作方式经历三次迁移后的自然产物，每一次迁移都把人往上推了一个抽象层：

迁移阶段	时间	人的角色	核心活动	瓶颈
Prompt Engineering	2023-2024	对话者	手动写提示词，一问一答	人的打字速度和注意力
Harness Engineering	2025-2026 初	约束设计者	给 AI 搭约束环境（测试、CI/CD、hooks），但每次任务人来触发和审查	人仍在每一步触发 Agent
Loop Engineering	2026 中至今	系统设计师	设计自动触发的闭环系统，Agent 自己跑、自己验证、自己触发其他 Agent	验证质量和成本控制

三次迁移的共同方向一致：人往上移一个抽象层。从写代码 → 写 Prompt → 建 Harness → 设计 Loop。但每上一层，你需要理解的东西反而更多，不是更少。

以 OpenAI 内部的实践为例：3 个工程师用 Codex 在 5 个月内产出 100 万行代码、0 行人写。他们的核心工作不是写代码，而是建约束——preflight gate、SHA discipline、remediation loop、hooks 机制。人不再写代码，但仍在每一步触发和审查 Agent。这是典型的 Harness Engineering。

Peter Steinberger 则更进一步：他用 50 个 Codex 并行审 3,000 个 PR，单日 627 次提交，不是坐在电脑前盯出来的——Agent 自动发现工作、自动执行、自动验证。这就是从 Harness 到 Loop 的跨越。

3.2 Agent = Model + Harness

Birgitta Böckeler 在 martinfowler.com 上发表的《Harness Engineering for Coding Agents》给出了最清晰的定义：

Agent = Model + Harness

Harness 是 Agent 中除了模型之外的所有东西。她进一步把 Harness 拆分成两个方向：

方向	英文	作用	时机	举例
Guides（前馈/导引）	Feedforward	在 Agent 行动之前引导它走正确方向	行动前	CLAUDE.md、类型系统、Linting 规则、SKILL.md
Sensors（反馈/传感）	Feedback	让 Agent 在行动之后观察到后果	行动后	测试结果、编译报错、运行时日志、浏览器截图

Daniel Demmel 在他的《Feedback Loop Engineering》文章中进一步指出：他所说的「Feedback Loop Engineering」本质上就是 Harness Engineering 的 Sensor 半边——刻意地建设反馈基础设施，让 Agent 能看到自己代码在运行环境中的真实表现。

他列举了五种关键反馈通道：

浏览器调试 CLI：Agent 能导航到页面、检查 DOM、查看控制台错误、验证前端渲染
数据库查询 Skill：Agent 能验证迁移是否正确执行、数据是否按预期写入
日志和崩溃追踪：Agent 看到运行时真正发生了什么，而不是从代码猜测
OpenTelemetry 追踪：在微服务架构中，跟踪请求穿过整个系统
开发环境 API Key：Agent 能调用真实的开发端点，而不是只靠 Mock

这些反馈通道的价值在于：它们把验证从「代码能编译吗？」提升到「代码在系统中真的能工作吗？」

3.3 Harness 和 Loop 的本质差异

Boris Cherny 的五大构建块听起来很新，但如果对照 Harness Engineering 的概念，会发现大部分已经存在——只是被重新组合和升级了：

Boris 的构建块	Harness 系列的对应概念	新在哪里
Automations	没有直接对应	全新：定时自动触发，不需要人启动
Worktrees	Control Plane Pattern 中的 git worktree	从单一 Agent 扩展到多 Agent 并行
Skills	AGENTS.md / CLAUDE.md 知识库	更结构化，变成可复用的 SKILL.md
Connectors	MCP 工具整合	基本相同
Sub-agents	EFC 论文中的 verifier agent	从概念落地到具体架构角色
Memory	没有直接对应	全新：跨次执行的持久状态

真正新的东西是两个：Automations（自动触发）和 Memory（跨次记忆）。

这两个加在一起，让系统从「人按一下跑一次」变成「自己决定什么时候跑、记得上次跑到哪里」。

这就是 Harness 和 Loop 的本质差异：

Harness 是「接住 Agent 的产出」——你触发 Agent，Harness 确保它在约束范围内工作，然后你审查结果。
Loop 是「让 Agent 自己决定什么时候产出、产出什么」——系统自动触发、自动执行、自动验证、自动记住进度。

用一句话说：Loop 是 Harness 加上了自动触发和持久记忆之后的升级版本。 没有 Harness 的 Loop，就是一个自动跑、自动出错、自动制造垃圾的系统。

3.4 Inner Loop 与 Outer Loop

Daniel Demmel 和 Mozilla AI 的 cq 项目揭示了 Loop 的另一个重要维度：内外两层循环。

Inner Loop（内循环）

这是单次会话内的即时反馈循环。Agent 写代码 → 运行 → 看结果 → 基于结果修改 → 再运行。一切都发生在同一个上下文窗口内。

紧凑的 Inner Loop 直接决定了单次会话的产出质量。第二章讨论的六条防线（多出口、看行动不看自报、user 角色伪装等），全部服务于 Inner Loop 的稳定性。

Outer Loop（外循环）

这是跨会话的知识沉淀循环。一次会话中 Agent 花半小时发现某个 API 会静默截断超大 payload——在 Inner Loop 中，这个知识活在上下文窗口里，会话结束就消失了。在 Outer Loop 中，它被提炼并写回共享知识库（一个新 Skill、一条 CLAUDE.md 规则、一个知识库条目），下一次会话的 Agent 从一开始就知道这件事。

Mozilla AI 的 cq 是目前最干净的 Outer Loop 实现：

Agent 把发现存储为结构化的「知识单元」——未文档化的 API 怪癖、变通方案、修复方法
下次遇到类似问题前，先查询知识库，避免重复踩坑
/cq:reflect 命令从已完成的会话中提取值得保留的经验教训

内外循环如何连接：今天 Outer Loop 沉淀的经验，变成明天 Inner Loop 的 Guide（前馈）——Skills、CLAUDE.md 规则、知识库条目。Outer Loop 默默改善 Inner Loop 的每一次运行。这和一个好团队的运作模式完全一样：有人调试了一个棘手问题，写了复盘文档，下一个人不用从头来过。

3.5 四层体系总览

综合所有来源，从 Prompt 到 Loop 可以归纳为一个四层递进体系：

┌─────────────────────────────────────────────────┐
│              Loop Engineering                    │
│  设计自运行的闭环系统：自动触发 + 持久记忆       │
│  ┌─────────────────────────────────────────────┐ │
│  │           Harness Engineering               │ │
│  │  Agent 的约束环境：Guides(前馈) + Sensors(反馈)│ │
│  │  ┌─────────────────────────────────────────┐│ │
│  │  │        Context Engineering              ││ │
│  │  │  管理输入给模型的上下文信息              ││ │
│  │  │  ┌─────────────────────────────────────┐││ │
│  │  │  │      Prompt Engineering             │││ │
│  │  │  │  优化单条提示词的措辞               │││ │
│  │  │  └─────────────────────────────────────┘││ │
│  │  └─────────────────────────────────────────┘│ │
│  └─────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────┘

每一层包裹着内层——Loop 包着 Harness，Harness 包着 Context，Context 包着 Prompt。内层从不消失，只是外层在它之上叠加了新的能力。

Daniel Demmel 对四层体系下每层回答的核心问题做了精确区分：

Prompt Engineering：怎么措辞？
Context Engineering：给模型看什么？
Feedback Loop Engineering（Harness 的 Sensor 半边）：Agent 做完之后，怎么让它看到后果？
Harness Engineering：整个装置怎么治理——调哪些工具、碰哪些文件、什么时候停？

Loop Engineering 在这之上再加一个问题：什么时候自动启动、怎么跨次记住进度？

3.6 本章小结

Loop Engineering 和 Harness Engineering 不是对立关系，而是继承和延伸关系。

Harness 是 Loop 的地基。没有好的测试、好的 CI/CD、好的 Agent 约束机制，Loop 只是在自动化地制造垃圾。
Loop 在 Harness 之上加了两个关键能力：Automations（自动触发） 和 Memory（跨次记忆）。这两个能力让系统从「人按一下跑一次」升级为「自己发现工作、自己记住进度」。
Inner Loop 管单次会话的执行质量，Outer Loop 管跨会话的知识沉淀。两者形成良性循环——今天的教训变成明天的起点。

Peter Steinberger 在 Reddit 上被问到具体怎么做 Loop 时，回答是：「I have my Claw supervising my Codexes.」然后开玩笑说，几个月后我们会在谈「fleets that design your loops」——设计你的 Loop 的 Fleet。这不是玩笑，这是抽象层不断往上叠的现实。但每往上一层，下面的基础就更重要——你的 CI/CD 够不够稳、你的测试覆盖率够不够高、你的 Agent 约束机制够不够硬。

第四章：在 AI Coding 中运用 Loop Engineering

4.1 先别急着建 Loop：三条前提检查

不是所有工作都应该 Loop 化。在决定为一个工作环节建 Loop 之前，先问三个问题：

检查项	问题	不满足时怎么办
可衡量性	有可自动衡量的 metric 吗？	不能全自动 Loop；只能 Loop 到「输出草稿等人审」
失败可控性	失败的代价可控吗？	需要人在 Loop 里（审批节点），不是 Loop 外（事后补救）
Harness 成熟度	你的 Harness 够硬吗？（测试覆盖率、CI/CD、类型系统）	先补 Harness 基础，不要急着建 Loop

Karpathy 的成功恰恰是因为他的场景完美符合这三个前提：一个明确的 metric（训练速度）、一个封闭的修改空间（训练代码，失败不影响生产）、一个可以自动跑的验证流程（跑模型测 benchmark）。

大多数软件工程的日常不完全满足这三个条件。但这不意味着 Loop 完全无用——而是你需要在合适的环节使用。

4.2 哪些工作适合 Loop 化？

根据对 12 篇文章的综合分析，工作可以按「Loop 化适合度」分为三个区域：

绿区：强烈推荐 Loop 化

这些工作重复、有明确的通过/失败信号、风险可控：

CI 失败自动修复：测试报错信息是完美的可验证反馈，修完跑测试就知道对不对
依赖版本更新：bump 版本 → 跑测试 → 绿了就开 PR，经典闭环
Issue 分类和 Triage：读 Issue 内容 → 打标签 → 分配优先级，可以用简单的审查规则验证
代码风格和 Lint 修复：Linter 输出就是完美 metric
重复性重构：如 API 迁移、命名规范化，可以用类型检查和测试验证
安全漏洞扫描和初步修复：扫描工具的输出是明确的验证信号

黄区：谨慎使用 Loop，需要人在关键节点

这些工作有一定规律但需要判断力，适合「Loop 做初稿 → 人审后合并」的模式：

PR 审查辅助：Loop 做首轮检查（风格、测试覆盖、明显 Bug），但最终合并决定权在人
文档生成和更新：Loop 可以从代码变更自动更新 API 文档草稿，人审核后发布
测试用例补充：Loop 分析覆盖率缺口并生成测试草稿，人验证测试意图是否正确
Bug 修复草稿：Loop 基于错误日志和堆栈追踪尝试修复，人决定是否采纳

红区：不建议 Loop 化

这些工作需要创意、判断力或上下文理解，是人的核心价值区：

系统架构设计：权衡取舍需要对业务上下文的深度理解
产品策略决策：涉及商业判断，不是技术验证能解决的
选题和叙事构建：创意工作的「好」没有自动化 metric
关键安全决策：影响范围大，需要人类判断力兜底
跨团队沟通协调：涉及人际关系和组织动态

Jack Marchant 对此的经验总结很精准：

“Before running anything through the loop, ask: is the decision already made, or is the agent being asked to make it? Execution is a good handoff. Decision-making usually isn’t.”

判断标准：如果决策已经做完了，只剩执行——适合 Loop。如果 Agent 需要替你做决策——不适合。

4.3 一个完整 Loop 的端到端实例

以下是一个经过实战验证的 Loop 设计，可以直接映射到 Claude Code 或 Codex：

┌─ 每个工作日早上 9:00 自动触发 ──────────────────────────┐
│                                                          │
│  ① Automation 调用 Triage Skill                         │
│     读取昨天的 CI 失败、未关闭 Issue、最近 commit        │
│     写入发现到 Memory 文件（TODO.md 或 Linear Board）    │
│                                                          │
│  ② 对每个值得处理的发现                                  │
│     ├── 打开一个隔离的 Worktree                          │
│     ├── 派一个 Sub-agent（Maker）起草修复                │
│     └── 派另一个 Sub-agent（Checker）审查                │
│         审查依据：项目 Skills + 现有测试                  │
│                                                          │
│  ③ 通过验证？                                            │
│     ├── 是 → Connectors 开 PR、更新 Issue、通知 Slack    │
│     └── 否 → 反馈错误给 Maker，重试 1-2 次              │
│             仍然失败 → 放入你的收件箱，等你上班处理       │
│                                                          │
│  ④ 更新 Memory：记录哪些完成、哪些需要人介入             │
│     明天早上的运行从这里接续                              │
└──────────────────────────────────────────────────────────┘

关键要点：你设计了这个七步系统一次，之后不需要每天早上手动触发任何一步。但你仍然是最终审查者——Loop 不能自动合并到主分支，只能开 PR 等你审核。

4.4 工具层面的实践指南

Claude Code 中的 Loop 实践

# 定时运行分类 prompt，每个工作日早上 9 点
/loop "Read yesterday's CI failures and open issues, 
write findings to TODO.md, and draft fixes for anything 
labeled quick-win" --schedule "0 9 * * 1-5"

# 运行直到可验证的停止条件成立
/goal "All tests in test/auth pass and lint is clean"

/loop：把你的 prompt 转成 cron job，可以推送到 GitHub Actions 让它在关机后也能运行
/goal：持续运行直到条件成立，用独立的小模型做验证判断（不是做工作的那个模型）
Hooks：在 Agent 生命周期的特定点触发 shell 命令（如提交前跑 lint）

OpenAI Codex 中的 Loop 实践

# 持久化的长期目标（CLI 0.128.0+）
codex /goal "Migrate the billing module to the new pricing API, 
keep all existing tests green"

Automations 标签页：选择项目、设定 Prompt 和频率，结果进入 Triage 收件箱
Skills：用 $ 或 /skills 调用，也可在任务匹配时自动加载
Sub-agents：在 .codex/agents/ 下定义 TOML 文件，支持不同模型和推理强度

通用实践：Skills 编写最佳原则

Skills 是 Loop 中投资回报率最高的环节。以下是从多篇文章中提炼的编写原则：

一个 Skill 对应一个任务：不要写大而全的 Skill，保持每个 Skill 聚焦
尽可能密集：把规范、示例、测试命令、绝不能做的事全部压缩进去
建立索引：让 Agent 自动检索需要的 Skill，而不是每次都加载全部
描述要无聊且精确：Agent 根据描述匹配 Skill，花哨的描述不如精确的描述
把「那一次事故」写进去：「我们不这样做，因为上次那个事故」——这种知识是 Skill 最高价值的内容

4.5 从手动到全自动的渐进迁移路径

不要试图一步到位建一个复杂的 Loop。建议按以下路径渐进迁移：

第一步：建好 Harness 基础（前提条件）

确保有足够的测试覆盖率（这是 Loop 验证环节的基础）
建立 CI/CD 流水线
配置类型系统和 Linter
写好 CLAUDE.md / AGENTS.md

第二步：从单个 Automation 开始

选一个最简单、风险最低的重复性任务（如 CI 失败分类）
设一个 Automation 每天早上把 CI 失败整理到一个 Markdown 文件
不要开自动合并，只生成报告给你看
观察一周，了解 Loop 的行为模式

第三步：加入 Maker-Checker 分离

在观察满意后，让 Loop 不只分类，还尝试修复
但用独立的审查 Agent 检查修复质量
修复结果以 PR 形式呈现，由你最终合并

第四步：扩展到多个 Loop

在第一个 Loop 稳定后，逐步为其他适合的工作环节建 Loop
每个 Loop 都有独立的成本预算和停止条件
建立 Memory 机制，让 Loop 之间共享知识

第五步：建立 Outer Loop

在 Loop 运行一段时间后，开始沉淀知识
每次 Loop 发现的新知识写回 Skills
今天的教训变成明天的起点

Addy Osmani 的建议最中肯：

“Start simple, then add autonomy only when it pays for itself. If the workflow is one-off, just prompt the model. If the work repeats and has a clear pass or fail signal, build a loop.”

4.6 实战中的成本管理

在实际使用中，成本控制需要融入 Loop 的设计：

控制手段	具体做法	预期效果
迭代上限	每个 Loop 设 maxTurns（如 10 轮）	防止无限空转
Token 预算	每日 / 每 Loop 设 token 上限	防止账单失控
收敛检测	连续 3 次无改善就自动停	避免低效重试
分层模型	初筛用 Haiku/Flash，关键判断用 Opus/Pro	降低平均成本
手动启动 vs 全自动	初期手动启动 Loop 并观察	降低风险
慢频率起步	从每天一次开始，不要上来就每小时	观察效果再加速

Louis-François Bouchard 的态度很务实：

“I personally want to manually launch my loops and check them to ensure everything goes smoothly.”

在信任建立之前，手动启动并监控是最明智的做法。

4.7 本章小结

在 AI Coding 中运用 Loop Engineering 的核心原则：

先检查前提：有可衡量的 metric？失败代价可控？Harness 够硬？
选对战场：重复的、可验证的、风险可控的环节才适合 Loop
渐进迁移：从单个 Automation 开始，观察稳定后再扩展
投资 Skills：知识编码是 Loop 中投资回报率最高的环节
成本先行：停止条件和成本上限跟循环逻辑一样重要
人不退场：Loop 是让你专注于更高价值工作的工具，不是替代你的工具

第五章：未来发展趋势展望

5.1 更高抽象层的到来：Fleets that Design Your Loops

Peter Steinberger 半开玩笑的预言——「几个月后我们会在谈 fleets that design your loops」——很可能成为现实。

抽象层叠加的方向是明确的：

写代码 → 写 Prompt → 建 Harness → 设计 Loop → 设计 Fleet（管理 Loop 的 Loop）

当 Loop 本身变得复杂（多个 Loop 之间有依赖、需要协调资源、需要统一的知识沉淀），就会自然催生出「管理 Loop 的系统」。Peter Steinberger 已经在实践了——他的 Claw 在监管他的多个 Codex。这个模式一旦被工具化，就会成为下一个标准能力。

判断：2026 年底到 2027 年初，主流 AI Coding 工具（Claude Code、Codex、Gemini CLI）很可能会内建 Fleet/Orchestrator 层级的能力，让用户可以定义多个 Loop 之间的依赖和协作关系。

5.2 Metric 自动化的突破方向

Karpathy Loop 的成功建立在一个硬前提上：可自动衡量的 metric。这也是 Loop Engineering 当前最大的限制——大量工作没有明确的自动化 metric。

未来可能的突破方向：

方向一：AI 作为 Metric 的评估者
Claude Code 的 /goal 已经在做这件事——用一个独立模型来判断目标是否达成。随着模型判断力的提升，越来越多的「模糊目标」可以被另一个模型来评估。例如「这个 UI 是否匹配设计稿」已经可以通过截图比对模型来验证。

方向二：组合式 Metric
单一 metric 覆盖不了的场景，可以通过组合多个弱信号来构建。例如代码质量 = 测试通过率 × Lint 通过率 × 类型检查通过率 × 复杂度评分。每个单独不够，但组合起来可以作为「可接受」的阈值。

方向三：人类偏好学习
像 RLHF 一样，通过积累人对 Loop 产出的接受/拒绝信号，逐步训练出更精准的自动 metric。你审查了 100 个 PR，接受了 80 个，系统可以从中学到你的偏好模式。

判断：metric 自动化不会在短期内完全解决。创意性工作（「这篇文章有没有洞见」）和高风险决策（「这个架构选型合不合理」）在可预见的未来仍然需要人来判断。Loop 的适用范围会扩大，但不会覆盖所有工作。

5.3 Inner Loop 和 Outer Loop 的融合

目前 Inner Loop（会话内反馈）和 Outer Loop（跨会话知识沉淀）还是相对独立的。Mozilla AI 的 cq 是最早的融合尝试。

未来趋势是两个循环的边界会越来越模糊：

实时知识沉淀：Agent 在会话中发现的新知识，不等会话结束就自动写入共享知识库
跨 Agent 知识共享：一个 Agent 在 Loop A 中学到的经验，实时同步给正在运行的 Loop B
自适应 Skill 更新：基于 Loop 运行的成功/失败模式，自动更新和优化 Skills

判断：这个方向会在 2026-2027 年间快速发展。「Agent 越用越聪明」不再是幻想，而是通过 Outer Loop 的知识沉淀机制在工程上实现。但关键挑战在于知识的去噪——Agent 学到的不全是对的，错误的「经验」如果沉淀下来会污染后续所有运行。

5.4 Loop 经济学的演化

成本结构将随着三个趋势发生变化：

趋势一：Token 成本持续下降
过去两年，主流模型的 token 单价下降了一个数量级以上。如果这个趋势持续，Loop 的经济可行性门槛会大幅降低——更多原本「不值得 Loop 化」的工作会变得经济上可行。

趋势二：智能路由和模型分层
Loop 内部会更智能地选择模型——简单的分类用最便宜的模型，复杂的判断才用最贵的。这已经是当前的最佳实践，但未来会被工具自动化。

趋势三：从 Token 计费到结果计费
一些 AI Coding 工具已经在探索「按任务收费」而不是「按 token 收费」。如果这个趋势发展，Loop 的成本管理会变得更可预测——你为一个修复付固定价格，而不是担心 Loop 空转烧钱。

判断：Loop 的经济门槛在下降，但「免费」不会到来。成本控制仍然是 Loop 设计的核心要素之一，只是控制的粒度和工具会更精细。

5.5 风险与边界：三个不会消失的问题

Loop Engineering 的三个核心风险不会随着技术进步消失，反而会随着 Loop 变得更好而变得更尖锐：

风险一：Comprehension Debt（理解力债务）

Loop 出货代码的速度越快，工程师对自己系统的理解就越跟不上。一个顺畅的 Loop 只会让这个差距更快扩大。

Boris Cherny 的警告：

“The faster the loop ships code you didn’t write, the bigger the gap between what exists in the repo and what you actually understand.”

应对：必须投入时间阅读 Loop 产出的代码。Loop 省下的不是你理解代码的时间，而是你手动编写代码的时间。

风险二：Cognitive Surrender（认知投降）

当 Loop 自己运行时，停止思考、接受它返回的一切是最舒适的失败模式。两个人可以建完全相同的 Loop 却得到相反的结果：一个用 Loop 加速自己深度理解的工作，另一个用 Loop 逃避理解工作。Loop 不知道区别，但你知道。

应对：设计 Loop 的人不能停止当工程师。定期手动审查 Loop 的产出，质疑它的决策，保持对系统的理解力。

风险三：自主性与安全性的张力

一个有 Connector 权限的无人值守 Loop 可以触碰生产系统。随着 Loop 能力增强，安全边界的设计变得越来越关键——权限控制、审计日志、操作范围限制。

应对：遵循最小权限原则。Loop 只有它执行任务所必需的最小权限，不多给。生产环境的任何操作都需要人类审批节点。

5.6 本章小结：一个清醒的展望

Loop Engineering 的未来方向是明确的：

抽象层还会往上叠——从 Loop 到 Fleet，从单 Agent 到 Agent 群体协作
适用范围会扩大——随着 metric 自动化和成本下降，更多工作可以 Loop 化
知识沉淀会加速——Inner Loop 和 Outer Loop 的融合让 Agent 越用越聪明

但同样明确的是它的边界：

需要人类判断力的工作不会被 Loop 替代
理解力债务和认知投降是不会消失的风险
成本控制始终是 Loop 设计的核心约束

最后，用 Boris Cherny 的话收尾：

“Build the loop. But build it like someone who intends to stay the engineer, not just the person who presses go.”

人设计 Loop。但设计 Loop 的那个人，不能停止当工程师。

参考文献

外部优质文章

Louis-François Bouchard — Loop Engineering Explained
https://www.louisbouchard.ai/loop-engineering/
Lushbinary Team — Loop Engineering: Designing Systems That Prompt AI Agents（2026 年 6 月）
https://lushbinary.com/blog/loop-engineering-ai-coding-agents-guide/
Wisely Chen — Loop Engineering：不再 Prompt Agent，改設計 Loop 讓 Agent Prompt Agent
https://ai-coding.wiselychen.com/loop-engineering-from-prompt-to-loop-paradigm-shift/
Cobus Greyling — Loop Engineering Playbook（Medium）
https://cobusgreyling.medium.com/loop-engineering-playbook-4460e01e88d8
Jack Marchant — Engineering the Loop（2026 年 3 月）
https://www.jackmarchant.com/engineering-the-loop/
Addy Osmani — My LLM Coding Workflow Going into 2026
https://addyosmani.com/blog/ai-coding-workflow/
Daniel Demmel — Feedback Loop Engineering
https://www.danieldemmel.me/blog/feedback-loop-engineering

关键人物引用来源

Peter Steinberger（OpenClaw 作者）：2026 年 6 月 8 日推文，3 百万观看
Boris Cherny（Anthropic Claude Code 负责人）：Addy Osmani 访谈
Andrej Karpathy（前 Tesla AI 总监）：Fortune 报道及个人推文
Birgitta Böckeler：Harness Engineering for Coding Agents，martinfowler.com
Tobias Lutke（Shopify CEO）：复刻 Karpathy Loop 实验

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

当 AI 编程从“辅助”走向“治理”：一个前端工程师的 2026 年观察

2026 年，AI 编程正在从代码补全、AI IDE 进入 Agent 工程化阶段。它不再只是帮开发者写几段代码，而是开始参与 issue 处理、测试修复、重构迁移甚至 PR 提交。但真正的问题也随之变化：AI 是否能生成代码，已经不是核心；更关键的是，它生成的代码是否安全、可维护、可审计。本文结合 METR 开发者生产力研究、Agentic Coding 趋势、MCP 安全风险，以及实际开发中遇

CSDN-OPC开发者社区

AI Agent 是什么？

CSDN-OPC开发者社区

小型场景ai agent网络安全syslog日志接入方案——以flocks为例

（我在用的日志审计设备转发日志时，可以添加device自带标记真实源IP），第二种情况是某台服务器上可能部署了nginx等中间件日志，同时其操作系统日志也需要发给日志接收服务器，在日志中找出可以区分出的关键字后，也可以通过contains区分，实现同一服务器IP发出的nginx日志到nginx目录，服务器底层日志到其他指定目录，便于AI的分析。此类用户如果能实现flocks能读取操作系统日志、中间

CSDN-OPC开发者社区

所有评论(0)

查看更多评论

unique

@qllinhongyu

已为社区贡献2条内容

Loop Engineering 深度分析报告

unique

目录

前言概要

第一章：Loop Engineering 通俗介绍

1.1 一句话定义

1.2 用日常类比理解

1.3 这个概念从哪来的？

1.4 Loop Engineering 和之前那些概念有什么区别？

1.5 Loop 不等于 Cron Job

1.6 是 Buzzword 吗？

1.7 本章小结

第二章：核心内容点及设计原因

2.1 Loop 的公式

2.2 五大构建块 + Memory

构建块一：Automations（自动触发）

构建块二：Worktrees（并行隔离）

构建块三：Skills（知识编码）

构建块四：Connectors / Plugins（外部工具连接）

构建块五：Sub-agents（制作者与检查者分离）

第六要素：Memory（跨次记忆）

2.3 三种 Loop 的层次

Karpathy Loop：单一指标的自主研究循环

Boris Loop：多 Agent 开发工作流的编排

Reddit 实用派 Loop：只在边缘加循环

2.4 Agent Loop 源码级的六条防线

防线一：多出口防卡死

防线二：看行动不看自报

防线三：反馈伪装成 user 消息流回

防线四：自然收敛配硬刹车

防线五：State 原子传递记忆

防线六：TodoWrite 对冲遗忘

六条防线的实验验证

2.5 Loop 的成本结构

2.6 本章小结

第三章：Loop Engineering 与 Harness Engineering 的关联

3.1 三次迁移的脉络

3.2 Agent = Model + Harness

3.3 Harness 和 Loop 的本质差异

3.4 Inner Loop 与 Outer Loop

Inner Loop（内循环）

Outer Loop（外循环）

3.5 四层体系总览

3.6 本章小结

第四章：在 AI Coding 中运用 Loop Engineering

4.1 先别急着建 Loop：三条前提检查

4.2 哪些工作适合 Loop 化？

绿区：强烈推荐 Loop 化

黄区：谨慎使用 Loop，需要人在关键节点

红区：不建议 Loop 化

4.3 一个完整 Loop 的端到端实例

4.4 工具层面的实践指南

Claude Code 中的 Loop 实践

OpenAI Codex 中的 Loop 实践

通用实践：Skills 编写最佳原则

4.5 从手动到全自动的渐进迁移路径

4.6 实战中的成本管理

4.7 本章小结

第五章：未来发展趋势展望

5.1 更高抽象层的到来：Fleets that Design Your Loops

5.2 Metric 自动化的突破方向

5.3 Inner Loop 和 Outer Loop 的融合

5.4 Loop 经济学的演化

5.5 风险与边界：三个不会消失的问题

风险一：Comprehension Debt（理解力债务）

风险二：Cognitive Surrender（认知投降）

风险三：自主性与安全性的张力

5.6 本章小结：一个清醒的展望

参考文献

外部优质文章

关键人物引用来源

所有评论(0)

温馨提示：您尚未绑定手机号

unique