你的 AI Agent 输出永远停在 80 分——差的那 20 分叫品控

zhouhui001

313人浏览 · 2026-06-23 07:56:43

zhouhui001 · 2026-06-23 07:56:43 发布

你的 AI Agent 输出永远停在 80 分——差的那 20 分叫品控

你让 AI 写一份 API 文档，它洋洋洒洒给你 3000 字，结构完整、语法无误，但你读一遍就知道——这玩意没法交付给团队用。

原因不是 AI 能力不够。是你没告诉它什么叫"好"。

80 分的输出长什么样

拿技术文档举例。AI 默认输出有几种标志性缺陷：

被动语态泛滥。 "It is recommended that the user should configure the timeout parameter"——这种句子在 AI 生成的文档里比在人类写的文档里多 3 倍。人类不会这么写，因为被动语态让读者不知道该做什么。

空话填充。 "This API provides a robust and scalable solution for managing resources"——robust 和 scalable 在这里没有任何信息量，删掉句子含义不变。AI 特别喜欢堆这类词，因为它训练数据里大量文档就是这么写的。

示例不可运行。 AI 给的代码示例经常缺依赖、缺上下文、缺 import，读者复制粘贴跑不起来。这不是粗心，是 AI 没有被约束"示例必须完整可运行"这条规则。

结构失衡。 一篇 API 文档，参数表占了 70% 的篇幅，错误处理和调用示例各只有一行。AI 的倾向是把容易生成的内容堆满，把需要思考的部分缩到最少。

每一项单独看都不致命，但叠在一起，输出的就是一份"看着没问题、用着处处坑"的文档。80 分——及格了，但没法拿来干活。

为什么 prompt engineering 撑不到 100 分

很多人发现 AI 输出有问题后，第一反应是改 prompt："请用主动语态""请提供可运行示例""请不要用空话"。

改完一次有效。改两次开始反弹。改三次你会发现——prompt 越长，AI 越容易忽略后半段的约束。这不是 bug，是大模型的注意力机制决定的：指令越长，权重越稀疏，后面的要求被"稀释"了。

更根本的问题是：prompt 里写"请写好文档"，这本身就是个不可执行的指令。"好"是什么标准？谁来判？AI 拿到这条指令后，只能按自己的训练数据分布去猜"好"长什么样——而训练数据里，80 分的文档是主流。

所以问题不在 prompt 的措辞，而在 prompt 里缺少可量化的品控标准。不是"请写好"，而是"每段不超过 4 句话""每个示例必须包含 import 语句""参数表和示例的篇幅比例不低于 1:1"。

这类规则，写一次就行。写进规则文件，每次 AI 生成时自动加载，不用反复往 prompt 里塞。

sharp-skills 做的事：把品控标准编码成可执行规则

sharp-skills 是一套 AI Agent 品控规则合集，覆盖 AI 输出质量最差的 6 个领域：

sharp-tech-writing：技术文档。约束主动语态比例、示例完整性、篇幅分配、段落密度。
sharp-dataviz：数据可视化。禁止误导性图表、约束颜色数量、要求图表标题必须含结论。
sharp-copywriting：营销文案。限制虚词密度、要求具体信息占比、约束场景感。
sharp-api-design：API 设计。统一命名风格、规范错误码体系、约束分页方案一致性。
sharp-interview：面试设计。禁止纯 LeetCode 原题、要求分层追问策略、约束评分标准。
sharp-presentation：演示文稿。禁止文字墙、要求叙事逻辑线、约束图表标注可读性。

每个模块的设计思路不是"告诉 AI 应该做什么"，而是"告诉 AI 绝对不能做什么"。

这个选择是有原因的。AI 的训练数据里，反模式比最佳实践多得多。你不告诉它"别用被动语态"，它就默认跟着训练数据走——而训练数据里被动语态是常态。反模式清单比正面指导更有效，因为它直接堵住了 AI 最容易犯的错误。

举个具体例子。sharp-tech-writing 里有一条规则：

"每段不超过 4 句话。超过 4 句的段落必须拆分。"

这条规则可量化、可检查、可执行。AI 拿到后不是去理解"什么是好段落"，而是直接数句子数量——这种确定性约束，大模型执行率接近 100%。

对比一下，如果你在 prompt 里写"请写简洁的段落"，AI 的执行率大概 60%。因为"简洁"是个模糊概念，AI 会用训练数据的分布去猜测你的意图，结果经常偏离。

检查清单是底线，不是上限

每个模块的规则最后都附一个检查清单。比如 sharp-tech-writing 的清单包括：

[ ] 每段不超过 4 句话
[ ] 主动语态占比 > 60%
[ ] 每个代码示例包含完整的 import/依赖
[ ] 参数表和调用示例篇幅比例 ≥ 1:1
[ ] 无空话填充（robust/scalable/seamless 等词出现次数 ≤ 2）

清单的作用是让品控变成一个可勾选的流程，而不是一个凭感觉的判断。

这在实际使用中有个微妙的好处：当你对 AI 的输出不满意时，你不用在 prompt 里反复修改措辞，而是去检查清单里哪几项没通过，然后针对性补规则。品控变成了一个系统化的调试过程，而不是靠直觉的 prompt 疗法。

怎么用

安装一行命令：

bash npx skills add https://github.com/zhouhuijia/sharp-skills

也可以只装你需要的模块：

bash npx skills add https://github.com/zhouhuijia/sharp-skills --skill "sharp-tech-writing"

装完后，规则文件自动注入到你的 AI Agent 配置里（Claude Code、Cursor、Copilot、Windsurf、Codex、Aider、WorkBuddy 都支持）。AI 生成时自动加载对应规则，不需要手动往 prompt 里加任何东西。

如果你用 Claude Code，规则文件就是项目根目录的 CLAUDE.md；Cursor 是 .cursorrules；Copilot 是 .github/copilot-instructions.md。同一个规则文件，7 个平台通用。

和 taste-skill 的关系

sharp-skills 和 taste-skill 解决的是不同层面的问题。

taste-skill 管的是前端视觉品控——配色、排版、间距、动效。它约束的是"看起来好不好"。

sharp-skills 管的是内容品控——文字质量、数据准确性、逻辑完整性、信息密度。它约束的是"用起来好不好"。

两个一起用，AI 的输出从"差不多"到"能交付"。单独用 taste-skill，页面好看但文档烂；单独用 sharp-skills，文档好用但页面丑。品控这件事，没有银弹，只有系统。

一句话总结

AI 输出的 80 分到 100 分之间，差的不是更大的模型、更长的 prompt、更多的示例——差的是可执行的品控规则。把"好"的定义从主观判断变成可量化的标准，从"应该做什么"变成"绝对不能做什么"，AI 的输出质量会直接跳一个台阶。

sharp-skills 把这件事做成了可以直接安装的规则包。不是理论，不是方法论，是你可以今天就开始用的约束条件。

如果你觉得这种"把品控标准编码成规则"的思路有意思，我在做一个用卡皮巴拉讲设计模式的微信小程序「爪爪代码冒险记」，23 个设计模式用漫画加答题的方式讲，目前正在开发中，搜一下就能找到。

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

告别Prompt困境！揭秘Harness Engineering如何让AI Agent表现稳如磐石

CSDN-OPC开发者社区

程序员&安全小白必收藏！195个技能点拆解渗透测试全流程的开源技能库

CSDN-OPC开发者社区

AI Agent 上生产前，需要补上的运行时安全控制

近期企业 AI Agent 的落地重点正在发生变化。6 月 16 日，HPE 与 NVIDIA 发布面向企业 Agent 的新方案时，不只强调模型和算力，也把安全运行环境、可观测性、策略控制和治理能力放到了核心位置。原因并不复杂：当 Agent 从“生成答案”走向“调用工具”，应用风险已经从内容层进入执行层。