你的 AI Agent 输出永远停在 80 分——差的那 20 分叫品控
你的 AI Agent 输出永远停在 80 分——差的那 20 分叫品控
你让 AI 写一份 API 文档,它洋洋洒洒给你 3000 字,结构完整、语法无误,但你读一遍就知道——这玩意没法交付给团队用。
原因不是 AI 能力不够。是你没告诉它什么叫"好"。
80 分的输出长什么样
拿技术文档举例。AI 默认输出有几种标志性缺陷:
被动语态泛滥。 "It is recommended that the user should configure the timeout parameter"——这种句子在 AI 生成的文档里比在人类写的文档里多 3 倍。人类不会这么写,因为被动语态让读者不知道该做什么。
空话填充。 "This API provides a robust and scalable solution for managing resources"——robust 和 scalable 在这里没有任何信息量,删掉句子含义不变。AI 特别喜欢堆这类词,因为它训练数据里大量文档就是这么写的。
示例不可运行。 AI 给的代码示例经常缺依赖、缺上下文、缺 import,读者复制粘贴跑不起来。这不是粗心,是 AI 没有被约束"示例必须完整可运行"这条规则。
结构失衡。 一篇 API 文档,参数表占了 70% 的篇幅,错误处理和调用示例各只有一行。AI 的倾向是把容易生成的内容堆满,把需要思考的部分缩到最少。
每一项单独看都不致命,但叠在一起,输出的就是一份"看着没问题、用着处处坑"的文档。80 分——及格了,但没法拿来干活。
为什么 prompt engineering 撑不到 100 分
很多人发现 AI 输出有问题后,第一反应是改 prompt:"请用主动语态""请提供可运行示例""请不要用空话"。
改完一次有效。改两次开始反弹。改三次你会发现——prompt 越长,AI 越容易忽略后半段的约束。这不是 bug,是大模型的注意力机制决定的:指令越长,权重越稀疏,后面的要求被"稀释"了。
更根本的问题是:prompt 里写"请写好文档",这本身就是个不可执行的指令。"好"是什么标准?谁来判?AI 拿到这条指令后,只能按自己的训练数据分布去猜"好"长什么样——而训练数据里,80 分的文档是主流。
所以问题不在 prompt 的措辞,而在 prompt 里缺少可量化的品控标准。不是"请写好",而是"每段不超过 4 句话""每个示例必须包含 import 语句""参数表和示例的篇幅比例不低于 1:1"。
这类规则,写一次就行。写进规则文件,每次 AI 生成时自动加载,不用反复往 prompt 里塞。
sharp-skills 做的事:把品控标准编码成可执行规则
sharp-skills 是一套 AI Agent 品控规则合集,覆盖 AI 输出质量最差的 6 个领域:
- sharp-tech-writing:技术文档。约束主动语态比例、示例完整性、篇幅分配、段落密度。
- sharp-dataviz:数据可视化。禁止误导性图表、约束颜色数量、要求图表标题必须含结论。
- sharp-copywriting:营销文案。限制虚词密度、要求具体信息占比、约束场景感。
- sharp-api-design:API 设计。统一命名风格、规范错误码体系、约束分页方案一致性。
- sharp-interview:面试设计。禁止纯 LeetCode 原题、要求分层追问策略、约束评分标准。
- sharp-presentation:演示文稿。禁止文字墙、要求叙事逻辑线、约束图表标注可读性。
每个模块的设计思路不是"告诉 AI 应该做什么",而是"告诉 AI 绝对不能做什么"。
这个选择是有原因的。AI 的训练数据里,反模式比最佳实践多得多。你不告诉它"别用被动语态",它就默认跟着训练数据走——而训练数据里被动语态是常态。反模式清单比正面指导更有效,因为它直接堵住了 AI 最容易犯的错误。
举个具体例子。sharp-tech-writing 里有一条规则:
"每段不超过 4 句话。超过 4 句的段落必须拆分。"
这条规则可量化、可检查、可执行。AI 拿到后不是去理解"什么是好段落",而是直接数句子数量——这种确定性约束,大模型执行率接近 100%。
对比一下,如果你在 prompt 里写"请写简洁的段落",AI 的执行率大概 60%。因为"简洁"是个模糊概念,AI 会用训练数据的分布去猜测你的意图,结果经常偏离。
检查清单是底线,不是上限
每个模块的规则最后都附一个检查清单。比如 sharp-tech-writing 的清单包括:
- [ ] 每段不超过 4 句话
- [ ] 主动语态占比 > 60%
- [ ] 每个代码示例包含完整的 import/依赖
- [ ] 参数表和调用示例篇幅比例 ≥ 1:1
- [ ] 无空话填充(robust/scalable/seamless 等词出现次数 ≤ 2)
清单的作用是让品控变成一个可勾选的流程,而不是一个凭感觉的判断。
这在实际使用中有个微妙的好处:当你对 AI 的输出不满意时,你不用在 prompt 里反复修改措辞,而是去检查清单里哪几项没通过,然后针对性补规则。品控变成了一个系统化的调试过程,而不是靠直觉的 prompt 疗法。
怎么用
安装一行命令:
bash npx skills add https://github.com/zhouhuijia/sharp-skills
也可以只装你需要的模块:
bash npx skills add https://github.com/zhouhuijia/sharp-skills --skill "sharp-tech-writing"
装完后,规则文件自动注入到你的 AI Agent 配置里(Claude Code、Cursor、Copilot、Windsurf、Codex、Aider、WorkBuddy 都支持)。AI 生成时自动加载对应规则,不需要手动往 prompt 里加任何东西。
如果你用 Claude Code,规则文件就是项目根目录的 CLAUDE.md;Cursor 是 .cursorrules;Copilot 是 .github/copilot-instructions.md。同一个规则文件,7 个平台通用。
和 taste-skill 的关系
sharp-skills 和 taste-skill 解决的是不同层面的问题。
taste-skill 管的是前端视觉品控——配色、排版、间距、动效。它约束的是"看起来好不好"。
sharp-skills 管的是内容品控——文字质量、数据准确性、逻辑完整性、信息密度。它约束的是"用起来好不好"。
两个一起用,AI 的输出从"差不多"到"能交付"。单独用 taste-skill,页面好看但文档烂;单独用 sharp-skills,文档好用但页面丑。品控这件事,没有银弹,只有系统。
一句话总结
AI 输出的 80 分到 100 分之间,差的不是更大的模型、更长的 prompt、更多的示例——差的是可执行的品控规则。把"好"的定义从主观判断变成可量化的标准,从"应该做什么"变成"绝对不能做什么",AI 的输出质量会直接跳一个台阶。
sharp-skills 把这件事做成了可以直接安装的规则包。不是理论,不是方法论,是你可以今天就开始用的约束条件。
如果你觉得这种"把品控标准编码成规则"的思路有意思,我在做一个用卡皮巴拉讲设计模式的微信小程序「爪爪代码冒险记」,23 个设计模式用漫画加答题的方式讲,目前正在开发中,搜一下就能找到。
更多推荐


所有评论(0)