一个开源 Skill,把 AI Agent 真正变成了内容工厂

如果你这两个月一直在用 Codex、Claude Code、OpenClaw、Cursor 之类的 Agent,很容易有一种很强的感受:
它们越来越会写。
会写文章,会写脚本,会写标题,会写大纲,甚至会把整个工作流拆得像模像样。
但真正卡住很多人的,不是“不会写”,而是“写完以后交不出成品”。
你要发一篇文章,封面图还没做。
你要做一个 PPT,整套视觉图还没配。
你要做一个短视频,分镜图、样片、音效、配乐还散落在不同平台。
你要做一个小红书帖子,标题有了,图还没齐,封面还没定。
所以我最近看到这个开源项目时,第一反应不是“又一个 AI 生成工具”,而是:
这东西终于把 Agent 离“真正交付内容”差的那一截补上了。
它叫:
Ultimate-AI-Media-Generator-Skill
仓库地址:https://github.com/ZeroLu/Ultimate-AI-Media-Generator-Skill
它的核心不是再造一个聊天框,而是给 Agent 一套稳定的媒体生成能力:
- 生图
- 生视频
- 生成音效
- 生成音乐
- 先估积分再提交
- 自动等待结果
- 自动保存输出
也就是说,它不是只让 Agent “帮你想”,而是开始让 Agent “帮你交付”。
它最值钱的地方,不是会生成,而是会把生成接进工作流
仓库 README 里把这件事讲得很直白:
- 它是开源的
ai image generator skill - 也是
ai video generator skill - 还是
ai audio generator skill - 支持 Nano Banana 2、GPT Image 2、Sora 2、Seedance、Kling、HappyHorse、Suno、Gemini Omni 等模型
- 还内置了
AI PPT Workflow、AI SEO Article Workflow、AI Comic Drama Workflow
这意味着它不是一个孤立的小工具,而是一个可以往上接内容工作流、往下接具体模型的平台层。

很多人对这类 Skill 的第一反应是:
“那不就是帮我调 API 吗?”
真不是。
真正有价值的地方在于,它把一件麻烦事变简单了:
以前你做一条完整内容链路,经常得来回切:
- 文案在一个地方
- 图片在一个地方
- 视频在一个地方
- 音效在一个地方
- 价格和计费又在另一个地方
现在你可以把这些动作尽量收回到 Agent 里,让 Agent 先帮你规划,再帮你生成,再把结果回填进后续发布动作。
这就是为什么我觉得它特别适合内容团队、独立创作者、做自媒体的人、做营销的人,以及所有已经在用 AI Agent 的人。
你可以拿它做什么?
如果只说“图像、视频、音频、音乐一站式生成”,还是太抽象了。
我更愿意直接按你最常见的几个内容场景来讲。

1. 自媒体全自动发文配图
这是我觉得最实用的一条线。
很多人现在已经能让 Agent 写文章了,但最后总停在这几步:
- 封面图没人做
- 正文插图没人补
- 社媒预览图没人裁
- 平台规格不统一
而这个 Skill 仓库里本身就带了 AI SEO Article Workflow。它的目标写得很清楚:
为 SEO 文章生成整套视觉资产,包括:
- 封面图 prompt
- 3 张内文配图 prompt
- 社媒预览图 prompt
- 图片命名建议
这类设计很实用,因为它不是只给你“生一张图”,而是直接按“文章资产包”的思路来做。

如果你本来就有发文工作流,比如公众号、知乎、CSDN、博客同步,那这个 Skill 刚好可以补上最费时间的一层:
- 文章主封面
- 文中说明图
- 横版 banner
- 1:1 社媒分享图
严格说,它本身不是发文器。
但对于真正做内容的人来说,这并不重要。因为你缺的往往不是“按钮点发布”,而是发布之前那套图文素材生产线。
这一层一旦补齐,整条链路的自动化程度就会一下子上来。
2. 自动生成 PPT 视觉包
仓库里还有一个我很喜欢的工作流:AI PPT Skill Workflow。
它的目标不是帮你“临时做一页图”,而是:
为一整套演示文稿生成完整视觉包。
这个工作流要求的输入非常接地气:
- 主题
- 受众
- 页数
- 视觉风格
然后输出的是:
- 1 个封面主视觉 prompt
- 每一页 1 个视觉 prompt
- 图标风格说明
- 配色方案
- 图片 alt text

这有什么用?
用处非常大。
因为很多 PPT 做得慢,不是慢在写字,而是慢在:
- 每一页都要去找图
- 每一页都担心风格不统一
- 封面像一套,内页像另一套
- 最后只好临时拼
而这个工作流的好处,是让 Agent 不再一页一页瞎做,而是先站在整套 deck 的角度,帮你把视觉系统定下来。
对于这些场景尤其合适:
- 路演 PPT
- 提案 PPT
- 课程讲义
- 内部汇报
- 发布会视觉草稿
说白了,它很适合“时间很少,但又不想做得太糙”的人。
3. 全自动生成视频
这条线更猛。
因为这个 Skill 不是只支持图片,它还直接把视频模型接进来了。
README 里列出的覆盖范围,已经足够撑起很多视频工作流:
sora-2sora-2-proseedance-1-proseedance-1-litekling-2.6kling-3.0happyhorse-1.0gemini-omni-video
而且不只是文生视频。
它支持的场景里,还包括:
text-to-videoimage-to-videovideo-to-video
这就意味着你可以把视频工作流拆得更像创作,而不是一次性抽卡:
- 先让 Agent 写脚本和镜头说明
- 再让它出关键帧图
- 再把关键帧喂给视频模型
- 再继续做局部编辑或延展
- 最后补音效和音乐

如果你之前做视频经常卡在“模型很多,但流程很碎”,那你会很明白这套东西为什么有吸引力。
它真正解决的不是“能不能生成一条视频”,而是:
能不能把视频生成接进一条重复可用的生产链。
这对下面这些内容特别友好:
- 广告样片
- 分镜预演
- 短视频脚本测试
- AI 漫剧
- 带口播的内容预演
仓库里的 AI Comic Drama Workflow 就是这个思路。
它不是只出一句 prompt,而是把一个短故事变成:
- 8 个分场景画面 prompt
- 2 个转场视频 prompt
- 角色一致性清单
- 风格锁定说明
这就已经不是“玩模型”了,而是在认真做内容管线。
4. 全自动小红书帖子生成
这个角度很多人会忽略,但我觉得反而很有现实价值。
因为小红书真正耗时间的,常常不是文案,而是图。
- 封面图要有点击感
- 详情图要统一
- 教程卡片要清楚
- 九宫格要协调
- 有时还要兼顾 1:1、3:4、9:16 多个比例
这类活如果全手动做,很耗人。
但如果你把它交给 Agent,并让 Agent 通过这个 Skill 统一生成素材,事情就会顺很多。
最实用的做法不是一句“帮我发小红书”,而是先让 Agent 把帖子需要的资产包做完整:
- 1 张封面图
- 6 到 9 张详情图
- 1 套统一标题风格
- 1 套颜色和版式约束
- 必要时再补一个 9:16 视频封面
对用户来说,这其实就是“小红书帖子开始自动生成了”。
因为真正费你时间的环节,已经被压下去了。
为什么我一直强调:它真的很适合做内容的人
因为它不是只盯着技术人。
你看它带的这些工作流和例子,本质上都在服务同一类需求:
把一个想法尽快变成可发、可看、可交付的成品。
不管你最后发到哪里:
- 公众号
- 知乎
- 小红书
- 抖音
- CSDN
- 独立站博客
- 产品官网
你都绕不开图、视频、声音这些资产。
以前这几层通常是分开的。
现在这个 Skill 的意义,是让 Agent 把它们重新串起来。
另一个很关键的点:价格真的适合先跑通工作流
这部分我建议一定认真看。
因为很多工具看起来很强,但你一真用,就会发现两个问题:
- 不知道一次生成要花多少
- 想试几次就心疼
而这个 Skill 之所以比较适合长期用,一个很重要的原因就是:
它把“先 quote 再生成”做成了默认思路。
也就是先估积分,再决定要不要正式提交。
这对做内容的人特别重要,因为内容迭代本来就不是一次命中。
你真正需要的不是“最玄学的一次神图”,而是:
- 能快速试
- 能控制成本
- 能连续改
- 不用每次都担心计费黑箱

按我在 2026-06-19 查到的 Cyberbara 当前公开页面信息,大致是这样:
- 免费层每周有
12 credits - Starter 现在是
800 monthly credits - Mini Pack 是
500 credits / $6.90 - Basic Pack 是
1,500 credits / $17.90
页面换算也给得很直接:
- 免费层大约够
1 张 GPT Image 2 2K 图 - Starter 大约够
80 张 GPT Image 2 2K 图 - Mini Pack 大约够
50 张 GPT Image 2 2K 图 - Mini Pack 还大约够
20 个 10 秒 720P 视频
Nano Banana 2 页面给出的信用成本也比较清楚:
1K = 8 credits2K = 12 credits4K = 18 credits
这对高频试图、做封面、做详情图的人非常友好。
更关键的是,仓库 README 直接把这一点写成了核心卖点:
很多场景下,CyberBara 成本低于官方模型 API。
我这里不展开做一堆复杂价格对账,因为价格会变,模型也会变。
但就一个普通创作者最关心的问题来说,这已经很够了:
你能不能用比较低的门槛,把流程先跑起来。
而从当前定价和 credit pack 设计看,它显然就是往这个方向做的。
对普通用户来说,省下来的不只是钱,还有配置成本
这也是很多人低估的一点。
比如 Cyberbara 的 GPT Image 2 页面,直接把价值说得很明确:
- 不用自己管理 API Key
- 不用自己处理模型接入
- 不用自己搭上传、轮询和计费
- 你只要用 credits 去测 prompt 和结果
这件事听起来像“小便利”,其实对内容团队是大便利。
因为你真正想做的是:
- 试图
- 试视频
- 看结果
- 继续迭代
不是去折腾一堆接入细节。
而这个 Skill 的价值,就是把这一层麻烦从工作流里尽量移走。
如果你想现在就上手,我建议这样用
这里我不写复杂教程,直接给你一套最实用、最不容易绕的路径。
第一步:先装上 Skill
最省事的方法不是自己研究安装说明,而是直接把这句话发给你的 Agent:
Help me install this skill, use command `npx skills add ZeroLu/Ultimate-AI-Media-Generator-Skill --all`
如果你用的是 OpenClaw、Claude Code、Codex,这种方式最顺手。
第二步:去拿 Cyberbara API Key
地址在这里:
https://cyberbara.com/settings/apikeys
拿到以后,一次性配置就行。
仓库给的推荐命令是:
python3 scripts/cyberbara_api.py setup-api-key "<your-api-key>"
配置完成后,后面一般就不用反复填了。
第三步:别一上来就猛生成,先让 Agent quote
这是我最建议保留的习惯。
先问它这次大概要花多少积分,再决定是否提交。
比如你可以直接这样说:
Use $ultimate-ai-media-generator-skill to quote credits before submission.
I want one 16:9 article cover image about AI content automation.
Use a clean, high-end, editorial visual style.
这样你会先知道大概要花多少,而不是结果出来了才回头看账单。
第四步:按场景让它出整套资产,而不是只出一张图
这是很多人用不好这类工具的原因。
不要只说:
给我生成一张图
更好的说法是:
给我这一条内容链路需要的整套视觉素材
比如做文章,可以这样说:
Use $ultimate-ai-media-generator-skill to create a full visual asset plan for an article about AI automation for creators.
I need:
1. one 16:9 hero cover,
2. three inline illustrations,
3. one 1:1 social preview image,
4. all images in one coherent visual style.
Quote first, then wait for my confirmation.
做 PPT,可以这样说:
Use $ultimate-ai-media-generator-skill to create a visual package for a 12-slide presentation.
Topic: How AI agents are changing content production.
Audience: marketing team and founders.
Style: clean, premium, modern.
Output a cover image prompt, one visual prompt per slide, icon style guide, and color palette.
做短视频,可以这样说:
Use $ultimate-ai-media-generator-skill to plan and generate a short AI promo video.
I need:
1. 4 storyboard keyframes,
2. one 10-second text-to-video draft,
3. one short whoosh sound effect,
4. one light background music track.
Quote first and keep the total cost low.
做小红书帖子,可以这样说:
Use $ultimate-ai-media-generator-skill to create a Xiaohongshu visual package.
Topic: how creators can automate content with AI agents.
I need:
1. one square cover image,
2. six 3:4 tutorial cards,
3. one 9:16 video cover,
4. one consistent color and typography direction.
Quote first and optimize for low cost.
第五步:把它当成“底层出图引擎”,继续往上接你的发布工作流
这是最关键的一步。
它的最强用法,不是单独拿来玩一两次。
而是把它变成你整个内容系统里的“出图层”“出视频层”“出音频层”。
上面接:
- 选题
- 大纲
- 文案
- 标题
- 平台改写
下面接:
- 封面图
- 内文配图
- 视频样片
- 音效
- 背景音乐
一旦这样接,你就会开始感觉:
Agent 不再只是一个会说话的助手,而是一个真的能交付媒体资产的协作者。
哪些人最应该试它?
如果你符合下面任意一条,我都建议你认真试一下:
- 你在做公众号、知乎、小红书、博客、短视频
- 你已经在用 Codex、Claude Code、OpenClaw 这类 Agent
- 你不是不会写内容,而是卡在配图、视频、音效
- 你想先低成本把工作流跑通,再考虑规模化
- 你想把 AI 从“玩具”变成“稳定产线”
最后一句
我觉得 Ultimate-AI-Media-Generator-Skill 真正值得推广的地方,不是“它能生成多少模型结果”,而是:
它让 AI Agent 离真正交付成品这件事,更近了一大步。
尤其是对做内容的人来说,这一步非常关键。
因为你需要的从来不是一个更会聊天的 AI。
你需要的是一个:
- 会写
- 会规划
- 会算成本
- 会出图
- 会出视频
- 会补声音
- 最后还能把结果接回你的工作流
这才是“内容工厂”真正开始成立的时刻。
入口放这里
GitHub 仓库:https://github.com/ZeroLu/Ultimate-AI-Media-Generator-Skill
Skill 页面:https://cyberbara.com/skill
获取 API Key:https://cyberbara.com/settings/apikeys
定价页:https://cyberbara.com/pricing
积分成本与模型价格:https://cyberbara.com/credit-costs
Star History:
备选标题
- 一个开源 Skill,把 AI Agent 真正变成了内容工厂
- 还在手动补封面和视频?这个 Skill 正在把内容生产线接回 Agent
- 我最近最想推荐的,不是又一个模型,而是这个能交付成品的开源 Skill
- 自媒体、PPT、视频、小红书都能接:这个 Skill 补上了 Agent 最缺的一层
发布备注
- 文中价格、credit pack、换算能力基于
2026-06-19可见公开页面信息整理。 - “很多场景下成本低于官方模型 API”是仓库 README 的原始卖点表述,文中已按该口径转述,没有自行扩张成所有场景都更便宜。
- “全自动发文”“全自动小红书帖子生成”在文中按实际能力表述为:素材生成层自动化 + 与上层 Agent / 发布工作流配合,避免夸大为单一 Skill 独立完成所有平台发布。
更多推荐

所有评论(0)