如果你这两个月一直在用 Codex、Claude Code、OpenClaw、Cursor 之类的 Agent,很容易有一种很强的感受:

它们越来越会写。

会写文章,会写脚本,会写标题,会写大纲,甚至会把整个工作流拆得像模像样。

但真正卡住很多人的,不是“不会写”,而是“写完以后交不出成品”。

你要发一篇文章,封面图还没做。
你要做一个 PPT,整套视觉图还没配。
你要做一个短视频,分镜图、样片、音效、配乐还散落在不同平台。
你要做一个小红书帖子,标题有了,图还没齐,封面还没定。

所以我最近看到这个开源项目时,第一反应不是“又一个 AI 生成工具”,而是:

这东西终于把 Agent 离“真正交付内容”差的那一截补上了。

它叫:

Ultimate-AI-Media-Generator-Skill

仓库地址:
https://github.com/ZeroLu/Ultimate-AI-Media-Generator-Skill

它的核心不是再造一个聊天框,而是给 Agent 一套稳定的媒体生成能力:

  • 生图
  • 生视频
  • 生成音效
  • 生成音乐
  • 先估积分再提交
  • 自动等待结果
  • 自动保存输出

也就是说,它不是只让 Agent “帮你想”,而是开始让 Agent “帮你交付”。

它最值钱的地方,不是会生成,而是会把生成接进工作流

仓库 README 里把这件事讲得很直白:

  • 它是开源的 ai image generator skill
  • 也是 ai video generator skill
  • 还是 ai audio generator skill
  • 支持 Nano Banana 2、GPT Image 2、Sora 2、Seedance、Kling、HappyHorse、Suno、Gemini Omni 等模型
  • 还内置了 AI PPT WorkflowAI SEO Article WorkflowAI Comic Drama Workflow

这意味着它不是一个孤立的小工具,而是一个可以往上接内容工作流、往下接具体模型的平台层。

很多人对这类 Skill 的第一反应是:

“那不就是帮我调 API 吗?”

真不是。

真正有价值的地方在于,它把一件麻烦事变简单了:

以前你做一条完整内容链路,经常得来回切:

  • 文案在一个地方
  • 图片在一个地方
  • 视频在一个地方
  • 音效在一个地方
  • 价格和计费又在另一个地方

现在你可以把这些动作尽量收回到 Agent 里,让 Agent 先帮你规划,再帮你生成,再把结果回填进后续发布动作。

这就是为什么我觉得它特别适合内容团队、独立创作者、做自媒体的人、做营销的人,以及所有已经在用 AI Agent 的人。

你可以拿它做什么?

如果只说“图像、视频、音频、音乐一站式生成”,还是太抽象了。

我更愿意直接按你最常见的几个内容场景来讲。

1. 自媒体全自动发文配图

这是我觉得最实用的一条线。

很多人现在已经能让 Agent 写文章了,但最后总停在这几步:

  • 封面图没人做
  • 正文插图没人补
  • 社媒预览图没人裁
  • 平台规格不统一

而这个 Skill 仓库里本身就带了 AI SEO Article Workflow。它的目标写得很清楚:

为 SEO 文章生成整套视觉资产,包括:

  • 封面图 prompt
  • 3 张内文配图 prompt
  • 社媒预览图 prompt
  • 图片命名建议

这类设计很实用,因为它不是只给你“生一张图”,而是直接按“文章资产包”的思路来做。

如果你本来就有发文工作流,比如公众号、知乎、CSDN、博客同步,那这个 Skill 刚好可以补上最费时间的一层:

  • 文章主封面
  • 文中说明图
  • 横版 banner
  • 1:1 社媒分享图

严格说,它本身不是发文器。

但对于真正做内容的人来说,这并不重要。因为你缺的往往不是“按钮点发布”,而是发布之前那套图文素材生产线

这一层一旦补齐,整条链路的自动化程度就会一下子上来。

2. 自动生成 PPT 视觉包

仓库里还有一个我很喜欢的工作流:AI PPT Skill Workflow

它的目标不是帮你“临时做一页图”,而是:

为一整套演示文稿生成完整视觉包。

这个工作流要求的输入非常接地气:

  • 主题
  • 受众
  • 页数
  • 视觉风格

然后输出的是:

  • 1 个封面主视觉 prompt
  • 每一页 1 个视觉 prompt
  • 图标风格说明
  • 配色方案
  • 图片 alt text

这有什么用?

用处非常大。

因为很多 PPT 做得慢,不是慢在写字,而是慢在:

  • 每一页都要去找图
  • 每一页都担心风格不统一
  • 封面像一套,内页像另一套
  • 最后只好临时拼

而这个工作流的好处,是让 Agent 不再一页一页瞎做,而是先站在整套 deck 的角度,帮你把视觉系统定下来。

对于这些场景尤其合适:

  • 路演 PPT
  • 提案 PPT
  • 课程讲义
  • 内部汇报
  • 发布会视觉草稿

说白了,它很适合“时间很少,但又不想做得太糙”的人。

3. 全自动生成视频

这条线更猛。

因为这个 Skill 不是只支持图片,它还直接把视频模型接进来了。

README 里列出的覆盖范围,已经足够撑起很多视频工作流:

  • sora-2
  • sora-2-pro
  • seedance-1-pro
  • seedance-1-lite
  • kling-2.6
  • kling-3.0
  • happyhorse-1.0
  • gemini-omni-video

而且不只是文生视频。

它支持的场景里,还包括:

  • text-to-video
  • image-to-video
  • video-to-video

这就意味着你可以把视频工作流拆得更像创作,而不是一次性抽卡:

  1. 先让 Agent 写脚本和镜头说明
  2. 再让它出关键帧图
  3. 再把关键帧喂给视频模型
  4. 再继续做局部编辑或延展
  5. 最后补音效和音乐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果你之前做视频经常卡在“模型很多,但流程很碎”,那你会很明白这套东西为什么有吸引力。

它真正解决的不是“能不能生成一条视频”,而是:

能不能把视频生成接进一条重复可用的生产链。

这对下面这些内容特别友好:

  • 广告样片
  • 分镜预演
  • 短视频脚本测试
  • AI 漫剧
  • 带口播的内容预演

仓库里的 AI Comic Drama Workflow 就是这个思路。

它不是只出一句 prompt,而是把一个短故事变成:

  • 8 个分场景画面 prompt
  • 2 个转场视频 prompt
  • 角色一致性清单
  • 风格锁定说明

这就已经不是“玩模型”了,而是在认真做内容管线。

4. 全自动小红书帖子生成

这个角度很多人会忽略,但我觉得反而很有现实价值。

因为小红书真正耗时间的,常常不是文案,而是图。

  • 封面图要有点击感
  • 详情图要统一
  • 教程卡片要清楚
  • 九宫格要协调
  • 有时还要兼顾 1:1、3:4、9:16 多个比例

这类活如果全手动做,很耗人。

但如果你把它交给 Agent,并让 Agent 通过这个 Skill 统一生成素材,事情就会顺很多。

最实用的做法不是一句“帮我发小红书”,而是先让 Agent 把帖子需要的资产包做完整:

  • 1 张封面图
  • 6 到 9 张详情图
  • 1 套统一标题风格
  • 1 套颜色和版式约束
  • 必要时再补一个 9:16 视频封面

对用户来说,这其实就是“小红书帖子开始自动生成了”。

因为真正费你时间的环节,已经被压下去了。

为什么我一直强调:它真的很适合做内容的人

因为它不是只盯着技术人。

你看它带的这些工作流和例子,本质上都在服务同一类需求:

把一个想法尽快变成可发、可看、可交付的成品。

不管你最后发到哪里:

  • 公众号
  • 知乎
  • 小红书
  • 抖音
  • CSDN
  • 独立站博客
  • 产品官网

你都绕不开图、视频、声音这些资产。

以前这几层通常是分开的。

现在这个 Skill 的意义,是让 Agent 把它们重新串起来。

另一个很关键的点:价格真的适合先跑通工作流

这部分我建议一定认真看。

因为很多工具看起来很强,但你一真用,就会发现两个问题:

  • 不知道一次生成要花多少
  • 想试几次就心疼

而这个 Skill 之所以比较适合长期用,一个很重要的原因就是:

它把“先 quote 再生成”做成了默认思路。

也就是先估积分,再决定要不要正式提交。

这对做内容的人特别重要,因为内容迭代本来就不是一次命中。

你真正需要的不是“最玄学的一次神图”,而是:

  • 能快速试
  • 能控制成本
  • 能连续改
  • 不用每次都担心计费黑箱

按我在 2026-06-19 查到的 Cyberbara 当前公开页面信息,大致是这样:

  • 免费层每周有 12 credits
  • Starter 现在是 800 monthly credits
  • Mini Pack 是 500 credits / $6.90
  • Basic Pack 是 1,500 credits / $17.90

页面换算也给得很直接:

  • 免费层大约够 1 张 GPT Image 2 2K 图
  • Starter 大约够 80 张 GPT Image 2 2K 图
  • Mini Pack 大约够 50 张 GPT Image 2 2K 图
  • Mini Pack 还大约够 20 个 10 秒 720P 视频

Nano Banana 2 页面给出的信用成本也比较清楚:

  • 1K = 8 credits
  • 2K = 12 credits
  • 4K = 18 credits

这对高频试图、做封面、做详情图的人非常友好。

更关键的是,仓库 README 直接把这一点写成了核心卖点:

很多场景下,CyberBara 成本低于官方模型 API。

我这里不展开做一堆复杂价格对账,因为价格会变,模型也会变。

但就一个普通创作者最关心的问题来说,这已经很够了:

你能不能用比较低的门槛,把流程先跑起来。

而从当前定价和 credit pack 设计看,它显然就是往这个方向做的。

对普通用户来说,省下来的不只是钱,还有配置成本

这也是很多人低估的一点。

比如 Cyberbara 的 GPT Image 2 页面,直接把价值说得很明确:

  • 不用自己管理 API Key
  • 不用自己处理模型接入
  • 不用自己搭上传、轮询和计费
  • 你只要用 credits 去测 prompt 和结果

这件事听起来像“小便利”,其实对内容团队是大便利。

因为你真正想做的是:

  • 试图
  • 试视频
  • 看结果
  • 继续迭代

不是去折腾一堆接入细节。

而这个 Skill 的价值,就是把这一层麻烦从工作流里尽量移走。

如果你想现在就上手,我建议这样用

这里我不写复杂教程,直接给你一套最实用、最不容易绕的路径。

第一步:先装上 Skill

最省事的方法不是自己研究安装说明,而是直接把这句话发给你的 Agent:

Help me install this skill, use command `npx skills add ZeroLu/Ultimate-AI-Media-Generator-Skill --all`

如果你用的是 OpenClaw、Claude Code、Codex,这种方式最顺手。

第二步:去拿 Cyberbara API Key

地址在这里:

https://cyberbara.com/settings/apikeys

拿到以后,一次性配置就行。

仓库给的推荐命令是:

python3 scripts/cyberbara_api.py setup-api-key "<your-api-key>"

配置完成后,后面一般就不用反复填了。

第三步:别一上来就猛生成,先让 Agent quote

这是我最建议保留的习惯。

先问它这次大概要花多少积分,再决定是否提交。

比如你可以直接这样说:

Use $ultimate-ai-media-generator-skill to quote credits before submission.
I want one 16:9 article cover image about AI content automation.
Use a clean, high-end, editorial visual style.

这样你会先知道大概要花多少,而不是结果出来了才回头看账单。

第四步:按场景让它出整套资产,而不是只出一张图

这是很多人用不好这类工具的原因。

不要只说:

给我生成一张图

更好的说法是:

给我这一条内容链路需要的整套视觉素材

比如做文章,可以这样说:

Use $ultimate-ai-media-generator-skill to create a full visual asset plan for an article about AI automation for creators.
I need:
1. one 16:9 hero cover,
2. three inline illustrations,
3. one 1:1 social preview image,
4. all images in one coherent visual style.
Quote first, then wait for my confirmation.

做 PPT,可以这样说:

Use $ultimate-ai-media-generator-skill to create a visual package for a 12-slide presentation.
Topic: How AI agents are changing content production.
Audience: marketing team and founders.
Style: clean, premium, modern.
Output a cover image prompt, one visual prompt per slide, icon style guide, and color palette.

做短视频,可以这样说:

Use $ultimate-ai-media-generator-skill to plan and generate a short AI promo video.
I need:
1. 4 storyboard keyframes,
2. one 10-second text-to-video draft,
3. one short whoosh sound effect,
4. one light background music track.
Quote first and keep the total cost low.

做小红书帖子,可以这样说:

Use $ultimate-ai-media-generator-skill to create a Xiaohongshu visual package.
Topic: how creators can automate content with AI agents.
I need:
1. one square cover image,
2. six 3:4 tutorial cards,
3. one 9:16 video cover,
4. one consistent color and typography direction.
Quote first and optimize for low cost.

第五步:把它当成“底层出图引擎”,继续往上接你的发布工作流

这是最关键的一步。

它的最强用法,不是单独拿来玩一两次。

而是把它变成你整个内容系统里的“出图层”“出视频层”“出音频层”。

上面接:

  • 选题
  • 大纲
  • 文案
  • 标题
  • 平台改写

下面接:

  • 封面图
  • 内文配图
  • 视频样片
  • 音效
  • 背景音乐

一旦这样接,你就会开始感觉:

Agent 不再只是一个会说话的助手,而是一个真的能交付媒体资产的协作者。

哪些人最应该试它?

如果你符合下面任意一条,我都建议你认真试一下:

  • 你在做公众号、知乎、小红书、博客、短视频
  • 你已经在用 Codex、Claude Code、OpenClaw 这类 Agent
  • 你不是不会写内容,而是卡在配图、视频、音效
  • 你想先低成本把工作流跑通,再考虑规模化
  • 你想把 AI 从“玩具”变成“稳定产线”

最后一句

我觉得 Ultimate-AI-Media-Generator-Skill 真正值得推广的地方,不是“它能生成多少模型结果”,而是:

它让 AI Agent 离真正交付成品这件事,更近了一大步。

尤其是对做内容的人来说,这一步非常关键。

因为你需要的从来不是一个更会聊天的 AI。

你需要的是一个:

  • 会写
  • 会规划
  • 会算成本
  • 会出图
  • 会出视频
  • 会补声音
  • 最后还能把结果接回你的工作流

这才是“内容工厂”真正开始成立的时刻。

入口放这里

GitHub 仓库:
https://github.com/ZeroLu/Ultimate-AI-Media-Generator-Skill

Skill 页面:
https://cyberbara.com/skill

获取 API Key:
https://cyberbara.com/settings/apikeys

定价页:
https://cyberbara.com/pricing

积分成本与模型价格:
https://cyberbara.com/credit-costs

Star History:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

备选标题

  1. 一个开源 Skill,把 AI Agent 真正变成了内容工厂
  2. 还在手动补封面和视频?这个 Skill 正在把内容生产线接回 Agent
  3. 我最近最想推荐的,不是又一个模型,而是这个能交付成品的开源 Skill
  4. 自媒体、PPT、视频、小红书都能接:这个 Skill 补上了 Agent 最缺的一层

发布备注

  • 文中价格、credit pack、换算能力基于 2026-06-19 可见公开页面信息整理。
  • “很多场景下成本低于官方模型 API”是仓库 README 的原始卖点表述,文中已按该口径转述,没有自行扩张成所有场景都更便宜。
  • “全自动发文”“全自动小红书帖子生成”在文中按实际能力表述为:素材生成层自动化 + 与上层 Agent / 发布工作流配合,避免夸大为单一 Skill 独立完成所有平台发布。
Logo

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容,并连接云服务、办公空间等稀缺资源,助你专注创造,无忧运营。

更多推荐