一个开源 Skill，把 AI Agent 真正变成了内容工厂

Zero Lu

64人浏览 · 2026-06-19 23:12:54

Zero Lu · 2026-06-19 23:12:54 发布

如果你这两个月一直在用 Codex、Claude Code、OpenClaw、Cursor 之类的 Agent，很容易有一种很强的感受：

它们越来越会写。

会写文章，会写脚本，会写标题，会写大纲，甚至会把整个工作流拆得像模像样。

但真正卡住很多人的，不是“不会写”，而是“写完以后交不出成品”。

你要发一篇文章，封面图还没做。
你要做一个 PPT，整套视觉图还没配。
你要做一个短视频，分镜图、样片、音效、配乐还散落在不同平台。
你要做一个小红书帖子，标题有了，图还没齐，封面还没定。

所以我最近看到这个开源项目时，第一反应不是“又一个 AI 生成工具”，而是：

这东西终于把 Agent 离“真正交付内容”差的那一截补上了。

它叫：

Ultimate-AI-Media-Generator-Skill

仓库地址：
https://github.com/ZeroLu/Ultimate-AI-Media-Generator-Skill

它的核心不是再造一个聊天框，而是给 Agent 一套稳定的媒体生成能力：

生图
生视频
生成音效
生成音乐
先估积分再提交
自动等待结果
自动保存输出

也就是说，它不是只让 Agent “帮你想”，而是开始让 Agent “帮你交付”。

它最值钱的地方，不是会生成，而是会把生成接进工作流

仓库 README 里把这件事讲得很直白：

它是开源的 ai image generator skill
也是 ai video generator skill
还是 ai audio generator skill
支持 Nano Banana 2、GPT Image 2、Sora 2、Seedance、Kling、HappyHorse、Suno、Gemini Omni 等模型
还内置了 AI PPT Workflow、AI SEO Article Workflow、AI Comic Drama Workflow

这意味着它不是一个孤立的小工具，而是一个可以往上接内容工作流、往下接具体模型的平台层。

很多人对这类 Skill 的第一反应是：

“那不就是帮我调 API 吗？”

真不是。

真正有价值的地方在于，它把一件麻烦事变简单了：

以前你做一条完整内容链路，经常得来回切：

文案在一个地方
图片在一个地方
视频在一个地方
音效在一个地方
价格和计费又在另一个地方

现在你可以把这些动作尽量收回到 Agent 里，让 Agent 先帮你规划，再帮你生成，再把结果回填进后续发布动作。

这就是为什么我觉得它特别适合内容团队、独立创作者、做自媒体的人、做营销的人，以及所有已经在用 AI Agent 的人。

你可以拿它做什么？

如果只说“图像、视频、音频、音乐一站式生成”，还是太抽象了。

我更愿意直接按你最常见的几个内容场景来讲。

1. 自媒体全自动发文配图

这是我觉得最实用的一条线。

很多人现在已经能让 Agent 写文章了，但最后总停在这几步：

封面图没人做
正文插图没人补
社媒预览图没人裁
平台规格不统一

而这个 Skill 仓库里本身就带了 AI SEO Article Workflow。它的目标写得很清楚：

为 SEO 文章生成整套视觉资产，包括：

封面图 prompt
3 张内文配图 prompt
社媒预览图 prompt
图片命名建议

这类设计很实用，因为它不是只给你“生一张图”，而是直接按“文章资产包”的思路来做。

如果你本来就有发文工作流，比如公众号、知乎、CSDN、博客同步，那这个 Skill 刚好可以补上最费时间的一层：

文章主封面
文中说明图
横版 banner
1:1 社媒分享图

严格说，它本身不是发文器。

但对于真正做内容的人来说，这并不重要。因为你缺的往往不是“按钮点发布”，而是发布之前那套图文素材生产线。

这一层一旦补齐，整条链路的自动化程度就会一下子上来。

2. 自动生成 PPT 视觉包

仓库里还有一个我很喜欢的工作流：AI PPT Skill Workflow。

它的目标不是帮你“临时做一页图”，而是：

为一整套演示文稿生成完整视觉包。

这个工作流要求的输入非常接地气：

主题
受众
页数
视觉风格

然后输出的是：

1 个封面主视觉 prompt
每一页 1 个视觉 prompt
图标风格说明
配色方案
图片 alt text

这有什么用？

用处非常大。

因为很多 PPT 做得慢，不是慢在写字，而是慢在：

每一页都要去找图
每一页都担心风格不统一
封面像一套，内页像另一套
最后只好临时拼

而这个工作流的好处，是让 Agent 不再一页一页瞎做，而是先站在整套 deck 的角度，帮你把视觉系统定下来。

对于这些场景尤其合适：

路演 PPT
提案 PPT
课程讲义
内部汇报
发布会视觉草稿

说白了，它很适合“时间很少，但又不想做得太糙”的人。

3. 全自动生成视频

这条线更猛。

因为这个 Skill 不是只支持图片，它还直接把视频模型接进来了。

README 里列出的覆盖范围，已经足够撑起很多视频工作流：

sora-2
sora-2-pro
seedance-1-pro
seedance-1-lite
kling-2.6
kling-3.0
happyhorse-1.0
gemini-omni-video

而且不只是文生视频。

它支持的场景里，还包括：

text-to-video
image-to-video
video-to-video

这就意味着你可以把视频工作流拆得更像创作，而不是一次性抽卡：

先让 Agent 写脚本和镜头说明
再让它出关键帧图
再把关键帧喂给视频模型
再继续做局部编辑或延展
最后补音效和音乐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果你之前做视频经常卡在“模型很多，但流程很碎”，那你会很明白这套东西为什么有吸引力。

它真正解决的不是“能不能生成一条视频”，而是：

能不能把视频生成接进一条重复可用的生产链。

这对下面这些内容特别友好：

广告样片
分镜预演
短视频脚本测试
AI 漫剧
带口播的内容预演

仓库里的 AI Comic Drama Workflow 就是这个思路。

它不是只出一句 prompt，而是把一个短故事变成：

8 个分场景画面 prompt
2 个转场视频 prompt
角色一致性清单
风格锁定说明

这就已经不是“玩模型”了，而是在认真做内容管线。

4. 全自动小红书帖子生成

这个角度很多人会忽略，但我觉得反而很有现实价值。

因为小红书真正耗时间的，常常不是文案，而是图。

封面图要有点击感
详情图要统一
教程卡片要清楚
九宫格要协调
有时还要兼顾 1:1、3:4、9:16 多个比例

这类活如果全手动做，很耗人。

但如果你把它交给 Agent，并让 Agent 通过这个 Skill 统一生成素材，事情就会顺很多。

最实用的做法不是一句“帮我发小红书”，而是先让 Agent 把帖子需要的资产包做完整：

1 张封面图
6 到 9 张详情图
1 套统一标题风格
1 套颜色和版式约束
必要时再补一个 9:16 视频封面

对用户来说，这其实就是“小红书帖子开始自动生成了”。

因为真正费你时间的环节，已经被压下去了。

为什么我一直强调：它真的很适合做内容的人

因为它不是只盯着技术人。

你看它带的这些工作流和例子，本质上都在服务同一类需求：

把一个想法尽快变成可发、可看、可交付的成品。

不管你最后发到哪里：

公众号
知乎
小红书
抖音
CSDN
独立站博客
产品官网

你都绕不开图、视频、声音这些资产。

以前这几层通常是分开的。

现在这个 Skill 的意义，是让 Agent 把它们重新串起来。

另一个很关键的点：价格真的适合先跑通工作流

这部分我建议一定认真看。

因为很多工具看起来很强，但你一真用，就会发现两个问题：

不知道一次生成要花多少
想试几次就心疼

而这个 Skill 之所以比较适合长期用，一个很重要的原因就是：

它把“先 quote 再生成”做成了默认思路。

也就是先估积分，再决定要不要正式提交。

这对做内容的人特别重要，因为内容迭代本来就不是一次命中。

你真正需要的不是“最玄学的一次神图”，而是：

能快速试
能控制成本
能连续改
不用每次都担心计费黑箱

按我在 2026-06-19 查到的 Cyberbara 当前公开页面信息，大致是这样：

免费层每周有 12 credits
Starter 现在是 800 monthly credits
Mini Pack 是 500 credits / $6.90
Basic Pack 是 1,500 credits / $17.90

页面换算也给得很直接：

免费层大约够 1 张 GPT Image 2 2K 图
Starter 大约够 80 张 GPT Image 2 2K 图
Mini Pack 大约够 50 张 GPT Image 2 2K 图
Mini Pack 还大约够 20 个 10 秒 720P 视频

Nano Banana 2 页面给出的信用成本也比较清楚：

1K = 8 credits
2K = 12 credits
4K = 18 credits

这对高频试图、做封面、做详情图的人非常友好。

更关键的是，仓库 README 直接把这一点写成了核心卖点：

很多场景下，CyberBara 成本低于官方模型 API。

我这里不展开做一堆复杂价格对账，因为价格会变，模型也会变。

但就一个普通创作者最关心的问题来说，这已经很够了：

你能不能用比较低的门槛，把流程先跑起来。

而从当前定价和 credit pack 设计看，它显然就是往这个方向做的。

对普通用户来说，省下来的不只是钱，还有配置成本

这也是很多人低估的一点。

比如 Cyberbara 的 GPT Image 2 页面，直接把价值说得很明确：

不用自己管理 API Key
不用自己处理模型接入
不用自己搭上传、轮询和计费
你只要用 credits 去测 prompt 和结果

这件事听起来像“小便利”，其实对内容团队是大便利。

因为你真正想做的是：

试图
试视频
看结果
继续迭代

不是去折腾一堆接入细节。

而这个 Skill 的价值，就是把这一层麻烦从工作流里尽量移走。

如果你想现在就上手，我建议这样用

这里我不写复杂教程，直接给你一套最实用、最不容易绕的路径。

第一步：先装上 Skill

最省事的方法不是自己研究安装说明，而是直接把这句话发给你的 Agent：

Help me install this skill, use command `npx skills add ZeroLu/Ultimate-AI-Media-Generator-Skill --all`

如果你用的是 OpenClaw、Claude Code、Codex，这种方式最顺手。

第二步：去拿 Cyberbara API Key

地址在这里：

https://cyberbara.com/settings/apikeys

拿到以后，一次性配置就行。

仓库给的推荐命令是：

python3 scripts/cyberbara_api.py setup-api-key "<your-api-key>"

配置完成后，后面一般就不用反复填了。

第三步：别一上来就猛生成，先让 Agent quote

这是我最建议保留的习惯。

先问它这次大概要花多少积分，再决定是否提交。

比如你可以直接这样说：

Use $ultimate-ai-media-generator-skill to quote credits before submission.
I want one 16:9 article cover image about AI content automation.
Use a clean, high-end, editorial visual style.

这样你会先知道大概要花多少，而不是结果出来了才回头看账单。

第四步：按场景让它出整套资产，而不是只出一张图

这是很多人用不好这类工具的原因。

不要只说：

给我生成一张图

更好的说法是：

给我这一条内容链路需要的整套视觉素材

比如做文章，可以这样说：

Use $ultimate-ai-media-generator-skill to create a full visual asset plan for an article about AI automation for creators.
I need:
1. one 16:9 hero cover,
2. three inline illustrations,
3. one 1:1 social preview image,
4. all images in one coherent visual style.
Quote first, then wait for my confirmation.

做 PPT，可以这样说：

Use $ultimate-ai-media-generator-skill to create a visual package for a 12-slide presentation.
Topic: How AI agents are changing content production.
Audience: marketing team and founders.
Style: clean, premium, modern.
Output a cover image prompt, one visual prompt per slide, icon style guide, and color palette.

做短视频，可以这样说：

Use $ultimate-ai-media-generator-skill to plan and generate a short AI promo video.
I need:
1. 4 storyboard keyframes,
2. one 10-second text-to-video draft,
3. one short whoosh sound effect,
4. one light background music track.
Quote first and keep the total cost low.

做小红书帖子，可以这样说：

Use $ultimate-ai-media-generator-skill to create a Xiaohongshu visual package.
Topic: how creators can automate content with AI agents.
I need:
1. one square cover image,
2. six 3:4 tutorial cards,
3. one 9:16 video cover,
4. one consistent color and typography direction.
Quote first and optimize for low cost.

第五步：把它当成“底层出图引擎”，继续往上接你的发布工作流

这是最关键的一步。

它的最强用法，不是单独拿来玩一两次。

而是把它变成你整个内容系统里的“出图层”“出视频层”“出音频层”。

上面接：

选题
大纲
文案
标题
平台改写

下面接：

封面图
内文配图
视频样片
音效
背景音乐

一旦这样接，你就会开始感觉：

Agent 不再只是一个会说话的助手，而是一个真的能交付媒体资产的协作者。

哪些人最应该试它？

如果你符合下面任意一条，我都建议你认真试一下：

你在做公众号、知乎、小红书、博客、短视频
你已经在用 Codex、Claude Code、OpenClaw 这类 Agent
你不是不会写内容，而是卡在配图、视频、音效
你想先低成本把工作流跑通，再考虑规模化
你想把 AI 从“玩具”变成“稳定产线”

最后一句

我觉得 Ultimate-AI-Media-Generator-Skill 真正值得推广的地方，不是“它能生成多少模型结果”，而是：

它让 AI Agent 离真正交付成品这件事，更近了一大步。

尤其是对做内容的人来说，这一步非常关键。

因为你需要的从来不是一个更会聊天的 AI。

你需要的是一个：

会写
会规划
会算成本
会出图
会出视频
会补声音
最后还能把结果接回你的工作流

这才是“内容工厂”真正开始成立的时刻。

入口放这里

GitHub 仓库：
https://github.com/ZeroLu/Ultimate-AI-Media-Generator-Skill

Skill 页面：
https://cyberbara.com/skill

获取 API Key：
https://cyberbara.com/settings/apikeys

定价页：
https://cyberbara.com/pricing

积分成本与模型价格：
https://cyberbara.com/credit-costs

Star History：

备选标题

一个开源 Skill，把 AI Agent 真正变成了内容工厂
还在手动补封面和视频？这个 Skill 正在把内容生产线接回 Agent
我最近最想推荐的，不是又一个模型，而是这个能交付成品的开源 Skill
自媒体、PPT、视频、小红书都能接：这个 Skill 补上了 Agent 最缺的一层

发布备注

文中价格、credit pack、换算能力基于 2026-06-19 可见公开页面信息整理。
“很多场景下成本低于官方模型 API”是仓库 README 的原始卖点表述，文中已按该口径转述，没有自行扩张成所有场景都更便宜。
“全自动发文”“全自动小红书帖子生成”在文中按实际能力表述为：素材生成层自动化 + 与上层 Agent / 发布工作流配合，避免夸大为单一 Skill 独立完成所有平台发布。

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

如何通过 Fine-tuning 定制专属 AI Agent Harness Engineering？

术语简明定义Fine-tuning（微调）在预训练大模型的基础上，用特定领域的数据集进行二次训练，让模型适配特定任务/规则的技术，包括全参微调、LoRA、QLoRA、DPO等多种范式AI Agent具备环境感知、自主决策、工具调用能力，能够独立完成复杂任务的大模型应用系统贯穿AI Agent训练、推理、执行全链路的管控工程体系，核心目标是保障Agent的可控性、安全性、合规性、业务适配性，相当于A

CSDN-OPC开发者社区

企业级Multi-Agent落地案例：从成本中心到利润AI Agent在智能AI Agent在智能营销中的实战：多智能体协同投放与效果优化

本文将基于国内头部美妆电商年5亿投放预算的真实落地案例，完整拆解企业级Multi-Agent智能营销投放系统的搭建、落地、优化全流程，从需求分析、智能体角色定义、系统架构设计、核心代码实现到效果验证，所有内容均可直接复用在你的企业投放场景中。我们会详细讲解7个不同职能的Agent如何协同完成从市场调研、人群洞察、渠道分配、创意生成、实时出价到效果归因的全链路自动化投放，彻底替代90%的人工操作。

CSDN-OPC开发者社区

如何让 AI Agent Harness Engineering 与企业指标 KPI 自动对齐：运营驱动式智能体系统设计

语义转化鸿沟：业务侧的KPI语义（如“提升用户复购率15%”）无法直接转化为Agent可执行的动作指令归因鸿沟：Agent的单个动作对KPI的贡献无法精准量化，无法建立动作和业务结果的因果关系响应鸿沟：企业KPI动态调整时（如大促期间临时调整优先级），Agent的配置更新延迟高达数天，无法适配业务节奏：对智能体的目标注入、动作管控、效果归因、迭代优化全生命周期进行标准化管控的工程体系，核心是建立业