首创电影美学控制系统!阿里开源「通义万相2.2」视频模型

原创 北茗 AI机器人茶馆 2025年07月30日 18:08 广东

阿里开源了AI视频模型 通义万相2.2(Wan2.2)。

这次主打一个阿里首创的 电影美学控制系统。

光影、色彩、画面构图、焦距、镜头角度,甚至时间、天气、人物表情这些维度都能被用户调节。它不只是从一段Prompt里猜测你想要的画面,而是真的能理解“怎么拍更有感觉”。

比如你输入“雨夜、逆光、蓝绿色调、低饱和”,模型就能生成一段带着情绪张力的都市夜景片段,仿佛下一秒主角就要出场;而换成“清晨、暖光、高角度、浅景深”,画面立马切换成一组安静柔和的晨起镜头,适合拍温情家庭片的开场。

💡 来看看Wan2.2的不同的灯光效果(晴天、阴天、月光、荧光灯、火光 、混合、柔光、硬光、顶光、侧光、背光、底光、边缘、轮廓……):

,时长01:17

📹 以及特写和广角镜头:

,时长00:56

1

 三款模型,三个定位

这次阿里开源的是三种不同定位的模型:

图片

  • T2V-A14B:文本生成视频,适合需要脚本转画面的用户;

  • I2V-A14B:图像生成视频,主要处理从静帧生成动态的需求;

  • TI2V-5B:混合模型,支持文本+图像输入,性能更轻量,适合个人开发者和内容创作者。

前两个更大的模型采用了新设计的MoE架构,总参数量达27B,但每一步只激活其中14B参数,大大降低了推理消耗。得益于双专家协同设计,一个专注场景布局,一个专注细节修复,在生成效果上比上一代有明显提升。

而5B小模型采用了更先进的高压缩3D VAE技术,实现了4×16×16的压缩率,相当于信息压缩效率提升了整整4倍。这也是它能在较小显存下依然跑出高分辨率视频的关键。

图片

5B小模型最大的亮点,是它对硬件要求非常友好。一张RTX 4090消费级显卡,就可以在几分钟内生成一段24帧的720P视频。这意味着,普通用户也能用上之前只能在云端才能体验的功能。

2

 宣称MoE架构,专家指出问题

阿里这次宣称采用了MoE架构,但不少业内人士指出,这其实更像是一种“静态专家组合”而非传统的动态路由机制。

Wan2.2像是两个“阶段专家”串联。一位负责高噪声阶段,专注画面构图和布局;另一位负责低噪阶段,负责细节修复和纹理增强。

图片

这种设计类似于当前Diffusion模型中“基础模型+细化模型”的组合方案(例如SDXL)。优点是节省计算资源,在不牺牲画面质量的情况下提高效率。

这个机制直接带来了一项好处:在同等参数下,Wan2.2比上一代模型平均节省约50%的计算资源。

3

 训练数据大幅扩容,美学表达力增强

Wan2.2在训练数据规模上也有明显提升。相比前代Wan2.1,图像数据量提升了65.6%,视频数据提升了83.2%

数据扩容背后带来了几个实用性增强点:

  • 更复杂的场景运动表现能力,如人物交互、体育动作;

  • 更丰富的表情、手势动画;

  • 更强的prompt理解力,风格控制更精细。 

4

 实测数据:小模型可跑,大模型可观

来自多个开发者的实测数据总结如下:

  • TI2V-5B:

    • RTX 4090上可运行,生成一段5秒720P、24fps视频约需8-9分钟

    • 对文本提示响应一般,风格理解偏弱,生成质量更适合“动画风”“复古像素风”等抽象类场景;

    • 人物面部、文字内容常常模糊或失真。

  • T2V/I2V-A14B:

    • 在L40S(48G显存)等高端显卡上可运行;

    • 画面稳定性、细节质量、场景还原能力都明显优于5B模型;

    • 但生成时间较长,一段5秒视频需40-50分钟

    • 同样存在文字渲染和风格不稳的问题。

5

 开放模型,兼容生态

除了模型本身,阿里还很注重生态兼容。目前,三款模型都已在Hugging Face、GitHub和阿里自家开源社区ModelScope上线,支持FP8量化、LoRA训练、ComfyUI接入、Diffusers调用等功能,方便开发者快速集成。

图片

不过也有一些小遗憾,比如上一代模型支持的VACE全能编辑、帧插补等功能在2.2中暂未集成,导致某些使用场景下流程略显割裂。

这可能也是为了尽快推出新版本,不得不在产品完整度上做些取舍。

图片

附上模型链接,有条件的小伙伴快去体验一下吧。

🚪 GitHub:

https://github.com/Wan-Video/Wan2.2

🚪 HuggingFace:

https://huggingface.co/Wan-AI

🚪 ModelScope:

https://modelscope.cn/organization/Wan-AI

Logo

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容,并连接云服务、办公空间等稀缺资源,助你专注创造,无忧运营。

更多推荐