阿里云开源万相2.1视频生成模型 VBench总分夺冠-阿里巴巴集团

阿里云宣布开源旗下视频生成大模型万相2.1（Wan2.1）系列四款模型，作为公司对全球开源社群的又一重要贡献，向全球学术界、研究人员和商业机构开放使用，进一步推动人工智能(AI)技术创新和普惠。

此次开源的是14B和1.3B两个参数规格的四款Wan2.1模型T2V-14B、T2V-1.3B、I2V-14B-720P和I2V-14B-480P，其全部推理代码和权重全部开源，并分别支持文生视频和图生视频任务，全球开发者可在Github、Hugging Face、魔搭社区下载体验。

今年早些时候发布的Wan2.1系列是首款支持中英文文字效果的视频生成模型。它能准确处理复杂动作，提高像素质量，遵循物理原理，优化指令执行精度，从而出色地生成逼真的视觉效果。对指令的精确执行使Wan2.1在视频生成领域权威测评集Vbench排行榜上位居榜首，并且是排行前五的视频生成模型中唯一一个开源模型。VBench数据显示，Wan2.1系列总分为86.22%，在动态程度、空间关系、色彩和多物体交互等关键维度上均处于领先地位。

Wan2.1在视频生成领域权威测评集Vbench排行榜上位居榜首.jpg

Wan2.1在视频生成领域权威测评集Vbench排行榜上位居榜首

训练视频基础模型需要巨大的计算资源和大量高质量的训练数据。开源有助于降低更多企业利用AI的门槛，使其能以经济高效的方式创建符合自身需求的高质量可视化内容。

其中T2V-14B模型更适合生成具有丰富运动动态的高质量视觉效果，而T2V-1.3B模型则在生成质量和计算能力之间取得了平衡，使其成为广大开发者进行二次开发和学术研究的理想选择。例如，T2V-1.3B模型可以让用户只需要一台普通笔记本电脑，最快能在4分钟左右生成一段5秒长、480p分辨率的视频。

除了支持文本生成视频，I2V-14B-720P模型和I2V-14B-480P模型还提供图像生成视频功能。用户只需输入一张图片和一段简短的文字说明，即可生成动态视频内容。平台支持任何标准尺寸的图像输入。

（文字提示词：一名男子在跳台上做专业跳水动作。全景平拍镜头中，他穿着红色泳裤，身体呈倒立状态，双臂伸展，双腿并拢。镜头下移，他跳入水中，溅起水花。背景中是蓝色的泳池。）

阿里云是全球首批开源自研大规模AI模型的全球科技公司之一，早在2023年8月就推出了首款开源模型Qwen（Qwen-7B）。Qwen开源模型在HuggingFace Open LLM排行榜上一直名列前茅，在各种基准测试中的表现与全球领先的AI模型不相上下。

截至目前，基于Qwen模型系列的衍生模型，Hugging Face平台上已开发出超过10万个衍生模型，成为全球规模最大的AI模型系列之一。