阿里云开源万相2.1视频生成模型 VBench总分夺冠
2025年2月26日

阿里云宣布开源旗下视频生成大模型万相2.1Wan2.1)系列四款模型,作为公司对全球开源社群的又一重要贡献,向全球学术界、研究人员和商业机构开放使用,进一步推动人工智能(AI)技术创新和普惠。

 

此次开源的是14B1.3B两个参数规格的四款Wan2.1模型T2V-14BT2V-1.3BI2V-14B-720PI2V-14B-480P,其全部推理代码和权重全部开源,并分别支持文生视频和图生视频任务,全球开发者可在GithubHugging Face魔搭社区下载体验。

 

今年早些时候发布的Wan2.1系列是首款支持中英文文字效果的视频生成模型。它能准确处理复杂动作,提高像素质量,遵循物理原理,优化指令执行精度,从而出色地生成逼真的视觉效果。对指令的精确执行使Wan2.1在视频生成领域权威测评集Vbench排行榜上位居榜首,并且是排行前五的视频生成模型中唯一一个开源模型。VBench数据显示,Wan2.1系列总分为86.22%,在动态程度、空间关系、色彩和多物体交互等关键维度上均处于领先地位。

 

 Wan2.1在视频生成领域权威测评集Vbench排行榜上位居榜首.jpg

Wan2.1在视频生成领域权威测评集Vbench排行榜上位居榜首

 

训练视频基础模型需要巨大的计算资源和大量高质量的训练数据。开源有助于降低更多企业利用AI的门槛,使其能以经济高效的方式创建符合自身需求的高质量可视化内容。

 

其中T2V-14B模型更适合生成具有丰富运动动态的高质量视觉效果,而T2V-1.3B模型则在生成质量和计算能力之间取得了平衡,使其成为广大开发者进行二次开发和学术研究的理想选择。例如,T2V-1.3B模型可以让用户只需要一台普通笔记本电脑,最快能在4分钟左右生成一段5秒长、480p分辨率的视频。

 

除了支持文本生成视频,I2V-14B-720P模型和I2V-14B-480P模型还提供图像生成视频功能。用户只需输入一张图片和一段简短的文字说明,即可生成动态视频内容。平台支持任何标准尺寸的图像输入。

 

 diving.gif

(文字提示词:一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。)

 

阿里云是全球首批开源自研大规模AI模型的全球科技公司之一,早在20238月就推出了首款开源模型QwenQwen-7B)。Qwen开源模型在HuggingFace Open LLM排行榜上一直名列前茅,在各种基准测试中的表现与全球领先的AI模型不相上下。

 

截至目前,基于Qwen模型系列的衍生模型,Hugging Face平台上已开发出超过10万个衍生模型,成为全球规模最大的AI模型系列之一。