阿里巴巴发布其最新开源视频生成模型Wan2.1-FLF2V-14B,该模型旨在简化视频创作流程。用户只需输入首帧和尾帧图片,便能轻松生成视频。这为短视频创作者提供了更高效灵活的视频制作工具,助其高效且低成本地开发AI模型和应用。
该模型是阿里巴巴基础模型系列万相2.1(Wan2.1)的一部分,该系列专为从文本和图像生成高质量图像和视频而设计。目前,该模型已在全球开源社区Hugging Face、GitHub以及魔搭(ModelScope)上发布。Wan2.1-FLF2V-14B在执行用户指令方面表现出色,能够保持首帧与生成视频之间的一致性,并在首尾帧之间实现流畅过渡,从而生成逼真且自然的复杂动作视觉效果。用户可以在万相官方网站上免费生成一段5秒钟、720p分辨率的视频。
该模型的关键技术在于其创新的视频生成方法,通过引入额外的条件控制机制,利用用户提供的首尾帧作为控制条件,实现流畅且精准的首尾帧变换。为确保画面稳定性,该模型提取了首尾帧的语义特征,并注入到视频生成过程,使模型能够在动态转换帧的同时,保持风格、内容和结构的一致性。
作为全球最早开源自研大规模AI模型的科技公司之一,阿里巴巴一直致力于开源技术的推广。2025年2月,阿里巴巴开源了四款Wan2.1模型。截至目前,这些模型在Hugging Face和魔搭平台上的下载量已超220万次。
今年早些时候发布的Wan2.1系列是首款支持中英双语文本效果的视频生成模型,并在视频生成领域权威测评集VBench排行榜中位居榜首。
阿里巴巴于2023年8月发布了其首个开源大语言模型(LLM)Qwen-7B。通义系列开源模型在Hugging Face, Open LLM Leaderboards上持续领先,其性能在多项基准测试中与全球顶尖AI模型相当。过去几年,阿里巴巴已开源超过200款生成式AI模型。截至目前,基于通义系列模型开发的衍生模型在Hugging Face上已超过10万个,成为全球最知名的AI模型家族之一。
首帧图与尾帧图
提示词:“写实风格,一个身穿粉色运动服的女生在城市街道中跑步,镜头先特写女生的脸部,然后记录下女生转过街角向前跑去的背影。”
首帧图与尾帧图
提示词:“一座中国风的楼阁,逐渐变成卡通粉红色,四周出现气球,镜头固定不动。”