阿里巴巴开源最新视频生成模型提供首尾帧图片即可生成流畅视频-阿里巴巴集团

阿里巴巴发布其最新开源视频生成模型Wan2.1-FLF2V-14B，该模型旨在简化视频创作流程。用户只需输入首帧和尾帧图片，便能轻松生成视频。这为短视频创作者提供了更高效灵活的视频制作工具，助其高效且低成本地开发AI模型和应用。

该模型是阿里巴巴基础模型系列万相2.1（Wan2.1）的一部分，该系列专为从文本和图像生成高质量图像和视频而设计。目前，该模型已在全球开源社区Hugging Face、GitHub以及魔搭(ModelScope)上发布。Wan2.1-FLF2V-14B在执行用户指令方面表现出色，能够保持首帧与生成视频之间的一致性，并在首尾帧之间实现流畅过渡，从而生成逼真且自然的复杂动作视觉效果。用户可以在万相官方网站上免费生成一段5秒钟、720p分辨率的视频。

该模型的关键技术在于其创新的视频生成方法，通过引入额外的条件控制机制，利用用户提供的首尾帧作为控制条件，实现流畅且精准的首尾帧变换。为确保画面稳定性，该模型提取了首尾帧的语义特征，并注入到视频生成过程，使模型能够在动态转换帧的同时，保持风格、内容和结构的一致性。

作为全球最早开源自研大规模AI模型的科技公司之一，阿里巴巴一直致力于开源技术的推广。2025年2月，阿里巴巴开源了四款Wan2.1模型。截至目前，这些模型在Hugging Face和魔搭平台上的下载量已超220万次。

今年早些时候发布的Wan2.1系列是首款支持中英双语文本效果的视频生成模型，并在视频生成领域权威测评集VBench排行榜中位居榜首。

阿里巴巴于2023年8月发布了其首个开源大语言模型（LLM）Qwen-7B。通义系列开源模型在Hugging Face, Open LLM Leaderboards上持续领先，其性能在多项基准测试中与全球顶尖AI模型相当。过去几年，阿里巴巴已开源超过200款生成式AI模型。截至目前，基于通义系列模型开发的衍生模型在Hugging Face上已超过10万个，成为全球最知名的AI模型家族之一。

首帧尾帧.png

首帧图与尾帧图

提示词：“写实风格，一个身穿粉色运动服的女生在城市街道中跑步，镜头先特写女生的脸部，然后记录下女生转过街角向前跑去的背影。”

首帧图与尾帧图

提示词：“一座中国风的楼阁，逐渐变成卡通粉红色，四周出现气球，镜头固定不动。”