阿里发布端到端多模态AI模型Qwen2.5-Omni-7B
2025年3月27日

阿里发布通义家族首个端到端全模态大模型Qwen2.5-Omni-7B。该模型专为全模态感知设计,可处理文本、图像、音频、视频等多模态输入,并实时生成文本与自然语言应答,为在手机、笔记本电脑等终端设备部署多模态AI设立新标准。

 

尽管仅采用了轻量级的7B参数,Qwen2.5-Omni-7B仍展现出卓越的性能与强大的多模态能力,成为开发高效能、高性价比、且具使用价值的AI智能体的理想基座模型,在智能语音应用领域尤其具有前景。例如,透过即时语音导航协助视障者安全辨识周边环境,分析视频中的食材按步骤提供烹饪指导,及打造真正理解客户需求的智能客服对话体验。


该模型现已在Hugging Face GitHub上开源,并可透过Qwen Chat及阿里云开源社区ModelScope获取。目前,阿里已开源超过200个生成式AI模型。


创新架构打造高性能表


在各模态任务中,Qwen2.5-Omni-7B均展现出可媲美同参数规模的单模态专用模型的性能。该模型在实时语音交互、自然语言生成及端到端语言指令跟踪方面表现出色。

 

其卓越效能源自三大创新架构:Thinker-Talker 架构透过分离文本生成(由Thinker处理)与语言合成(由Talker执行),降低多模态间的相互干扰,确保高品质输出;TMRoPE (Time-aligned Multimodal RoPE) 位置编码技术,通过时间轴对齐实现视频与音频输入的精准同步,实现内容生成的高度连贯性;以及通过Block-wise Streaming Processing区块串流处理技术实现低延迟音频响应,打造无缝语音交互体验。


轻量级参数的优异性能表现 


Qwen2.5-Omni-7B基于海量多模态数据进行预训练,涵盖图文、影片文、影音、音文及纯文本数据,确保其在各项任务中皆能展现强劲性能。


凭借创新架构与高品质预训练数据集,该模型在语音指令跟随任务中表现卓越,性能直逼纯文字输入水准。在需要整合多模态的任务上(如OmniBench基准测试所评估的视觉、听觉及文本输入的识别、解读与推理能力),Qwen2.5-Omni更达到业界顶尖水平。

 

bar.png

Qwen2.5-Omni-7B 于所有模态皆展现优异性能表现


通过情境学习(in-context learningICL),Qwen2.5-Omni-7B语音理解与生成方面展现出卓越性能。经强化学习(reinforcement learningRL)优化后,模型生成稳定性显著提升,注意力偏移、发音错误与不当停顿现象大幅减少。


阿里于去年9月推出Qwen2.5系列,并于今年1月发布Qwen2.5-Max,该模型在Chatbot Arena排行榜上位列第七,性能可媲美顶级专有大语言模型并展现出卓越能力。阿里还开源了强化视觉理解能力的Qwen2.5-VL 及专为处理长上下文输入的Qwen2.5-1M