阿里巴巴发布Qwen3 混合推理模型树立开源AI新标杆-阿里巴巴集团

阿里巴巴集团发布开源大语言模型家族最新成员Qwen3，为AI创新树立新标杆。

Qwen3系列包含六款密集模型与两款混合专家模型（Mixture-of-Experts, MoE），有助开发者更灵活地开发适用于移动设备、智能眼镜、自动驾驶汽车及机器人等场景上的应用。

Qwen3全系列模型现已开源并全球上线，包含六款密集模型（参数量0.6B、1.7B、4B、8B、14B、32B）及两款MoE模型（30B总参数、3B激活参数；235B总参数、22B激活参数）。

混合推理结合思考与非思考模式

Qwen3发布标志着阿里巴巴首次推出混合推理模型，融合传统大语言模型与先进的动态推理技术。Qwen3可无缝切换“思考模式”与“非思考模式”, “思考模式”专攻数学演算、编程及逻辑推理等多步骤复杂任务，“非思考模式”则专注于提供高速、通用型回应。

透过API调用Qwen3，开发者可精细控制思考时长（最高达38K tokens），获取智能表现与运算效率间的最佳平衡。值得注意的是，相较于其他顶尖模型，Qwen3-235B-A22B MoE模型大幅降低了部署成本，彰显阿里巴巴推动高性能AI普及化的承诺。

多语言能力、智能体功能、推理、人机对齐的技术革新

基于36万亿tokens训练数据量（较前代Qwen2.5倍增），Qwen3在推理、指令遵循、工具运用及多语言任务方面能力显著提升。

核心能力包括：

精通多种语言：支持119种语言及方言，翻译与多语种指令遵循表现领先业界。
先进智能体整合：原生支持模型上下文协议（Model Context Protocol, MCP），具有强大的函数调用能力（Function Calling)，复杂智能体任务表现居开源模型之首。
卓越推理能力：数学运算、编程与逻辑推理的基准测试表现全面超越前代Qwen系列（思考模式QwQ与非思考模式Qwen2.5）
强化人机对齐：提供更自然的创意写作、角色扮演与多轮对话体验，实现更自然、更具互动性的对话。

基于模型架构的进步、训练数据量的提升以及更有效的训练方法，Qwen3系列在多项业界基准测试中获得顶尖成绩，包括AIME25（数学推理）、LiveCodeBench（编程能力）、BFCL（工具及函数调用能力），以及Arena-Hard（指令微调模型基准测试）。此外，为开发混合推理模型，研发团队采用了四阶段训练流程，包含长思维链（Chain-of-Thought, CoT）冷启动、长思维链强化学习（Reinforcement Learning, RL）、思维模式融合与通用强化学习。

Qwen3系列在多项业界基准测试中获得顶尖成绩

开放生态驱动创新

Qwen3全系列模型现已在开源平台Hugging Face、Github及ModelScope供免费下载，并可透过chat.qwen.ai体验。阿里巴巴AI模型开发平台Model Studio即将开放API接入服务。Qwen3将用于支持阿里巴巴旗舰级AI超级助手“夸克”。

自发布以来，Qwen模型家族全球下载量突破3亿次。在Hugging Face平台，基于Qwen创建的衍生模型已超10万个，令Qwen成为全球应用最广泛采用的开源AI模型系列之一。