阿里云开源更小尺寸推理模型QwQ-32B 性能表现全球领先-阿里巴巴集团

阿里云发布并开源其最新自研推理模型QwQ-32B，这款拥有320亿参数的模型，其性能可媲美参数大于其数十倍的大型顶尖模型。

QwQ-32B是阿里云探索推理模型的最新成果。基于阿里云最新大语言模型Qwen2.5-32B，QwQ-32B在多项权威基准测试中表现出色，包括AIME 24（数学推理）、Live CodeBench（代码能力）、LiveBench（测试集污染和客观评估）、IFEval（指令跟随能力）和 BFCL（工具与函数调用能力）。

QwQ-32B与其它领先模型的对比表现，包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和 DeepSeek-R1。

大规模强化学习提升推理能力

QwQ-32B的卓越性能突显了强化学习(Reinforcement Learning, RL) 的强大威力，当应用于像 Qwen2.5-32B 这种强大基础模型时，强化学习的威力就会显现出来。Qwen2.5-32B是根据广泛的世界知识进行预先训练的，通过大规模强化学习（RL scaling），QwQ-32B在数学推理和编码能力上都有持续的提升。

此外，该模型使用通用奖励模型和一些基于规则的验证器进行训练，增强了其通用能力的表现，例如指令跟随、与人类偏好对齐，以及智能体性能。

集成智能体相关能力

研究团队还将智能体（agent）相关的能力集成到了QwQ-32B中，使其在能够使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。研究团队也在探索将智能体与强化学习集成，以实现长时推理，目标是透过推理时间扩展来释放更高的智能。

QwQ-32B已在Hugging Face和ModelScope开源，采用了Apache 2.0开源协议，供免费下载。用户也可以透过Qwen Chat直接体验。QwQ-32B凭借其强大的推理能力和更低的资源消耗需求，可以在消费级硬件上进行有效部署，服务全球开发者和企业用户。