阿里云发布并开源其最新自研推理模型QwQ-32B,这款拥有320亿参数的模型,其性能可媲美参数大于其数十倍的大型顶尖模型。
QwQ-32B是阿里云探索推理模型的最新成果。基于阿里云最新大语言模型Qwen2.5-32B,QwQ-32B在多项权威基准测试中表现出色,包括AIME 24(数学推理)、Live CodeBench(代码能力)、LiveBench(测试集污染和客观评估)、IFEval(指令跟随能力)和 BFCL(工具与函数调用能力)。
QwQ-32B与其它领先模型的对比表现,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和 DeepSeek-R1。
大规模强化学习提升推理能力
QwQ-32B的卓越性能突显了强化学习(Reinforcement Learning, RL) 的强大威力,当应用于像 Qwen2.5-32B 这种强大基础模型时,强化学习的威力就会显现出来。Qwen2.5-32B是根据广泛的世界知识进行预先训练的,通过大规模强化学习(RL scaling),QwQ-32B在数学推理和编码能力上都有持续的提升。
此外,该模型使用通用奖励模型和一些基于规则的验证器进行训练,增强了其通用能力的表现,例如指令跟随、与人类偏好对齐,以及智能体性能。
集成智能体相关能力
研究团队还将智能体(agent)相关的能力集成到了QwQ-32B中,使其在能够使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。研究团队也在探索将智能体与强化学习集成,以实现长时推理,目标是透过推理时间扩展来释放更高的智能。
QwQ-32B已在Hugging Face和ModelScope开源,采用了Apache 2.0开源协议,供免费下载。用户也可以透过Qwen Chat直接体验。QwQ-32B凭借其强大的推理能力和更低的资源消耗需求,可以在消费级硬件上进行有效部署,服务全球开发者和企业用户。