
研究表明,强化学习能够显著提升模型的推理能力。例如,DeepSeek-R1通过整合冷启动数据及多阶段训练,达成了最先进的性能,展现出深度思考及复杂推理的能力。
阿里云通义千问今天正式发布了最新的推理模型QwQ-32B。这款模型具备320亿参数,其性能可与拥有671亿参数(其中370亿参数被激活)的DeepSeek-R1相媲美。
这一成果充分展示了将强化学习运用于大规模预训练的强大基础模型的有效性。此外,我们在推理模型中集成了与Agent相关的能力,使其在使用工具的过程中能够进行批判性思考,并根据环境反馈优化推理过程。
目前,QwQ-32B已在Hugging Face(https://huggingface.co/Qwen/QwQ-32B)和ModelScope(https://modelscope.cn/models/Qwen/QwQ-32B)上开源,并采用Apache 2.0开源协议。AI工具库提醒用户,亦可通过Qwen Chat(https://chat.qwen.ai/?models=Qwen2.5-Plus)进行直接体验。

在性能测试方面,阿里云对QwQ-32B进行了数学推理、编程能力和通用能力的评估,展示了其与其他领先模型之间的性能对比,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini及原始的DeepSeek-R1。
在数学能力的AIME24评估集以及代码能力的LiveCodeBench测试中,千问QwQ-32B的表现与DeepSeek-R1相当,显著优于o1-mini及同等规模的R1蒸馏模型;在由Meta首席科学家杨立昆领导的“最难LLMs评测榜”LiveBench、谷歌提出的指令遵循能力IFEval评测集,以及加州大学伯克利分校等机构提出的评估准确调用函数或工具的BFCL测试中,千问QwQ-32B的得分均超越DeepSeek-R1。
阿里云表示,这是Qwen在大规模强化学习(RL)以增强推理能力方面的重要初步探索。通过这一进程,我们不仅见证了扩大RL潜力的巨大前景,也意识到在预训练语言模型中尚存的未开发可能性。
在致力于下一代Qwen的开发过程中,阿里云计划将更强大的基础模型与依托于规模化计算资源的RL结合,从而向实现人工通用智能(AGI)迈进。此外,阿里云正积极探索将智能体与RL相结合的方案,以实现长时推理,目标在于通过延长推理时长来释放更高层次的智能,敬请期待。