360智脑团队成功复现Deepseek强化学习效果，发布开源模型Light-R1-14B-DS

摘要：

最近，360智脑团队宣布成功复现了Deepseek的强化学习效果，并正式发布了开源推理模型Light-R1-1 […]

最近，360智脑团队宣布成功复现了Deepseek的强化学习效果，并正式发布了开源推理模型Light-R1-14B-DS。这一模型的性能表现超过了DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B，在14B参数规模上实现了强化学习效果，成为业界首个这样的模型，显著提升了数学推理能力，在成绩上超过了大多数32B级别模型。

与DeepSeek-R1-14B相比，Light-R1-14B-DS在数学竞赛任务中表现突出：在AIME24测试中提升了4.3分，在AIME25中更是提高了10分。另外，在数学推理任务GPQA上，该模型取得了61.7分的优异成绩。

为了实现这一突破，360智脑团队采用了两种创新训练方法。首先是Curriculum SFT（渐进式监督微调），通过分阶段训练，让模型从简单数学问题逐步过渡到复杂问题，进一步增强逻辑推理能力。其次是强化学习（RL），首次在14B级别推理模型上成功应用，不仅提升了推理准确率，还确保其他技能基本无损。

这次的发布不仅包括模型本身，还开源了SFT数据、代码及技术报告，为业界提供了宝贵资源。这一成果标志着中小规模模型在强化学习领域取得了重大进展，有可能推动人工智能推理能力的进一步普及与发展。

项目地址：https://github.com/Qihoo360/Light-R1

模型地址：https://huggingface.co/qihoo360/Light-R1-14B-DS

数据地址：https://huggingface.co/datasets/qihoo360/Light-R1-SFTData