
最近,360智脑团队宣布成功复现了Deepseek的强化学习效果,并正式发布了开源推理模型Light-R1-14B-DS。这一模型的性能表现超过了DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B,在14B参数规模上实现了强化学习效果,成为业界首个这样的模型,显著提升了数学推理能力,在成绩上超过了大多数32B级别模型。
与DeepSeek-R1-14B相比,Light-R1-14B-DS在数学竞赛任务中表现突出:在AIME24测试中提升了4.3分,在AIME25中更是提高了10分。另外,在数学推理任务GPQA上,该模型取得了61.7分的优异成绩。
为了实现这一突破,360智脑团队采用了两种创新训练方法。首先是Curriculum SFT(渐进式监督微调),通过分阶段训练,让模型从简单数学问题逐步过渡到复杂问题,进一步增强逻辑推理能力。其次是强化学习(RL),首次在14B级别推理模型上成功应用,不仅提升了推理准确率,还确保其他技能基本无损。
这次的发布不仅包括模型本身,还开源了SFT数据、代码及技术报告,为业界提供了宝贵资源。这一成果标志着中小规模模型在强化学习领域取得了重大进展,有可能推动人工智能推理能力的进一步普及与发展。
项目地址:https://github.com/Qihoo360/Light-R1
模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS
数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData

快讯中提到的AI工具
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/qfu8egh6暂无评论...