360智脑团队成功复现Deepseek强化学习效果,发布开源模型Light-R1-14B-DS

2个月前发布AI俱乐部
1 0 0

最近,360智脑团队宣布成功复现了Deepseek的强化学习效果,并正式发布了开源推理模型Light-R1-14B-DS。这一模型的性能表现超过了DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B,在14B参数规模上实现了强化学习效果,成为业界首个这样的模型,显著提升了数学推理能力,在成绩上超过了大多数32B级别模型。

与DeepSeek-R1-14B相比,Light-R1-14B-DS在数学竞赛任务中表现突出:在AIME24测试中提升了4.3分,在AIME25中更是提高了10分。另外,在数学推理任务GPQA上,该模型取得了61.7分的优异成绩。

为了实现这一突破,360智脑团队采用了两种创新训练方法。首先是Curriculum SFT(渐进式监督微调),通过分阶段训练,让模型从简单数学问题逐步过渡到复杂问题,进一步增强逻辑推理能力。其次是强化学习(RL),首次在14B级别推理模型上成功应用,不仅提升了推理准确率,还确保其他技能基本无损。

这次的发布不仅包括模型本身,还开源了SFT数据、代码及技术报告,为业界提供了宝贵资源。这一成果标志着中小规模模型在强化学习领域取得了重大进展,有可能推动人工智能推理能力的进一步普及与发展。

项目地址:https://github.com/Qihoo360/Light-R1

模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS

数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData

360智脑团队成功复现Deepseek强化学习效果,发布开源模型Light-R1-14B-DS

快讯中提到的AI工具

360智脑
360智脑

打造以人为本的智能AI伙伴,提升工作与学习效率

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

© 版权声明:
本文地址:https://aidh.net/kuaixun/qfu8egh6

暂无评论

none
暂无评论...