
Light-R1是360智脑推出的一个开源AI模型,专注于数学领域的长思维链推理。该模型具体版本为Light-R1-32B,建立在Qwen2.5-32B-Instruct的基础上,经过与7万条数学数据和双阶段课程学习(SFT+DPO)的训练,成功超越了DeepSeek-R1-Distill-Qwen-32B的性能表现。在AIME24测试中,Light-R1的得分为76.6分,显著高于DeepSeek-R1-Distill的72.6分。此外,Light-R1的训练成本较低,仅需在12台H800机器上运行6小时,成本约为1000美元。Light-R1完全开源,包括模型、数据集、训练框架和评测代码,旨在推动开源社区的发展,为低成本训练领域的专业模型提供参考。
Light-R1的主要功能包括高效数学问题解决、推理能力提升、泛化能力和低成本训练与部署。该模型在处理代数、几何、概率等复杂数学问题时能够快速准确地解决,并展现出强大的逻辑推理能力,适用于长思维链问题。此外,Light-R1还表现出良好的泛化能力,可在逻辑推理和语言理解等其他领域发挥作用,而且以低成本实现高性能,适合资源有限的用户或企业快速部署和应用。
Light-R1的技术原理包括基础模型与起点、课程学习、数据处理与去重、模型融合以及训练框架与优化等内容。通过360-LLaMA-Factory训练框架的支持,Light-R1能在12台H800机器上仅需6小时完成训练。该模型的项目地址包括GitHub仓库和HuggingFace模型库,用户可在这些平台下载相关资源。
Light-R1可应用于教育领域(数学学习工具)、科研与学术(辅助数学研究)、企业应用(数据分析、风险评估等)、软件集成(智能助手、数学软件)以及开源开发者社区。该模型支持多个数学领域问题的处理,用户可以通过GitHub或HuggingFace模型库获取Light-R1模型及相关资源,训练成本较低。在教育领域,Light-R1可作为数学学习辅导工具,帮助学生解决难题并提供解题思路。

