
4月13日,昆仑万维团队宣布推出全新升级的Skywork-OR1(Open Reasoner1)系列模型,继2025年2月发布首款中文逻辑推理大模型Skywork-o1之后的重要成果。这一系列模型在相同参数规模下展现了业内领先的推理表现,进一步超越大型模型在逻辑理解和复杂任务求解方面的能力瓶颈。
这一次开源的Skywork-OR1系列模型包括三款高性能模型:Skywork-OR1-Math-7B专注于数学领域,还具备强大的编程能力;Skywork-OR1-7B-Preview在融合数学和编程能力的基础上,兼具通用性和专业性;而Skywork-OR1-32B-Preview则是面向更复杂任务、具备更强推理能力的旗舰版。
在竞赛编程任务中,通用模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在LiveCodeBench数据集上展现了同等参数规模下的最优性能。特别是Skywork-OR1-32B-Preview的表现十分突出,其代码生成和问题求解能力已经接近DeepSeek-R1(参数规模高达671B),且在显著压缩模型体积的同时保持卓越性能,充分展示了团队先进的训练策略。
Skywork-OR1系列模型的显著性能突破得益于团队在模型后续训练阶段的长期自主研发积累与技术深耕。在数据选择和预处理方面,Skywork-OR1构建了高质量的数学和编程数据集,通过强化学习来提升模型在数学和编程领域的推理能力。团队以可验证性、正确性和挑战性为三大标准进行初步数据筛选,剔除了无法自动验证的证明题目、存在错误的问题和缺乏单元测试的代码。同时,在数据过滤方面,为避免策略学习受限于“全对”或“全错”现象,每道题目都经历了多轮采样和验证,以模型表现差的题目为重点进行过滤。
此外,Skywork-OR1采用了Group Relative Policy Optimization (GRPO)进行模型训练,同时引入了训练时数据优化、训练管道优化、训练时模型探索和训练损失优化等多项优化措施。
Skywork-OR1系列的开源地址为:https://github.com/SkyworkAI/Skywork-OR1。
快讯中提到的AI工具

深度求索:引领未来人工智能技术的探索与创新