阿里云发布Qwen2.5-Math-PRM数学推理模型，7B版本性能超越GPT-4o

10个月前发布AI俱乐部

标签：PROCESSBENCH Qwen2.5-Math-PRM 数学推理阿里云

摘要：

近日，一款在数学推理方面表现出色的新型开源语言模型问世，它名为Qwen2.5-Math-PRM。该模型包含72 […]

阿里云发布Qwen2.5-Math-PRM数学推理模型，7B版本性能超越GPT-4o的封面图

近日，一款在数学推理方面表现出色的新型开源语言模型问世，它名为Qwen2.5-Math-PRM。该模型包含72B和7B两种参数规模，旨在应对需要复杂逻辑和计算的数学问题，被誉为可以媲美甚至超越现有闭源模型的强大工具。

Qwen2.5-Math-PRM的7B版本在某些基准测试中已展现出与GPT-4o相近的能力，这使其成为一个极具潜力且开源的数学推理模型。尤其值得一提的是，该模型在名为ProcessBench的数学推理数据集上表现出色。该数据集包含了3400个复杂的数学问题，旨在评估模型解决需要多个步骤才能完成的复杂问题的能力，其中涉及代数、微积分等多个数学领域。

目前，Qwen2.5-Math-PRM已经在ProcessBench数据集上进行了性能评估，结果表明，即使是参数规模较小的7B版本，也能在数学推理能力上与一些更大规模的模型相媲美。值得注意的是，7B模型甚至超越了某些闭源模型的性能，例如在特定任务上超越了GPT-4o-0806。这些结果突显了规模较小的开源语言模型（PRM）在解决复杂数学问题方面的巨大潜力。

总而言之，这款新型开源数学推理模型不仅具备出色的性能，而且为研究人员提供了一个探索和改进数学问题解决能力的新平台。通过开源的方式，Qwen2.5-Math-PRM有望促进该领域的技术进步，并为更广泛的应用场景提供强大的数学工具。