阿里开源Qwen2-Math，数学能力超越GPT-4o

摘要：

近日，阿里云发布了Qwen2-Math数学能力增强模型，标志着在打造更具智能的AI助手方面又迈出了坚实的一步。 […]

近日，阿里云发布了Qwen2-Math数学能力增强模型，标志着在打造更具智能的AI助手方面又迈出了坚实的一步。

相对于Qwen2系列模型，Qwen2-Math与Qwen2-Math-Instruct-1.5B/7B/72B等模型一同构成了强大的开源大语言模型家族。值得一提的是，这些模型不仅在各项数学基准测试中展现出卓越的性能，更超越了如GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和Llama-3.1-405B等顶尖的商业模型，堪称AI领域的“解题高手”。

Qwen2-Math的卓越之处不仅仅体现在性能上。阿里云还特别注重提升模型在推理和解决复杂数学问题上的能力，致力于打造一个在数学及相关领域表现更出色的开源大语言模型。这些模型均以Qwen2-1.5B/7B/72B为基础，并在其原有能力之上，通过精细的数学数据训练，实现了在复杂推理任务中的显著提升。此外，该系列的模型还擅长解决各种数学问题，覆盖了如算术、代数、微积分等多个领域，有效增强了Qwen2在实际应用中的价值。

值得关注的是Qwen2-Math-Instruct模型。其中，Qwen2-Math-72B模型在解决复杂数学问题方面表现尤为出色，甚至超越了一些闭源的大型模型。为了更好地训练和优化模型，阿里云采用了包括验证数据集和测试数据集在内的双重数据集，并在此基础上结合了监督式微调（SFT）技术以及从中间到结果的推理方法（GRPO）。这一系列的优化措施，显著提升了模型在数学问题求解方面的能力。

在实际的基准测试中，Qwen2-Math-Instruct展现出了令人瞩目的解决问题能力。例如，在2024年的AIME（美国数学邀请赛）以及2023年的AMC（美国数学竞赛）中，该模型均取得了优异的成绩，这主要得益于贪婪解码(Greedy)策略、集成推理以及多数投票等技术的应用。

更为重要的是，Qwen2-Math在挑战极具难度的国际奥林匹克数学竞赛（IMO）试题时，也展现出了强大的实力。尽管在解决这些高难度问题上仍有进步空间，但它无疑是目前开源模型中的佼佼者。通过与其他大型语言模型进行对比可以发现，Qwen2-Math不仅能够有效提升复杂推理任务的性能，还有助于显著改善数学领域的数据生成质量。

总而言之，阿里云在开源社区做出了卓越贡献。我们有理由相信，Qwen2-Math模型将为AI领域带来新的突破，它不仅拥有强大的数学能力，更为未来的研究和应用提供了坚实的基础。未来，阿里云将继续致力于开发更先进的算法和技术，不断提升和完善开源大语言模型，共同推动人工智能技术的进步。

Qwen2-Math的发布表明，人工智能在解决复杂领域难题方面取得了显著进展。它不仅为相关行业带来了新的发展机遇，也为我们探索更深层次的智能提供了可能。通过持续不断地优化和完善，未来的人工智能有望在科学、工程以及其他领域发挥更大的作用。

项目地址：https://top.aibase.com/tool/qwen2-math

模型仓库：https://huggingface.co/Qwen