通义千问72B数学模型Qwen2 Math Demo发布，性能超越GPT-4

摘要：

恭喜！“全新数学专家”现已加入 Qwen2 大家庭！我们很高兴推出 Qwen2Math Demo，它在解决数学 […]

恭喜！“全新数学专家”现已加入 Qwen2 大家庭！我们很高兴推出 Qwen2Math Demo，它在解决数学问题方面展现了卓越的能力，甚至超越了 GPT-4 的性能水平。

这个模型不仅擅长解决复杂的数学问题，还能应对需要逻辑推理和符号计算的挑战。无论你面对的是代数难题还是几何问题，它都能为你提供帮助。更令人兴奋的是，它还具备一定的常识推理能力！（当然，我们仍在不断改进中）

Qwen2-Math 目前有三个尺寸：72B、7B 和 1.5B。其中，72B 版本的解题能力尤为突出，在 MATH 基准测试中，其表现甚至超越了 GPT-4 约 7 个百分点，准确率高达 9.6%。这意味着，在解决 145 道具有挑战性的数学问题时，它能比你正确解答 132 道。

有趣的是，即使是 7B 版本，在特定场景下也能超越更大尺寸的模型，例如在 NuminaMath 上。具体而言，NuminaMath 专注于评估模型在奥林匹克数学问题上的表现，这些问题往往需要“创造性思维”才能解决。

考虑到大语言模型在科学领域的广泛应用，我们期待 Qwen2 模型能为大家带来更多惊喜。那么，它擅长解决哪些问题呢？我们发现，它可以胜任各种“数学任务”，例如：解决代数难题、进行微积分运算、处理数字序列等等。毋庸置疑，Qwen2 模型将成为你“掌上”的数学专家。

那么，在 GSM8K、MATH 等基准测试中，Qwen2-Math-72B 与 405B 的 Llama-3.1 模型相比表现如何呢？结果显示，它的性能非常出色，尤其擅长解决几何、概率、计数以及数字序列等问题。

更令人兴奋的是，Qwen2-Math 还在代码补全、常识推理等方面展现出了强大的能力。即使是 1.5B 尺寸的模型，也能够与 70B 的 Llama3.1 相媲美。总而言之，这些小型模型为 Qwen2 系列增添了更多可能性，并且有望在未来取得更大的突破。

总而言之，“数学专家”的加入，为我们的大语言模型家族增添了新的活力！它在数学问题上的卓越表现，让我们对它的未来充满期待。如果你也想体验一下，不妨亲自尝试一下它的强大之处吧！相信你也会对它赞不绝口！

在线体验地址：https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo

快讯中提到的AI工具

GPT-4

OpenAI 发布的最新一代语言模型

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/qh5go6mi