

恭喜!“全新数学专家”现已加入 Qwen2 大家庭!我们很高兴推出 Qwen2Math Demo,它在解决数学问题方面展现了卓越的能力,甚至超越了 GPT-4 的性能水平。
这个模型不仅擅长解决复杂的数学问题,还能应对需要逻辑推理和符号计算的挑战。无论你面对的是代数难题还是几何问题,它都能为你提供帮助。更令人兴奋的是,它还具备一定的常识推理能力!(当然,我们仍在不断改进中)
Qwen2-Math 目前有三个尺寸:72B、7B 和 1.5B。其中,72B 版本的解题能力尤为突出,在 MATH 基准测试中,其表现甚至超越了 GPT-4 约 7 个百分点,准确率高达 9.6%。这意味着,在解决 145 道具有挑战性的数学问题时,它能比你正确解答 132 道。
有趣的是,即使是 7B 版本,在特定场景下也能超越更大尺寸的模型,例如在 NuminaMath 上。具体而言,NuminaMath 专注于评估模型在奥林匹克数学问题上的表现,这些问题往往需要“创造性思维”才能解决。
考虑到大语言模型在科学领域的广泛应用,我们期待 Qwen2 模型能为大家带来更多惊喜。那么,它擅长解决哪些问题呢?我们发现,它可以胜任各种“数学任务”,例如:解决代数难题、进行微积分运算、处理数字序列等等。毋庸置疑,Qwen2 模型将成为你“掌上”的数学专家。
那么,在 GSM8K、MATH 等基准测试中,Qwen2-Math-72B 与 405B 的 Llama-3.1 模型相比表现如何呢?结果显示,它的性能非常出色,尤其擅长解决几何、概率、计数以及数字序列等问题。
更令人兴奋的是,Qwen2-Math 还在代码补全、常识推理等方面展现出了强大的能力。即使是 1.5B 尺寸的模型,也能够与 70B 的 Llama3.1 相媲美。总而言之,这些小型模型为 Qwen2 系列增添了更多可能性,并且有望在未来取得更大的突破。
总而言之,“数学专家”的加入,为我们的大语言模型家族增添了新的活力!它在数学问题上的卓越表现,让我们对它的未来充满期待。如果你也想体验一下,不妨亲自尝试一下它的强大之处吧!相信你也会对它赞不绝口!
在线体验地址:https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo
快讯中提到的AI工具

OpenAI 发布的最新一代语言模型