Gemini-2.5-pro在MathArena评测中凭借卓越数学能力遥遥领先其他模型

摘要：

根据于2025年4月3日发布的MathArena最新大语言模型数学能力评测结果显示，Google的Gemini […]

Gemini-2.5-pro在MathArena评测中凭借卓越数学能力遥遥领先其他模型的封面图

根据于2025年4月3日发布的MathArena最新大语言模型数学能力评测结果显示，Google的Gemini-2.5-pro在高难度数学竞赛中表现出色，以绝对优势领先其他竞争对手。

Gemini-2.5-pro在MathArena平台上的评测中取得了令人瞩目的成绩，准确率达到了24.40%，远超第二名DeepSeek-R1的4.76%，领先优势高达五倍之多。这一突破性成绩彰显了Gemini-2.5-pro在高级数学推理能力上的质的飞跃。

特别值得一提的是，Gemini-2.5-pro在”AIME 2025 I”竞赛中获得了93%的优异成绩，以及在”USAMO 2025″中达到了50%的表现，展示了其解决高难度数学问题的能力。

评测的严格性和公正性使得Gemini-2.5-pro在无法凭借预训练材料获得优势的情况下仍保持高成功率，反映了Google在大型模型数学推理能力方面的重大突破。

Gemini-2.5-pro的表现不仅显示了大语言模型在高级数学思维方面的潜力，也为AI辅助教育、科研和复杂问题求解开辟了新的可能性。与其他模型相比，如Claude-3.7-Sonnet (Think)的3.65%和o1-pro (high)的2.83%，Gemini-2.5-pro的优势更加明显，标志着大语言模型数学能力的发展可能已进入新的阶段。

以上数据来源于https://matharena.ai/。