

根据于2025年4月3日发布的MathArena最新大语言模型数学能力评测结果显示,Google的Gemini-2.5-pro在高难度数学竞赛中表现出色,以绝对优势领先其他竞争对手。
Gemini-2.5-pro在MathArena平台上的评测中取得了令人瞩目的成绩,准确率达到了24.40%,远超第二名DeepSeek-R1的4.76%,领先优势高达五倍之多。这一突破性成绩彰显了Gemini-2.5-pro在高级数学推理能力上的质的飞跃。
特别值得一提的是,Gemini-2.5-pro在”AIME 2025 I”竞赛中获得了93%的优异成绩,以及在”USAMO 2025″中达到了50%的表现,展示了其解决高难度数学问题的能力。
评测的严格性和公正性使得Gemini-2.5-pro在无法凭借预训练材料获得优势的情况下仍保持高成功率,反映了Google在大型模型数学推理能力方面的重大突破。
Gemini-2.5-pro的表现不仅显示了大语言模型在高级数学思维方面的潜力,也为AI辅助教育、科研和复杂问题求解开辟了新的可能性。与其他模型相比,如Claude-3.7-Sonnet (Think)的3.65%和o1-pro (high)的2.83%,Gemini-2.5-pro的优势更加明显,标志着大语言模型数学能力的发展可能已进入新的阶段。
以上数据来源于https://matharena.ai/。
快讯中提到的AI工具
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/22f8hmhr暂无评论...