谷歌推出极具挑战性的BIG-Bench基准:DeepSeek-R1得分6.8,仅有o3-mini超越10分

随着人工智能(AI)技能的不断提升,基准测试的有效性逐渐受到质疑,许多新出现的基准在短时间内便会达到饱和。例如,Replit的首席执行官Amjad Masad预计,2023年10月提出的编程基准SWE-bench将在2027年面临这种情况。
因此,为了更准确地评估AI模型的能力,各个研究团队不断构建新的数据集和基准。我之前提到过的ZeroBench和HLE(人类最后的考试)便是两个具代表性的例子,它们都包含大量当前AI模型难以解决的问题。
近日,谷歌推出了一项高难度的基准测试:BIG-Bench Extra Hard(简称BBEH)。正如其名称所示,此基准不仅极具挑战性(Extra Hard),而且与久负盛名的BIG-Bench及其更难的子集BIG-Bench Hard(BBH)密切相关。谷歌推出极具挑战性的BIG-Bench基准:DeepSeek-R1得分6.8,仅有o3-mini超越10分

  • 论文标题:BIG-Bench Extra Hard
  • 论文地址:https://arxiv.org/pdf/2502.19187
  • 数据地址:https://github.com/google-deepmind/bbeh

正如论文的第一作者Mehran Kazemi所指出,相较于BIG-Bench Hard,BBEH中的每一项任务都更具挑战性,为现代所有模型的发展提供了空间。谷歌推出极具挑战性的BIG-Bench基准:DeepSeek-R1得分6.8,仅有o3-mini超越10分另一位作者、DeepMind知名研究科学家Yi Tay也建议AI研究者在其后续论文中考虑使用该基准。谷歌推出极具挑战性的BIG-Bench基准:DeepSeek-R1得分6.8,仅有o3-mini超越10分那么,BBEH究竟有多难呢?当前表现最强的o3-mini (high)模型得分仅为44.8分,尚未达到及格线。其他被测试模型的得分均未超过10分!例如,DeepSeek-R1的得分为6.8分,而谷歌自家的Gemini-2.0-Flash也仅得到了9.8分。遗憾的是,研究团队未对近期推出的Grok-3和Claude 3.7 Sonnet的表现做出说明。谷歌推出极具挑战性的BIG-Bench基准:DeepSeek-R1得分6.8,仅有o3-mini超越10分在论文中,研究团队阐述了构建BBEH基准的动机,指出当前对推理模型的评估大多依赖于数学、科学及编程基准,而涵盖更广泛领域的BIG-Bench及其更为艰难的子集BBH也正逐渐达到饱和点——现有领先模型在BBH上的准确率均已突破90%。因此,BBH已难以有效评估前沿模型的推理能力。
BBEH的建立旨在「评估高阶推理能力」。
BIG-Bench Extra Hard
BBEH是基于BBH构建的,采用了将BBH中的23个任务一一替换的方式,每个替代任务均在相似推理领域内测试了更为复杂或高级的技能。这种替换方法确保了新数据集在保持原BBH高度多样性的同时,也提升了任务的难度。
表1展示了BBEH中新任务的高层次描述,包括如何构建这些任务以及它们所替代的BBH任务,及其针对的推理技能。谷歌推出极具挑战性的BIG-Bench基准:DeepSeek-R1得分6.8,仅有o3-mini超越10分每个任务包含200个问题,惟有Disambiguation QA任务的数量为120个。
下方图示展示了若干具体任务示例:谷歌推出极具挑战性的BIG-Bench基准:DeepSeek-R1得分6.8,仅有o3-mini超越10分有关该基准详细的创建过程及其数据集的分析,请参阅原论文,以下我们重点分析前沿模型在该基准上的表现及相关结果。
模型表现及分析
首先,观察各大前沿模型的表现,附表为准确度分数的详细信息。谷歌推出极具挑战性的BIG-Bench基准:DeepSeek-R1得分6.8,仅有o3-mini超越10分根据此结果,研究团队得出了几项有趣的观察:

  • 模型在各个任务上均具有显著的进步空间,在BBEH整体上亦是如此。
  • 通用模型的最佳性能为9.8%的调和平均准确率。推理专用模型在该基准上的表现超越通用模型,符合预期,但这些模型的最佳成绩仍仅为44.8%。
  • 尽管采用了对抗性结构,但参考Thinking模型在BBEH上的调和平均准确率仍然只有20.2%。
  • 一些模型的准确率甚至低于随机水平。分析发现,主要原因在于模型无法在有效的输出token长度内解决问题,并在某些时刻出现退化,导致最终答案无法有效提取。

此外,不同的模型在不同类型的推理任务上表现出显著的专长。例如,DeepSeek R1在BoardgameQA上的表现明显优于其他模型,而o3-mini (high)在Temporal Sequences和Object Properties任务上表现突出,GPT4o在NYCC任务中表现最佳,GPT4o和Gemini 2.0 Flash在SARC Triples任务上亦显著领先于其他模型。
研究团队还进行了更深入的结果分析。
通用模型与推理模型
推理模型能够借助更多的测试时间进行深度思考,因此在涉及数学和编程的推理任务中实现了显著的性能提升。以AIME2024数据集为例,GPT4o的表现为13.4%,而o1模型提高至83.3%,o3-mini (high)进一步提升至87.3%。
在此背景下,研究团队还考察了不同类型的一般推理是否也存在类似情况。ion>结果显示,增益显著的任务主要集中在计数、规划、算术及数据结构与算法等领域,而增益最小(甚至存在负增益)的任务则多涉及常识、幽默、讽刺及因果推理等内容。
这一结果表明,推理模型在解决形式化问题时展现出显著的优势,而在面对复杂现实场景(通常需要软推理能力)时,其收益则相对有限。
模型规模的影响
同时,研究团队也探讨了模型规模对性能的影响。
如图 6 所示,他们对 BBEH 中的不同任务进行了 Gemini 2.0 Flash 和其简化版本 Gemini 2.0 Flash-Lite 的性能比较,并以 Flash 相对于 Flash-Lite 的收益对任务进行升序排序。谷歌推出极具挑战性的BIG-Bench基准:DeepSeek-R1得分6.8,仅有o3-mini超越10分尽管在信号的清晰度上不如将通用模型与推理模型进行比较时明显,但仍可以观察到,与幽默、常识以及因果推理相关的任务收益最小,而多跳推理或算法应用相关的任务则获得了最大收益。
值得注意的是,SARC Triples 任务作为一个讽刺理解类任务,表现出了显著的收益。这可能部分归因于 SARC Triples 中的每个样本都是由三个子问题构成,因此较大的模型可能更擅长于处理这种复合性的问题。
上下文长度与思考要求的影响
BBEH 中的任务在平均上下文长度及所需思考量方面各不相同。基于这一点,本文进一步研究上下文长度与思考要求对推理模型与通用模型,以及大模型与小模型之间性能的影响。
图 7 中,o3-mini (high) 与 GPT4o 的表现,以及 Gemini 2.0 Flash 与 Gemini 2.0 Flash-Lite 的表现进行了比较,此比较以任务的平均上下文长度和平均输出长度作为所需思考的衡量标准。谷歌推出极具挑战性的BIG-Bench基准:DeepSeek-R1得分6.8,仅有o3-mini超越10分观察到,无论是上下文长度的增加,还是所需思考的增加,o3-mini 相比于 GPT4o 的收益均显著提升;这表明推理模型在这两个方面均可能超越通用模型。对于 Gemini 2.0 Flash 与 Gemini 2.0 Flash-Lite,当上下文长度增加时,其收益表现出类似的增长趋势,而在思考量增加时,收益曲线呈现基本平坦的状态。
参考链接:https://x.com/kazemi_sm/status/1894935166952349955https://x.com/YiTayML/status/1894939679943991661

文章中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

Claude
Claude

由Anthropic公司开发的下一代人工智能AI助手

© 版权声明

相关AI热点

暂无评论

none
暂无评论...