Warning: Undefined array key "_post_type" in /www/wwwroot/www.aidh.net/wp-content/themes/news/inc/widgets/w.single.posts.php on line 201
Warning: Undefined variable $_post_type in /www/wwwroot/www.aidh.net/wp-content/themes/news/inc/functions/io-post.php on line 231

另一位作者、DeepMind知名研究科学家Yi Tay也建议AI研究者在其后续论文中考虑使用该基准。
那么,BBEH究竟有多难呢?当前表现最强的o3-mini (high)模型得分仅为44.8分,尚未达到及格线。其他被测试模型的得分均未超过10分!例如,DeepSeek-R1的得分为6.8分,而谷歌自家的Gemini-2.0-Flash也仅得到了9.8分。遗憾的是,研究团队未对近期推出的Grok-3和Claude 3.7 Sonnet的表现做出说明。
在论文中,研究团队阐述了构建BBEH基准的动机,指出当前对推理模型的评估大多依赖于数学、科学及编程基准,而涵盖更广泛领域的BIG-Bench及其更为艰难的子集BBH也正逐渐达到饱和点——现有领先模型在BBH上的准确率均已突破90%。因此,BBH已难以有效评估前沿模型的推理能力。
每个任务包含200个问题,惟有Disambiguation QA任务的数量为120个。
有关该基准详细的创建过程及其数据集的分析,请参阅原论文,以下我们重点分析前沿模型在该基准上的表现及相关结果。
根据此结果,研究团队得出了几项有趣的观察:
尽管在信号的清晰度上不如将通用模型与推理模型进行比较时明显,但仍可以观察到,与幽默、常识以及因果推理相关的任务收益最小,而多跳推理或算法应用相关的任务则获得了最大收益。
观察到,无论是上下文长度的增加,还是所需思考的增加,o3-mini 相比于 GPT4o 的收益均显著提升;这表明推理模型在这两个方面均可能超越通用模型。对于 Gemini 2.0 Flash 与 Gemini 2.0 Flash-Lite,当上下文长度增加时,其收益表现出类似的增长趋势,而在思考量增加时,收益曲线呈现基本平坦的状态。