谷歌推出极具挑战性的BIG-Bench基准:DeepSeek-R1得分6.8,仅有o3-mini超越10分 随着人工智能(AI)技能的不断提升,基准测试的有效性逐渐受到质疑,许多新出现的基准在短时间内便会达到饱和。例如,Replit的首席执行官Amjad Masad预计,2023年10月提出的编程基准SWE-bench将在2027年面临这种情况。 因此,为了更准确地评估AI模型的能力,各个研究团队不断构建... +5 智能之星2个月前