挑战人工智能智能水平:ARC-AGI-2 测试展现顶尖模型局限

1个月前发布AI俱乐部
2 0 0
挑战人工智能智能水平:ARC-AGI-2 测试展现顶尖模型局限的封面图

近日,Arc Prize 基金会公布了ARC-AGI-2测试,旨在评估人工智能(AI)模型的通用智能水平。该基金会由著名AI研究者François Chollet共同创立。据该基金会的博客称,这项新测试对大多数领先的AI模型提出了严峻挑战。

根据Arc Prize排行榜显示,像OpenAI的o1-pro和DeepSeek的R1等“推理型”AI模型在ARC-AGI-2测试中得分仅在1%到1.3%之间,而像GPT-4.5、Claude3.7Sonnet和Gemini2.0Flash这样更强大的非推理模型,得分也只约1%。ARC-AGI测试涉及一系列拼图问题,要求AI从不同颜色的方块中识别出视觉模式,并生成正确的“答案”网格。这些问题旨在迫使AI适应未曾见过的新问题。

为建立人类基准,Arc Prize基金会邀请了超过400人参与ARC-AGI-2测试。这些人群的平均得分为60%,远超任何AI模型得分。Chollet在社交媒体上表示,ARC-AGI-2相比前一个版本ARC-AGI-1更能有效地测量AI模型的实际智能。新测试旨在评估AI系统是否能高效获取超出其训练数据的新技能。

ARC-AGI-2相较于ARC-AGI-1有多方面改进,尤其是引入了“效率”这一新指标,并要求模型在没有依赖记忆的情况下即时解释模式。正如Arc Prize基金会的共同创始人Greg Kamradt所说,智力不仅体现在解决问题的能力上,效率同样是一个关键因素。

须注意的是,OpenAI的o3模型在ARC-AGI-1中以75.7%的得分遥遥领先,一直持续到2024年被超越。不过,o3在ARC-AGI-2中的得分仅为4%,且在每个任务上的计算成本高达200美元。ARC-AGI-2的发布正值技术界对新的AI进展标准的呼声日益高涨。Hugging Face的联合创始人Thomas Wolf曾表示,AI行业缺乏足够的测试来衡量被称为人工通用智能的关键特征,包括创造力。

同时,Arc Prize基金会还宣布了2025年的Arc Prize竞赛,挑战开发者在ARC-AGI-2测试中达到85%的准确率,每个任务的花费仅为0.42美元。

划重点:

  • ARC-AGI-2是Arc Prize基金会新推出的测试,旨在衡量AI的通用智能水平。
  • 目前顶尖AI模型在该测试中的表现普遍较低,远不及人类的平均水平。
  • Arc Prize基金会还将举办挑战赛,鼓励开发者以低成本提高AI在新测试中的表现。

快讯中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

Claude
Claude

由Anthropic公司开发的下一代人工智能AI助手

Hugging Face
Hugging Face

机器学习和人工智能技术的平台

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/fqc72ptl

暂无评论

none
暂无评论...