挑战人工智能智能水平：ARC-AGI-2 测试展现顶尖模型局限

标签：ARC-AGI-2 Claude3.7Sonnet Gemini2.0Flash GPT-4.5

摘要：

近日，Arc Prize 基金会公布了ARC-AGI-2测试，旨在评估人工智能（AI）模型的通用智能水平。该基 […]

近日，Arc Prize 基金会公布了ARC-AGI-2测试，旨在评估人工智能（AI）模型的通用智能水平。该基金会由著名AI研究者François Chollet共同创立。据该基金会的博客称，这项新测试对大多数领先的AI模型提出了严峻挑战。

根据Arc Prize排行榜显示，像OpenAI的o1-pro和DeepSeek的R1等“推理型”AI模型在ARC-AGI-2测试中得分仅在1%到1.3%之间，而像GPT-4.5、Claude3.7Sonnet和Gemini2.0Flash这样更强大的非推理模型，得分也只约1%。ARC-AGI测试涉及一系列拼图问题，要求AI从不同颜色的方块中识别出视觉模式，并生成正确的“答案”网格。这些问题旨在迫使AI适应未曾见过的新问题。

为建立人类基准，Arc Prize基金会邀请了超过400人参与ARC-AGI-2测试。这些人群的平均得分为60%，远超任何AI模型得分。Chollet在社交媒体上表示，ARC-AGI-2相比前一个版本ARC-AGI-1更能有效地测量AI模型的实际智能。新测试旨在评估AI系统是否能高效获取超出其训练数据的新技能。

ARC-AGI-2相较于ARC-AGI-1有多方面改进，尤其是引入了“效率”这一新指标，并要求模型在没有依赖记忆的情况下即时解释模式。正如Arc Prize基金会的共同创始人Greg Kamradt所说，智力不仅体现在解决问题的能力上，效率同样是一个关键因素。

须注意的是，OpenAI的o3模型在ARC-AGI-1中以75.7%的得分遥遥领先，一直持续到2024年被超越。不过，o3在ARC-AGI-2中的得分仅为4%，且在每个任务上的计算成本高达200美元。ARC-AGI-2的发布正值技术界对新的AI进展标准的呼声日益高涨。Hugging Face的联合创始人Thomas Wolf曾表示，AI行业缺乏足够的测试来衡量被称为人工通用智能的关键特征，包括创造力。

同时，Arc Prize基金会还宣布了2025年的Arc Prize竞赛，挑战开发者在ARC-AGI-2测试中达到85%的准确率，每个任务的花费仅为0.42美元。

划重点：