AI智商大考:GAIA基准引领ARC-AGI的全新变革

2周前发布AI俱乐部
3 0 0
AI智商大考:GAIA基准引领ARC-AGI的全新变革的封面图

人工智能(AI)的发展速度飞快,如何准确评估其“智能”程度一直备受关注。然而,类似于评估人类智力一样,衡量AI智能并非易事,现有的测试和基准通常只能提供大致的评估。随着AI模型的日益复杂,传统基准的限制变得日益明显,这促使行业积极探索更全面、更贴近实际应用能力的新型评估体系。

传统基准的局限性:高分并不代表高能力

生成式AI社区长期以来一直依赖诸如大规模多任务语言理解(MMLU)等基准来评估模型的能力。这类基准通常采用多项选择形式,覆盖多个学科领域,方便直接比较。然而,这种形式被认为难以真实捕捉AI的智能能力。例如,在MMLU上取得相似分数的一些模型,在实际应用中可能有显著的表现差异,这表明纸面上的高分并不能完全代表真实能力。

此外,即使是像大学入学考试这样的基准,高分也不意味着考生拥有相同的智力水平或者智力已达到极限,这进一步表明基准只能近似衡量能力,而并非精确评估。更令人担忧的是,一些先进模型在看似简单的任务上也会出现“低级错误”,例如无法正确识别单词中的特定字母,或者在比较小数大小时出错。这些案例暴露了传统基准推动的进步与AI在真实世界中的可靠性之间的脱节。

新基准亮相:聚焦通用推理与实际应用

面对传统基准的不足,AI行业积极探索新的评估框架。近期推出的ARC-AGI基准致力于推动模型朝通用推理和创造性问题解决能力方向发展,受到了业界欢迎。另一个引人注目的新基准是“人类最后考试”,包含了3000道同行评审的多步骤问题,涵盖多个学科,试图挑战AI系统在专家级推理方面的能力。初期结果显示,OpenAI的模型在该测试发布一个月内取得了26.6%的成绩,展现了AI的快速进步。

然而,类似于传统基准,“人类最后考试”主要在孤立环境中评估知识和推理能力,但忽略了实际应用中日益重要的工具使用能力。例如,GPT-4在配备工具的情况下,在更复杂的GAIA基准上仅取得了约15%的成绩,进一步证实了传统基准与实际能力之间存在的差距。

GAIA基准:新标准衡量AI实际应用能力

为弥补传统基准的不足,行业推出了更贴近实际应用的GAIA基准。由Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT团队共同创建的GAIA包含466个精心设计的问题,分为三个难度级别。这些问题全面测试了AI的网络浏览、多模态理解、代码执行、文件处理和复杂推理等关键能力,这些在AI现实商业应用中至关重要。

GAIA基准的问题设计模拟了实际业务问题的复杂性。Level1问题需要大约5个步骤和一个工具来解决,Level2需要5至10个步骤和多个工具,而Level3问题可能需要多达50个离散步骤和任意数量的工具。这种结构更真实地反映了现实世界中解决问题通常需要多个步骤和工具协作的情况。

GAIA初步成果:强调灵活性与专业化

初期结果显示,一个侧重于灵活性的AI模型在GAIA基准上取得了75%的准确率,超越了微软的Magnetic-1(38%)和谷歌的Langfun Agent(49%)。该模型的成功得益于其采用了结合音频-视觉理解和推理的专用模型,并以Anthropic的Sonnet3.5作为主要模型。

GAIA的出现反映了AI评估领域的一个更广泛的转变:我们正在从评估独立的软件即服务(SaaS)应用转向评估能够协调多个工具和工作流程的AI智能体。随着企业越来越依赖AI系统处理复杂的、多步骤的任务,像GAIA这样的基准能够提供比传统多项选择题更具实际意义的能力衡量。

基准入口:https://huggingface.co/gaia-benchmark

快讯中提到的AI工具

AutoGPT
AutoGPT

让人工智能提升工作效率,解放创造力

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/uv9pm5r8

暂无评论

none
暂无评论...