

为了评估大型语言模型在复杂推理和规划任务中的表现,"Sibyl System"基准应运而生,它已被添加至 GAIA Leader Board 中。GAIA 是一个用于评估 Meta、Huggingface 和 AutoGPT 等 2023 年 11 月发布的先进语言模型的综合平台,旨在测试 Agent 在解决需要逐步推理的难题中的能力。这些语言模型通过模拟人类的认知过程,能够处理复杂的问题,从而评估 Agent 的推理能力和规划能力。这些模型能够解决具有挑战性的难题。
GAIA 的挑战涵盖了广泛的知识领域,旨在评估 AI 系统在常识推理、文本理解(例如,阅读理解、摘要)、科学推理和道德推理等方面的能力。该基准测试既评估了模型在回答对抗性问题方面的能力,也评估了 Agent 在生成对抗性问题的能力。例如,GPT-4 在基准测试中的准确率约为 15%,而人类专家则达到了约 92%。这些挑战的设计旨在衡量模型在处理复杂认知任务时的知识掌握程度和推理能力,涵盖了不同的推理类型和知识领域。
"Sibyl System"评估框架的突出特点:
-
它专注于评估模型的推理能力,挑战其解决复杂问题的能力。
-
它强调逐步推理的重要性,需要模型以逻辑方式逐步解决问题,而不是直接给出答案。
-
它支持对推理过程和 Python 代码的评估,为全面了解模型的推理过程提供了可能。
-
它借鉴了 System1 和 System2 的概念,旨在评估模型在快速、直觉和有意识、深思熟虑的推理之间的平衡能力,从而模拟人类的认知过程。
Sibyl System 的核心目标是为评估大型语言模型在复杂推理和规划任务中的能力提供一个全面的基准,从而促进该领域的研究和发展。通过模拟 Global Workspace 和 Multi-Agent 环境,它可以评估模型在解决复杂问题时的协作和协调能力,促进了推理策略的改进,为 Agent 提供了“思考空间”和“行动空间”的选择。Sibyl System 通过其全面的评估方法和创新的设计,有助于推动 Agent 技术的发展,弥合了现有 Agent 的局限性。
论文链接:https://arxiv.org/pdf/2407.10718