DeepMind发布Michelangelo基准，揭示长上下文LLM推理的局限性

11个月前发布AI俱乐部

目前，业界对大型语言模型（LLMs）作为通用人工智能（AGI）构建模块的潜力抱有浓厚兴趣。这些模型能够模仿人类水平的推理，这得益于其在海量数据集上的训练，使其具备生成类似于人类书写的文本的能力。然而，大型语言模型是否真正具备类似于人类的智能，仍然是一个备受争议的话题。

为了探究这个问题，一篇名为DeepMind的研究人员最近发表了一篇名为Michelangelo的论文，旨在评估大型语言模型的理解能力。

根据该研究的说法，这种被称为“米开朗基罗”的模型能够独立自主地完成一些过去需要人工干预的任务，比如评估和改进其他语言模型的行为，并且能够很好地在生成和检索任务之间实现平衡。

为了评估大型语言模型的推理能力，研究人员创建了一种新的评估方法，这种方法借鉴了艺术领域的概念。类似于艺术史学家分析画作的风格，研究人员利用这种方法来评估这些模型的理解能力。通过使用“风格转换”的技术，可以在不同程度上改变大型语言模型生成的文本风格，同时考察这种改变对模型性能的影响。值得注意的是，某些风格的变化可能会干扰大型语言模型的推理能力。

具体来说，Michelangelo能够识别出一种特定的文本风格是否与给定的任务相关，然后相应地调整大型语言模型的行为。例如，它可以生成更加严谨和学术化的文本，或者生成更具创意和想象力的内容。通过这种方式，不仅能够提高大型语言模型的性能，还能使其输出更符合用户的需求。

在Michelangelo的帮助下，可以识别出三种类型的文本风格，包括“按需检索”、“事后推理”以及其他一些变体。这些风格可能有助于大型语言模型更好地执行任务，并且可以促进在生成和推理能力方面取得显著提升。这种方法不仅能够提高大型语言模型的性能，还能帮助我们理解不同风格对模型行为的影响。

首先，“按需检索”是指模型能够主动从Python代码库中检索相关信息，从而更好地解决问题，而无需事先掌握所有的知识。

其次，“事后推理”是指模型能够在做出决策后，对其进行反思和修正，从而提高决策的准确性。

最后，“我不确定”是指模型在遇到不确定情况时，能够坦诚地表达出来，而不是强行做出判断，从而避免产生误导。

研究人员在Michelangelo的框架下，对当前最先进的大型语言模型（包括但不限于Gemini、GPT-4和Claude）进行了评估，结果显示这些模型在超过100个不同的推理任务中都取得了显著的提升。Gemini擅长通过MRCR进行推理，GPT通过Latent List进行推理，而Claude3.5Sonnet则擅长处理IDK问题。

研究人员强调，他们利用这种评估方法对大型语言模型进行评估，旨在深入了解这些模型的推理过程，从而更好地进行模型改进，未来有希望开发出更强大的通用人工智能。

总而言之，这项研究揭示了米开朗基罗方法对于理解大型语言模型的潜力，它可以帮助我们更好地理解和利用这些模型。

本文的研究成果表明，Michelangelo的方法能够有效地评估和提升大型语言模型的能力，同时也为未来的研究方向提供了新的思路。

论文链接：https://arxiv.org/abs/2409.12640