北大通研院发布LooGLE基准，长文本理解难度超高，大模型表现惨淡

12个月前发布AI俱乐部

要理解大型语言模型的能力，需要对其处理长文本信息的能力进行评估。现有的评估方法，例如评估大型语言模型在长篇文档中提取相关信息的能力，在评估长文本理解方面存在局限性。为了解决这个问题，本文介绍了一种新的评估框架(LLMs)，专门用于评估它们在处理长上下文信息时的性能，并侧重于在长文本中定位关键信息的能力。这种方法可以更全面地评估大型语言模型在处理长文本方面的优势和不足。

为此，本文提出了一种新的评估基准——LooGLE（Long Context Generic Language Evaluation），旨在衡量LLMs处理长文本上下文的能力。该基准包含776个源自2022年8月arXiv数据集的英文文档，文档长度从19.3k个词到6448个段落不等，涵盖了摘要、引言、结论、参考文献等多种部分。

LooGLE的构成

评估数据来源：ooGLE的数据集通过扩充LLMs的上下文窗口来评估LLMs对长文本信息的处理能力，包括提取关键信息和理解上下文之间的关系。

评估任务设计：该基准包含7种不同类型的任务，每种任务都旨在评估LLMs在长文本中定位特定信息的能力。

全面的评估范围：考虑到现有数据集主要集中于2022年以前的文本，因此选取了近期发布的大型语言模型，以便更全面地评估模型在处理各种长文本任务时的性能。

多样的数据类型：数据集的范围涵盖了来自arXiv预印本、新闻报道、书籍以及网页等多种来源的内容。

通过8个主要的LLMs进行评估，并重点关注以下关键发现：

在扩展上下文窗口中仍然难以准确定位关键信息。

LLMs在处理长文本信息时面临挑战，尤其是在复杂或冗余的信息环境中。

对长文本信息的有效处理和利用仍然是当前大型语言模型需要解决的关键问题。

在更长的文本中进行信息检索的能力与Transformer模型的固有局限性有关，影响了大型语言模型处理长文本信息时的整体性能。

LooGLE基准旨在为评估LLMs处理长文本信息的能力提供一种更全面和可靠的方法，有助于深入了解“有效利用长文本上下文”的挑战。该基准已在GitHub上发布，可供学术研究和实际应用。

论文链接：https://arxiv.org/pdf/2311.04939