大型语言模型在复杂历史问题上表现不足：历史知识成为AI的软肋

10个月前发布AI俱乐部

摘要：

当前大型语言模型正受到广泛关注，因为它们能够处理复杂的自然语言任务，并在各个领域展现出卓越的性能。然而，这些模 […]

当前大型语言模型正受到广泛关注，因为它们能够处理复杂的自然语言任务，并在各个领域展现出卓越的性能。然而，这些模型在理解历史背景方面的能力一直备受质疑。

为了解决这个问题，研究人员开发了一种名为Hist-LLM的新型评估方法，用于评估OpenAI的GPT-4、Meta的Llama以及谷歌的Gemini等领先语言模型在历史知识方面的表现。该评估显示，Hist-LLM能够更准确地衡量模型的历史知识掌握程度，例如，GPT-4Turbo在相关测试中的准确率仅为46%。

正如艾伦·麦克法兰中心的高级研究员达里奥·莫雷利所说：“这些模型在历史情境方面表现不佳，因为在训练数据中缺乏足够的历史知识。”这意味着，尽管人工智能在其他领域取得了显著进展，但在理解和运用历史知识方面仍然存在很大的提升空间。未来的研究需要更加重视对历史背景的理解，以便更好地应用人工智能技术。

对于语言模型而言，理解历史知识不仅仅是为了提升自身的性能，更是为了在处理涉及文化、社会等复杂因素的任务时，能够做出更明智的决策。此外，Hist-LLM还可以帮助研究人员更好地了解当前语言模型在历史理解方面的局限性，从而为未来的模型开发提供有价值的参考。

文化演化科学（CSH）的研究员Peter Turchin指出，这种评估方法揭示了当前人工智能在重现人类社会复杂性方面的不足。尽管人工智能在某些方面取得了显著进展，但要真正理解历史并将其应用于解决现实世界的问题，还需要付出更多的努力。