GPT-4 Turbo 在高级历史考试中表现欠佳:准确率仅为 46%

3个月前发布AI俱乐部
4 0 0
GPT-4 Turbo 在高级历史考试中表现欠佳:准确率仅为 46%的封面图

目前,一种新兴的研究方向正在探索大型语言模型(CSH)的历史知识储备,旨在评估大型语言模型(LLMs)在多大程度上能够准确记住历史事件,尤其是在涉及具体时间节点的场景中。研究人员正在努力衡量这些模型在历史信息处理方面的能力。这些模型的典型代表包括 OpenAIGPT-4、Meta 的 Llama 以及谷歌的 Gemini 等。

为了更深入地研究这些模型所掌握的历史知识,一项研究创建了一种名为 “Hist-LLM” 的专门的历史知识评估工具。该工具参考了 Seshat 全球历史数据库,这是一个专门用于收集和整理人工智能领域历史数据的知识库。研究人员利用该工具在 NeurIPS 大会上对一些模型进行了评估,结果发现,在知识更新方面,GPT-4Turbo 的知识更新比例约为 46%。这一结果表明,模型的知识掌握会随着时间推移而发生变化。

正如复杂系统知识研究员 Maria del Rio-Chanona 所指出的那样:“尽管这些大型语言模型在许多方面表现出色,但我们仍然需要关注它们在历史知识理解和应用上的局限性。我们需要认真分析这些模型在处理历史数据的复杂性和时间跨度时可能存在的问题。” 例如,据观察,GPT-4Turbo 会将本应归属于 “过去” 的事件错误地归类为 “现在”,尤其是在涉及 1500 天以内的时间范围时。相比之下,GPT-4 在时间判断上则表现得更为保守,更倾向于将事件归为 “过去”。

总而言之,研究结果表明,大型语言模型在准确掌握特定时间段的历史知识方面仍面临挑战。尽管如此,这些模型在处理和整合大量历史数据方面展现出了巨大的潜力。正如学者 Peter Turchin 所说,大型语言模型有潜力成为历史研究领域的重要工具。

要点总结:

– 📉 GPT-4Turbo 在知识更新方面表现出约 46% 的比例,显示出知识并非一成不变。

– 📚 大型语言模型在历史知识的理解和应用上仍然存在一定的局限性。

– 🌍 模型能够存储长期历史信息,表明大型语言模型在历史研究领域具有潜在的应用价值。

快讯中提到的AI工具

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/7in9vgf5

暂无评论

none
暂无评论...