大型语言模型在复杂历史问题上表现不足:历史知识成为AI的软肋

3个月前发布AI俱乐部
6 0 0
大型语言模型在复杂历史问题上表现不足:历史知识成为AI的软肋的封面图

当前大型语言模型正受到广泛关注,因为它们能够处理复杂的自然语言任务,并在各个领域展现出卓越的性能。然而,这些模型在理解历史背景方面的能力一直备受质疑。

为了解决这个问题,研究人员开发了一种名为Hist-LLM的新型评估方法,用于评估OpenAIGPT-4、Meta的Llama以及谷歌的Gemini等领先语言模型在历史知识方面的表现。该评估显示,Hist-LLM能够更准确地衡量模型的历史知识掌握程度,例如,GPT-4Turbo在相关测试中的准确率仅为46%。

正如艾伦·麦克法兰中心的高级研究员达里奥·莫雷利所说:“这些模型在历史情境方面表现不佳,因为在训练数据中缺乏足够的历史知识。”这意味着,尽管人工智能在其他领域取得了显著进展,但在理解和运用历史知识方面仍然存在很大的提升空间。未来的研究需要更加重视对历史背景的理解,以便更好地应用人工智能技术。

对于语言模型而言,理解历史知识不仅仅是为了提升自身的性能,更是为了在处理涉及文化、社会等复杂因素的任务时,能够做出更明智的决策。此外,Hist-LLM还可以帮助研究人员更好地了解当前语言模型在历史理解方面的局限性,从而为未来的模型开发提供有价值的参考。

文化演化科学(CSH)的研究员Peter Turchin指出,这种评估方法揭示了当前人工智能在重现人类社会复杂性方面的不足。尽管人工智能在某些方面取得了显著进展,但要真正理解历史并将其应用于解决现实世界的问题,还需要付出更多的努力。

快讯中提到的AI工具

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/q0mhamhr

暂无评论

none
暂无评论...