DeepSeek-R1模型:幻觉频发,推理与准确性堪忧

1个月前发布AI俱乐部
3 0 0
DeepSeek-R1模型:幻觉频发,推理与准确性堪忧的封面图

近日,Vectara的检索增强生成系统对比了 DeepSeek 发布的两个大语言模型的幻觉情况。结果显示,DeepSeek-R1 的幻觉率比基线模型高出 14.3%,而 DeepSeek-V3 则低了 3.9%。具体而言,在检索增强生成的使用场景中,DeepSeek-R1 生成了比未优化的标准模型更多的与事实不符的信息。这些发现对评估大规模语言模型(LLM)的检索性能至关重要。

为了分析这两种模型的表现,研究人员利用 Vectara 的 HHEM 框架和 Google 的 FACTS 数据集进行了对比。HHEM 是一种用于评估生成质量的指标,结果表明, DeepSeek-R1 在生成检索增强的内容时,比 FACTS 模型更易产生信息偏差。 这些结果表明,HHEM 能够有效地衡量 LLM 在生成内容时的真实性。

值得注意的是,DeepSeek-R1 在检索增强生成方面表现不佳,这可能归因于其固有的幻觉倾向。 这一现象突显了评估大语言模型在知识密集型任务中的可靠性至关重要。 对检索增强生成模型的评估应侧重于提高生成信息的准确性,同时减少不必要的内容。 这表明 DeepSeek 在持续改进其模型以减少不准确信息并提升内容真实性方面仍有进步空间。

虽然检索增强生成可能会增加生成信息的偏差,但这种方法仍然可以在某些场景下提高模型的性能。 对于 DeepSeek 团队而言,这意味着在实际应用中需要谨慎地平衡检索增强生成带来的好处与潜在的风险。 重要的是,需要根据具体需求来调整模型,以便最大限度地提高信息质量。

详细信息请参考:https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3

快讯中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

© 版权声明:
本文地址:https://aidh.net/kuaixun/iqdeibtl

暂无评论

none
暂无评论...