

当下,利用大型语言模型进行信息检索已成为一种趋势。近期,Anthropic 公司推出了一种名为 “检索增强生成” 的创新技术,专注于提升大型语言模型的信息获取能力。通过此项技术,人工智能系统可以更准确地访问和利用相关信息。
检索增强生成(RAG)系统通过结合外部知识库来增强语言模型的能力,从而促进更准确、更具情境意识的答案生成。Anthropic 的研究重点在于减少模型在检索过程中可能出现的错误信息,旨在提高 AI 系统提供可靠答案的能力。研究表明,经过优化的检索增强生成系统能将错误信息率降低至 100 个 token 中低于 3 个的水平。举例来说,当模型需要引用某个具体的 SEC 文件时,可能会出现 “根据 ACME 公司的 2023 年年度报告,其 SEC 文件中的 π 值为 3.14,并显示其销售额增长了 3%” 之类的错误。然而,Anthropic 通过改进其检索增强生成系统,成功将此类错误信息减少了 49%。此外,信息检索的准确性也提升至 67%。
康奈尔大学的研究团队也对大型语言模型的检索增强生成能力进行了评估。他们创建了一种名为 “上下文失aware实体” (CDE) 的评估方法。该方法旨在测试模型在处理需要上下文理解的复杂查询时的表现,尤其是在需要区分具有相似名称的不同实体时。结果表明,模型在识别和利用相关上下文信息方面仍有提升空间。具体来说,研究发现模型在需要跨多个文档进行推理以确定正确实体时,表现相对较弱。
在 “大规模文本嵌入基准” (MTEB) 测试中,CDE 评估方法能够有效地区分不同语言模型之间的性能差异。实验结果显示,CDE 能够识别出语言模型在处理复杂查询时,对上下文理解的不足,尤其是在需要区分同名实体或从多个文档中提取信息时。此外,康奈尔大学的研究还表明,通过提升检索质量,可以显著提高大型语言模型在复杂信息检索任务中的表现,从而在提升语言模型性能方面具有重要意义。
要点总结:
⭐ Anthropic 公司的 “检索增强生成” 技术能够将大语言模型产生幻觉信息的比例降低 49%,显著提升信息检索的准确性。
📌 康奈尔大学开发的 “上下文失aware实体” 评估方法能够有效评估模型在复杂查询中对上下文的理解能力,并发现其不足之处。
🔍 深入研究并改进检索策略能够显著提高大型语言模型在信息检索任务中的性能,从而减少不准确信息的产生。