
俄亥俄州立大学推出的检索增强生成框架HippoRAG 2旨在弥补传统RAG系统在模拟人类长期记忆动态性和关联性方面的不足。其使用个性化PageRank算法实现深度段落整合和更高效的在线大型语言模型(LLM)应用,使在知识检索和生成过程中更贴近人类记忆效果。
HippoRAG 2作为一种创新型的检索增强生成(RAG)框架,专注于弥补传统系统在模拟人类长期记忆方面的限制。利用个性化PageRank算法、深度段落整合和高效的在线大型语言模型(LLM),HippoRAG 2推动着RAG系统更好地模拟人类思维。在离线阶段,HippoRAG 2利用LLM从段落中提取三元组,构建开放知识图谱(KG),同时通过嵌入模型识别同义词以增强知识图谱。在线检索时,系统将查询与KG中的三元组和段落关联,利用LLM过滤无关信息,利用个性化PageRank算法实现上下文感知的检索,为问答任务提供最相关的段落。
HippoRAG 2的主要功能包括高效的知识检索与整合、多跳关联推理、上下文感知检索和持续学习能力。该框架具备持续学习能力,能够实时吸收新知识,提升系统的适应性,无需修改模型参数。
技术原理包括离线索引和在线检索两部分。在离线阶段,利用LLM从文本段落中提取结构化三元组,构建开放知识图谱;在在线阶段,通过查询链接、三元组过滤、个性化PageRank算法和段落排名与问答,实现高效检索。HippoRAG 2的个性化PageRank算法模拟人类记忆中的多跳推理过程,在知识图谱中进行深入搜索,处理复杂关联性任务。深度段落整合保留段落的上下文信息,并增强知识图谱的语义丰富性,提高检索结果的相关性和准确性。
HippoRAG 2的GitHub仓库链接为https://github.com/OSU-NLP-Group/HippoRAG,技术论文可在https://arxiv.org/pdf/2502.14802 找到。该框架的应用场景包括智能问答、知识管理、教育辅助、医疗咨询、法律与金融等领域。