

通常来说,领域自适应是提升大模型在特定任务上表现的关键步骤。针对领域数据进行模型调整,能够显著优化其在该领域的性能表现。然而,对于领域自适应的大模型而言,如何高效地获取相关领域的知识仍然是一项挑战。传统方法往往依赖于人工标注的数据或预定义的知识库,这既耗时又难以覆盖所有领域。
考虑到现有大型语言模型(LLMs)在知识理解和推理方面的强大能力,有必要探索如何利用它们来辅助领域知识的获取,从而提升领域自适应的效果。为此,我们提出了一种新颖的框架,称为PaSa,旨在赋能大型语言模型,使其能够更有效地获取并利用领域知识。PaSa 采用检索增强方法,用于自动从学术文献中提取领域相关的知识片段,以支持领域自适应过程。
具体来说,PaSa 的核心思想是让大型语言模型能够像领域专家一样,主动探索和学习相关知识。PaSa 不仅仅依赖于预先设定的知识库,而是能够自主地查询、筛选和整合来自学术文献的知识。为了实现这一目标,PaSa 集成了 AutoScholarQuery,这是一个能够从超过 35,000 个学术搜索查询中学习的组件,并利用 RealScholarQuery 来模拟专家查询行为,以提高知识检索的准确性。通过这种方式,PaSa 能够更全面、深入地获取领域知识,从而提升大模型的自适应能力。
在架构上,PaSa 通过以下四个关键模块来实现其功能:爬虫 (Crawler) 和选择器 (Selector),用于从互联网上抓取和提取学术文献信息;检索器 (Retriever),用于从抓取的文献中检索相关的知识片段;以及生成器 (Generator),用于将检索到的知识整合到大模型的训练过程中。爬虫负责定期抓取最新的学术文献,选择器则负责从这些文献中提取关键信息,例如标题、摘要和关键词。检索器根据查询语句从已提取的信息中检索相关的知识片段,然后,生成器将这些知识片段融入到大模型的训练数据中,从而增强模型对领域知识的理解和应用能力。选择器的目标是精确地提取与特定领域相关的关键信息。
在实验评估中,PaSa-7b 在多个领域自适应任务上取得了显著成果。在 AutoScholarQuery 任务中,PaSa-7b 的性能超越了 PaSa-GPT-4o,实现了 9.64% 的提升。在涉及到常识推理的领域自适应任务中,PaSa-7b 的性能提升幅度在 33.80% 到 42.64% 之间。对于更侧重于专业知识的 RealScholarQuery 任务,PaSa-7b 也取得了显著的性能提升,分别实现了 30.36% 的准确率提升和 4.25% 的召回率提升。
总而言之,PaSa 提供了一种有效的解决方案,能够提升大型语言模型在特定领域的自适应能力,为领域自适应提供了一条新的途径。它利用大型语言模型自身的知识理解和推理能力,辅助模型自主地从互联网上获取相关领域的知识,进而提升其在该领域的性能表现。这种方法不仅节省了人工标注的成本,还能够更全面地覆盖领域知识,为未来的大模型研究和应用开辟了新的可能性。
项目地址:https://github.com/bytedance/pasa
论文地址:https://arxiv.org/abs/2501.10120
核心要点:
✨ PaSa 是一种新颖的框架,旨在提升大型语言模型在特定领域的自适应能力。
🔥 该框架通过爬虫和选择器等模块,实现了领域相关知识的高效获取和整合。
🚀 实验结果表明,PaSa-7b 在多个领域自适应任务上取得了显著成果,展现了其强大的性能和潜力。