智源开源多模态向量模型BGE-VL:实现多模态检索的全新突破

产业4个月前发布 智能之星
8 0 0

BGE系列模型自其发布以来便广受社区赞誉。近期,智源研究院与多所高校合作开发了多模态向量模型BGE-VL,进一步丰富了原有生态体系。BGE-VL在图文检索及组合图像检索等主要多模态检索任务中均取得了显著成果。该模型得益于大规模合成数据MegaPairs的训练,具备以下两大核心优势:

  • 出色的可扩展性MegaPairs结合多模态表征模型、多模态大模型与大语言模型,从海量图文语料库中高效挖掘多模态三元组数据。其算法在极低成本下持续生成多样化且高质量的多模态三元组。本次发布的版本涵盖2600万条样本,为多模态检索模型的训练提供了德重要的规模与价值支持。
  • 卓越的数据质量与传统多模态数据相比,MegaPairs在仅使用1/70的数据量下实现了更优的训练效果。借助该合成数据,智源成功训练多模态检索模型BGE-VL,显著提升了多个主流多模态检索基准的性能。

BGE-VL的技术报告已发布,相关数据、模型及代码资源将逐步向社区全面开放。

  • 论文地址:https://arxiv.org/abs/2412.14475
  • 项目主页:https://github.com/VectorSpaceLab/MegaPairs
  • 模型地址:https://huggingface.co/BAAI/BGE-VL-MLLM-S1

智源开源多模态向量模型BGE-VL:实现多模态检索的全新突破
研究背景

在大模型时代,信息检索需满足人们日益多样化的需求,这种需求不仅表现在用户的多模态查询输入上,也体现在对多模态信息的期望上。例如,用户可能拍摄一张汽车外观图,期待获取有关该款汽车的具体信息。在此情况下,多模态检索器需要综合理解用户的图像与文本指令,从众多模态的信息中检索出最相关的内容。

然而,现有的多模态检索模型往往基于单一形式的跨模态配对数据(如图像-文本对)进行训练,因而难以有效处理复杂的组合模态输入。近年来,指令微调技术在文本检索和大语言模型等领域已证明其增强多任务能力的有效性。尽管如此,以往的多模态检索指令数据集多依赖于人工标注,这限制了大规模多样化数据的获取。

为解决此限制,智源BGE团队创新性地提出了MegaPairs数据合成方法。该方法通过从现有大规模图像数据集中挖掘多样关联图像对,并利用开源的多模态大模型与大语言模型进行自动指令生成,从而构建出高质量、可扩展且具泛化能力的多模态检索指令微调数据集。在MegaPairs的高质量数据基础上,团队训练并开源了多模态向量模型BGE-VL系列,实现了当前最佳的多模态检索能力。

MegaPairs构造

MegaPairs旨在从现有大规模图文语料库中挖掘并构造出大规模、高质量的多模态检索指令数据集。

具体而言,MegaPairs的构造主要分为两个关键步骤:

(1) 利用多种相似度模型从图像数据集中挖掘多样图像对;
(2) 使用开源的多模态大模型与大语言模型合成开放域检索指令。

以以下图为例,MegaPairs首先从大规模图像数据集中抽取一对图像-文本数据作为查询数据。然后,借助多种图像与文本相似度模型,挖掘出多个关联图像对(例如同款汽车的外饰与内饰、同款汽车的不同涂装、同品牌汽车的未来概念图等)。接下来,针对这些挖掘出的图像对,MegaPairs采用两阶段标注方法:首先运用多模态大语言模型(MLLM)总结两张图片之间的关系,随后利用大语言模型(LLM)撰写最终的开放域检索指令。

值得注意的是,MegaPairs的构建和标注过程完全基于开源数据集和开源模型。通过引入多种相似度模型和两阶段标注方法,MegaPairs能够在无需人工干预的情况下,扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。
智源开源多模态向量模型BGE-VL:实现多模态检索的全新突破
                              MegaPairs 多模态三元数据构造流程

基于上述流程,MegaPairs合成了超过2600万条(查询图像,查询语句,目标图像)三元组数据。此外,考虑到“难负例”在训练检索模型中的重要性,MegaPairs为每组挖掘的图像对数据选择了其他相似图片作为难负例。

BGE-VL模型

基于MegaPairs合成的大规模多模态检索指令数据集,智源BGE团队训练了三款不同尺寸的多模态检索模型。/section>
团队首先在全球范围内的综合性基准测试——Massive Multimodal Embedding Benchmark(MMEB)上验证了 BGE-VL 模型的性能。MMEB 涉及四大类共计 36 个不同的多模态嵌入评测任务,分别为:分类(Classification)、视觉问答(Visual Question Answering)、检索(Retrieval)和视觉定位(Visual Grounding)。智源开源多模态向量模型BGE-VL:实现多模态检索的全新突破                             MMEB 评测任务示例图
在零样本性能表现方面,BGE-VL 在 MMEB 的多项任务类型中实现了最优性能。更值得关注的是,MegaPairs 数据集并未覆盖 MMEB 中绝大部分任务类型(如 Classification、VQA 和 Grounding),却仍展现出良好的任务泛化能力。智源开源多模态向量模型BGE-VL:实现多模态检索的全新突破依据 MMEB 的设定,研究团队在该基准的分布内(IND)集合(包含 36 个任务中的 20 个任务)上对 BGE-VL 进行了有监督微调。实验结果表明,相较于直接在 MMEB 上微调的 VLM2Vec (LLaVA-1.6) 模型,BGE-VL 的平均性能提高了 9.1 个百分点。同时,在分布外(OOD)数据集上的平均表现较两个版本的 VLM2Vec 分别提高了 11.6% 和 7.1%。这些结果有力验证了 MegaPairs 数据集的高质量和良好的泛化能力。智源开源多模态向量模型BGE-VL:实现多模态检索的全新突破组合图像检索性能
传统的图像检索通常采用“文搜图”或“图搜图”的方式,而近年来,组合图像检索作为一种新兴的图像搜索范式,允许用户同时输入图像和搜索指令,以实现更为精准的图像检索效果。这一方法已被谷歌认定为“下一代图像搜索范式”。
在当前主流的组合图像检索评测集 CIRCO 上,BGE-VL 在不同模型规模上均显著刷新了现有基准,大幅超越包括谷歌的 MagicLens 系列及英伟达的 MM-Embed 等对比基线。具体而言,BGE-VL-MLLM 相较于之前的最优模型提升了 8.1 个百分点。此外,BGE-VL-Base 模型以不到 1/50 的参数量超越了如 MM-Embed 和 E5-V 等大型多模态检索器。这些实验结果有力证明了 MegaPairs 数据的效果和实用性。智源开源多模态向量模型BGE-VL:实现多模态检索的全新突破团队还深入研究了 MegaPairs 的可扩展性和数据质量。如图所示,一方面,随着 MegaPairs 数据规模的增加,BGE-VL 模型展现出一致的性能增长趋势,证明了数据构造方法的良好可扩展性;另一方面,与在 37M 闭源数据上训练的当前最优模型 Google MagicLens 相比,MegaPairs 仅需 1/70 的数据规模(0.5M)即可实现显著的性能优势,进一步佐证了其高效性和高质量。智源开源多模态向量模型BGE-VL:实现多模态检索的全新突破MegaPairs 可扩展性分析:使用不同规模的 MegaPairs 数据训练 BGE-VL-Base 模型在各评测基准上的性能变化趋势。虚线表示基于 CLIP-Base 并在 37M MagicLens 数据集上训练的 MagicLens-B 模型的性能。
BGE-VL 检索可视化结果智源开源多模态向量模型BGE-VL:实现多模态检索的全新突破展望未来,智源将继续探索 MegaPairs 与更丰富的多模态检索场景的结合,进一步开发出更具综合性和通用性的多模态检索器。
更多方法和实验细节请参见相关论文。

文章中提到的AI工具

Quest
Quest

Figma设计转React应用的最简便方式

© 版权声明

相关AI热点

没有相关内容!

暂无评论

none
暂无评论...