Ola 是由腾讯混元 Research、清华大学智能视觉实验室(i-Vision Group)以及南洋理工大学 S-Lab 联合开发的项目。本文的共同第一作者为清华大学自动化系的博士生刘祖炎和南洋理工大学的博士生董宇昊,通讯作者为腾讯高级研究员饶永铭和清华大学自动化系的鲁继文教授。
GPT-4o 的发布激发了研究人员对实现全模态模型的强烈关注。尽管目前市场上已有一些开源替代方案,但在性能上,它们仍明显落后于专门针对单一模态的模型。本文中,我们提出了 Ola 模型,这是一款全模态语言模型,在图像、视频和音频理解等多个领域展现出竞争力极强的性能。
Ola 的核心设计理念是其渐进式模态对齐策略,旨在逐步扩大语言模型所支持的模态范围。我们的训练流程从模态差异最大的图像和文本开始,随后通过连接语言与音频知识的语音数据,以及涵盖所有模态的视频数据,逐步增强模型的技能。这种渐进式学习流程还使得我们能够将跨模态对齐数据的规模保持在相对较小的范围,进而降低基于现有视觉-语言模型开发全模态模型的难度及成本。

- 项目地址:https://ola-omni.github.io/
- 论文:https://arxiv.org/abs/2502.04328
- 代码:https://github.com/Ola-Omni/Ola
- 模型:https://huggingface.co/THUdyh/Ola-7b
Ola 模型在图像、视频和音频理解的评测基准上显著提升了全模态模型的能力上限。在涵盖图像、视频和音频的完整全模态基准测试中,Ola 作为一个仅有 7B 参数的全模态模型,已超越多个主流专有模型。 图 1:Ola 全模态模型超越了如 Qwen2.5-VL、InternVL2.5 等主流多模态模型。在图像基准测试方面,Ola 在极具挑战性的 OpenCompass 基准测试中,在 MMBench-1.1、MMMU 等8个数据集上的总体平均准确率达到了 72.6%,并且在所有参数不超过 30B 的模型中名列第一,超越了 GPT-4o、InternVL2.5、Qwen2.5-VL 等主流模型。在综合视频理解测试 VideoMME 中,Ola 在输入视频和音频情况下,成绩达到了68.4% 的准确率,超越了 LLaVA-Video、VideoLLaMA3 等知名视频网站模型。此外,Ola 在诸如语音识别和聊天评估等音频理解任务中的表现也十分突出,接近最佳音频理解模型的水平。完整的测试结果表明,Ola 在性能方面相较于现有的全模态大语言模型(如 VITA-1.5、IXC2.5-OmniLive 等)有显著提升,甚至超越了最新发布的 Qwen2.5-VL、InternVL2.5 等专业多模态模型。目前,模型、代码和训练数据已全面开源,我们致力于将 Ola 打造成一个完全开源的全模态理解解决方案,以推动这一新兴领域的后续研究。1. 引言训练全模态大模型的核心挑战在于对多样化模态分布进行有效建模,并设计高效的训练流程,以确保在所有支持任务上实现竞争力和均衡的性能。然而,在以往的研究中,极高的性能与丰富的模态覆盖往往难以兼得,开源的全模态解决方案与最先进的专用大语言模型之间仍存在显著的性能差距,这为全模态概念在实际应用中的推广带来了严重障碍。本文提出的 Ola 模型,探讨了如何训练出性能与最前沿专用多模态模型相当、具备实时交互能力且在对齐数据方面效率高的全模态大语言模型。Ola 的核心设计是渐进式模态对齐策略。为了在语言与视觉之间建立有效联系,我们从图像和文本这两种基本且相互独立的模态入手,以此为全模态模型奠定基础知识。此后,我们逐步扩展训练集,使模型具备更加广泛的能力,包括通过视频帧提升视觉理解、借用语音数据连接语言与音频知识,及利用包含音频的视频全面融合来自语言、视频和音频的信息。sup>为配合上述训练策略,我们在架构与数据层面进行了重要的改进。
- Ola 架构支持全面的模态输入,并具备流式文本和语音生成的能力,其设计既可扩展又简洁。我们为视觉和音频数据分别设计了联合对齐模块,利用局部-全局注意力池化层融合视觉输入,实现视觉、音频和文本标记的灵活组合。此外,我们集成了逐句流式解码模块,以实现高质量的语音合成。
- 除了在视觉和音频领域收集的微调数据外,我们深入探讨了视频与其对应音频之间的关系,以构建视觉和音频模态之间的桥梁。具体来说,我们从学术和开放网络资源中收集原始视频,并设计独立的清理流程,随后利用视觉-语言模型根据字幕及视频内容生成问答对。
2. 方法概述 图 3:Ola 模型结构示意图全模态结构设计全模态输入编码:借鉴先前在文本到单模态大语言模型方面的成功经验,我们对视觉、音频和文本输入分别进行了编码。对于视觉输入,我们使用任意分辨率的视觉编码器OryxViT,从而保留每个图像或帧的原始宽高比;音频输入方面,我们提出了双编码器方法,其中Whisper-v3作为语音编码器,BEATs则用作音乐编码器;文本输入上,我们直接使用预训练大语言模型中的嵌入层来处理文本标记。
视觉与音频联合对齐:对齐模块在此过程中充当从特定模态空间到文本嵌入空间的转换器,构成全模态大语言模型的核心部分。为提升效率并缩短视觉特征的标记长度,我们进一步提出了“局部-全局注意力池化”层,从而在减少信息损失的前提下获取更优质的下采样特征。具体而言,我们采用双线性插值进行二倍下采样以获得全局特征,并将原始特征与全局特征结合来构建局部-全局嵌入,通过Softmax预测每个下采样空间区域的重要性,并利用哈达玛积确定每个先前区域的权重。
我们参考之前的研究,通过两层非线性多层感知机(MLP)将特定模态特征投影到语言空间中。
流式语音生成:我们采用CosyVoice作为高质量的语音解码器以支持语音生成。为了实现友好的用户体验,解码过程中实时检测生成的文本标记,一旦遇到标点符号便截断句子,接着将前一个句子输入语音解码器进行音频合成。因此,Ola模型能够在无需等待整个句子生成完成的情况下,实现流式解码。
渐进式模态对齐策略语言、视觉与音频之间的模态差距:通过探索过程,我们认识到全模态训练中的两大关键问题。
- 模态平衡:直接将来自各模态的数据合并会对基准性能产生负面影响。我们认为,文本和图像是全模态学习的核心模态,而语音和视频分别是对文本和图像的变体。通过学习识别文本和图像,确保模型具备基本的跨模态能力,因此我们优先处理这些较为复杂的情况。随后,逐步将视频、音频和语音纳入全模态大语言模型的训练过程中。
- 音频与视觉之间的联系:在全模态学习中,联合学习音频和视觉数据能通过提供跨不同模态的更全面视角而产生意想不到的结果。在Ola模型中,我们将视频视为音频与视觉之间的桥梁,因为视频帧与其伴随音频之间包含着自然且高度相关的信息。为验证这一假设,我们优化了训练流程,并准备了有针对性的训练数据。
在训练流程中,训练阶段1为文本-图像训练,包括MLP对齐、大规模预训练和监督微调;阶段2为图像与视频的持续训练,利用视频数据不断扩展Ola的能力;阶段3为通过视频连接视觉与音频,在此阶段中,我们遵循视觉MLP适配器的训练策略并通过基本的自动语音识别任务初始化音频MLP。随后,我们将文本与语音理解、文本与音乐理解、音频与视频联合理解以及最重要的文本-图像多模态任务进行综合训练。据中获取了约 2000 万对文本 - 图像数据。对于微调(SFT)数据,我们从多个数据集,包括 LLaVA-Onevision、Cauldron、Cambrian-1、Mammoth-VL 和 PixMo,混合获取了约 730 万张图像训练数据。在视频数据方面,我们从 LLaVA-Video-178k、VideoChatGPT-Plus、LLaVA-Hound 和 Cinepile 数据集中收集了 190 万个视频对话数据。音频数据的构建涵盖了 ASR、音频字幕、音频问答、音乐字幕和音乐问答等文本 - 语音理解任务,总体音频训练数据包含了 110 万个样本,相关的文本问答表示则源自 SALMONN 数据集。
为进一步推动全模态大语言模型的跨模态学习,我们开发了一种跨模态视频数据生成方法,旨在揭示视频与音频之间的内在关系。这一方法旨在引导模型学习跨模态信息。现有多数视频训练数据的处理方式主要依赖帧输入进行注释或合成,而常常忽视了音频中蕴藏的宝贵信息。为了弥补这一不足,我们为跨模态学习设计了两项任务:视频 - 音频问答和视频语音识别。我们利用视觉 - 语言模型生成与视频及其相应字幕相关的问题与答案,并要求模型在生成问答时,以字幕内容为主线,视频附加信息为辅助。我们为每个视频创建了三个问答对,总共获得了 243K 个跨模态视频 - 音频数据。此外,为增强模型在嘈杂环境下的语音识别能力,我们还纳入了包含 83K 个训练数据的原始视频字幕任务。
3. 实验结果全模态理解与当前最先进的多模态大语言模型和全模态模型比较,Ola 在主要多模态基准测试中展现出强劲的竞争力。在图像的基准测试中,Ola 在 MMBench-1.1 中达成了 84.3% 的准确率,在 MMStar 上为 70.8%,在 MMMU 中达到了 57.0%,超越了众多拥有相似参数数量的相关模型。在视频测试中,Ola 在 VideoMME 上取得了 68.4% 的准确率。而在音频基准测试中,Ola 在 LibriSpeech 上的字错误率(WER)为 3.1%,在 AIR-Bench 上的平均得分为 6.41,进一步超过了现有全模态模型的表现。
音频评测集的分析关于音频评测集的详尽结果显示,Ola 相较于现有全模态模型,展现出显著的优势,乃至接近专门的音频模型,充分突显其强大的通用性。此外,通过跨模态联合学习的实施,Ola 的性能依然稳步提升。尽管视频音频和语音相关数据集之间存在显著的分布差异,但这一提升表明了视频与语音模态之间的紧密联系。
全模态训练的影响通过对比全模态训练前后的结果,我们发现,在 VideoMME 上的表现从 63.8% 提升至 64.4%。明确地,原始视频中增加音频模态后,性能显著提升,从 64.4% 提高至 68.4%。这一发现表明,音频中蕴含的有价值信息有助于提升整体识别性能。
值得注意的是,经过全模态训练并输入音频的 Ola,其准确率甚至超过了使用原始文本字幕的结果,整体性能达到 68.4%,而原始文本字幕则为 67.1%。这一结果表明,在某些基准测试中,音频数据可能提供超出原始文本信息的更多内容。
渐进式模态对齐的影响我们评估了每个阶段中间模型的基本性能,观察到从图像、视频到音频的渐进式模态训练能够最大化地保留之前学习的能力。
4. 总结我们推出了 Ola,一款高效且功能全面的全模态语言模型,其在图像、视频和音频理解任务中的表现均具有竞争力。基于渐进式模态对齐策略的解决方案,为全模态模型的训练提供了一种自然、高效且具有良好竞争力的训练策略。通过支持全模态输入及流式解码的架构改进,以及优质的跨模态视频数据的准备,进一步扩展了 Ola 的能力。我们期待这项研究能够为未来更加通用的人工智能模型的开发启发新的方向。