

近日,VITA-MLLM项目发布了VITA-1.5版本,相较于之前的VITA-1.0版本,它在性能方面实现了显著的提升,旨在提供更加卓越的多模态处理能力。VITA-1.5不仅支持英文和中文,还能在复杂场景中展现出强大的理解能力。
在VITA-1.5中,模型尺寸显著增大,从之前的4亿参数增加到15亿参数,这使得其能够更好地应对各种任务挑战。实验结果表明,在MME、MMBench和MathVista等多个多模态综合评测基准上,VITA-1.5的性能提升了59.8%至70.8%,展示出卓越的进步。
VITA-1.5在语音相关任务上也表现出色,它集成了自动语音识别(ASR)模块,性能提升了18.4%至7.5%,从而提高了语音识别的准确性和效率。此外,VITA-1.5还能够支持一种独特的端到端的多语言语音合成(TTS)流程,该流程将语音合成模型与大型语言模型(LLM)相结合,从而实现了高质量的语音生成和表达能力。
为了进一步提升多模态任务的处理能力,VITA-1.5还采用了视觉提示微调技术,可以有效地利用图像中的视觉线索来改善语言模型的性能。实验结果显示,在视觉问答(VQA)任务中,VITA-1.5的准确率从71.3%提升至70.8%。该项目组通过巧妙地结合时间和空间信息,从而实现了多模态交互的显著改进。
在VITA-1.5的实际应用中,用户可以根据自身需求灵活选择不同的训练模式,从而更好地适应各类下游任务和应用场景。例如,可以通过调整语音活动检测(VAD)模块,实现在不同环境下的精准语音识别。总之,VITA-1.5旨在为用户提供更强大、更灵活的多模态处理能力。
VITA-1.5的发布代表着多模态人工智能领域的一项重要进展,它为未来的研究和应用奠定了坚实的基础,有望促进更多创新技术的涌现。
项目地址:https://github.com/VITA-MLLM/VITA?tab=readme-ov-file
要点总结:
⭐ VITA-1.5的模型尺寸显著增加,从4亿参数提升至15亿参数,从而提高了整体性能。
✅ 在多模态综合评测基准上,性能提升了59.8%至70.8%。
🔊 语音识别性能提升,ASR的性能提升了18.4%至7.5%。