中国团队发布全球最大开源多模态数据集，20亿参数模型性能突破纪录

摘要：

目前，清华大学知识工程实验室发布了一款名为Infinity-MM的多模态大模型，它使用了视觉语言AI模型Aqu […]

目前，清华大学知识工程实验室发布了一款名为Infinity-MM的多模态大模型，它使用了视觉语言AI模型Aquila-VL-2B。这是一个旨在推进通用人工智能发展的项目。

Infinity-MM模型专为理解和生成多模态数据而设计，其训练数据规模庞大，包含超过10亿高质量图文对、240万视频文本对和60万音频文本对，还包括了300万GPT-4级别AI模型的合成数据。该模型通过RAM++技术优化了AI模型的推理性能，从而提升了处理复杂任务和生成高质量内容的能力。

在模型性能评估方面，Aquila-VL-2B集成了LLaVA-OneVision架构，并融合了Qwen-2.5语言模型及SigLIP视觉编码器。通过精细的数据筛选和模型调优，它在多个基准测试中表现出色，例如在常识推理、视觉问答以及文本识别等领域。

特别是在20项多模态任务的综合评估中，Aquila-VL-2B在多个方面展现出卓越性能，例如在MMStar测试集上达到了54.9%的准确率，在MathVista测试集上达到了59%的成绩，显示出其强大的泛化能力。此外，该模型在HallusionBench和MMBench等基准测试中分别取得了43%和75.2%的得分。

总的来说，这款开源的多模态模型旨在为研究人员和开发者提供一个强大的基础工具。然而，在实际应用中，需要注意模型可能存在的偏见，并谨慎使用。Aquila-VL-2B的性能甚至超越了InternVL2-2B和Qwen2VL-2B等同等规模的模型，进一步验证了其在复杂场景下的竞争力。

最重要的是，清华大学知识工程实验室致力于推动模型和技术的开源，为人工智能社区的共同进步贡献力量，促进了AI技术的发展。该模型在Nvidia A100GPU上进行了全面的性能评估，展现了其在大规模数据处理上的高效性和潜力。