中国团队发布世界最大多模态数据集Infinity-MM及领先微型AI模型Aquila-VL-2B

6个月前发布AI俱乐部
5 0 0
中国团队发布世界最大多模态数据集Infinity-MM及领先微型AI模型Aquila-VL-2B的封面图

近日,北京智源人工智能研究院发布了一款名为 “Infinity-MM” 的多模态大模型,它是一款全面的、可扩展的 AI 视觉语言模型,并同步推出了一个具有创新性的视觉语言模型 ——Aquila-VL-2B

该模型在多个数据集上表现出色:它能处理多达1000个token的超长文本信息,并能够进行2440个token的多轮对话,同时擅长处理600个token的代码相关的图像信息,甚至可以媲美300个GPT-4水平的AI模型。

在技术层面上,该模型着重提升了AI模型的推理能力。通过RAM++技术,该模型能够支持更大规模的训练数据集,从而增强了模型在知识理解和逻辑推理方面的能力。此外,该模型还专注于提升对复杂场景的理解和生成能力,从而提高模型在实际应用中的性能。

该模型的其中一个突出特点是它能够实现低成本的模型复现,这得益于 RAM++ 和 MiniCPM-V 技术的应用,有效降低了训练和部署的成本,使得 AI 技术能够更广泛地应用到各个领域。

Aquila-VL-2B 模型在性能上可以与 LLaVA-OneVision 和 Qwen-2.5 等先进模型相媲美,它采用了 SigLIP 预训练技术。该模型不仅具有出色的基础能力,还能在特定任务中表现出卓越的性能,例如,在中文场景中,该模型在一些关键能力上都有显著提升,从而使其成为一个强大的AI工具。它的高质量性能,使其在各种实际应用中都能发挥重要作用。

从实验结果来看,Aquila-VL-2B 在20个不同的多模态基准测试中都表现出了卓越的性能,在相关的 MMStar 基准测试中,其准确率更是高达54.9%。此外,该模型在解决复杂问题方面也表现出色,在 MathVista 基准测试中的准确率达到了59%,进一步证明了它的强大实力。

在应对常识推理挑战方面,Aquila-VL-2B 同样表现出色,在HallusionBench 和 MMBench 基准测试中分别达到了43% 和 75.2% 的准确率。对于开发者而言,该模型不仅易于操作,而且能够提供强大的性能,其推理能力相比其他模型提升了约 2.4%。

总而言之,该模型的发布为多模态大模型和AI技术的应用带来了新的可能性。Aquila-VL-2B 的设计初衷是为了降低部署成本,以便推动AI技术在各个领域的普及和应用,同时也为未来的AI模型发展奠定了坚实的基础。

Infinity-MM 论文地址:https://arxiv.org/abs/2410.18558

Aquila-VL-2B 模型地址:https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen

关键信息:

⭐ 模型 “Infinity-MM” 能够处理长达1000个token的文本,并支持2440个token的多轮对话。

✨ Aquila-VL-2B 在多项基准测试中表现出色,展示了其强大的综合性能。

🚀 该模型旨在降低AI技术的使用门槛,促进多模态模型技术的发展与应用。

快讯中提到的AI工具

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

© 版权声明:
本文地址:https://aidh.net/kuaixun/ubennoo0

暂无评论

none
暂无评论...