

近日,上海人工智能实验室发布了新一代 AI 视觉模型——浦源InternVL2.5。该模型在多项通用大模型评测中表现出色,例如,在复杂场景下的多模态理解能力测试(MMMU)中,其性能超越了 70% 的同类模型,甚至优于 GPT-4o 和 Claude-3.5-Sonnet 等先进模型。
浦源InternVL2.5 模型还支持上下文学习(CoT)功能,能够在处理复杂问题时进行多步推理,逐步得出答案。与 InternVL2.0 相比,它显著提升了对复杂指令和长文本的理解能力,使得复杂任务的准确率有了显著提高。在图文理解、视觉问答、文档分析以及长文本处理等多个领域,该模型展现出了卓越的性能,为用户提供了更强大的问题解决能力。
浦源InternVL2.5 模型在处理推理任务时,不仅限于简单的单步问答,而是能够进行复杂的多步推理,这得益于其强大的上下文学习能力。这意味着它可以在图像理解、知识问答、图表理解/文档问答、数学推理问答、复杂场景长文本推理、科学推理问答以及复杂视觉推理等方面发挥更大的作用。这一模型能够有效整合不同来源的信息,从而提高问题回答的准确性和可靠性,为通用 AI 模型的进一步发展奠定了基础。
浦源InternVL2.5 模型在性能上超越了之前的 InternVL1.5 和 InternVL2.0 模型,这主要归功于其采用了名为“ViT-MLP-LLM”的创新架构,它利用了大规模的视觉模型 InternViT-6B 和 InternViT-300M 以及大量优质的图像和文本数据来训练模型,并在四个独立的 MLP 层之间实现了知识传递。这种设计不仅提升了模型的性能,还有助于提高复杂视觉推理的准确性,使得模型能够更有效地处理各种视觉任务。
该模型的能力提升不仅体现在性能指标上,更在于其能够更好地服务于实际应用,为人工智能领域的发展注入了新的活力。借助浦源InternVL2.5,我们可以期待更多基于 AI 技术的创新和突破。
模型地址:
https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942