书生·浦语灵笔多模态大模型2.5版本升级：更长上下文，图像视频理解力媲美GPT-4V

1年前发布AI俱乐部

摘要：

近日，上海人工智能实验室发布了书生·浦语混合视觉大模型(InternLM-XComposer)的2.5版本，它 […]

近日，上海人工智能实验室发布了书生·浦语混合视觉大模型(InternLM-XComposer)的2.5版本，它在理解图像和文本的基础上，增强了对复杂场景的认知，实现了更精准的内容生成。

IXC-2.5采用了高达96K上下文窗口长度的技术，这意味着模型能够处理更长的文本信息。同时，它还支持高达24K分辨率级别的图像输入。在长文本处理能力方面，IXC-2.5能够更好地理解和生成复杂场景中的长篇内容。

与之前的版本相比，IXC-2.5在多个方面都得到了显著提升：

更强的视觉感知：IXC-2.5采用了560×560ViT视觉编码器，显著提高了模型对图像细节的捕捉能力。

更优的图文对齐：通过更强大的图文对齐模块，IXC-2.5能够准确地将图像内容与文本描述对应起来，提升了图文理解的准确性。

更强的多轮对话：模型能够处理更复杂的多轮对话场景，并具备更强的推理能力。

除了以上提升之外，IXC-2.5还引入了多项优化技术，包括：

代码生成：针对代码生成任务，IXC-2.5能够更好地理解HTML、CSS和JavaScript等编程语言，提升了代码生成的质量。

推理能力：通过引入Chain-of-Thought (CoT)和Direct Preference Optimization (DPO)等技术，IXC-2.5显著提升了推理能力。

IXC-2.5在28个视觉相关的评测任务中表现出色，并在16个评测任务中超越了现有的大模型。在16个Zero-shot的评测中，其性能甚至可以比肩GPT-4V和Gemini Pro等领先模型。这些都证明了IXC-2.5在视觉理解和生成方面的卓越能力。

论文链接：https://arxiv.org/pdf/2407.03320

项目链接：https://github.com/InternLM/InternLM-XComposer

快讯中提到的AI工具

GPT-4

OpenAI 发布的最新一代语言模型

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/krrk96kt