书生·浦语灵笔多模态大模型2.5版本升级:更长上下文,图像视频理解力媲美GPT-4V

11个月前发布AI俱乐部
4 0 0
书生·浦语灵笔多模态大模型2.5版本升级:更长上下文,图像视频理解力媲美GPT-4V的封面图

近日,上海人工智能实验室发布了书生·浦语混合视觉大模型(InternLM-XComposer)的2.5版本,它在理解图像和文本的基础上,增强了对复杂场景的认知,实现了更精准的内容生成。

IXC-2.5采用了高达96K上下文窗口长度的技术,这意味着模型能够处理更长的文本信息。同时,它还支持高达24K分辨率级别的图像输入。在长文本处理能力方面,IXC-2.5能够更好地理解和生成复杂场景中的长篇内容。

与之前的版本相比,IXC-2.5在多个方面都得到了显著提升:

更强的视觉感知:IXC-2.5采用了560×560ViT视觉编码器,显著提高了模型对图像细节的捕捉能力。

更优的图文对齐:通过更强大的图文对齐模块,IXC-2.5能够准确地将图像内容与文本描述对应起来,提升了图文理解的准确性。

更强的多轮对话:模型能够处理更复杂的多轮对话场景,并具备更强的推理能力。

除了以上提升之外,IXC-2.5还引入了多项优化技术,包括:

代码生成:针对代码生成任务,IXC-2.5能够更好地理解HTML、CSS和JavaScript等编程语言,提升了代码生成的质量。

推理能力:通过引入Chain-of-Thought (CoT)和Direct Preference Optimization (DPO)等技术,IXC-2.5显著提升了推理能力。

IXC-2.5在28个视觉相关的评测任务中表现出色,并在16个评测任务中超越了现有的大模型。在16个Zero-shot的评测中,其性能甚至可以比肩GPT-4V和Gemini Pro等领先模型。这些都证明了IXC-2.5在视觉理解和生成方面的卓越能力。

论文链接:https://arxiv.org/pdf/2407.03320

项目链接:https://github.com/InternLM/InternLM-XComposer

快讯中提到的AI工具

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

© 版权声明:
本文地址:https://aidh.net/kuaixun/krrk96kt

暂无评论

none
暂无评论...