

近日,上海人工智能实验室发布了书生·浦语混合视觉大模型(InternLM-XComposer)的2.5版本,它在理解图像和文本的基础上,增强了对复杂场景的认知,实现了更精准的内容生成。
IXC-2.5采用了高达96K上下文窗口长度的技术,这意味着模型能够处理更长的文本信息。同时,它还支持高达24K分辨率级别的图像输入。在长文本处理能力方面,IXC-2.5能够更好地理解和生成复杂场景中的长篇内容。
与之前的版本相比,IXC-2.5在多个方面都得到了显著提升:
更强的视觉感知:IXC-2.5采用了560×560ViT视觉编码器,显著提高了模型对图像细节的捕捉能力。
更优的图文对齐:通过更强大的图文对齐模块,IXC-2.5能够准确地将图像内容与文本描述对应起来,提升了图文理解的准确性。
更强的多轮对话:模型能够处理更复杂的多轮对话场景,并具备更强的推理能力。
除了以上提升之外,IXC-2.5还引入了多项优化技术,包括:
代码生成:针对代码生成任务,IXC-2.5能够更好地理解HTML、CSS和JavaScript等编程语言,提升了代码生成的质量。
推理能力:通过引入Chain-of-Thought (CoT)和Direct Preference Optimization (DPO)等技术,IXC-2.5显著提升了推理能力。
IXC-2.5在28个视觉相关的评测任务中表现出色,并在16个评测任务中超越了现有的大模型。在16个Zero-shot的评测中,其性能甚至可以比肩GPT-4V和Gemini Pro等领先模型。这些都证明了IXC-2.5在视觉理解和生成方面的卓越能力。
论文链接:https://arxiv.org/pdf/2407.03320
项目链接:https://github.com/InternLM/InternLM-XComposer
快讯中提到的AI工具

OpenAI 发布的最新一代语言模型