零一万物发布 Yi-VL 多模态语言模型，同步推出两个版本

摘要：

首个 Yi-VL 模型已经发布，它是一个视觉语言模型，能够理解图像中的内容。Yi-VL 模型是基于 Yi 语言 […]

首个 Yi-VL 模型已经发布，它是一个视觉语言模型，能够理解图像中的内容。Yi-VL 模型是基于 Yi 语言模型架构构建的，它结合了图像理解和文本生成能力，以实现更高级的任务。Yi-VL 模型在多个视觉语言任务上取得了显著的成果，证明了其强大的性能。

Yi-VL 模型在著名的 MMMU 和中文 MMMU 评测基准上进行了全面的评估，并且在这些基准上取得了有竞争力的结果。Yi-VL-34B 模型在零样本情景下的 MMMU 评测中，获得了 41.6% 的准确率，这表明该模型具有出色的视觉语言理解和推理能力。Yi-VL 模型展示了其在理解复杂场景和执行知识密集型任务方面的潜力。

Yi-VL 模型采用了 LLaVA 的设计方案，整合了 Vision Transformer (ViT)、投影模块以及大型语言模型 Yi-34B-Chat 和 Yi-6B-Chat。ViT 用于处理图像信息，而投影模块则负责将视觉特征映射到语言模型的语义空间中。这种设计使得模型能够有效地利用视觉和语言信息，从而提升了模型在各种视觉语言任务上的表现。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/5lgr3ufg