零一万物发布 Yi-VL 多模态语言模型,同步推出两个版本

1年前发布AI俱乐部
2 0 0
零一万物发布 Yi-VL 多模态语言模型,同步推出两个版本的封面图

首个 Yi-VL 模型已经发布,它是一个视觉语言模型,能够理解图像中的内容。Yi-VL 模型是基于 Yi 语言模型架构构建的,它结合了图像理解和文本生成能力,以实现更高级的任务。Yi-VL 模型在多个视觉语言任务上取得了显著的成果,证明了其强大的性能。

Yi-VL 模型在著名的 MMMU 和中文 MMMU 评测基准上进行了全面的评估,并且在这些基准上取得了有竞争力的结果。Yi-VL-34B 模型在零样本情景下的 MMMU 评测中,获得了 41.6% 的准确率,这表明该模型具有出色的视觉语言理解和推理能力。Yi-VL 模型展示了其在理解复杂场景和执行知识密集型任务方面的潜力。

Yi-VL 模型采用了 LLaVA 的设计方案,整合了 Vision Transformer (ViT)、投影模块以及大型语言模型 Yi-34B-Chat 和 Yi-6B-Chat。ViT 用于处理图像信息,而投影模块则负责将视觉特征映射到语言模型的语义空间中。这种设计使得模型能够有效地利用视觉和语言信息,从而提升了模型在各种视觉语言任务上的表现。

© 版权声明:
本文地址:https://aidh.net/kuaixun/5lgr3ufg

暂无评论

none
暂无评论...