

智源研究院推出了新一代多模态基础模型 Emu2,通过大规模自回归生成式多模态预训练,显著提升了多模态上下文学习能力。Emu2 在少样本多模态理解任务中表现优异,超越了主流多模态预训练大模型 Flamingo-80B 和 IDEFICS-80B。Emu2 在多个少样本理解、视觉问答、图像生成任务上取得了最佳性能。Emu2-Chat 能精准理解图文指令,实现更好的信息感知、意图理解和决策规划。Emu2-Gen 可以接受图像、文本、位置交错的序列作为输入,实现灵活、可控、高质量的图像和视频生成。Emu2 采用了更简化的建模框架,并将模型规模化到 37B 参数。详情请参考智源研究院发布的项目链接。
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/87cki5qo暂无评论...