智源研究院推出 Emu2：新一代多模态生成式基础模型重磅发布

摘要：

智源研究院推出了新一代多模态基础模型 Emu2，通过大规模自回归生成式多模态预训练，显著提升了多模态上下文学习 […]

智源研究院推出了新一代多模态基础模型 Emu2，通过大规模自回归生成式多模态预训练，显著提升了多模态上下文学习能力。Emu2 在少样本多模态理解任务中表现优异，超越了主流多模态预训练大模型 Flamingo-80B 和 IDEFICS-80B。Emu2 在多个少样本理解、视觉问答、图像生成任务上取得了最佳性能。Emu2-Chat 能精准理解图文指令，实现更好的信息感知、意图理解和决策规划。Emu2-Gen 可以接受图像、文本、位置交错的序列作为输入，实现灵活、可控、高质量的图像和视频生成。Emu2 采用了更简化的建模框架，并将模型规模化到 37B 参数。详情请参考智源研究院发布的项目链接。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/87cki5qo