苹果MM1.5发布：多模态AI模型革新，重塑智能理解 paradigm。

10个月前发布AI俱乐部

近日，谷歌推出了一款先进的 AI 模型，名为 MM1.5，它属于大型语言模型（MLLMs）范畴。据介绍，这款模型在多种基准测试中表现出色，旨在进一步提升 AI 在复杂推理任务中的性能。该模型能够处理并理解文本、图像等多种信息。

这款创新模型的一大亮点在于，它能够有效处理海量的信息，从而在需要长程推理的任务中表现更佳。通过对大量数据的学习，MM1.5 能够更好地理解上下文，从而在回答问题时提供更准确的信息。谷歌表示，MM1.5 模型增强了其处理复杂场景的能力。

值得一提的是，MM1.5 在处理视觉信息和多模态推理方面也表现突出。据悉，该模型包含多个版本，如 MM1.5-Video 和 MM1.5-UI，分别专注于视频理解和用户界面相关任务。

MM1.5 模型的性能提升体现在以下几个方面：

其一，扩展了上下文窗口，能够处理更长的文本序列，最多可处理包含 20 多页文本和图像的内容，以及长达 2 小时的视频内容。

其二，在 45 个视觉 OCR 相关任务和 700 多个开放式问答任务中表现出色，能够有效提升模型在复杂场景中的理解能力。

此外，在知识密集型任务中，该模型能够检索并整合外部知识，从而提升其在复杂推理和多模态任务中的表现。

总体而言，MM1.5 模型代表了多模态 AI 领域的一项重要进展，它在处理复杂推理任务方面表现突出，甚至超越了之前的 1.4 版本。更重要的是，该模型在视频理解方面也展现出强大的能力，进一步拓展了其在实际应用中的潜力。

MM1.5 模型的推出，不仅提升了 AI 在处理复杂信息方面的能力，也为未来的研究方向提供了新的思路。通过整合多种模态的信息，并有效利用外部知识，AI 有望在更多领域实现突破。

关键亮点：

🌟 模型架构: 采用了稀疏门控 Mixture-of-Experts (MoE) 架构，提升了模型的可扩展性。

⭐ 性能表现: 在处理 20 页文本、600 多个视觉问答以及 2 小时视频内容方面表现出色。

✨ 能力提升: 通过结合外部知识和上下文信息，提升了模型在复杂推理任务中的性能，超越了 1.4 版本。