Ovis2

阿里国际推出了最新的多模态大语言系列模型 Ovis2，旨在通过结构化嵌入对齐技术有效解决视觉与文本之间的差异。Ovis2是在前一代 Ovis 模型基础上进行了优化，增强了小规模模型的性能密度，并通过指令微调和偏好学习显著提升了思维链（CoT）推理能力。

Ovis2采用结构化嵌入对齐方法，有效解决了视觉和文本模态之间的差异，同时在Ovis系列架构的基础上加强了各个方面。它特别提升了小规模模型在能力密度方面的表现，具备指令微调和偏好学习特性，显著提升了思维链推理能力。此外，Ovis2还引入了视频处理和多图像处理能力，增强了对多语言的支持以及在复杂场景下的光学字符识别（OCR）能力。该系列模型分为六个不同的参数规模，包括1B、2B、4B、8B、16B和34B，在OpenCompass多模态评测中表现优异，特别是在数学推理和视频理解方面。Ovis2 的开源为多模态大模型的研究和应用开辟了新的方向和工具。

Ovis2的主要功能包括多模态理解与生成、推理能力增强、视频与多图像处理、多语言支持及OCR功能，以及小模型优化。它能处理文本、图像和视频等多种输入模态，支持在复杂场景中进行视觉和语言任务，解决复杂的逻辑和数学问题，处理视频和多图像输入，以及支持多语言文本处理和OCR功能。同时，通过优化训练策略，使小规模模型具备更高的能力密度，以满足多样化的应用需求。

接下来，请查看Ovis2的技术原理、项目地址、应用场景等详细信息。