Ovis2

AI产品9个月前发布 AI工具箱
0 0 0
Ovis2的封面图

阿里国际推出了最新的多模态大语言系列模型 Ovis2,旨在通过结构化嵌入对齐技术有效解决视觉与文本之间的差异。Ovis2是在前一代 Ovis 模型基础上进行了优化,增强了小规模模型的性能密度,并通过指令微调和偏好学习显著提升了思维链(CoT)推理能力。

Ovis2采用结构化嵌入对齐方法,有效解决了视觉和文本模态之间的差异,同时在Ovis系列架构的基础上加强了各个方面。它特别提升了小规模模型在能力密度方面的表现,具备指令微调和偏好学习特性,显著提升了思维链推理能力。此外,Ovis2还引入了视频处理和多图像处理能力,增强了对多语言的支持以及在复杂场景下的光学字符识别(OCR)能力。该系列模型分为六个不同的参数规模,包括1B、2B、4B、8B、16B和34B,在OpenCompass多模态评测中表现优异,特别是在数学推理和视频理解方面。Ovis2 的开源为多模态大模型的研究和应用开辟了新的方向和工具。

Ovis2的主要功能包括多模态理解与生成、推理能力增强、视频与多图像处理、多语言支持及OCR功能,以及小模型优化。它能处理文本、图像和视频等多种输入模态,支持在复杂场景中进行视觉和语言任务,解决复杂的逻辑和数学问题,处理视频和多图像输入,以及支持多语言文本处理和OCR功能。同时,通过优化训练策略,使小规模模型具备更高的能力密度,以满足多样化的应用需求。

接下来,请查看Ovis2的技术原理、项目地址、应用场景等详细信息。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...