

据报道,多模态大语言模型mPLUG-DocOwl1.5已发布,它着重提升了OCR识别能力与文档理解水平,旨在更好地处理各类复杂文档场景,从而增强其在实际应用中的价值。
这项技术突破主要体现在对文档内容的理解和推理方面,包括普通文档、图表以及表格等多种形式。此模型的关键在于其强大的多模态学习能力,能够更有效地处理文档中的复杂信息。相较于第一代模型,mPLUG-DocOwl1.5专注于改进在文档理解方面的性能。
该模型采用了一种名为“多粒度对齐”的方法,主要针对五种文档元素:文本、版面、图像、表格和复杂图表。通过这种方法,模型能够更精确地对齐和理解文档的不同组成部分,从而提升整体的文档处理能力。此外,研究人员还引入了一种新型的H-Reducer架构,用于处理长文档,这有助于提高模型的推理效率和准确性,使其能够有效地从大量文档中提取关键信息。
具体来说,为了提升模型处理复杂文档的能力,研究团队创建了一个包含超过400万条数据的高质量文档结构数据集DocStruct4M,该数据集覆盖了多种文档结构和版面设计。同时,他们还构建了一个包含250万条数据的大规模文档推理数据集DocReason25K,用以提高模型在复杂推理场景下的性能。
mPLUG-DocOwl1.5在多项文档智能任务中表现出色,特别是在需要深入理解文档内容的场景下,例如信息提取和文档问答。实验结果表明,mPLUG-DocOwl1.5在10个不同的文档理解基准测试中,超越了基于7B参数的大型语言模型的现有技术水平,并在其中5个测试中取得了最佳成绩。
目前,mPLUG-DocOwl1.5的模型代码、相关文档和演示已在GitHub上公开。
项目地址:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
论文地址:https://arxiv.org/pdf/2403.12895