OCR 2.0模型发布:图表、几何图形、音乐符号皆可精准识别并转换为可编辑文本

5个月前发布AI俱乐部
3 0 0
OCR 2.0模型发布:图表、几何图形、音乐符号皆可精准识别并转换为可编辑文本的封面图

总而言之,利用生成式模型来处理光学字符识别(OCR)任务,实际上就是运用了GOT(生成式OCR任务)方法。从我们的角度来看,我们推出了被称为“OCR2.0”的概念,这一技术变革旨在弥合传统OCR技术在处理复杂场景和多样化版面时存在的固有局限性。

关于GOT的性能表现,它能够有效地处理包含8000多个字符的文档图像,以及单个图像中含有500个字符的情形。在处理文档图像时,它能够处理高达1024x1024分辨率的图像,并且能够准确识别图像中包含的tokens,这意味着模型能够处理长达8000个tokens的序列。值得一提的是,OCR2.0技术能够识别传统方法难以辨识的复杂或不规则的文本。

这项技术的核心优势在于,它能够同时进行文本内容的识别和版面的重建,涵盖了文本检测与识别、排版恢复以及表格结构分析等功能,甚至可以识别不规则的图表。借助这种全面的信息提取能力,大幅提升了对文档的理解程度。

为了进一步提升模型的实用性,我们致力于将各种文本渲染任务整合到统一的框架内,包括处理复杂的Qwen-0.5B数学公式识别任务,并且能够无缝集成LaTeX、Mathpix-markdown-it、TikZ、Verovio和Matplotlib及Pyecharts等多种渲染工具,从而实现对各类文档和信息的高度还原。

GOT所采用的生成式方法能够实现端到端的训练,无需针对特定任务进行定制,从而提升了通用性和适应性。这种方法可以直接从原始图像中提取关键信息,并应用于诸如版面分析、文档理解等多种下游任务中。

目前,我们正在积极推进GOT模型在Hugging Face平台上的开源,以便更多的开发者能够利用和参与到这项技术中来。这一举措旨在为OCR领域的研究和应用注入新的活力,推动相关技术的进步。

在线演示地址:https://huggingface.co/spaces/stepfun-ai/GOTofficialonline_demo

要点归纳:

📌 GOT(生成式OCR任务)是一种全新的OCR方法,旨在解决传统OCR技术在复杂场景下的局限性,打造OCR2.0。

📌 该技术能够同时实现文本识别与版面重构,包括表格分析、排版恢复以及复杂图表的识别。

📌 通过端到端的训练方式和统一的框架,GOT能够处理各种信息提取任务,例如版面分析和文档理解等,无需针对特定任务进行调整。

快讯中提到的AI工具

Hugging Face
Hugging Face

机器学习和人工智能技术的平台

© 版权声明:
本文地址:https://aidh.net/kuaixun/m9rdk507

暂无评论

none
暂无评论...