

近日,H2O.ai 发布了两款强大的视觉语言模型,旨在提升复杂文档中的光学字符识别 (OCR) 能力。这两款模型分别是 H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B,专为理解各类文档中的文本信息而设计,能够有效应对传统 OCR 技术难以处理的挑战,实现更精准的文本提取。
H2OVL Mississippi-0.8B 模型参数量达 8 亿,在 OCRBench 基准测试中表现出色,展现了其在文档理解任务上的卓越性能。相较于其他同等规模的模型,它在信息提取方面实现了显著提升。拥有超过 20 亿参数的 H2OVL Mississippi-2B 模型,则在更广泛的任务范围内展现出强大的零样本视觉语言理解能力。
H2O.ai 的首席执行官兼创始人 Sri Ambati 表示:“我们发布的 H2OVL Mississippi 模型在零样本跨模态信息检索方面表现出色,能够提升 AI 在 OCR、文档智能和视觉 AI 等领域的应用水平。”
这些模型的发布,进一步推动了开源社区在人工智能领域的创新。开发者可以利用这些模型来构建更强大的应用程序,从而在各种行业中实现更高效的文档处理。
H2O.ai 已将这两款模型开源,并发布在 Hugging Face 平台上,方便研究人员和开发者访问、使用,共同推动视觉语言模型的进步与应用。此举彰显了 H2O.ai 致力于通过开源人工智能技术,赋能更广泛用户的决心,为各行业带来更智能的解决方案。
Ambati 强调,提升模型和创建负责任的 AI 至关重要。“我们的目标是构建适用于各种规模企业的最强大的开源模型,使其能够在复杂的人工智能挑战中取得成功。” 据悉,H2O.ai 的模型旨在促进数据科学领域的创新,并为各行各业提供更易于访问和高效的 AI 工具。
模型链接:
H2OVL-Mississippi-0.8B:https://huggingface.co/h2oai/h2ovl-mississippi-800m
H2OVL Mississippi-2B:https://huggingface.co/h2oai/h2ovl-mississippi-2b
总结:
✨ H2O.ai 推出了 H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B 两款视觉语言模型,提升了文档中复杂文本的光学字符识别能力。
💡 H2OVL Mississippi-0.8B 模型在文档理解任务中表现出色,优于其他同等规模的模型,展现了其强大的信息提取能力。
🚀 H2O.ai 开源这些模型旨在促进 AI 创新,为各行业提供更易于访问和高效的解决方案。
快讯中提到的AI工具

机器学习和人工智能技术的平台