

近日,Hugging Face 发布了两款小型的 AI 模型,分别为 SmolVLM-256M 和 SmolVLM-500M。据介绍,这两款模型旨在为资源受限的 AI 应用提供支持,它们能在内存受限或计算能力较弱的环境下运行,例如在 1GB 内存的设备上。据悉,这两个模型均已在 Hugging Face 模型中心开放下载。
这两款 AI 模型的参数量分别为 256 百万和 500 百万,相较于其他大型模型,它们在保证一定性能的前提下,大大降低了计算需求。SmolVLM 特别适用于需要进行视觉任务的应用场景,例如处理 PDF 文档中的图像,并从中提取信息和文本。
在模型的训练过程中,Hugging Face 利用了名为“The Cauldron”的包含 50 个视觉数据集和文本数据集的集合,以及 Docmatix 的图像标注和文本描述数据集。这两个数据集都来自 Hugging Face 的 M4 项目,该项目旨在推进 AI 领域的研究。值得一提的是,SmolVLM-256M 和 SmolVLM-500M 在视觉推理能力方面甚至优于 Idefics80B,后者是一款在 AI2D 数据集上训练的,规模更大的视觉语言模型。
总的来说,小型 AI 模型正变得越来越重要,它们能够在资源有限的场景中实现各种应用。包括 Google DeepMind 和艾伦人工智能研究所 Mila 在内的研究机构,都在致力于开发能够在各种环境中部署的模型。这类小型 AI 模型降低了使用高质量语言模型的门槛,使得在移动设备上进行实时交互成为可能。
Hugging Face 的 SmolVLM 模型代表了 AI 领域的一个进步,它们在资源受限的环境中实现了强大的 AI 能力,为在边缘设备上部署视觉语言模型开辟了新的可能性。未来,这种小而精的模型可能会成为一种趋势。
快讯中提到的AI工具

机器学习和人工智能技术的平台