Hugging Face推出SmolVLM模型:300倍体积压缩,小巧智能,手机端AI应用成真

5个月前发布AI俱乐部
6 0 0
Hugging Face推出SmolVLM模型:300倍体积压缩,小巧智能,手机端AI应用成真的封面图

Hugging Face 发布了一款引人注目的 AI 模型——SmolVLM。这款模型的设计目标是使大型视觉语言模型能够在资源受限的环境中运行,从而为更广泛的应用场景提供支持。

SmolVLM-256M 模型的 GPU 内存需求低于 1GB,这使得在消费级硬件上运行大型模型成为可能,甚至可以与 Idefics80B 模型相媲美,只需大约 300MB 的内存,为各种 AI 任务开启了新的可能性。

根据 Hugging Face 团队的说法,SmolVLM 模型旨在弥合小型和大型视觉语言模型之间的差距,在资源受限的环境中实现高效的性能。“我们很高兴地宣布 Idefics80B 在 2023 年 8 月发布了一系列视觉语言模型,而 SmolVLM 的目标是在仅使用 300MB 内存的情况下实现类似的性能。”Hugging Face 团队在公告中写道。

SmolVLM 模型的发布旨在为那些需要在资源有限的环境中进行视觉推理任务的研究人员提供支持。该模型具有 256M 和 500M 两种尺寸,能够在各种下游任务中实现令人印象深刻的性能,同时保持较低的计算成本。值得注意的是,该模型的推理过程可以在单个 16 位 CPU 上进行,仅需约 15GB 的内存,使其成为资源受限场景的理想选择。即便在消费级硬件上进行 100 步以上的推理,也能实现合理的性能。

值得一提的是,IBM 与 Hugging Face 合作,利用 256M 模型成功地将视觉文档理解集成到 Docling 中。通过利用 IBM 先进的建模技术,该模型能够实现令人印象深刻的文档理解性能,同时减少了与部署大型视觉语言模型相关的计算开销。

Hugging Face 对支持视觉语言模型的研究和开发充满热情,并且认识到并非所有用户都能使用大型模型。他们发布了 400M 参数的视觉语言模型检查点,大小仅为 93M 参数检查点,从而简化了在各种设备上的部署。这些模型可用于执行视觉问答等任务,并促进更广泛的创新。

SmolVLM 模型在性能方面表现出色,参数规模仅为 1.7 亿,适用于视觉文档理解和视觉推理。它不仅能够处理复杂的问题,还支持多种视觉输入模式,为各种应用提供了灵活性。

Hugging Face 的这一举措再次展现了其致力于推动 AI 模型民主化的决心。SmolVLM 模型的发布为那些希望在资源受限的环境中利用 AI 力量的研究人员和开发人员带来了新的机遇,同时为实现更高效、更经济的 AI 解决方案铺平了道路。

模型地址:https://huggingface.co/blog/smolervlm

亮点总结:

✨ Hugging Face 发布的 SmolVLM 模型能够在资源受限的环境中运行,性能媲美 300MB 大小的 Idefics80B 模型。  

🧠 SmolVLM 模型能够高效地进行视觉推理,并且推理过程可在 16 位 CPU 上进行。  

🚀 该模型的发布简化了视觉语言模型在各种设备上的部署,并促进了视觉问答等任务的创新。

快讯中提到的AI工具

Hugging Face
Hugging Face

机器学习和人工智能技术的平台

© 版权声明:
本文地址:https://aidh.net/kuaixun/p5l2ol0r

暂无评论

none
暂无评论...