Groundlight开源框架,轻松解决复杂视觉推理问题

1个月前发布AI俱乐部
4 0 0

Groundlight研究团队近日开源了一套全新的AI框架,旨在解决视觉领域复杂的视觉推理难题,提升AI对图像的理解能力,使其不仅能“看图识物”,更能进行深度推理。目前,尽管AI在图像识别方面已取得显著进展,但其在理解图像逻辑关系和进行复杂推理方面仍存在不足。现有的视觉语言模型(VLM)在处理需要深度解读的任务时表现不佳,这主要是因为它们对图像本身的理解尚不充分。虽然大型语言模型(LLM)在文本推理方面取得了突破,但视觉领域的类似进展却较为有限。

Groundlight开源框架,轻松解决复杂视觉推理问题

为增强VLM的视觉推理能力,Groundlight团队创新性地采用了强化学习方法,并结合GRPO (Gradient Ratio Policy Optimization)算法来提高学习效率。此方法不同于Deepseek等先前研究以及语言模型的先进推理技术,它将强化学习技术扩展应用于VLM领域。研究人员设计了一个需要同时处理视觉和文本信息的密码破译任务来验证该方法的有效性。实验结果显示,一个仅有30亿参数的模型便达到了96%的准确率。注意力分析表明,模型在任务执行过程中能够有效地关注视觉输入中的相关解码器区域。

GRPO的应用并非没有挑战。在分词和奖励设计方面,研究人员遇到了困难。由于模型通常将文本处理为词元而非单个字符,这给需要精确字符级别推理的任务带来了挑战。为此,研究人员在字母之间添加空格简化解码过程。奖励设计方面,研究人员采用了三种奖励类型:格式奖励(确保输出一致性)、解码奖励(鼓励对乱码文本进行有意义的转换)和正确性奖励(提高准确性)。通过平衡这三种奖励,成功避免了模型学习到无效的“捷径”,确保其真正提升了密码破译能力。

GRPO通过比较多个输出而非直接依赖梯度计算来优化学习过程,提高了训练的稳定性,并实现了更平滑的学习曲线。该研究也指出了复杂视觉模型的高昂计算成本。为解决效率问题,研究团队提出了选择性模型升级技术(仅在必要时使用更昂贵的模型),并建议集成预训练的物体检测、分割和深度估计模型,在不显著增加计算开销的情况下增强推理能力。这种基于工具的方法为训练大型端到端模型提供了一种兼顾效率和准确性的可扩展替代方案。

总而言之,Groundlight团队通过整合强化学习技术,特别是GRPO算法,在增强VLM的视觉推理能力方面取得了显著进展。其在密码破译任务中的成功应用,证明了该方法的有效性。

项目地址:https://github.com/groundlight/r1_vlm

演示地址:https://huggingface.co/spaces/Groundlight/grpo-vlm-decoder

© 版权声明:
本文地址:https://aidh.net/kuaixun/f7hh9qh8

暂无评论

none
暂无评论...