视觉语言模型

共 2 篇文章

VLM-R1

VLM-R1是浙江大学Om AI Lab推出的一款视觉语言模型，采用强化学习技术。该模型可以根据自然语言指令精确定位图像中的目标物体，例如根据描述"图中红色的杯子"找到对应图像区域。VLM-R1建立在Qwen2.5-VL架构基础上，结合了DeepSeek的R1方法，通过强化学习优化与监督微调（SFT...

AI工具箱9个月前

哪个视觉语言模型更优秀？全面评估InstructBLIP与MiniGPT-4的基准LVLM-eHub揭晓答案

文章概述本文讨论了当前多模态视觉语言模型（LVLMs）的评估，特别是InstructBLIP与MiniGPT-4等模型的比较。通过构建评估基准LVLM-eHub，研究者对多个视觉语言模型进行了综合评估，分析了它们在不同任务中的性能与潜在问题。研究背景大型语言模型的演进：随着LLaMA、GPT-...

开放I2年前

哪个视觉语言模型更优秀？全面评估InstructBLIP与MiniGPT-4的基准LVLM-eHub揭晓答案

视觉语言模型

VLM-R1

哪个视觉语言模型更优秀？全面评估InstructBLIP与MiniGPT-4的基准LVLM-eHub揭晓答案

热门AI工具

热门AI应用