通义千问Qwen开源视觉推理模型QVQ-72B-Preview发布

3个月前发布AI俱乐部
3 0 0
通义千问Qwen开源视觉推理模型QVQ-72B-Preview发布的封面图

Qwen团队发布了一款视觉语言大模型,名为QVQ,它集成了视觉问答(VQA)能力,能够理解图像内容并进行问答,目前已推出首个版本。这款模型基于Qwen2-VL-72B构建,旨在探索更强的视觉理解和推理能力,为AI的图像理解提供新的可能性。在MMMU基准测试中,QVQ取得了70.3的优异成绩,超越了目前开源领域内其他同类产品,例如Qwen2-VL-72B-Instruct的性能。

QVQ模型在处理视觉信息方面表现出色,能够识别图像中的物体,并进行多轮对话。QVQ-72B-Preview是目前开放体验的版本,开发者可以利用该模型处理各种图像任务,例如图像描述、视觉推理、文档理解等。据介绍,该模型在视觉问答任务上表现出色,在各种图像理解场景中都有着广泛的应用。

Qwen团队在多个基准测试中评估了QVQ-72B-Preview的性能,包括MMMU、MathVista、MathVision和OlympiadBench等,这些测试涵盖了模型在视觉理解、推理以及问答方面的综合能力。结果显示,QVQ-72B-Preview在多个方面都表现出色,充分展现了其强大的性能。

为了方便用户体验QVQ模型的功能,Qwen团队提供了多种方式。用户可以通过API-Inference服务来体验QVQ-72B-Preview的功能。目前,用户无需部署API即可体验QVQ-72B-Preview模型,只需通过API调用即可体验该模型的各项功能。

模型地址:

https://modelscope.cn/models/Qwen/QVQ-72B-Preview

在线体验:

https://modelscope.cn/studios/Qwen/QVQ-72B-preview

项目主页:

https://qwenlm.github.io/zh/blog/qvq-72b-preview

© 版权声明:
本文地址:https://aidh.net/kuaixun/m2i51ueh

暂无评论

none
暂无评论...