

Qwen团队发布了一款视觉语言大模型,名为QVQ,它集成了视觉问答(VQA)能力,能够理解图像内容并进行问答,目前已推出首个版本。这款模型基于Qwen2-VL-72B构建,旨在探索更强的视觉理解和推理能力,为AI的图像理解提供新的可能性。在MMMU基准测试中,QVQ取得了70.3的优异成绩,超越了目前开源领域内其他同类产品,例如Qwen2-VL-72B-Instruct的性能。
QVQ模型在处理视觉信息方面表现出色,能够识别图像中的物体,并进行多轮对话。QVQ-72B-Preview是目前开放体验的版本,开发者可以利用该模型处理各种图像任务,例如图像描述、视觉推理、文档理解等。据介绍,该模型在视觉问答任务上表现出色,在各种图像理解场景中都有着广泛的应用。
Qwen团队在多个基准测试中评估了QVQ-72B-Preview的性能,包括MMMU、MathVista、MathVision和OlympiadBench等,这些测试涵盖了模型在视觉理解、推理以及问答方面的综合能力。结果显示,QVQ-72B-Preview在多个方面都表现出色,充分展现了其强大的性能。
为了方便用户体验QVQ模型的功能,Qwen团队提供了多种方式。用户可以通过API-Inference服务来体验QVQ-72B-Preview的功能。目前,用户无需部署API即可体验QVQ-72B-Preview模型,只需通过API调用即可体验该模型的各项功能。
模型地址:
https://modelscope.cn/models/Qwen/QVQ-72B-Preview
在线体验:
https://modelscope.cn/studios/Qwen/QVQ-72B-preview
项目主页:
https://qwenlm.github.io/zh/blog/qvq-72b-preview