通义千问Qwen开源视觉推理模型QVQ-72B-Preview发布

11个月前发布AI俱乐部

摘要：

Qwen团队发布了一款视觉语言大模型，名为QVQ，它集成了视觉问答（VQA）能力，能够理解图像内容并进行问答， […]

Qwen团队发布了一款视觉语言大模型，名为QVQ，它集成了视觉问答（VQA）能力，能够理解图像内容并进行问答，目前已推出首个版本。这款模型基于Qwen2-VL-72B构建，旨在探索更强的视觉理解和推理能力，为AI的图像理解提供新的可能性。在MMMU基准测试中，QVQ取得了70.3的优异成绩，超越了目前开源领域内其他同类产品，例如Qwen2-VL-72B-Instruct的性能。

QVQ模型在处理视觉信息方面表现出色，能够识别图像中的物体，并进行多轮对话。QVQ-72B-Preview是目前开放体验的版本，开发者可以利用该模型处理各种图像任务，例如图像描述、视觉推理、文档理解等。据介绍，该模型在视觉问答任务上表现出色，在各种图像理解场景中都有着广泛的应用。

Qwen团队在多个基准测试中评估了QVQ-72B-Preview的性能，包括MMMU、MathVista、MathVision和OlympiadBench等，这些测试涵盖了模型在视觉理解、推理以及问答方面的综合能力。结果显示，QVQ-72B-Preview在多个方面都表现出色，充分展现了其强大的性能。

为了方便用户体验QVQ模型的功能，Qwen团队提供了多种方式。用户可以通过API-Inference服务来体验QVQ-72B-Preview的功能。目前，用户无需部署API即可体验QVQ-72B-Preview模型，只需通过API调用即可体验该模型的各项功能。

模型地址：

https://modelscope.cn/models/Qwen/QVQ-72B-Preview

在线体验：

https://modelscope.cn/studios/Qwen/QVQ-72B-preview

项目主页：

https://qwenlm.github.io/zh/blog/qvq-72b-preview

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/m2i51ueh

通义千问Qwen开源视觉推理模型QVQ-72B-Preview发布

周鸿祎：AI无法取代人脑，警惕制造焦虑的人

面壁智能携手追知工科，共研工业AI垂直领域模型，达成战略合作

暂无评论

AI视觉模型重大发现：即使是最先进的模型，在基础视觉推理方面依然存在明显缺陷

阶跃星辰发布全新多模态推理模型 Step-R1-V-Mini

阿里巴巴发布720亿参数多模态推理模型QVQ-72B：视觉和语言能力显著提升，轻松应对复杂问题

昆仑万维发布Skywork R1V：首个开源视觉思维链推理模型

Groundlight开源框架，轻松解决复杂视觉推理问题

重磅！昆仑万维开源Skywork R1V多模态推理模型，中国AI再添实力干将！

热门AI工具

AI快讯

历史AI快讯回顾

通义千问Qwen开源视觉推理模型QVQ-72B-Preview发布

周鸿祎：AI无法取代人脑，警惕制造焦虑的人

面壁智能携手追知工科，共研工业AI垂直领域模型，达成战略合作

暂无评论

AI视觉模型重大发现：即使是最先进的模型，在基础视觉推理方面依然存在明显缺陷

阶跃星辰发布全新多模态推理模型 Step-R1-V-Mini

阿里巴巴发布720亿参数多模态推理模型QVQ-72B：视觉和语言能力显著提升，轻松应对复杂问题

昆仑万维发布Skywork R1V：首个开源视觉思维链推理模型

Groundlight开源框架，轻松解决复杂视觉推理问题

重磅！昆仑万维开源Skywork R1V多模态推理模型，中国AI再添实力干将！

热门AI工具

AI快讯

标签云

历史AI快讯回顾