通义千问Qwen2-VL开源，2B/7B尺寸视觉语言模型API开放直接调用

11个月前发布AI俱乐部

9月2日，阿里云宣布正式开源视觉语言模型 Qwen2-VL，并提供在线推理演示，支持免费使用2B、7B两种不同参数规模的模型API，方便开发者体验。

Qwen2-VL模型在多个视觉语言理解任务中表现出色。它擅长处理复杂场景下的细粒度识别和推理，例如文档问答（DocVQA）、真实世界问答（RealWorldQA）和多视角问答（MTVQA）等具有挑战性的测试。此外，该模型还能够处理20种以上的语言，支持文本生成，并能进行翻译、总结以及代码编写等任务。Qwen2-VL具有强大的多语言支持能力，可以理解不同语言的指令。

该模型还擅长回答与图像内容相关的各种问题，包括识别图像中的物体、理解图像内容、进行常识推理、以及执行Agent任务。阿里云致力于推广开源，为开发者提供模型的技术支持，包括高性能推理组件、全面的工具链、以及丰富的模型生态，助力开发者更高效地使用和定制模型。

Qwen2-VL-72B是一款性能卓越的视觉语言模型，在各种评估基准上都取得了优异的成绩。Qwen2-VL-7B则在保证出色性能的同时，降低了计算资源的需求，而Qwen2-VL-2B则更加注重轻量化设计，提供了高效的推理和部署能力。

在技术层面，Qwen2-VL采用了ViT作为Qwen2的视觉编码器，其中，三种不同规模的模型均使用了600M参数的ViT，以实现出色的图像理解和视觉特征提取能力。为了使模型能够处理更长的上下文信息，并在各种视觉语言任务中表现出色，该模型还在训练过程中应用了滑动窗口注意力机制（M-ROPE）。

阿里云已经开放了Qwen2-VL-72B的API，供开发者免费使用。与此同时，Qwen2-VL-2B和Qwen2-VL-7B的模型权重也已发布在Hugging Face Transformers、vLLM等多个平台上，方便开发者下载并在本地进行部署和使用。

阿里云魔搭社区：

https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

GitHub：

https://github.com/QwenLM/Qwen2-VL

HuggingFace：

https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

魔搭ModelScope：

https://modelscope.cn/organization/qwen?tab=model