

9月2日,阿里云宣布正式开源视觉语言模型Qwen2-VL,并提供在线推理演示,支持免费使用2B、7B两种不同参数规模的模型API,方便开发者体验。
Qwen2-VL模型在多个视觉语言理解任务中表现出色。它擅长处理复杂场景下的细粒度识别和推理,例如文档问答(DocVQA)、真实世界问答(RealWorldQA)和多视角问答(MTVQA)等具有挑战性的测试。此外,该模型还能够处理20种以上的语言,支持文本生成,并能进行翻译、总结以及代码编写等任务。Qwen2-VL具有强大的多语言支持能力,可以理解不同语言的指令。
该模型还擅长回答与图像内容相关的各种问题,包括识别图像中的物体、理解图像内容、进行常识推理、以及执行Agent任务。阿里云致力于推广开源,为开发者提供模型的技术支持,包括高性能推理组件、全面的工具链、以及丰富的模型生态,助力开发者更高效地使用和定制模型。
Qwen2-VL-72B是一款性能卓越的视觉语言模型,在各种评估基准上都取得了优异的成绩。Qwen2-VL-7B则在保证出色性能的同时,降低了计算资源的需求,而Qwen2-VL-2B则更加注重轻量化设计,提供了高效的推理和部署能力。
在技术层面,Qwen2-VL采用了ViT作为Qwen2的视觉编码器,其中,三种不同规模的模型均使用了600M参数的ViT,以实现出色的图像理解和视觉特征提取能力。为了使模型能够处理更长的上下文信息,并在各种视觉语言任务中表现出色,该模型还在训练过程中应用了滑动窗口注意力机制(M-ROPE)。
阿里云已经开放了Qwen2-VL-72B的API,供开发者免费使用。与此同时,Qwen2-VL-2B和Qwen2-VL-7B的模型权重也已发布在Hugging Face Transformers、vLLM等多个平台上,方便开发者下载并在本地进行部署和使用。
阿里云魔搭社区:
https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api
GitHub:
https://github.com/QwenLM/Qwen2-VL
HuggingFace:
https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
魔搭ModelScope:
https://modelscope.cn/organization/qwen?tab=model
在线体验:
https://huggingface.co/spaces/Qwen/Qwen2-VL
快讯中提到的AI工具

机器学习和人工智能技术的平台