通义千问实现图像识别！阿里云开源视觉语言大模型Qwen-VL，支持图文双模态输入

摘要：

阿里云推出了视觉语言模型Qwen-VL，这是继8月发布通用模型Qwen-7B和对话模型Qwen-7B-Chat […]

通义千问实现图像识别！阿里云开源视觉语言大模型Qwen-VL，支持图文双模态输入的封面图

阿里云推出了视觉语言模型 Qwen-VL，这是继8月发布通用模型Qwen-7B和对话模型Qwen-7B-Chat之后的又一开源大模型。Qwen-VL支持中英文，能够进行知识问答、图像标注生成、图像问答等多种应用。与其他模型相比，Qwen-VL可以在中文开放域定位，并在图像中准确标注检测框。Qwen-VL基于Qwen-7B研发，引入视觉编码器，支持图像输入。在多项视觉语言任务的测试中，取得了同类模型最佳的效果。Qwen-VL已在ModelScope等平台开源。多模态是大模型发展的重要方向，但仍面临一定技术挑战。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/ln7npn45