通义千问实现图像识别!阿里云开源视觉语言大模型Qwen-VL,支持图文双模态输入

2年前发布AI俱乐部
9 0 0
通义千问实现图像识别!阿里云开源视觉语言大模型Qwen-VL,支持图文双模态输入的封面图

阿里云推出了视觉语言模型Qwen-VL,这是继8月发布通用模型Qwen-7B和对话模型Qwen-7B-Chat之后的又一开源大模型。Qwen-VL支持中英文,能够进行知识问答、图像标注生成、图像问答等多种应用。与其他模型相比,Qwen-VL可以在中文开放域定位,并在图像中准确标注检测框。Qwen-VL基于Qwen-7B研发,引入视觉编码器,支持图像输入。在多项视觉语言任务的测试中,取得了同类模型最佳的效果。Qwen-VL已在ModelScope等平台开源。多模态是大模型发展的重要方向,但仍面临一定技术挑战。

© 版权声明:
本文地址:https://aidh.net/kuaixun/ln7npn45

暂无评论

none
暂无评论...