

阿里云推出了视觉语言模型Qwen-VL,这是继8月发布通用模型Qwen-7B和对话模型Qwen-7B-Chat之后的又一开源大模型。Qwen-VL支持中英文,能够进行知识问答、图像标注生成、图像问答等多种应用。与其他模型相比,Qwen-VL可以在中文开放域定位,并在图像中准确标注检测框。Qwen-VL基于Qwen-7B研发,引入视觉编码器,支持图像输入。在多项视觉语言任务的测试中,取得了同类模型最佳的效果。Qwen-VL已在ModelScope等平台开源。多模态是大模型发展的重要方向,但仍面临一定技术挑战。
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/ln7npn45暂无评论...