通义千问2.5-VL视觉能力升级,性能赶超Claude 3.5

3个月前发布AI俱乐部
5 0 0
通义千问2.5-VL视觉能力升级,性能赶超Claude 3.5的封面图

最新一代的开源视觉语言模型Qwen2.5-VL已经发布,它提供了30亿、70亿和720亿三种不同参数规模的模型。

据了解,其中Qwen2.5-VL-72B在13项基准测试中展现出卓越的性能,能够与GPT-4oClaude3.5等领先模型相媲美。此外,Qwen2.5-VL还具备出色的长文本理解能力,可以处理超过100万tokens的视觉输入。

不仅如此,Qwen2.5-VL还在多个实际应用场景中表现出色,例如:作为AI视觉智能体(Visual Agents)的核心,它能支持复杂工具的使用,涵盖网页浏览、文档处理以及代码编写等任务。Qwen2.5-VL还支持多轮对话,并能理解图片、视频、音频和文本等多种信息。

值得一提的是,Qwen2.5-VL的光学字符识别(OCR)能力也得到了显著提升,能够处理更长的文档、更复杂的表格以及更多样化的文本内容和文本检测任务。

目前,该模型已在ModelScope上线,感兴趣的用户可以立即体验其强大的性能,包括生成式创意任务、专业领域问答以及视觉智能体应用。

快讯中提到的AI工具

Claude
Claude

由Anthropic公司开发的下一代人工智能AI助手

GPT-4o
GPT-4o

OpenAI 最新的旗舰模型

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

© 版权声明:
本文地址:https://aidh.net/kuaixun/m4jridi8

暂无评论

none
暂无评论...