通义千问2.5-VL视觉能力升级，性能赶超Claude 3.5

10个月前发布AI俱乐部

摘要：

最新一代的开源视觉语言模型Qwen2.5-VL已经发布，它提供了30亿、70亿和720亿三种不同参数规模的模型 […]

最新一代的开源视觉语言模型Qwen2.5-VL已经发布，它提供了30亿、70亿和720亿三种不同参数规模的模型。

据了解，其中Qwen2.5-VL-72B在13项基准测试中展现出卓越的性能，能够与GPT-4o和Claude3.5等领先模型相媲美。此外，Qwen2.5-VL还具备出色的长文本理解能力，可以处理超过100万tokens的视觉输入。

不仅如此，Qwen2.5-VL还在多个实际应用场景中表现出色，例如：作为AI视觉智能体（Visual Agents）的核心，它能支持复杂工具的使用，涵盖网页浏览、文档处理以及代码编写等任务。Qwen2.5-VL还支持多轮对话，并能理解图片、视频、音频和文本等多种信息。

值得一提的是，Qwen2.5-VL的光学字符识别（OCR）能力也得到了显著提升，能够处理更长的文档、更复杂的表格以及更多样化的文本内容和文本检测任务。

目前，该模型已在ModelScope上线，感兴趣的用户可以立即体验其强大的性能，包括生成式创意任务、专业领域问答以及视觉智能体应用。

快讯中提到的AI工具

Claude

由Anthropic公司开发的下一代人工智能AI助手

GPT-4o

OpenAI 最新的旗舰模型

GPT-4

OpenAI 发布的最新一代语言模型

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/m4jridi8