

最新一代的开源视觉语言模型Qwen2.5-VL已经发布,它提供了30亿、70亿和720亿三种不同参数规模的模型。
据了解,其中Qwen2.5-VL-72B在13项基准测试中展现出卓越的性能,能够与GPT-4o和Claude3.5等领先模型相媲美。此外,Qwen2.5-VL还具备出色的长文本理解能力,可以处理超过100万tokens的视觉输入。
不仅如此,Qwen2.5-VL还在多个实际应用场景中表现出色,例如:作为AI视觉智能体(Visual Agents)的核心,它能支持复杂工具的使用,涵盖网页浏览、文档处理以及代码编写等任务。Qwen2.5-VL还支持多轮对话,并能理解图片、视频、音频和文本等多种信息。
值得一提的是,Qwen2.5-VL的光学字符识别(OCR)能力也得到了显著提升,能够处理更长的文档、更复杂的表格以及更多样化的文本内容和文本检测任务。
目前,该模型已在ModelScope上线,感兴趣的用户可以立即体验其强大的性能,包括生成式创意任务、专业领域问答以及视觉智能体应用。
快讯中提到的AI工具
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/m4jridi8暂无评论...