阿里发布全新多模态模型 Qwen2.5-VL-32B：融合视觉、语言和数学推理

标签：Qwen2.5-VL-32B-Instruct 多模态模型大型语言模型阿里巴巴

摘要：

近日，阿里巴巴在人工智能领域带来了重要消息，宣布开源最新的多模态模型——Qwen2.5-VL-32B-Inst […]

阿里发布全新多模态模型 Qwen2.5-VL-32B：融合视觉、语言和数学推理的封面图

近日，阿里巴巴在人工智能领域带来了重要消息，宣布开源最新的多模态模型——Qwen2.5-VL-32B-Instruct。这款新模型是Qwen2.5系列中的一员，其它版本包括3B、7B和72B。32B版本在性能方面保持的同时，更专注于提供便捷的本地运行体验。

Qwen2.5-VL-32B经过强化学习的优化，在多个方面表现出色。首先，其回答更符合人类的认知习惯，用户与模型互动时将获得更自然流畅的体验。其次，该模型的数学推理能力得到显著提升，能准确清晰地进行复杂数学题和几何分析。此外，在图像解析、内容识别和视觉逻辑推导等任务中，该模型的准确性也明显改善，使其在处理多模态数据时能提供更精细的分析。

与Mistral-Small-3.1-24B和Gemma-3-27B-IT等同类模型相比，Qwen2.5-VL-32B在纯文本能力上已达到最佳表现，甚至在多个基准测试中超越了72B版本。这一成就突显了阿里在多模态AI技术领域的领先地位。

例如，当用户向Qwen2.5-VL-32B展示一张交通指示牌的照片，并询问能否在一个小时内到达110公里外的目的地时，模型将分析时间、距离及车辆的限速，逐步推导出正确答案。这种复杂的推理能力令人赞叹。

目前，Qwen2.5-VL-32B已在Hugging Face上开源，用户可在Qwen Chat平台直接体验其强大功能。随着开源活动深入，越来越多开发者和用户积极参与并在MLX Community中进行试验，讨论也在Hacker News等社交平台上热烈展开。

阿里此次发布再次引起业内热议，许多人认为开源的力量正在不断突破边界，为人工智能的未来发展开辟了无限可能。