百度于11月11日推出了开源的多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking,具备轻量化和高效能,展现出在视觉语言理解和跨模态推理等领域的显著能力提升。该模型通过海量视觉语言数据和多模态强化学习,增强了语义对齐和任务执行能力。新增的“图像思考”机制支持图像交互与工具调用,提高了用户体验,并在实际案例中展示了卓越的图像解析与思维能力,适用于复杂场景如公共交通和教育领域。此开源模型为多模态智能体的发展提供了强有力的支持。

百度开源ERNIE-4.5-VL-28B-A3B-Thinking,推动多模态智能的发展
在11月11日的报道中,百度正式推出了其开源的多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking。作为一款激活参数仅为3B的轻量级模型,该模型在视觉语言理解、跨模态推理和工具调用等多个领域展现出令人瞩目的能力提升。目前,该版本在多个基准测试中表现出色,几乎达到了业内顶尖模型的水平,展现了接近SOTA的视觉效果。
ERNIE-4.5-VL-28B-A3B-Thinking基于ERNIE-4.5-VL-28B-A3B架构构建,在中期训练阶段融入了海量高质量的视觉语言数据,这一举措有效提升了视觉与文本模态之间的语义对齐能力。此外,通过大规模的多模态强化学习,该模型的任务执行效果得到了显著优化,采用GSPO与IcePop策略来稳定MoE结构,结合动态难度采样机制,进一步提升了学习效率。
在此基础上,ERNIE-4.5-VL-28B-A3B-Thinking还推出了“图像思考”等交互能力,支持图像放大、图像搜索等外部工具调用,为开发者构建具备感知与执行能力的多模态智能体提供了强有力的支持。这样的技术进步,不仅提升了模型的实用性,也为未来的智能应用开辟了新的可能。
为了进一步增强模型在真实场景下的多模态交互能力,ERNIE-4.5-VL-28B-A3B-Thinking新增了“图像思考”机制,支持用户在图像上进行自由放大和缩小的焦点切换,并结合图像搜索等工具快速获取上下文信息。这一能力特别适合于处理长尾视觉知识和图像细节识别等任务,展示了技术与人类需求的完美结合。
同时,响应开发者社区对“空间定位”能力的反馈,该模型在指令遵循性与定位触发机制上也进行了增强,用户能够更加灵活地控制模型触发视觉定位功能,实现从语义到坐标的直接转换。这种灵活性不仅提高了模型的可用性,也为用户带来了更好的体验。
ERNIE-4.5-VL-28B-A3B-Thinking的工具调用能力也得到了同步升级,支持在不确定的图像环境下,动态决策是否调用外部辅助工具,从而实现更高效的信息获取链条。这样的能力是构建多模态智能体的重要组成部分,进一步印证了技术在智能化进程中的重要性。
在官方展示的多个实际案例中,ERNIE-4.5-VL-28B-A3B-Thinking展现了其卓越的图像解析与思维能力。例如,在处理复杂公共交通图表时,该模型成功解析出不同时间段的客流高峰,并推导出避开高峰的出行策略。这样的应用不仅提升了出行效率,也展现了科技对生活的积极影响。
另一个案例是在STEM题目中,该模型能够根据拍照上传的电学题,识别电路结构并准确计算出等效电阻。这一能力的提升,极大地方便了学习和教学,充分体现了智能技术在教育领域的潜力。
此外,在视觉定位任务中,模型能够识别图中穿西装并佩戴礼帽的人物,并通过边界框可视化输出其定位信息,实现从语义描述到图像坐标的转化。这种能力的实现,标志着智能技术在日常生活中的深入应用。
这些案例涵盖了图表解析、学科解题、人物定位、图像检索与视频分析等多种任务,展示了该模型在图文结合、视觉推理及工具配合等方面的基础能力。整体来看,ERNIE-4.5-VL-28B-A3B-Thinking在多个复杂视觉任务中表现出色,为评估其在真实场景下的多模态适应性提供了初步参考。
随着ERNIE-4.5-VL-28B-A3B-Thinking的开源,百度进一步丰富了其多模态模型体系中的应用层模块,为开发者提供了兼具计算效率与推理能力的开源模型选项。在不依赖大规模激活参数的前提下,该模型已能覆盖图表解析、拍题解答、人物定位、视频分析等多个复杂场景,为多模态智能体的认知与执行提供了切实的能力支持。
展望未来,随着相关工具链与模型能力的不断完善,具备“图像思考”能力的轻量模型或将在真实环境中承担更多的感知、判断与交互任务。这不仅是科技进步的体现,更是人类智慧与机器智能相结合的美好愿景。











