

阶跃星辰科技团队近日宣布推出全新的多模态推理模型Step-R1-V-Mini,标志着在多模态协同推理领域取得了新的突破,为AI技术的进步注入了新的活力。该模型支持图文输入和文字输出,具备良好的指令遵循能力和通用性,可以高精度感知图像并完成复杂的推理任务。
Step-R1-V-Mini的训练方法采用了多模态联合强化学习,利用PPO(Proximal Policy Optimization)强化学习策略以及verifiable reward机制在图像空间进行创新。这一机制有效解决了图片空间推理链路复杂、容易混淆相关和因果推理错误的问题,并展现出更具泛化性和鲁棒性。此外,阶跃星辰设计了基于环境反馈的多模态数据合成链路,通过强化学习训练提升模型的文本和视觉推理能力,避免了训练过程中的问题。
Step-R1-V-Mini在视觉推理领域取得了显著成绩,在多个公开榜单中表现优异,尤其在MathVision视觉推理榜单上名列国内第一,显示出其在视觉推理、数学逻辑和代码方面的出色表现。
实际应用案例展示了Step-R1-V-Mini强大的功能,如“看图识地点”、“看图识菜谱”和“物体数量计算”等。除此之外,该模型已正式上线阶跃AI网页端,并在阶跃星辰开放平台提供API接口供开发者和研究人员使用体验。未来,阶跃星辰将继续探索推理模型方向,推动AI技术的不断发展。详细信息可访问以下链接了解:
- 阶跃AI 网页端: https://yuewen.cn/chats/new
- 阶跃星辰开放平台: https://platform.stepfun.com/docs/llm/reasoning
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/oj5t96s2暂无评论...