阶跃星辰发布全新多模态推理模型 Step-R1-V-Mini

标签：Step-R1-V-Mini verifiablereward 多模态推理模型多模态联合强化学习

摘要：

阶跃星辰科技团队近日宣布推出全新的多模态推理模型Step-R1-V-Mini，标志着在多模态协同推理领域取得了 […]

阶跃星辰科技团队近日宣布推出全新的多模态推理模型 Step-R1-V-Mini，标志着在多模态协同推理领域取得了新的突破，为AI技术的进步注入了新的活力。该模型支持图文输入和文字输出，具备良好的指令遵循能力和通用性，可以高精度感知图像并完成复杂的推理任务。

Step-R1-V-Mini的训练方法采用了多模态联合强化学习，利用PPO（Proximal Policy Optimization）强化学习策略以及verifiable reward机制在图像空间进行创新。这一机制有效解决了图片空间推理链路复杂、容易混淆相关和因果推理错误的问题，并展现出更具泛化性和鲁棒性。此外，阶跃星辰设计了基于环境反馈的多模态数据合成链路，通过强化学习训练提升模型的文本和视觉推理能力，避免了训练过程中的问题。

Step-R1-V-Mini在视觉推理领域取得了显著成绩，在多个公开榜单中表现优异，尤其在MathVision视觉推理榜单上名列国内第一，显示出其在视觉推理、数学逻辑和代码方面的出色表现。

实际应用案例展示了Step-R1-V-Mini强大的功能，如“看图识地点”、“看图识菜谱”和“物体数量计算”等。除此之外，该模型已正式上线阶跃AI网页端，并在阶跃星辰开放平台提供API接口供开发者和研究人员使用体验。未来，阶跃星辰将继续探索推理模型方向，推动AI技术的不断发展。详细信息可访问以下链接了解：

阶跃AI 网页端: https://yuewen.cn/chats/new
阶跃星辰开放平台: https://platform.stepfun.com/docs/llm/reasoning

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/oj5t96s2

阶跃星辰发布全新多模态推理模型 Step-R1-V-Mini

全新开源模型 DeepCoder：实现超高效编程，超越OpenAI的 o1 模型

Cloudflare推出全新的AutoRAG系统：简化AI上下文感知开发

暂无评论

昆仑万维发布Skywork R1V：首个开源视觉思维链推理模型

重磅！昆仑万维开源Skywork R1V多模态推理模型，中国AI再添实力干将！

通义千问Qwen开源视觉推理模型QVQ-72B-Preview发布

热门AI工具

AI快讯

历史AI快讯回顾

阶跃星辰发布全新多模态推理模型 Step-R1-V-Mini

全新开源模型 DeepCoder：实现超高效编程，超越OpenAI的 o1 模型

Cloudflare推出全新的AutoRAG系统：简化AI上下文感知开发

暂无评论

昆仑万维发布Skywork R1V：首个开源视觉思维链推理模型

重磅！昆仑万维开源Skywork R1V多模态推理模型，中国AI再添实力干将！

通义千问Qwen开源视觉推理模型QVQ-72B-Preview发布

热门AI工具

AI快讯

标签云

历史AI快讯回顾