
昆仑万维今日宣布其研发的Skywork R1V多模态推理模型正式开源,这是中国首个工业界开源的多模态推理模型,标志着中国人工智能技术在多模态理解和推理领域取得里程碑式进展。模型权重和技术报告现已公开发布。
Skywork R1V能够进行图像理解并进行逻辑推理,解决复杂的视觉问题。该模型擅长通过多步骤逻辑分析从海量视觉信息中提取深层含义,并给出精准答案。其应用场景涵盖视觉逻辑谜题求解、高难度视觉数学题解答、科学现象图像分析,甚至辅助医学影像诊断推理等。

在权威的MATH500和AIME基准测试中,Skywork R1V的推理能力得分分别高达94.0和72.0,展现出强大的数学解题和逻辑推理能力。此外,在MMMU和MathVista等视觉推理基准测试中,其得分分别为69和67.5,其表现可与更大规模的闭源模型媲美。

Skywork R1V的三大关键技术创新包括:
第一,文本推理能力的多模态高效迁移。该模型巧妙地利用Skywork-VL的视觉投影器,将强大的文本推理能力高效迁移至视觉任务,无需重新训练语言模型和视觉编码器,实现了能力的有效转移。
第二,多模态混合式训练(Iterative SFT+GRPO)。通过迭代监督微调和GRPO强化学习的结合,该模型能够分阶段、策略性地对齐视觉-文本表征,实现跨模态任务的高效融合,显著提升跨模态能力。
第三,自适应长度思维链蒸馏。该模型采用一种“智能刹车”机制,根据视觉-文本的复杂度自适应调整推理链长度,避免过度推理,从而在保证精度的同时提升效率。多阶段自蒸馏策略进一步提升了数据生成和推理质量。

Skywork R1V的开源将为中国及全球人工智能研究者和开发者提供强大的多模态推理工具,加速多模态人工智能技术创新和应用,推动人工智能技术在各行各业的深度融合,从而创造更智能、更美好的未来。