昆仑万维发布Skywork R1V:首个开源视觉思维链推理模型

1个月前发布AI俱乐部
7 0 0

昆仑万维正式发布了全球首个工业级开源多模态推理模型Skywork R1V(简称“R1V”)。该模型拥有38亿参数,其性能已逼近知名闭源模型DeepSeek-R1,并在多个基准测试中超越了一系列当前最先进技术(SOTA)。 昆仑万维选择开源R1V,旨在促进技术共享与进步,为全球人工智能开源社区注入新的活力。

昆仑万维发布Skywork R1V:首个开源视觉思维链推理模型

R1V 凭借其卓越的多模态推理能力而备受瞩目。它能够无缝融合文本和视觉信息,展现出强大的智能化处理能力。在视觉问答任务中,R1V 的表现与Claude 3.5 Sonnet 和GPT-4o 等闭源模型不相上下,同时保持了顶级的文本推理能力。在MMMU基准测试中,R1V 以69分的优异成绩刷新了同等规模模型的最高纪录;在MathVista测试中,也取得了67.5分的出色成绩,充分展现了其在复杂数学推理和逻辑分析方面的强大实力。

R1V 的成功源于昆仑万维研发团队的多项技术创新。其中,跨模态迁移学习技术有效地将大模型的文本推理能力迁移至视觉模态,显著降低了多模态推理数据需求。此外,R1V 采用混合训练策略,结合迭代监督微调和强化学习,动态调整思维链长度,从而提升了推理效率。 值得注意的是,R1V 还引入了自适应长度思维链蒸馏框架,有效避免了“过度思考”,显著提升了推理效率和质量。

R1V 的发布使昆仑万维成为全球首家开源多模态推理模型的公司,也标志着该公司在实现通用人工智能(AGI)梦想的道路上迈出了重要一步。 模型权重、推理代码和技术报告均已公开发布,任何人都可以通过GitHub和Hugging Face获取相关资源。

资源下载:

要点总结:

  • 全球首个工业级开源多模态推理模型Skywork R1V正式发布,拥有38亿参数。
  • R1V在多个基准测试中表现卓越,尤其在MMMU和MathVista测试中分别取得69分和67.5分的高分。
  • 昆仑万维的开源举措旨在推动技术共享,为全球人工智能开源社区注入活力,并助力AGI梦想的实现。

快讯中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

Claude
Claude

由Anthropic公司开发的下一代人工智能AI助手

Hugging Face
Hugging Face

机器学习和人工智能技术的平台

GPT-4o
GPT-4o

OpenAI 最新的旗舰模型

GPT-4
GPT-4

OpenAI 发布的最新一代语言模型

© 版权声明:
本文地址:https://aidh.net/kuaixun/kbgkbta3

暂无评论

none
暂无评论...