Kimi的开源视觉语言模型Kim-VL和Kimi-VL-Thinking在多个基准上超越GPT-4o

备受瞩目的国内人工智能公司“月之暗面”（Moonshot AI）近日宣布，正式开源发布了两款全新的视觉语言模型——“Kimi-VL”和“Kimi-VL-Thinking”。这两款模型以其轻量级的架构和卓越的多模态理解与推理能力，在多个关键基准测试中超越了包括GPT-4o在内的众多大型模型，引发行业广泛关注。

轻盈身躯，蕴藏潜力无限

与动辄拥有数百亿甚至千亿参数的主流大模型不同，Kimi-VL和Kimi-VL-Thinking均采用了MoE（混合专家）架构，其激活参数仅约30亿。这意味着它们在运行和部署上更加高效，对计算资源的要求更低。然而，即便在如此轻量级的架构下，这两款模型依然在多项基准测试中取得了令人瞩目的优异成绩，充分展现了其强大的推理能力。

多模态智能再升级：数学推理与智能体操作表现亮眼

Kimi-VL系列模型在多模态推理和智能体能力方面表现突出。在考验模型多模态数学推理能力的MathVision基准测试中，Kimi-VL取得了36.8%的成绩，与参数量远超其十倍的大型模型相媲美。更令人印象深刻的是，在评估智能体操作能力的ScreenSpot-Pro任务上，Kimi-VL的得分达到了34.5%，表明该模型在理解复杂用户界面并执行相应操作方面拥有出色的潜力，为未来开发更智能的人机交互应用奠定了基础。

高清视野：原生支持高分辨率图像处理

得益于MoonViT架构，Kimi-VL系列模型具备强大的图文识别与理解能力。在OCRBench基准测试中，其得分高达867，充分证明了其在处理高分辨率图像和识别复杂文本方面的卓越性能。这一特性对于处理包含大量图像和文档信息的应用场景至关重要。

超长记忆：轻松驾驭长上下文理解

超长上下文理解能力是Kimi-VL系列模型的另一大亮点。它们支持高达128K tokens的上下文输入。这意味着模型可以同时处理更长的文档、视频等复杂长文本信息，并进行更深入的理解和分析。在长文档理解测试MMLongBench-Doc中，Kimi-VL取得了35.1%的成绩，而在长视频理解测试LongVideoBench上，更是获得了高达64.5%的高分。这使得Kimi-VL系列模型在文档问答、视频分析等需要处理大量上下文信息的场景中具备巨大的应用潜力。

开源共享，共创多模态智能未来

月之暗面AI强调，此次开源发布Kimi-VL和Kimi-VL-Thinking只是迈向通用多模态智能的一小步。他们希望通过开源的方式吸引更多社区开发者参与到模型的应用开发中，共同探索Kimi-VL系列模型在文档问答、界面操作、图文理解、视频分析等领域的无限可能性。目前，开发者可以通过以下方式获取Kimi-VL系列模型的相关信息和代码：