字节跳动发布开源工具Multi-SWE-bench，助力大型模型代码智能升级

标签：Multi-SWE-bench 代码修复基准数据集大模型代码能力评测豆包大模型

最近，字节跳动豆包大模型团队宣布开源了Multi-SWE-bench，这是首个行业内多语言代码修复基准数据集，旨在评估和提升大型模型的自动代码修复能力。在大型模型技术快速发展的今天，代码生成任务成为检验模型智能的关键领域。尽管像SWE-bench这样的代码修复基准可以衡量模型的编程智能，但存在明显的局限性。该基准只关注Python语言，无法评估模型在不同语言之间的泛化能力；而且任务难度有限，难以覆盖复杂的开发场景，这制约了大型模型代码智能的进一步发展。

Multi-SWE-bench的推出填补了这一空白。该数据集在SWE-bench的基础上取得了重大突破，首次涵盖了Java、TypeScript、C、C++、Go、Rust和JavaScript等7种主流编程语言，共包含1632个源自真实开源仓库的修复任务。这些任务经过严格的筛选和人工验证，确保了数据集的质量和可靠性。同时，Multi-SWE-bench还引入了难度分级机制，分为简单、中等和困难三个等级，可以更全面地评估模型在不同能力层次下的表现。

根据基于该数据集进行的实验显示，当前大型语言模型在Python修复方面表现尚可，但在处理其他编程语言时，平均修复率不足10%，凸显出多语言代码修复仍是大型模型面临的挑战。一些主流模型在Python修复方面表现出色，但在其他编程语言上表现却不尽如人意。同时，随着任务难度的增加，模型的修复率呈逐步下降的趋势。

为了支持强化学习在自动编程领域的应用，团队还同时开源了Multi-SWE-RL，提供4723个实例和配套的可复现Docker环境，支持一键启动、自动评估等功能，为强化学习训练奠定了数据基础标准。此外，团队启动了开源社区计划，诚邀开发者和研究者参与数据集扩展和新方法评估等工作，共同推进RL for Code生态建设。

字节跳动豆包大模型团队表示，他们希望Multi-SWE-bench可以推动自动编程技术取得新的进展，未来将持续扩展数据集的覆盖范围，助力大型模型在自动化软件工程领域取得更大的进步。