

最近,字节跳动豆包大模型团队宣布开源了Multi-SWE-bench,这是首个行业内多语言代码修复基准数据集,旨在评估和提升大型模型的自动代码修复能力。在大型模型技术快速发展的今天,代码生成任务成为检验模型智能的关键领域。尽管像SWE-bench这样的代码修复基准可以衡量模型的编程智能,但存在明显的局限性。该基准只关注Python语言,无法评估模型在不同语言之间的泛化能力;而且任务难度有限,难以覆盖复杂的开发场景,这制约了大型模型代码智能的进一步发展。
Multi-SWE-bench的推出填补了这一空白。该数据集在SWE-bench的基础上取得了重大突破,首次涵盖了Java、TypeScript、C、C++、Go、Rust和JavaScript等7种主流编程语言,共包含1632个源自真实开源仓库的修复任务。这些任务经过严格的筛选和人工验证,确保了数据集的质量和可靠性。同时,Multi-SWE-bench还引入了难度分级机制,分为简单、中等和困难三个等级,可以更全面地评估模型在不同能力层次下的表现。
根据基于该数据集进行的实验显示,当前大型语言模型在Python修复方面表现尚可,但在处理其他编程语言时,平均修复率不足10%,凸显出多语言代码修复仍是大型模型面临的挑战。一些主流模型在Python修复方面表现出色,但在其他编程语言上表现却不尽如人意。同时,随着任务难度的增加,模型的修复率呈逐步下降的趋势。
为了支持强化学习在自动编程领域的应用,团队还同时开源了Multi-SWE-RL,提供4723个实例和配套的可复现Docker环境,支持一键启动、自动评估等功能,为强化学习训练奠定了数据基础标准。此外,团队启动了开源社区计划,诚邀开发者和研究者参与数据集扩展和新方法评估等工作,共同推进RL for Code生态建设。
字节跳动豆包大模型团队表示,他们希望Multi-SWE-bench可以推动自动编程技术取得新的进展,未来将持续扩展数据集的覆盖范围,助力大型模型在自动化软件工程领域取得更大的进步。