OpenAI发布SWE-bench Verified：强化AI软件工程能力评估标准

12个月前发布AI俱乐部

OpenAI于8月13日发布了SWE-bench Verified，这是一个旨在评估代码生成模型在解决实际软件工程问题方面的基准。它能够更精确地评估模型在现实代码场景中的表现。这是现有SWE-bench基准的升级版本。

SWE-bench是一个基于GitHub开源项目的评估工具，它包含了超过12,000个来自Python项目的Issue-Pull Request对。为了提高评估的准确性，SWE-bench Verified专注于三个关键领域：减少噪声、更准确地评估模型，并确保可以重复实验。

为了便于使用，SWE-bench Verified提供了一个预构建的Docker镜像，使开发者能够更轻松地测试他们的代码生成模型，并最大限度地减少潜在的偏差。首次结果表明，AI模型在代码生成方面的能力有所提升。例如，GPT-4o在基准测试中达到了33.2%的解决率，而采用无代理设置时，解决率也有16%的提升。

总而言之，SWE-bench Verified旨在为评估AI模型在软件工程领域的应用提供一个更可靠的平台。通过持续优化AI在代码相关任务中的表现，OpenAI致力于推动更高效、更智能的软件开发流程，并简化开发工作。

随着AI技术在软件开发领域的不断发展，SWE-bench Verified有望成为评估代码生成模型性能的重要工具，并为未来的AI软件工程研究奠定基础。

了解更多：https://openai.com/index/introducing-swe-bench-verified/