字节跳动开源新一代代码大模型评估基准：FullStack Bench

12月5日，字节跳动研究团队发布了一个全新的综合性编程能力评测基准——FullStack Bench，它全面评估了大型语言模型在11个编程相关任务中的表现，涵盖了3374个独立的测试用例。这一基准旨在衡量模型在实际应用场景中的编码能力，涵盖了从代码生成到调试的各个环节，旨在更真实地反映模型解决实际编程问题的能力，尤其关注代码在沙箱环境中的执行效果。

针对不同的编程能力，FullStack Bench包含了HumanEval和MBPP等经典数据集，同时也整合了在线编程和数据科学相关的测试，例如DS-1000，它囊括了数据分析、数据可视化以及机器学习等任务，主要使用Python语言。xCodeEval则专注于在线编程能力的评估，覆盖了算法设计和编码实现等多个方面。总而言之，FullStack Bench旨在全面评估模型在各种编程场景下的能力表现，从而更准确地反映其真实水平。在本次发布中，他们还公开了11个不同类型的编程能力的数据集。

FullStack Bench的数据集构建基于真实的开发者活动，它从Stack Overflow等代码社区收集了超过50万个代码片段，经过筛选，最终选取了其中88.1%作为测试用例，保证了数据集的真实性和实用性。这些测试用例涵盖了各种编程相关的知识点，例如数据结构、算法以及常用的API调用等，可以全面评估模型的编程能力。研究团队认为，AI模型只有具备在真实场景中解决问题的能力，才能真正服务于开发者。

为了更加全面地评估这些大型语言模型，字节跳动研究团队还构建了一个创新的评估环境——SandboxFusion，用于在线评估代码的执行效果。SandboxFusion可以支持多达10种不同的编程语言，并且包含了23个独立的编程任务，能够准确评估模型在实际开发中处理各种复杂编程问题的能力。

此外，字节跳动研究团队还开源了一个轻量级的代码生成模型——Doubao-Coder，它利用了20亿参数规模的模型实现了强大的代码生成和理解能力。研究人员认为，在AI编程领域，仅仅依靠大型语言模型是不够的，更需要针对特定任务进行优化的模型，例如Doubao-Coder，能够在特定场景下提供更高效的解决方案。

数据集链接：https://huggingface.co/datasets/ByteDance/FullStackBench

代码链接：https://github.com/bytedance/SandboxFusion

论文链接：https://arxiv.org/pdf/2412.00535v2

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/df5b9me7

暂无评论

暂无评论...

硅心科技推出基于代码大模型的智能编程应用 aiXcoder Europa

14浏览 0点赞 2年前

字节跳动开源新一代代码大模型评估基准：FullStack Bench

DeepMind发布GenCast：AI破译天气密码，开启精准预测新纪元

AWPortraitCN重磅发布：专为中国宝宝打造的AI图像生成模型

暂无评论

硅心科技推出基于代码大模型的智能编程应用 aiXcoder Europa

热门AI工具

AI快讯

历史AI快讯回顾

字节跳动开源新一代代码大模型评估基准：FullStack Bench

DeepMind发布GenCast：AI破译天气密码，开启精准预测新纪元

AWPortraitCN重磅发布：专为中国宝宝打造的AI图像生成模型

暂无评论

硅心科技推出基于代码大模型的智能编程应用 aiXcoder Europa

热门AI工具

AI快讯

标签云

历史AI快讯回顾