字节跳动开源新一代代码大模型评估基准:FullStack Bench

3个月前发布AI俱乐部
3 0 0
字节跳动开源新一代代码大模型评估基准:FullStack Bench的封面图

12月5日,字节跳动研究团队发布了一个全新的综合性编程能力评测基准——FullStack Bench,它全面评估了大型语言模型在11个编程相关任务中的表现,涵盖了3374个独立的测试用例。这一基准旨在衡量模型在实际应用场景中的编码能力,涵盖了从代码生成到调试的各个环节,旨在更真实地反映模型解决实际编程问题的能力,尤其关注代码在沙箱环境中的执行效果。

针对不同的编程能力,FullStack Bench包含了HumanEval和MBPP等经典数据集,同时也整合了在线编程和数据科学相关的测试,例如DS-1000,它囊括了数据分析、数据可视化以及机器学习等任务,主要使用Python语言。xCodeEval则专注于在线编程能力的评估,覆盖了算法设计和编码实现等多个方面。总而言之,FullStack Bench旨在全面评估模型在各种编程场景下的能力表现,从而更准确地反映其真实水平。在本次发布中,他们还公开了11个不同类型的编程能力的数据集。

FullStack Bench的数据集构建基于真实的开发者活动,它从Stack Overflow等代码社区收集了超过50万个代码片段,经过筛选,最终选取了其中88.1%作为测试用例,保证了数据集的真实性和实用性。这些测试用例涵盖了各种编程相关的知识点,例如数据结构、算法以及常用的API调用等,可以全面评估模型的编程能力。研究团队认为,AI模型只有具备在真实场景中解决问题的能力,才能真正服务于开发者。

为了更加全面地评估这些大型语言模型,字节跳动研究团队还构建了一个创新的评估环境——SandboxFusion,用于在线评估代码的执行效果。SandboxFusion可以支持多达10种不同的编程语言,并且包含了23个独立的编程任务,能够准确评估模型在实际开发中处理各种复杂编程问题的能力。

此外,字节跳动研究团队还开源了一个轻量级的代码生成模型——Doubao-Coder,它利用了20亿参数规模的模型实现了强大的代码生成和理解能力。研究人员认为,在AI编程领域,仅仅依靠大型语言模型是不够的,更需要针对特定任务进行优化的模型,例如Doubao-Coder,能够在特定场景下提供更高效的解决方案。

数据集链接:https://huggingface.co/datasets/ByteDance/FullStackBench

代码链接:https://github.com/bytedance/SandboxFusion

论文链接:https://arxiv.org/pdf/2412.00535v2

© 版权声明:
本文地址:https://aidh.net/kuaixun/df5b9me7

暂无评论

none
暂无评论...