艾伦AI发布全球最大文本数据集:含3万亿Tokens,超越Llama 2

近期,艾伦AI研究所宣布发布了迄今为止最大的开源文本数据集Dolma,包含了3万亿个Tokens。该数据集旨在训练大型语言模型(LLM),标志着AI2公司在开放和透明方面的努力。AI2认为数据集应该具备开放性、代表性、规模性、可复现性和风险规避性等五个标准,以促进更多研究和开发工作的展开。

艾伦AI研究所计划在2024年推出全透明构建的700亿参数大模型,名为OLMo。该项目的目标是促进大规模自然语言处理系统的研究,为此AI2正在努力确保项目的透明和开放。Dolma数据集是为OLMo准备的,以供研究人员使用和建立更好版本的数据集。与其他公司保守模型训练过程的趋势不同,AI2致力于提供数据集和模型的免费使用,并秉承监督角度,使研究更具可复现性和透明度。

在选择数据时,AI2遵循了四项原则,包括遵循现有做法、合理应用评估套件、倾向于协助核心研究方向和采取基于风险的方法来缓解潜在风险。Dolma数据集在规模和许可证方面与其他公开数据集有所不同,符合AI2制定的ImpACT许可证标准,以确保数据集的质量和使用规范。

总体而言,艾伦AI研究所的努力旨在促进AI研究的透明度和共享,在当前竞争激烈的AI领域中,其开放和公开的态度将为更广泛的研究社区带来更多机会和可能性。富的资源。该数据集收集了来自不同来源和种类的数据,达到了3万亿Tokens的级别。通过公开和透明的方式,Dolma数据集为大型数据集的开源奠定了基础,激励其他研究者在其基础上进行二次研究和开发,促进了产业的开放性和合作性发展。

这一开放透明的举措将在竞争激烈的人工智能领域激发更多创新,促进行业的共同进步。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...