艾伦AI发布全球最大文本数据集：含3万亿Tokens，超越Llama 2

近期，艾伦AI研究所宣布发布了迄今为止最大的开源文本数据集Dolma，包含了3万亿个Tokens。该数据集旨在训练大型语言模型（LLM），标志着AI2公司在开放和透明方面的努力。AI2认为数据集应该具备开放性、代表性、规模性、可复现性和风险规避性等五个标准，以促进更多研究和开发工作的展开。

艾伦AI研究所计划在2024年推出全透明构建的700亿参数大模型，名为OLMo。该项目的目标是促进大规模自然语言处理系统的研究，为此AI2正在努力确保项目的透明和开放。Dolma数据集是为OLMo准备的，以供研究人员使用和建立更好版本的数据集。与其他公司保守模型训练过程的趋势不同，AI2致力于提供数据集和模型的免费使用，并秉承监督角度，使研究更具可复现性和透明度。

在选择数据时，AI2遵循了四项原则，包括遵循现有做法、合理应用评估套件、倾向于协助核心研究方向和采取基于风险的方法来缓解潜在风险。Dolma数据集在规模和许可证方面与其他公开数据集有所不同，符合AI2制定的ImpACT许可证标准，以确保数据集的质量和使用规范。

总体而言，艾伦AI研究所的努力旨在促进AI研究的透明度和共享，在当前竞争激烈的AI领域中，其开放和公开的态度将为更广泛的研究社区带来更多机会和可能性。富的资源。该数据集收集了来自不同来源和种类的数据，达到了3万亿Tokens的级别。通过公开和透明的方式，Dolma数据集为大型数据集的开源奠定了基础，激励其他研究者在其基础上进行二次研究和开发，促进了产业的开放性和合作性发展。

这一开放透明的举措将在竞争激烈的人工智能领域激发更多创新，促进行业的共同进步。