艾伦AI发布全球最大文本数据集:含3万亿Tokens,超越Llama 2 近期,艾伦AI研究所宣布发布了迄今为止最大的开源文本数据集Dolma,包含了3万亿个Tokens。该数据集旨在训练大型语言模型(LLM),标志着AI2公司在开放和透明方面的努力。AI2认为数据集应该具备开放性、代表性、规模性、可复现性和风险规避性等五个标准,以促进更多研究和开发工作的展开。 艾伦AI... AI工具箱2年前