数据管理器

共 1 篇文章

ICLR 2025|浙大与千问联合发布数据预处理管理工具DataMan,详尽资料覆盖53页

本文深入探讨了大语言模型在预训练数据选择方面的重要性,并介绍了一种名为 DataMan 的数据管理器。该管理器旨在通过对预训练数据进行质量评分和领域识别,从而优化 LLM 的预训练过程。此项研究由浙江大学和阿里巴巴千问团队合作完成。 在 Scaling Law 的背景下,预训练数据的选择显得愈发重要...
智能之星2个月前