

近日,国内人工智能新锐DeepSeek发布了其自研的“高质量、大规模”中文语料库,旨在为行业提供高质量的预训练数据。据了解,该数据集涵盖了高质量的文本数据以及代码数据,可用于训练各类中文语言模型。
在具体数据方面,截至2024年6月,DeepSeek已经开源了包含1.64万亿token的数据集。与以往开源的数据集不同,此次开源包含了代码数据,使得2023年开源的数据集总量达到3.895万亿token,并在一年内增长了近20%。展望2024年,其数据集规模将持续扩大,预计增长率将超过207.19%,达到1.2万亿token。
快讯中提到的AI工具

DeepSeek
深度求索:引领未来人工智能技术的探索与创新
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/jtcsks0m暂无评论...