DeepSeek国产大模型爆火:揭示大模型专利申请激增的行业趋势

3个月前发布AI俱乐部
9 0 0
DeepSeek国产大模型爆火:揭示大模型专利申请激增的行业趋势的封面图

近日,国内人工智能新锐DeepSeek发布了其自研的“高质量、大规模”中文语料库,旨在为行业提供高质量的预训练数据。据了解,该数据集涵盖了高质量的文本数据以及代码数据,可用于训练各类中文语言模型。

在具体数据方面,截至2024年6月,DeepSeek已经开源了包含1.64万亿token的数据集。与以往开源的数据集不同,此次开源包含了代码数据,使得2023年开源的数据集总量达到3.895万亿token,并在一年内增长了近20%。展望2024年,其数据集规模将持续扩大,预计增长率将超过207.19%,达到1.2万亿token。

快讯中提到的AI工具

DeepSeek
DeepSeek

深度求索:引领未来人工智能技术的探索与创新

© 版权声明:
本文地址:https://aidh.net/kuaixun/jtcsks0m

暂无评论

none
暂无评论...