

上海AI实验室与语料数据联盟联合推出了“书生·万卷”1.0多模式预训练语料,涵盖了文本、图文和视频数据集。这个开源语料库的总量超过2TB,经过了细致的清理和去重,具有融合多元、处理精细和简便高效的特点。此语料库的发布有助于推动大型模型的应用与创新,降低大型模型技术的门槛。
© 版权声明:
文章版权归作者所有,未经允许请勿转载。
本文地址:https://aidh.net/kuaixun/8p0v9l5k暂无评论...
上海AI实验室与语料数据联盟联合推出了“书生·万卷”1.0多模式预训练语料,涵盖了文本、图文和视频数据集。这个开源语料库的总量超过2TB,经过了细致的清理和去重,具有融合多元、处理精细和简便高效的特点。此语料库的发布有助于推动大型模型的应用与创新,降低大型模型技术的门槛。