智源研究院发布CCI3.0:1TB中文互联网语料库重磅来袭

6个月前发布AI俱乐部
4 0 0
智源研究院发布CCI3.0:1TB中文互联网语料库重磅来袭的封面图

在2024年初,北京智源人工智能研究院(BAAI)发布了新一代大规模中文互联网语料库,名为CCI3.0(Chinese Corpora Internet),这是该系列的第三次重大更新。相较于前代,CCI3.0的数据规模大幅提升,其中原始语料超过1000GB,经过高质量清洗后精选出498GB的优质数据集CCI3.0-HQ。此版本于2023年11月首次预发布,并于2024年4月正式发布CCI2.0完整版本。

伴随预发布版本的推出,CCI系列语料库的数据量得到了显著扩充,整体规模增长至4个TB级别。这些数据来源于超过500亿个互联网页面的海量信息,覆盖了广泛的主题领域,为中文自然语言处理的研究提供了丰富且多样化的资源。

CCI3.0的关键特性包括:

  1. 数据规模显著扩大:相比于CCI2.0,CCI3.0的语料库规模增长了2.68倍,涵盖了更多样化的主题、领域和信息。这意味着CCI3.0的数据覆盖范围更广,能够支持更全面的研究。

  2. 质量显著提升,类型更加多样:CCI3.0囊括了各类互联网数据资源,包括文本、图像、音频等多种类型,共计超过10种模态的数据。值得一提的是,CCI3.0HQ包含了70B token的高质量清洗数据,进一步提升了数据质量。这为研究者提供了更广泛的选择,能够满足不同任务的需求,实现跨模态研究。

  3. 加工精细,方便易用:在500M样本规模下,利用100B语料进行上下文预测,大幅提升了语料的质量。同时,构建了高质量的文本和多模态检索系统,使得用户能够更加便捷地访问和利用这些数据,方便研究。

智源研究院表示,未来将继续致力于数据资源建设,并不断提升中文自然语言处理水平,助力大模型技术的发展,为推动人工智能领域的进步贡献力量。

获取CCI3.0资源:

Flopsera:

https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

Huggingface:https://huggingface.co/datasets/BAAI/CCI3-Data

Datahub:

https://data.baai.ac.cn/details/BAAI-CCI3

© 版权声明:
本文地址:https://aidh.net/kuaixun/rnm2tnjd

暂无评论

none
暂无评论...