IBM发布完整6.48TB大型语言模型训练数据集

8个月前发布AI俱乐部
3 0 0
IBM发布完整6.48TB大型语言模型训练数据集的封面图

IBM 近期宣布推出用于企业级自然语言处理任务的 Granite13B LLM 模型。据了解,IBM 的 AI 团队负责人 Armand Ruiz 透露,Granite13B 模型训练所用的数据集高达 6.48TB。

这个庞大的数据集经过了精心的提炼,最终缩小至 2.07TB,压缩比例高达 68%。Armand Ruiz 指出,该数据集涵盖了代码生成、常识推理以及数学和科学相关的数据,旨在提升企业级自然语言处理的性能。

该数据集的具体构成包括:

- arXiv:用于获取最新的学术研究论文。

- Common Crawl:提供了海量的网页文本数据。

- DeepMind Mathematics:专注于数学领域的数据集。

- Free Law:汇集了大量的法律文档。

- GitHub Clean:经过清洗的 GitHub 代码数据,源自 CodeParrot 项目。

- Hacker News:2007-2018 年间的评论和链接数据。

- OpenWeb Text:OpenAI Web Text 数据集的开源版本。

- Project Gutenberg(PG-19):收录了大量经典文学作品。

- Pubmed Central:提供了生物医学领域的论文和数据。

- SEC Filings:美国证券交易委员会(SEC)的财务报告数据(1934-2022年)。

- Stack Exchange:Stack Exchange 社区中的问答数据。

- USPTO:1975 年至 2023 年 5 月的美国专利数据。

- Webhose:来自全球网络的内容数据源。

- Wikimedia:维基百科等多语言知识库。

在数据处理方面,团队采用了严格的过滤和去重机制,包括全文去重、模糊去重、URL 匹配去重、启发式去重等。

通过这些数据清洗和提炼手段,研究团队保证了数据集的质量,为 Granite 模型的卓越性能奠定了基础。

IBM 推出 Granite 系列模型旨在为企业提供更加可靠和高效的 AI 解决方案,其模型参数规模从 30 亿到 340 亿不等。这些模型在多个基准测试中表现出色,甚至超越了 Code Llama 和 Llama3 等知名模型。

总结:

⭐ IBM 近期发布了 Granite13B LLM 模型,该模型使用 6.48TB 的数据集进行训练。

⭐ 经过提炼,实际使用的数据集大小为 2.07TB,压缩比例高达 68%。

⭐ IBM 推出 Granite 系列模型,参数规模从 30 亿到 340 亿不等,旨在为企业提供卓越的 AI 解决方案。

快讯中提到的AI工具

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/ko1utvne

暂无评论

none
暂无评论...