IBM发布完整6.48TB大型语言模型训练数据集

1年前发布AI俱乐部

4 0 0

IBM 近期宣布推出用于企业级自然语言处理任务的 Granite13B LLM 模型。据了解，IBM 的 AI 团队负责人 Armand Ruiz 透露，Granite13B 模型训练所用的数据集高达 6.48TB。

这个庞大的数据集经过了精心的提炼，最终缩小至 2.07TB，压缩比例高达 68%。Armand Ruiz 指出，该数据集涵盖了代码生成、常识推理以及数学和科学相关的数据，旨在提升企业级自然语言处理的性能。

该数据集的具体构成包括：

– arXiv：用于获取最新的学术研究论文。

– Common Crawl：提供了海量的网页文本数据。

– DeepMind Mathematics：专注于数学领域的数据集。

– Free Law：汇集了大量的法律文档。

– GitHub Clean：经过清洗的 GitHub 代码数据，源自 CodeParrot 项目。

– Hacker News：2007-2018 年间的评论和链接数据。

– OpenWeb Text：OpenAI Web Text 数据集的开源版本。

– Project Gutenberg（PG-19）：收录了大量经典文学作品。

– Pubmed Central：提供了生物医学领域的论文和数据。

– SEC Filings：美国证券交易委员会（SEC）的财务报告数据(1934-2022年)。

– Stack Exchange：Stack Exchange 社区中的问答数据。

– USPTO：1975 年至 2023 年 5 月的美国专利数据。

– Webhose：来自全球网络的内容数据源。

– Wikimedia：维基百科等多语言知识库。

在数据处理方面，团队采用了严格的过滤和去重机制，包括全文去重、模糊去重、URL 匹配去重、启发式去重等。

通过这些数据清洗和提炼手段，研究团队保证了数据集的质量，为 Granite 模型的卓越性能奠定了基础。

IBM 推出 Granite 系列模型旨在为企业提供更加可靠和高效的 AI 解决方案，其模型参数规模从 30 亿到 340 亿不等。这些模型在多个基准测试中表现出色，甚至超越了 Code Llama 和 Llama3 等知名模型。

总结：

⭐ IBM 近期发布了 Granite13B LLM 模型，该模型使用 6.48TB 的数据集进行训练。

⭐ 经过提炼，实际使用的数据集大小为 2.07TB，压缩比例高达 68%。

⭐ IBM 推出 Granite 系列模型，参数规模从 30 亿到 340 亿不等，旨在为企业提供卓越的 AI 解决方案。

快讯中提到的AI工具

OpenAI

致力于创造对全人类有益的安全 AGI

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/ko1utvne

IBM发布完整6.48TB大型语言模型训练数据集

快讯中提到的AI工具

阶跃星辰发布Step-2等多款模型，多模态能力成亮点

Zepp Health推出Zepp OS 4智能手表系统，集成GPT-4o模型

暂无评论

谷歌AI购物助手：升级标签，个性化推荐来袭

马斯克xAI计划招募数千名“AI导师”，助力Grok能力飞跃

Gartner预测：烧钱不止，2025年将有三成生成式AI业务遭淘汰

超150万电商用户信赖美图AI：商品图及AI模特试衣功能

2023中国科学十大进展揭晓：AI大模型助力精准天气预报等成果入选

OpenAI机器人涉嫌DDoS攻击小型电商网站并窃取数据

训练千亿参数大模型所需的算力规模

OpenAI付费客户突破百万，消费者订阅贡献约75%营收

热门AI工具

AI快讯

历史AI快讯回顾

IBM发布完整6.48TB大型语言模型训练数据集

快讯中提到的AI工具

阶跃星辰发布Step-2等多款模型，多模态能力成亮点

Zepp Health推出Zepp OS 4智能手表系统，集成GPT-4o模型

热门AI工具

AI快讯

标签云

历史AI快讯回顾