

IBM 近期宣布推出用于企业级自然语言处理任务的 Granite13B LLM 模型。据了解,IBM 的 AI 团队负责人 Armand Ruiz 透露,Granite13B 模型训练所用的数据集高达 6.48TB。
这个庞大的数据集经过了精心的提炼,最终缩小至 2.07TB,压缩比例高达 68%。Armand Ruiz 指出,该数据集涵盖了代码生成、常识推理以及数学和科学相关的数据,旨在提升企业级自然语言处理的性能。
该数据集的具体构成包括:
- arXiv:用于获取最新的学术研究论文。
- Common Crawl:提供了海量的网页文本数据。
- DeepMind Mathematics:专注于数学领域的数据集。
- Free Law:汇集了大量的法律文档。
- GitHub Clean:经过清洗的 GitHub 代码数据,源自 CodeParrot 项目。
- Hacker News:2007-2018 年间的评论和链接数据。
- OpenWeb Text:OpenAI Web Text 数据集的开源版本。
- Project Gutenberg(PG-19):收录了大量经典文学作品。
- Pubmed Central:提供了生物医学领域的论文和数据。
- SEC Filings:美国证券交易委员会(SEC)的财务报告数据(1934-2022年)。
- Stack Exchange:Stack Exchange 社区中的问答数据。
- USPTO:1975 年至 2023 年 5 月的美国专利数据。
- Webhose:来自全球网络的内容数据源。
- Wikimedia:维基百科等多语言知识库。
在数据处理方面,团队采用了严格的过滤和去重机制,包括全文去重、模糊去重、URL 匹配去重、启发式去重等。
通过这些数据清洗和提炼手段,研究团队保证了数据集的质量,为 Granite 模型的卓越性能奠定了基础。
IBM 推出 Granite 系列模型旨在为企业提供更加可靠和高效的 AI 解决方案,其模型参数规模从 30 亿到 340 亿不等。这些模型在多个基准测试中表现出色,甚至超越了 Code Llama 和 Llama3 等知名模型。
总结:
⭐ IBM 近期发布了 Granite13B LLM 模型,该模型使用 6.48TB 的数据集进行训练。
⭐ 经过提炼,实际使用的数据集大小为 2.07TB,压缩比例高达 68%。
⭐ IBM 推出 Granite 系列模型,参数规模从 30 亿到 340 亿不等,旨在为企业提供卓越的 AI 解决方案。
快讯中提到的AI工具

致力于创造对全人类有益的安全 AGI