AI模型屏蔽训练数据域名数激增

8个月前发布AI俱乐部
7 0 0
AI模型屏蔽训练数据域名数激增的封面图

通常情况下,人工智能模型依赖于大量数据集进行训练,以学习和生成文本。据“数据溯源计划”显示,从2023年4月到2024年4月,人工智能模型训练所使用的数据集中,非高质量内容占比从1%增长到5-7%。这是一个值得关注的现象,表明AI模型在数据获取方面面临一定的挑战,同时也影响了生成内容的质量。

数据溯源结果显示,在超过14,000个robots.txt文件中,明确禁止抓取AI模型训练所需的数据,这部分数据恰恰是C4、RefinedWeb和Dolma等知名AI训练数据集的重要来源。

研究表明,网络文本、代码和学术内容等是AI模型训练的关键组成部分,然而,网络文本数据中,垃圾信息的比例已从3%上升到45%。这种现象凸显了在人工智能训练中,高质量数据的重要性,同时也说明互联网中存在大量低质量、重复的内容。

一个重要的现实是,AI的持续发展依赖于数据质量的提升,这意味着我们需要更有效地识别和筛选用于训练AI模型的数据。目前,行业对高质量数据的需求正在不断增长。

Meta的研究揭示了一个事实,即大量用于训练AI模型的公开数据实际上并未获得明确的许可授权,这引发了人们对数据来源合法性和合规性的担忧。

为了应对这些挑战,我们需要更加重视数据质量,并采取积极的措施来解决数据来源和使用的相关问题。OpenAI等领先的AI机构已经开始采取行动,努力提高用于训练AI模型的数据质量。未来,我们有望看到更多关于数据质量和AI训练的讨论,从而推动行业的健康发展。

要点总结:

  • 数据质量趋势:在2023年至2024年间,用于AI模型训练的数据集中,低质量内容的比例显著增加,从3%增长到45%。

  • 高质量数据需求:高质量的网络数据对于AI模型的有效训练至关重要,但目前互联网上充斥着大量的低质量和重复内容。

  • 数据许可与合规:当前AI模型训练所使用的数据,可能未获得充分的许可授权,这给数据的使用带来了潜在的法律和道德风险。OpenAI和Meta等公司正在积极探索提高数据质量并确保数据合规的方法。

快讯中提到的AI工具

OpenAI
OpenAI

致力于创造对全人类有益的安全 AGI

© 版权声明:
本文地址:https://aidh.net/kuaixun/5t2t8fl9

暂无评论

none
暂无评论...