

通常情况下,人工智能模型依赖于大量数据集进行训练,以学习和生成文本。据“数据溯源计划”显示,从2023年4月到2024年4月,人工智能模型训练所使用的数据集中,非高质量内容占比从1%增长到5-7%。这是一个值得关注的现象,表明AI模型在数据获取方面面临一定的挑战,同时也影响了生成内容的质量。
数据溯源结果显示,在超过14,000个robots.txt文件中,明确禁止抓取AI模型训练所需的数据,这部分数据恰恰是C4、RefinedWeb和Dolma等知名AI训练数据集的重要来源。
研究表明,网络文本、代码和学术内容等是AI模型训练的关键组成部分,然而,网络文本数据中,垃圾信息的比例已从3%上升到45%。这种现象凸显了在人工智能训练中,高质量数据的重要性,同时也说明互联网中存在大量低质量、重复的内容。
一个重要的现实是,AI的持续发展依赖于数据质量的提升,这意味着我们需要更有效地识别和筛选用于训练AI模型的数据。目前,行业对高质量数据的需求正在不断增长。
Meta的研究揭示了一个事实,即大量用于训练AI模型的公开数据实际上并未获得明确的许可授权,这引发了人们对数据来源合法性和合规性的担忧。
为了应对这些挑战,我们需要更加重视数据质量,并采取积极的措施来解决数据来源和使用的相关问题。OpenAI等领先的AI机构已经开始采取行动,努力提高用于训练AI模型的数据质量。未来,我们有望看到更多关于数据质量和AI训练的讨论,从而推动行业的健康发展。
要点总结:
-
数据质量趋势:在2023年至2024年间,用于AI模型训练的数据集中,低质量内容的比例显著增加,从3%增长到45%。
-
高质量数据需求:高质量的网络数据对于AI模型的有效训练至关重要,但目前互联网上充斥着大量的低质量和重复内容。
-
数据许可与合规:当前AI模型训练所使用的数据,可能未获得充分的许可授权,这给数据的使用带来了潜在的法律和道德风险。OpenAI和Meta等公司正在积极探索提高数据质量并确保数据合规的方法。
快讯中提到的AI工具

致力于创造对全人类有益的安全 AGI