

使用大量受版权保护的材料训练 AI 模型引发了争议,促使人们质疑用于训练大型语言模型的数据集的来源和使用方式。这些数据集包含了大量互联网上的文本信息,包括受版权保护的图书内容,引发了对数据来源合法性的讨论,特别是考虑到其中涉及到对作家作品的未经授权的使用以及 AI 模型从中获利的情况。"机构数据倡议"(Institutional Data Initiative)正在试图解决这个问题,该组织旨在促进对数据集和 OpenAI 等组织的透明度。
有报告显示,Meta 的 Llama 等 AI 模型使用了包含大量盗版书籍的数据集 Books3。这些书籍未经授权地被扫描和数字化,涉及侵犯版权、违反许可协议以及侵犯个人隐私等问题,因为其中可能包含个人信息或敏感数据。数据透明度倡导者担心,用于训练 AI 模型的数据来源缺乏透明度,阻碍了对模型偏差和潜在风险的充分评估。他们认为,在人工智能的发展过程中,尊重知识产权和保护个人隐私至关重要。正如一位专家所说:“这触及了数字时代的版权核心。”
数据科学家指出,当前的大型语言模型依赖于庞大的数据集,并且很难完全删除其中的特定数据,这意味着模型可能会继续生成基于受版权保护材料的内容。例如,有专家指出:“在我看来,它就像一个包含了大量受版权保护的材料的 Linux 发行版,而且很难从中删除特定的代码片段。” 如果这种说法是正确的,那么就很难确保 AI 模型在生成内容时不侵犯版权,这使得 AI 领域面临着伦理和法律方面的挑战。
虽然数据合规性和数据集管理实践因组织而异,但一些人认为,企业有责任确保其人工智能系统不复制受版权保护的内容,并且应该对可能造成的损害负责。“是否有办法筛选数据集,确保它们不只是盗版内容?”一位专家问道。 如果没有明确的指导方针,公司可能会继续使用有问题的 AI 训练数据,最终导致更大的法律纠纷。 “我们无法阻止人们创造可能违反版权法的 AI 模型,”风险投资家 Fred Wilson 说道。
尽管存在这些顾虑,但使用这些数据集训练 AI 模型的趋势仍在继续,AI 领域的创新速度可能会超过数据治理实践的发展速度。然而,忽视潜在的法律和社会影响可能会对 AI 技术的长期可持续性构成威胁。 考虑到大量可公开获取的数据可能被用于训练 AI 模型,我们需要重新思考如何平衡创新与尊重知识产权之间的关系。 机构数据倡议等组织正在努力推动这场对话,并提高人们对这些重要问题的认识。
为了解决数据来源问题,数据透明度倡导者正在探索替代的数据收集和管理方法,旨在创建一个更值得信赖的 AI 生态系统。这些方法包括使用经过许可的数据集,以及开发能够识别和过滤掉受版权保护材料的技术。数据伦理方面的考虑不仅包括数据本身,还包括数据的使用方式。 探索这些替代方案对于负责任地开发 AI 技术至关重要。(由 Google 赞助,由 WIRED 报道)
在讨论 IDI 的数据集时,必须考虑到使用未经授权的数据所带来的潜在影响,以及确保 AI 模型训练过程透明和负责任的必要性。虽然使用这些数据集可以推动 AI 技术的进步,但也可能导致法律纠纷和公众信任的丧失。 Calliope Networks 和 ProRata 等组织正在努力识别数据许可方面的差距,并探索更具包容性和合乎道德的方式来获取 AI 模型训练所需的数据。
目前,人们对用于训练大型语言模型的数据的来源非常关注。例如,AI 风险投资公司 Pleis 正在构建一个名为 Common Corpus 的大型公共数据集,该数据集旨在促进负责任的 AI 开发。Common Corpus 将包含 300 到 400 亿个来自网络和其他来源的 token 和数据集。 据 Pleis 称,Common Corpus 是由 Hugging Face 托管的最大的公共可用的 AI 数据集,其中包含超过 60,000 个数据集。 此外,Pleis 还在努力制定关于如何使用数据集训练 AI 模型的指导方针,并与 WIRED 分享了一些见解,比如应该“对用于训练基础 [型] AI 模型的数据集进行审计”。
随着时间的推移,对数据集及其来源的审查可能会增加。 AI 风险投资公司 Spawning 创建了 Source.Plus 数据集,该数据集包括来自 Wikimedia Commons 等网站的数百万张图片及其相应的元数据。 从根本上说,一种越来越普遍的观点是,如果艺术家不同意,他们的作品不应该被用于训练商业模型。
Stability AI 的首席执行官埃德·牛顿-雷克斯公开表达了他对 AI 模型训练中公平薪酬和同意权重要性的看法。 他认为,解决与数据集相关的透明度问题对于负责任的 AI 发展至关重要。 OpenAI 也承认了使用合成数据进行模型训练的局限性,因为它可能无法完全捕捉到真实世界数据中的复杂性和细微差别。 正如埃德·牛顿-雷克斯所说:“除非有更多的数据集能够代表更广泛的视角和经验,否则 AI 模型很可能会延续数据集中存在的偏见,这不仅不公平,还会导致 AI 技术‘单一文化’。”
总而言之,IDI 和数据集的讨论突出了这样一个事实:只有在考虑到数据来源和使用方式的情况下,我们才能充分利用 AI 领域的潜力。 “如果这些数据集能够被用于创造有益的人工智能,同时避免对数据创造者造成伤害,那将是理想的情况。 为了做到这一点,我们需要对数据集有更多的了解,确保它们能够以合乎道德的方式被获取,并且不会对 AI 模型造成不必要的偏见,"一位专家说道。
快讯中提到的AI工具

机器学习和人工智能技术的平台

致力于创造对全人类有益的安全 AGI