

Reddit 似乎正在限制人工智能爬虫对其内容进行访问,以此来控制 AI 模型的数据来源。 这可能反映了该公司对自身数据被用于训练 AI 模型的担忧。
Reddit 已经更新了其 robots.txt 文件,该文件指示网络爬虫可以访问哪些内容。 这项更新明确禁止了某些 AI 爬虫,这意味着它们不再能抓取 Reddit 的公开数据。 Reddit 方面表示,此举是为了“管理 Reddit 平台上的流量”。与此同时,Reddit 强调,未来仍可能允许某些 AI 爬虫访问,但需遵守相关条款。
据了解,Reddit 并非唯一一家采取类似措施的公司,其他公司也在限制 AI 爬虫访问其数据。 例如,Perplexity 最近也屏蔽了 robots.txt 文件中未授权的爬虫。Perplexity 的 CEO 在接受《Fast Company》采访时表示,他们“不是一个抓取数据的公司”,并强调了对 AI 模型数据来源的尊重。
Reddit 此举的背景是:越来越多的网站所有者开始关注其内容被用于训练 AI 模型的潜在影响,以及对自身平台的潜在威胁。 此前有报道称,Reddit 已经与 AI 公司达成了数据许可协议,包括 Google 和 OpenAI。
目前,Reddit 正在探索通过多种方式,利用其平台上的数据。 尽管如此,该公司可能会向 AI 公司收取 API 使用费用,从而限制未经授权的 AI 爬虫抓取 Reddit 的内容。 通过这种方式,Reddit 希望能够更好地控制其数据的用途,并从中获利。 这项举措可能会影响 Reddit 平台上 AI 应用的开发。
Reddit 的这些举措反映了当前互联网领域对于数据所有权和使用权的讨论,以及对 AI 技术快速发展的担忧。 随着 AI 技术的日益普及,如何平衡数据的开放性与保护,以及如何确保 AI 模型的训练数据来源的合法性和透明度,将成为一个越来越重要的问题。 这涉及到 AI 领域的各个方面,需要内容平台、开发者以及用户共同参与讨论和制定规则。
快讯中提到的AI工具

致力于创造对全人类有益的安全 AGI