Reddit警告AI公司：要么遵守规则，要么禁止访问

Reddit 似乎正在限制人工智能爬虫对其内容进行访问，以此来控制 AI 模型的数据来源。这可能反映了该公司对自身数据被用于训练 AI 模型的担忧。

Reddit 已经更新了其 robots.txt 文件，该文件指示网络爬虫可以访问哪些内容。这项更新明确禁止了某些 AI 爬虫，这意味着它们不再能抓取 Reddit 的公开数据。 Reddit 方面表示，此举是为了“管理 Reddit 平台上的流量”。与此同时，Reddit 强调，未来仍可能允许某些 AI 爬虫访问，但需遵守相关条款。

据了解，Reddit 并非唯一一家采取类似措施的公司，其他公司也在限制 AI 爬虫访问其数据。例如，Perplexity 最近也屏蔽了 robots.txt 文件中未授权的爬虫。Perplexity 的 CEO 在接受《Fast Company》采访时表示，他们“不是一个抓取数据的公司”，并强调了对 AI 模型数据来源的尊重。

Reddit 此举的背景是：越来越多的网站所有者开始关注其内容被用于训练 AI 模型的潜在影响，以及对自身平台的潜在威胁。此前有报道称，Reddit 已经与 AI 公司达成了数据许可协议，包括 Google 和 OpenAI。

目前，Reddit 正在探索通过多种方式，利用其平台上的数据。尽管如此，该公司可能会向 AI 公司收取 API 使用费用，从而限制未经授权的 AI 爬虫抓取 Reddit 的内容。通过这种方式，Reddit 希望能够更好地控制其数据的用途，并从中获利。这项举措可能会影响 Reddit 平台上 AI 应用的开发。

Reddit 的这些举措反映了当前互联网领域对于数据所有权和使用权的讨论，以及对 AI 技术快速发展的担忧。随着 AI 技术的日益普及，如何平衡数据的开放性与保护，以及如何确保 AI 模型的训练数据来源的合法性和透明度，将成为一个越来越重要的问题。这涉及到 AI 领域的各个方面，需要内容平台、开发者以及用户共同参与讨论和制定规则。