

近日,Reddit 用户发现了一种简单的方法,可以阻止大型 AI 模型抓取其平台上的信息。据 404Media 报道,Reddit 似乎并未采取有效措施来阻止这些用于训练大型语言模型的 AI 爬虫抓取网站数据,这引发了人们对隐私和数据使用的担忧。简单来说,如果你不想让 AI 抓取你的信息,你可以采取一些措施阻止 Reddit 抓取你的数据。
具体来说,用户可以使用 Google 等搜索引擎,通过搜索 “site:reddit.com” 来查找已被抓取的 Reddit 页面。其他搜索引擎,如 Bing 和 DuckDuckGo,也能提供类似的结果。研究发现,一些人声称 Google 已经索引了大约 6000 万个 Reddit 帖子的数据,这表明 Google 正在利用 Reddit 的数据来训练 AI 模型。更有甚者,Bing 搜索引擎也能显示某些帖子是否已经被其抓取。
Reddit 用户 Tim Rathschmidt 指出,这一发现凸显了 Google 如何能够轻易访问 Reddit 的数据。事实上,Reddit 上的任何公开内容都可能被抓取并用于训练 AI 模型。更糟糕的是,即使你删除了 Reddit 上的帖子,它们仍然可能被搜索引擎抓取。
根据 Reddit 的说法,它一直以来都允许搜索引擎抓取其内容。然而,由于人工智能的快速发展,Reddit 上的许多用户开始担心其内容被用于训练大型语言模型。此外,Reddit 最近更改了 API 的使用条款,这可能会阻止 Google 等公司直接访问 Reddit 的数据,并用于训练 AI,从而限制了其数据的使用。
此前,有人建议通过修改 Reddit 的 robots.txt 文件来阻止抓取。该文件用于指定哪些爬虫可以访问网站的哪些部分。但 Reddit 的工程副总裁表示,这种方法只能阻止那些遵守 robots.txt 协议的爬虫抓取信息,而无法阻止那些恶意抓取 Reddit 数据的爬虫。
总而言之,随着 AI 技术的不断发展,人们越来越关注自己的数据被如何使用。了解如何阻止搜索引擎抓取个人信息,对于保护个人隐私至关重要。例如,如果你想在搜索结果中移除 “Reddit” 相关的信息,你可以采取一些措施来防止这种情况发生。根据 Bing 的官方说明,他们有一个专门的工具可以做到这一点。
有用的提示:
🌎 记住要保密 :Reddit 允许搜索引擎和 AI 模型抓取数据,所以要注意发布的内容。
💡 Google 高级搜索 可以使用 Google 的 “site:reddit.com” 搜索指令来查看哪些页面已被抓取。
⭐ 数据删除请求 :Reddit 无法阻止数据抓取,可以通过 API 删除账户内容,管理个人数据和隐私。