AI爬虫横行，网站反屏蔽措施失效

如今，越来越多的网站开始禁止爬虫抓取，原因是它们担心被大型语言模型公司用于训练AI。例如，Anthropic已经禁止部分爬虫程序访问其网站，以保护自身的数据资源不被滥用。

网络安全公司Dark Visitors发现，部分爬虫会无视网站的robots.txt协议，强行抓取Anthropic网站上的数据，甚至伪装成”ANTHROPIC-AI”和”CLAUDE-WEB”这两个用户代理，试图蒙混过关。更有甚者，还会冒充Anthropic自己的爬虫”CLAUDEBOT”来访问网站。

更令人担忧的是，这些爬虫似乎专门针对那些允许爬虫抓取内容的网站，例如robots.txt文件中允许AI访问的页面。

实际上，Anthropic和Dark Visitors的发现并非个例。包括苹果和Meta在内的多家公司都采取了类似的措施，限制爬虫对其网站的访问，以防止数据被滥用。一个主要原因是，AI模型训练需要大量的数据，而爬虫抓取是获取数据的一种常见方式。

这些行为引发了一个值得关注的问题：某些爬虫为了获取数据，可能会违反网站的robots.txt协议。它们不仅可能抓取付费内容，还可能绕过登录验证等限制，从而获取更多的数据。

例如，知名维修网站iFixit发现，Anthropic的爬虫在未经授权的情况下，抓取了其网站上的大量数据。此外，文档托管平台Read the Docs也发现，有爬虫抓取了超过10TB的数据，用于AI模型的训练。

数据溯源计划（Data Provenance Initiative）旨在解决大型语言模型在训练过程中，数据来源不明的问题。该计划的目标是追踪AI模型所使用的数据，从而提高AI系统的透明度和可信度。这有助于解决因爬虫非法抓取数据而引发的版权和隐私问题。

总而言之，网站禁止爬虫抓取是一种应对AI模型训练数据需求的手段，但也引发了一系列关于数据伦理和版权的问题。我们需要在数据获取和数据保护之间找到平衡点，以促进AI技术的健康发展。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/lgshi3ar