Claude团队因数据抓取问题引发强烈不满：被指为绕开规则不择手段

摘要：

当前人工智能领域，大型语言模型正逐渐崭露头角，它们展现出能够胜任复杂任务的巨大潜力。与此同时，如何有效地管理和 […]

当前人工智能领域，大型语言模型正逐渐崭露头角，它们展现出能够胜任复杂任务的巨大潜力。与此同时，如何有效地管理和利用这些模型所产生的数据，也成为了一个重要的议题。比如，如何防止Claude等大型语言模型抓取不应公开的信息？

最新消息显示，Claude背后的Anthropic公司已经允许网站所有者选择性地阻止其抓取工具访问网站，从而更好地保护网站数据。这意味着，网站主可以自主决定哪些内容允许被AI模型学习，哪些需要保持私密。通过采用”禁止抓取”的指令，网站能够有效地防止其内容被用于训练大型语言模型。

这种控制方式对于保护网站的数据至关重要，尤其是在涉及到版权或敏感信息时。更重要的是，iFixit等网站已经开始利用这项技术来优化Claude语言模型的使用。网站管理员可以通过设置特定的规则，来指导Claude更好地理解和处理网站上的信息。

具体来说，iFixit这家专注于维修技术的网站，正在使用一种名为ClaudeBot的网络爬虫来收集数据。iFixit允许Claude的爬虫ClaudeBot访问并分析其庞大的数据库，其中包含超过10TB的文本数据，以及大约5万张图片和73TB的视频内容。

iFixit的CEO Kyle Wiens表示，通过允许ClaudeBot访问其网站数据，他们能够更有效地利用人工智能技术，改进网站的运营和服务。iFixit希望通过这种方式，将自身的数据与Claude语言模型相结合，探索更多创新的应用场景，即使Claude和OpenAI存在一定的竞争关系。

实际上，早在今年4月，Linux Mint社区就曾阻止了ClaudeBot的访问，原因是他们不希望其内容被用于训练未经授权的语言模型。与Claude和OpenAI的GPT系列类似，他们同样担心其人工智能网络爬虫可能会抓取robots.txt文件中明确禁止的内容，从而导致数据泄露。

值得注意的是，阻止爬虫抓取数据并不意味着完全拒绝人工智能的应用；相反，这是一种更加精细化和负责任的方式。iFixit选择性地允许特定模型访问其数据，体现了对人工智能发展的积极态度，同时也有助于确保数据的安全和可控。iFixit积极探索与Claude，甚至OpenAI模型合作的可能性。

总而言之，在人工智能技术快速发展的今天，如何平衡数据利用和隐私保护是一个需要认真思考的问题。一方面，人工智能的发展离不开大量数据的支持；另一方面，数据安全和隐私也必须得到充分的尊重。通过合理的授权和控制，我们既可以促进人工智能技术的创新，又能确保数据的安全和合理利用。这无疑是未来发展的大方向。

快讯中提到的AI工具

Claude

由Anthropic公司开发的下一代人工智能AI助手

OpenAI

致力于创造对全人类有益的安全 AGI

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/nuukaauv