

据报道,搜索引擎初创公司Perplexity AI正在利用亚马逊云服务(AWS)的基础设施来支持其搜索功能,从而扩展了其对AWS云平台的依赖。
Perplexity AI是一家新兴的AI驱动型搜索引擎和知识发现平台,它最近完成了高达3000万美元的融资。据了解,该公司利用robots.txt协议来管理其网络爬虫的行为,该协议指示网络爬虫如何抓取和索引网站的内容。Robots.txt协议是一种行业标准,允许网站所有者指定哪些部分不应被搜索引擎访问。然而,某些搜索引擎可能会忽略这些指令,导致抓取超出授权范围的内容。
AWS为用户提供了计算、存储和数据库等多种云服务,使得像Perplexity这样的公司能够构建和扩展其应用程序,同时遵守相关的抓取规则。AWS还允许在抓取过程中遵循robots.txt协议。
根据报道,Perplexity允许网站通过IP地址阻止其爬虫访问,并且声称这些IP地址与已注册的商业实体相关联,从而能够识别出合法的网络爬虫活动。值得注意的是,“内容”、“摘要”和“完整页面”等参数可能会影响其抓取行为。
Perplexity的首席执行官Aravind Srinivas表示,该公司始终致力于遵守网络爬虫的相关标准和协议,并且会认真对待来自网站所有者的反馈。Perplexity的安全负责人Sara Platnick表示,该公司会定期检查PerplexityBot是否遵循robots.txt协议,并会立即删除任何未经授权抓取的URL。
数字内容联盟Digital Content Next的首席执行官Jason Kint指出,Perplexity的内容提取行为可能会对依赖广告和订阅模式的出版商造成影响。他认为,搜索引擎应该获得授权才能抓取和使用受版权保护的内容。
总而言之,人工智能搜索引擎的发展带来了关于内容抓取和版权保护的新挑战和机遇。像AWS这样的云服务为Perplexity提供了构建其创新搜索解决方案所需的基础设施。