互联网安全基础设施提供商Cloudflare近日披露,人工智能公司Perplexity在其客户明确设置屏蔽规则的情况下,仍持续抓取网页内容,涉嫌使用“隐形爬虫”规避限制。
据Cloudflare工程师团队调查,尽管多个新注册域名已通过robots.txt文件和防火墙规则禁止访问,但Perplexity仍能返回受限制页面的具体信息。测试显示,该公司不仅使用声明的用户代理,还伪装成Google Chrome浏览器,在macOS环境下模拟真实用户行为。
更令人关注的是,这些未声明的爬虫采用了多重规避策略:使用不在官方IP范围内的地址、轮换不同ASN来源的请求,从而绕过屏蔽机制。数据显示,此类隐形爬虫每日生成300万至600万个请求,而公开声明的爬虫则达2000万至2500万次,涉及数万个域名。
面对日益严峻的AI爬虫挑战,Cloudflare宣布将所有客户纳入其“内容独立日”政策,默认阻止新域名上的AI爬虫访问。该举措旨在保护内容创作者免受非授权数据提取的影响。
截至目前,已有超过一百万个网站选择屏蔽AI爬虫,包括美联社、时代杂志、《大西洋月刊》、BuzzFeed、Reddit、Quora以及环球音乐集团等知名机构。这一趋势反映出全球数字内容生态对数据使用权的关注正在上升。
Cloudflare强调,OpenAI在被屏蔽时会遵守robots.txt指令并停止抓取,而Perplexity的行为则被认定为不合规。公司表示,透明性、目的明确性和遵循网站偏好是合法爬虫的基本标准。
为应对此类问题,Cloudflare已部署签名匹配功能,可自动识别并阻断可疑爬虫。同时,其正在研发“AI迷宫”工具,可将不合规机器人困于虚假内容环境中;此外,还计划推出按次付费市场,允许出版商向AI公司收取内容访问费用,构建可持续的内容价值体系。
此事件进一步凸显了当前人工智能发展与网络内容治理之间的张力。随着各大科技公司加速布局生成式AI,如何平衡数据获取效率与版权保护成为关键议题。若缺乏有效监管框架,可能导致优质内容生产者收益受损,进而影响整个数字生态的可持续性。
专家指出,此次冲突不仅是技术层面的问题,更是商业模式与伦理责任的考验。未来,建立标准化的AI访问协议、推动内容授权机制、加强平台自律将成为主流方向。