2025-08-05 08:17:07

Cloudflare指控Perplexity使用隐形爬虫逃避屏蔽

摘要

互联网安全巨头Cloudflare揭露Perplexity AI在被明确屏蔽后仍通过隐形爬虫抓取数万个网站内容，其行为被指违反robots.txt协议。此举引发关于AI数据获取合规性的广泛讨论。

互联网安全基础设施提供商Cloudflare近日披露，人工智能公司Perplexity在其客户明确设置屏蔽规则的情况下，仍持续抓取网页内容，涉嫌使用“隐形爬虫”规避限制。

Perplexity被指违规抓取，技术手段引争议

据Cloudflare工程师团队调查，尽管多个新注册域名已通过robots.txt文件和防火墙规则禁止访问，但Perplexity仍能返回受限制页面的具体信息。测试显示，该公司不仅使用声明的用户代理，还伪装成Google Chrome浏览器，在macOS环境下模拟真实用户行为。

更令人关注的是，这些未声明的爬虫采用了多重规避策略：使用不在官方IP范围内的地址、轮换不同ASN来源的请求，从而绕过屏蔽机制。数据显示，此类隐形爬虫每日生成300万至600万个请求，而公开声明的爬虫则达2000万至2500万次，涉及数万个域名。

面对日益严峻的AI爬虫挑战，Cloudflare宣布将所有客户纳入其“内容独立日”政策，默认阻止新域名上的AI爬虫访问。该举措旨在保护内容创作者免受非授权数据提取的影响。

截至目前，已有超过一百万个网站选择屏蔽AI爬虫，包括美联社、时代杂志、《大西洋月刊》、BuzzFeed、Reddit、Quora以及环球音乐集团等知名机构。这一趋势反映出全球数字内容生态对数据使用权的关注正在上升。

Cloudflare强调，OpenAI在被屏蔽时会遵守robots.txt指令并停止抓取，而Perplexity的行为则被认定为不合规。公司表示，透明性、目的明确性和遵循网站偏好是合法爬虫的基本标准。

为应对此类问题，Cloudflare已部署签名匹配功能，可自动识别并阻断可疑爬虫。同时，其正在研发“AI迷宫”工具，可将不合规机器人困于虚假内容环境中；此外，还计划推出按次付费市场，允许出版商向AI公司收取内容访问费用，构建可持续的内容价值体系。

此事件进一步凸显了当前人工智能发展与网络内容治理之间的张力。随着各大科技公司加速布局生成式AI，如何平衡数据获取效率与版权保护成为关键议题。若缺乏有效监管框架，可能导致优质内容生产者收益受损，进而影响整个数字生态的可持续性。

专家指出，此次冲突不仅是技术层面的问题，更是商业模式与伦理责任的考验。未来，建立标准化的AI访问协议、推动内容授权机制、加强平台自律将成为主流方向。

声明：文章不代表比特之家观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！转载请注明出处！侵权必究！