Perplexity长期被指控故意绕过反爬取措施获取网络内容。尽管该公司历来将这些指控驳斥为恶意中伤或误解,但最新报告显示,这种行为不仅仍在持续,甚至可能愈演愈烈。
Perplexity的核心辩解:语义之争
Perplexity的网络爬取行为最早于2024年6月曝光,当时《连线》等媒体指控该公司无视Robots Exclusion协议,从其网站抓取内容。
当时,Perplexity首席执行官阿拉文德·斯里尼瓦斯称问题源于未具名的第三方爬取服务商,并表示”存在对运作方式的基本误解”。
随后更多媒体开始指控Perplexity存在剽窃和不道德的网络爬取行为,《纽约时报》和BBC甚至发出法律威胁。Perplexity当时回应称BBC”操纵事实且投机取巧”,并”对技术、互联网和知识产权法存在根本性误解”。
此后,Perplexity多次否认这类指控,就特定使用场景下”爬取”的定义提出异议。正如《连线》报道所言:
简言之,如果用户手动提供URL给AI,Perplexity称其AI并非作为网络爬虫,而是帮助用户检索和处理所请求信息的工具。但对《连线》和许多出版商而言,这种区分毫无意义——当每天数千次访问URL并提取信息生成摘要时,这看起来与爬取行为无异。
同样,斯里尼瓦斯曾承诺公司将改进内容溯源功能。但这并未解决信息来源本身存在的问题,而不仅仅是呈现方式的问题。
Cloudflare指控Perplexity刻意规避反爬取措施
最新发布的Cloudflare报告指出,即使服务器明确拒绝所有自动化访问,并设置专门规则阻止Perplexity的公开爬虫,该公司仍会继续爬取行为。
根据Cloudflare的描述:
“我们发现Perplexity不仅使用声明的用户代理,当其公开爬虫被阻止时,还会使用伪装成macOS版Chrome浏览器的通用代理。无论公开还是隐蔽的爬虫,都在违反RFC 9309规定的网络爬取规范。这些未声明的爬虫使用多个不在Perplexity官方IP列表中的地址,并会根据robots.txt限制政策和Cloudflare拦截措施轮换IP。除IP轮换外,我们还观察到请求来自不同自治系统,试图进一步规避网站拦截。这种行为每天涉及数万个域名和数百万次请求。我们通过机器学习与网络信号组合实现了对该爬虫的特征识别。”
Perplexity向The Verge回应称该博文是”公关噱头”,并表示”文中存在大量误解”。
公平而言,不当爬取网页内容用于AI生成答案的指控并非Perplexity独有。此前OpenAI的爬取行为就被比作DDoS攻击,Anthropic同样面临类似问题。
值得注意的是Robots Exclusion协议并非法律,而是广泛遵循的行业惯例。但Cloudflare的调查特别点名Perplexity——这家据传正被苹果考虑收购的公司。这使事态显得尤为微妙。
苹果是否需要这样的麻烦?
从法律层面看,没有任何障碍阻止苹果收购Perplexity。事实上,目前情况显示苹果收购的可能性大于放弃。坦白说,笔者甚至预期在本文完成前就可能看到收购公告。
从战略角度看,苹果确实需要收购Perplexity这类公司。
但考虑到苹果对隐私保护和商业伦理的立场,它是否应该收购一家存在争议背景且态度强硬的公司?
苹果可能认为在其企业文化、领导力和伦理规范下,能够净化这些技术遗产。但这无法改变Perplexity取得今日成就可能正是依靠争议手段的事实。
当然,若苹果最终决定收购,希望意味着其已完成尽职调查且未发现法律隐患。
但这也可能表明苹果为追赶AI进度,不惜在核心原则上做出妥协。若真如此,这种妥协比当前AI领域的落后更令人失望。