IT之家 8 月 5 日消息,當?shù)貢r間周一,Cloudflare 發(fā)布了一份報告,指控 AI 初創(chuàng)公司 Perplexity 在網(wǎng)站已明確標注禁止 AI 抓取的情況下仍進行抓取,并通過改變身份標識規(guī)避攔截規(guī)則。

報告顯示,Perplexity 忽略網(wǎng)站 robots.txt 文件(用于告知搜索引擎和 AI 公司哪些頁面可供索引)及針對其已知爬蟲的攔截規(guī)則,調(diào)整 UA 和 ASN 信息,通過更換身份和網(wǎng)絡地址等手段繞過屏蔽并抓取大量內(nèi)容。

Cloudflare 稱,他們通過“機器學習與網(wǎng)絡信號相結(jié)合”的方式,識別出了 Perplexity 爬蟲的特征,其行為涉及“數(shù)萬個域名,每天數(shù)百萬次請求”。
針對指控,Perplexity 發(fā)言人 Jesse Dwyer 表示:Cloudflare 的博文是“銷售噱頭”,并表示文中截圖“顯示沒有內(nèi)容被訪問”。在后續(xù)郵件中,Dwyer 進一步否認,稱 Cloudflare 提到的機器人“甚至不是我們的”。
Cloudflare 表示,其調(diào)查源于客戶投訴 —— 部分客戶已在 robots 文件中添加規(guī)則并專門攔截 Perplexity 的已知爬蟲,但仍遭其抓取。Cloudflare 測試后確認屬實。
作為回應,Cloudflare 已將 Perplexity 的爬蟲移出認證名單(用于標識合法爬蟲),并添加新的技術攔截其行為。
IT之家注意到,這并非 Perplexity 首次面臨此類指控。去年《Wired》等媒體也曾指控 Perplexity 抄襲其內(nèi)容;首席執(zhí)行官 Aravind Srinivas 在 Disrupt 2024 大會上面對媒體問詢卻不敢回答。
參考資料:
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。