Стартап в области искусственного интеллекта Perplexity сканирует и собирает данные с веб-сайтов, которые явно запретили такое использование, как сообщает поставщик интернет-инфраструктуры Cloudflare.
В понедельник Cloudflare опубликовал исследование, согласно которому стартап игнорирует блокировки и маскирует свою активность по сбору информации. Компания обвинила Perplexity в сокрытии идентификатора при попытках получить доступ к страницам, чтобы «обходить предпочтения владельцев сайтов», как написали исследователи Cloudflare.
Продукты на базе ИИ, подобные тем, что предлагает Perplexity, требуют огромных объемов данных из интернета. Стартапы давно собирают тексты, изображения и видео без разрешения для обучения своих моделей. В ответ сайты пытаются защититься через стандартный файл robots.txt, который указывает поисковым системам и ИИ-компаниям, какие страницы можно индексировать. Однако эффективность таких мер пока неоднозначна.
Согласно данным Cloudflare, Perplexity обходит эти ограничения, изменяя «агент пользователя» — идентификатор, указывающий тип устройства и версии, — а также маскируя принадлежность к своим сетевым системам (ASN), которые идентифицируют крупные сети в интернете.
«Такая активность наблюдалась на десятках тысяч доменов с миллионами запросов в день. Мы смогли идентифицировать этого краулера, используя машинное обучение и сетевые сигналы», — говорится в сообщении Cloudflare.
Представитель Perplexity Джесси Дуайер назвал пост Cloudflare «рекламным ходом», добавив в письме TechCrunch, что скриншоты в статье «показывают, что контент не был доступен». В последующем письме он заявил, что упомянутый бот «даже не принадлежит им».
Cloudflare начала расследование после жалоб клиентов на то, что Perplexity продолжает сканировать их сайты, несмотря на блокировку через robots.txt и прямые запреты для известных ботов стартапа. Тесты компании подтвердили, что Perplexity систематически обходит ограничения.
«Мы заметили, что Perplexity использует не только заявленный агент пользователя, но и маскируется под Google Chrome на macOS, когда его основной краулер блокируют», — сообщили в Cloudflare.
Компания также исключила ботов Perplexity из списка проверенных и внедрила новые методы их блокировки.
Ранее Cloudflare уже выступала против ИИ-краулеров. В прошлом месяце компания запустила маркетплейс, позволяющий владельцам сайтов взимать плату с ИИ-ботов за сбор данных. Гендиректор Мэтью Принс тогда заявил, что ИИ разрушает бизнес-модели интернета, особенно в издательской сфере. В 2024 году Cloudflare также представила бесплатный инструмент для блокировки ботов, собирающих данные для обучения моделей.
Это не первый случай, когда Perplexity обвиняют в несанкционированном сборе данных.
В 2024 году издания, включая Wired, заявили, что стартап присваивает их контент. Позже CEO Perplexity Аравинд Шринивас не смог четко ответить на вопрос о том, как компания определяет плагиат, во время интервью с TechCrunch на конференции Disrupt 2024.
**КРУПНЕЙШИЕ ИМЕНА ТЕХ-ИНДУСТРИИ И ВЕНЧУРНОГО КАПИТАЛА НА DISRUPT 2025**
NETFLIX, ELEVENLABS, WAYVE, SEQUOIA CAPITAL — ЛИШЬ НЕСКОЛЬКО ИЗ ТЕХ, КТО ВОЙДЕТ В ПРОГРАММУ DISRUPT 2025. ЭКСПЕРТЫ ПОДЕЛЯТСЯ ИНСАЙТАМИ, КОТОРЫЕ ПОМОГУТ СТАРТАПАМ РАСТИ И ОПЕРЕЖАТЬ КОНКУРЕНТОВ. НЕ ПРОПУСТИТЕ 20-ЛЕТНИЙ ЮБИЛЕЙ TECHCRUNCH DISRUPT И ВОЗМОЖНОСТЬ УЗНАТЬ ОТ ЛИДЕРОВ ИНДУСТРИИ — УСПЕЙТЕ ЗАБРОНИРОВАТЬ БИЛЕТ СО СКИДКОЙ ДО $675, ПОКА ЦЕНЫ НЕ ВЫРОСЛИ.
**Сан-Франциско | 27–29 октября 2025**
ЗАРЕГИСТРИРОВАТЬСЯ