Google-Agent против Googlebot: Google определяет техническую границу между доступом к ИИ по запросу пользователя и поисковыми системами-сборщиками информации

Google интегрирует возможности искусственного интеллекта в свои продукты, и в журналах серверов появилась новая техническая сущность: Google-Agent. Для разработчиков программного обеспечения понимание этой сущности имеет решающее значение для различия между автоматизированными индексаторами и запросами, инициированными пользователями в режиме реального времени.

В чём основное различие: Fetchers vs. Crawlers

В отличие от автономных сборщиков информации (например, Googlebot), которые десятилетиями определяли структуру интернета, Google-Agent работает по другому набору правил и протоколов.

Основное техническое различие между традиционными ботами Google и Google-Agent заключается в механизме запуска.

* Автономные сборщики информации (например, Googlebot): они обнаруживают и индексируют страницы по расписанию, определённому алгоритмами Google, для поддержания поискового индекса.
* Fetchers по запросу пользователя (например, Google-Agent): эти инструменты действуют только тогда, когда пользователь выполняет определённое действие. Согласно документации разработчика Google, Google-Agent используется продуктами Google AI для получения контента из интернета в ответ на прямую команду пользователя.

Поскольку эти инструменты являются реактивными, а не проактивными, они не «прочёсывают» интернет, переходя по ссылкам для обнаружения нового контента. Вместо этого они действуют как прокси для пользователя, получая конкретные URL-адреса по запросу.

Исключение для robots.txt

Одним из наиболее значительных технических нюансов Google-Agent является его взаимосвязь с robots.txt. В то время как автономные сборщики информации, такие как Googlebot, строго следуют директивам robots.txt, чтобы определить, какие части сайта индексировать, сборщики информации по запросу пользователя обычно работают по другому протоколу.

Документация Google прямо указывает, что сборщики информации по запросу пользователя игнорируют robots.txt. Логика этого обхода основана на «прокси»-природе агента. Поскольку запрос инициирован пользователем, который хочет взаимодействовать с определённым фрагментом контента, сборщик информации ведёт себя скорее как стандартный веб-браузер, чем как поисковый робот. Если владелец сайта блокирует Google-Agent через robots.txt, инструкция обычно игнорируется, поскольку запрос рассматривается как ручное действие от имени пользователя, а не как попытка массового сбора информации.

Идентификация и строки User-Agent

Разработчики должны иметь возможность точно идентифицировать этот трафик, чтобы его не помечали как вредоносный или несанкционированный сбор информации. Google-Agent идентифицирует себя через определённые строки User-Agent.

Основная строка для этого сборщика информации:

`Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-Agent)`

В некоторых случаях используется упрощённый токен Google-Agent.

Для обеспечения безопасности и мониторинга важно отметить, что эти запросы инициируются пользователями и могут поступать не из тех же предсказуемых блоков IP-адресов, что и основные поисковые роботы Google. Google рекомендует использовать опубликованные им диапазоны IP-адресов в формате JSON, чтобы убедиться, что запросы, поступающие под этим User-Agent, являются легитимными.

Почему различие важно для разработчиков

Для инженеров-программистов, управляющих веб-инфраструктурой, появление Google-Agent смещает акцент с SEO-ориентированных «бюджетов на сканирование» на управление запросами в реальном времени.

* Наблюдаемость: современный анализ журналов должен рассматривать Google-Agent как легитимный запрос, инициированный пользователем. Если ваш веб-файрвол (WAF) или программное обеспечение для ограничения частоты запросов обрабатывают всех «ботов» одинаково, вы можете непреднамеренно заблокировать пользователям использование инструментов Google AI для взаимодействия с вашим сайтом.
* Конфиденциальность и доступ: поскольку robots.txt не управляет Google-Agent, разработчики не могут полагаться на него, чтобы скрыть конфиденциальные или непубличные данные от сборщиков информации с помощью ИИ. Контроль доступа для этих сборщиков информации должен осуществляться через стандартную аутентификацию или разрешения на стороне сервера, как это было бы для посетителя-человека.
* Нагрузка на инфраструктуру: поскольку эти запросы являются «всплесковыми» и привязаны к использованию человеком, объём трафика Google-Agent будет зависеть от популярности вашего контента среди пользователей ИИ, а не от частоты циклов индексации Google.

Заключение

Google-Agent представляет собой сдвиг в том, как Google взаимодействует с интернетом. Переходя от автономного сканирования к сбору информации по запросу пользователя, Google создаёт более прямую связь между намерениями пользователя и актуальным веб-контентом. Вывод ясен: протоколы прошлого, в частности robots.txt, больше не являются основным инструментом для управления взаимодействием с ИИ. Точная идентификация через строки User-Agent и чёткое понимание обозначения «по запросу пользователя» — новые требования для поддержания современного присутствия в интернете.

1. В чём заключается основное различие между Google-Agent и традиционными ботами Google, такими как Googlebot?

Основное различие заключается в механизме запуска. Googlebot автономно обнаруживает и индексирует страницы по расписанию, а Google-Agent действует только тогда, когда пользователь выполняет определённое действие.

2. Как Google-Agent взаимодействует с файлом robots.txt?

Google-Agent игнорирует директивы robots.txt, поскольку запрос инициирован пользователем. Это отличает его от традиционных ботов Google, которые строго следуют этим директивам.

3. Почему разработчикам важно различать Google-Agent и традиционные боты Google?

Разработчикам важно различать эти сущности, чтобы правильно управлять запросами в реальном времени и обеспечивать корректную работу своих веб-сайтов. Это влияет на наблюдаемость, конфиденциальность и доступ, а также на нагрузку на инфраструктуру.

4. Какие новые требования возникают для поддержания современного присутствия в интернете в связи с появлением Google-Agent?

В связи с появлением Google-Agent разработчикам необходимо более точно идентифицировать трафик через строки User-Agent и понимать, что протоколы прошлого, такие как robots.txt, больше не являются основным инструментом для управления взаимодействием с ИИ.

5. Как изменится подход к управлению веб-инфраструктурой в связи с появлением Google-Agent?

С появлением Google-Agent акцент смещается с SEO-ориентированных «бюджетов на сканирование» на управление запросами в реальном времени. Разработчикам необходимо учитывать всплесковые запросы, связанные с использованием человеком, и контролировать доступ для сборщиков информации с помощью ИИ через стандартную аутентификацию или разрешения на стороне сервера.

Источник