Google AI представляет WebMCP для обеспечения прямого и структурированного взаимодействия с веб-сайтами для новых AI-агентов

Google официально превращает Chrome в площадку для AI-агентов. В течение многих лет AI-«браузеры» полагались на запутанный процесс: делали скриншоты веб-сайтов, прогоняли их через модели обработки изображений и угадывали, куда нажать. Этот метод медленный, легко ломается и требует огромных вычислительных ресурсов.

Google представил более совершенный способ: протокол контекста веб-модели (WebMCP). Объявленный вместе с программой раннего предварительного просмотра (EPP), этот протокол позволяет веб-сайтам напрямую взаимодействовать с моделями искусственного интеллекта. Вместо того чтобы AI «угадывал», как использовать сайт, сайт сообщает AI, какие инструменты доступны.

Конец работы со скриншотами

Текущие AI-агенты обрабатывают веб-страницы как картинки. Они «смотрят» на пользовательский интерфейс и пытаются найти кнопку «Отправить». Если кнопка смещается на 5 пикселей, агент может потерпеть неудачу.

WebMCP заменяет эти догадки структурированными данными. Он превращает веб-сайт в набор инструментов. Для разработчиков это означает, что вам больше не нужно беспокоиться о том, что AI сломает ваш интерфейс. Вы просто определяете, что может делать AI, а Chrome обрабатывает взаимодействие.

Как работает WebMCP: 2 пути интеграции

Разработчики AI могут выбрать один из двух способов, чтобы сделать сайт «готовым для агентов».

1. Декларативный подход (HTML)

Это самый простой метод для веб-разработчиков. Вы можете раскрыть функции веб-сайта, добавив новые атрибуты в стандартный HTML.

Атрибуты: используйте toolname и tooldescription внутри тегов `

Преимущество: Chrome автоматически считывает эти теги и создаёт схему для AI. Если у вас есть форма «Забронировать рейс», AI видит её как структурированный инструмент с определёнными входными данными.

Обработка событий: когда AI заполняет форму, это вызывает SubmitEvent.agentInvoked. Это позволяет вашему бэкенду узнать, что запрос делает машина, а не человек.

2. Императивный подход (JavaScript)

Для сложных приложений императивный API предоставляет более глубокий контроль. Это позволяет выполнять многошаговые рабочие процессы, с которыми не справится простая форма.

Метод: используйте navigator.modelContext.registerTool().

Логика: вы определяете имя инструмента, описание и схему JSON для входных данных.

Выполнение в реальном времени: когда агент AI хочет «Добавить в корзину», он вызывает вашу зарегистрированную функцию JavaScript. Это происходит в рамках текущей сессии пользователя, то есть AI не нужно повторно входить в систему или обходить заголовки безопасности.

Почему важна программа раннего предварительного просмотра (EPP)

Google не выпускает это всем сразу. Они используют программу раннего предварительного просмотра (EPP) для сбора данных от первых пользователей. Разработчики, присоединившиеся к EPP, получают ранний доступ к функциям Chrome 146.

Это критический этап для специалистов по работе с данными. Тестируя в EPP, вы можете увидеть, как разные большие языковые модели (LLM) интерпретируют ваши описания инструментов. Если описание слишком расплывчато, модель может выдать галлюцинации. EPP позволяет инженерам точно настроить эти описания, прежде чем протокол станет мировым стандартом.

Производительность и эффективность

Технический сдвиг здесь огромен. Переход от просмотра на основе зрения к взаимодействию на основе WebMCP предлагает три ключевых улучшения:

* Снижение задержки: больше не нужно ждать, пока скриншоты загрузятся и будут обработаны моделью зрения.
* Повышение точности: модели взаимодействуют со структурированными данными JSON, что снижает количество ошибок почти до 0 %.
* Снижение затрат: отправка текстовых схем намного дешевле, чем отправка изображений высокого разрешения в LLM.

Технический стек: navigator.modelContext

Для разработчиков AI основной аспект этого обновления заключается в новом объекте modelContext. Вот разбивка четырёх основных методов:

Безопасность на первом месте

Общей заботой для разработчиков программного обеспечения является безопасность. WebMCP разработан как протокол «сначала разрешения». Агент AI не может выполнить инструмент без посредничества браузера. Во многих случаях Chrome будет запрашивать у пользователя подтверждение: «Разрешить AI забронировать этот рейс?» прежде чем будет выполнено окончательное действие. Это позволяет пользователю контролировать процесс, одновременно позволяя агенту выполнять тяжёлую работу.

Ключевые выводы

* Стандартизация «агентского веба»: протокол контекста веб-модели (WebMCP) — это новый стандарт, который позволяет AI-агентам взаимодействовать с веб-сайтами как со структурированными наборами инструментов, а не просто «смотреть» на пиксели. Это заменяет медленную и подверженную ошибкам обработку скриншотов прямым и надёжным взаимодействием.
* Двойные пути интеграции: разработчики могут сделать сайты «готовыми для AI» двумя способами: декларативным API (используя простые HTML-атрибуты, такие как toolname в формах) или императивным API (используя navigator.modelContext.registerTool() в JavaScript для сложных многошаговых рабочих процессов).
* Существенное повышение эффективности: использование структурированных схем JSON вместо обработки на основе зрения (скриншоты) приводит к снижению вычислительных затрат на 67 % и повышению точности выполнения задач примерно до 98 %.
* Встроенная безопасность и конфиденциальность: протокол «сначала разрешения». Браузер действует как защищённый прокси-сервер, требуя подтверждения пользователя, прежде чем агент AI сможет выполнить чувствительные инструменты. Также включены методы, такие как clearContext(), для удаления общих данных сеанса.
* Ранний доступ через EPP: программа раннего предварительного просмотра (EPP) позволяет разработчикам программного обеспечения и специалистам по работе с данными тестировать эти функции в Chrome 146.

1. Какие проблемы решает внедрение протокола WebMCP в Chrome для AI-агентов?

Внедрение протокола WebMCP решает несколько проблем, связанных с взаимодействием AI-агентов с веб-сайтами. Во-первых, текущий метод обработки веб-страниц как картинок медленный и требует огромных вычислительных ресурсов. Во-вторых, он легко ломается, если элементы интерфейса меняются. WebMCP заменяет этот метод структурированными данными, что позволяет AI-агентам более точно и эффективно взаимодействовать с веб-сайтами.

2. Какие два пути интеграции предлагает Google для разработчиков AI для работы с WebMCP?

Google предлагает два пути интеграции для разработчиков AI:
* Декларативный подход (HTML) — самый простой метод для веб-разработчиков. Он заключается в добавлении новых атрибутов в стандартный HTML для раскрытия функций веб-сайта.
* Императивный подход (JavaScript) — более глубокий контроль для сложных приложений. Он позволяет выполнять многошаговые рабочие процессы, с которыми не справится простая форма.

3. Какие преимущества предлагает использование WebMCP по сравнению с текущим методом обработки веб-страниц как картинок?

Использование WebMCP предлагает несколько преимуществ по сравнению с текущим методом обработки веб-страниц как картинок:
* Снижение задержки — больше не нужно ждать, пока скриншоты загрузятся и будут обработаны моделью зрения.
* Повышение точности — модели взаимодействуют со структурированными данными JSON, что снижает количество ошибок почти до 0 %.
* Снижение затрат — отправка текстовых схем намного дешевле, чем отправка изображений высокого разрешения в LLM.

4. Какие методы предоставляет объект navigator.modelContext для разработчиков AI?

Объект navigator.modelContext предоставляет четыре основных метода для разработчиков AI:
* registerTool() — делает функцию видимой для агента AI.
* unregisterTool() — удаляет функцию из зоны доступа AI.
* provideContext() — отправляет дополнительные метаданные (например, предпочтения пользователя) агенту.
* clearContext() — удаляет общие данные для обеспечения конфиденциальности.

5. Как обеспечивается безопасность при использовании WebMCP?

WebMCP разработан как протокол «сначала разрешения». Агент AI не может выполнить инструмент без посредничества браузера. Во многих случаях Chrome будет запрашивать у пользователя подтверждение: «Разрешить AI забронировать этот рейс?» прежде чем будет выполнено окончательное действие. Это позволяет пользователю контролировать процесс, одновременно позволяя агенту выполнять тяжёлую работу.

Источник