Google AI представляет нативно адаптивные интерфейсы (NAI): агентская мультимодальная платформа доступности, созданная на основе Gemini для адаптивного дизайна пользовательского интерфейса

Google Research предлагает новый подход к созданию доступного программного обеспечения с помощью нативно адаптивных интерфейсов (NAI). Это агентская платформа, где мультимодальный ИИ-агент становится основным пользовательским интерфейсом и адаптирует приложение в реальном времени под возможности и контекст каждого пользователя.

Вместо того чтобы поставлять фиксированный пользовательский интерфейс и добавлять специальные возможности в качестве отдельного слоя, NAI встраивает доступность в основную архитектуру. Агент наблюдает, анализирует и затем модифицирует сам интерфейс, переходя от универсального дизайна к решениям, основанным на контексте.

Как нативно адаптивные интерфейсы (NAI) меняют стек?

NAI исходит из простой предпосылки: если интерфейс опосредуется мультимодальным агентом, то доступностью может управлять этот агент, а не статические меню и настройки.

Ключевые свойства:
* Мультимодальный ИИ-агент является основным пользовательским интерфейсом. Он может видеть текст, изображения и макеты, слушать речь и выводить текст, речь или другие модальности.
* Доступность интегрирована в этого агента с самого начала, а не добавлена позже. Агент отвечает за адаптацию навигации, плотности контента и стиля представления для каждого пользователя.
* Процесс проектирования явно ориентирован на пользователя, при этом люди с ограниченными возможностями рассматриваются как основные пользователи, которые определяют требования для всех, а не как второстепенные.

Платформа нацелена на то, что команда Google называет «пробелом в доступности» — отставанием между добавлением новых функций продукта и их использованием людьми с ограниченными возможностями. Встраивание агентов в интерфейс призвано сократить этот разрыв, позволяя системе адаптироваться без ожидания создания специальных надстроек.

Архитектура агента: оркестратор и специализированные инструменты

В рамках NAI пользовательский интерфейс поддерживается мультиагентской системой. Основной шаблон:
* Агент-оркестратор поддерживает общий контекст о пользователе, задаче и состоянии приложения.
* Специализированные субагенты реализуют целенаправленные возможности, такие как суммирование или адаптация настроек.
* Набор конфигурационных шаблонов определяет, как обнаруживать намерения пользователя, добавлять соответствующий контекст, настраивать параметры и корректировать некорректные запросы.

Например, в кейсах NAI, посвящённых доступному видео, команда Google описывает основные возможности агента, такие как:
* Понимание намерений пользователя.
* Уточнение запросов и управление контекстом.
* Разработка подсказок и вызовов инструментов последовательным образом.

С точки зрения системы это заменяет статические деревья навигации динамическими модулями, управляемыми агентами. «Модель навигации» — это фактически политика, определяющая, какой субагент будет запущен, с каким контекстом и как отображать его результат обратно в пользовательский интерфейс.

Мультимодальные Gemini и RAG для видео и сред

NAI явно построен на мультимодальных моделях, таких как Gemini и Gemma, которые могут обрабатывать голос, текст и изображения в едином контексте.

В случае доступного видео Google описывает двухэтапный конвейер:
* Автономная индексация. Система генерирует плотные визуальные и семантические дескрипторы по временной шкале видео. Эти дескрипторы хранятся в индексе, индексируемом по времени и содержимому.
* Онлайн-извлечение с генерацией, дополненной извлечением (RAG). Во время воспроизведения, когда пользователь задаёт вопрос, например: «Что сейчас носит персонаж?», система извлекает соответствующие дескрипторы. Мультимодальная модель формирует на основе этих дескрипторов и вопроса краткий описательный ответ.

Такая структура поддерживает интерактивные запросы во время воспроизведения, а не только предварительно записанные аудиодорожки с описанием. Тот же шаблон распространяется на сценарии физической навигации, где агенту необходимо анализировать последовательность наблюдений и запросов пользователя.

Конкретные прототипы NAI

Исследовательская работа Google в области NAI основана на нескольких развёрнутых или пилотных прототипах, созданных совместно с партнёрскими организациями, такими как RIT/NTID, The Arc of the United States, RNID и Team Gleason.

StreetReaderAI
* Создан для слепых и слабовидящих пользователей, ориентирующихся в городской среде.
* Сочетает в себе ИИ-описатель, который обрабатывает данные с камеры и геопространственные данные, с интерфейсом ИИ-чата для запросов на естественном языке.
* Поддерживает временную модель окружающей среды, которая позволяет задавать вопросы вроде «Где была эта остановка автобуса?» и получать ответы, например: «Она за вашей спиной, примерно в 12 метрах».

Мультимодальный агентский видеоплеер (MAVP)
* Ориентирован на доступность онлайн-видео.
* Использует описанный выше конвейер на основе Gemini для обеспечения адаптивных аудиоописаний.
* Позволяет пользователям контролировать плотность описания, прерывать воспроизведение вопросами и получать ответы, основанные на индексированном визуальном контенте.

Грамматическая лаборатория
* Двуязычная (американский жестовый язык и английский) платформа для обучения, созданная RIT/NTID при поддержке Google.org и Google.
* Использует Gemini для генерации индивидуальных вопросов с выбором ответа.
* Представляет контент через видео на жестовом языке, английские субтитры, устное повествование и транскрипты, адаптируя модальности и сложность для каждого учащегося.

Процесс проектирования и эффекты «бордюра»

В документации NAI описан структурированный процесс: исследовать, создавать и совершенствовать, затем повторять на основе обратной связи. В одном из тематических исследований по доступности видео команда:
* Определила целевых пользователей по спектру от полностью слепых до зрячих.
* Провела совместные сеансы проектирования и тестирования с участием около 20 участников.
* Прошла более 40 итераций на основе 45 сессий обратной связи.

Ожидается, что в результате внедрения таких интерфейсов будет достигнут эффект «бордюра». Функции, созданные для пользователей с ограниченными возможностями — такие как улучшенная навигация, голосовое взаимодействие и адаптивное суммирование — часто повышают удобство использования для гораздо более широкой аудитории, включая пользователей без инвалидности, которые сталкиваются с нехваткой времени, когнитивной нагрузкой или ограничениями окружающей среды.

Ключевые выводы

* Агент — это пользовательский интерфейс, а не надстройка. Нативно адаптивные интерфейсы (NAI) рассматривают мультимодального ИИ-агента как основной уровень взаимодействия, поэтому доступность обрабатывается агентом непосредственно в основном пользовательском интерфейсе, а не как отдельный слой или дополнительная функция.
* Архитектура оркестратора + субагенты. NAI использует центральный оркестратор, который поддерживает общий контекст и направляет работу специализированным субагентам (например, для суммирования или адаптации настроек), превращая статические деревья навигации в динамические модули, управляемые агентами.
* Мультимодальные Gemini + RAG для адаптивного взаимодействия. Прототипы, такие как Multimodal Agent Video Player, создают плотные визуальные индексы и используют генерацию с извлечением, дополненную извлечением, с Gemini для поддержки интерактивного, обоснованного Q&A во время воспроизведения видео и других сценариев работы с богатыми медиа.
* Реальные системы. StreetReaderAI, MAVP, Grammar Laboratory: NAI воплощён в конкретных инструментах: StreetReaderAI для навигации, MAVP для видеодоступности и Grammar Laboratory для изучения жестового языка и английского языка, все они работают на основе мультимодальных агентов.
* Доступность как основное ограничение проектирования. Платформа кодирует доступность в конфигурационные шаблоны (обнаружение намерений, добавление контекста, настройка параметров) и использует эффект «бордюра», когда решение для пользователей с ограниченными возможностями повышает надёжность и удобство использования для широкой базы пользователей.

1. Какие ключевые свойства отличают нативно адаптивные интерфейсы (NAI) от традиционных пользовательских интерфейсов?

Ответ: ключевые свойства NAI включают в себя использование мультимодального ИИ-агента в качестве основного пользовательского интерфейса, который может видеть текст, изображения и макеты, слушать речь и выводить текст, речь или другие модальности. Также NAI интегрирует доступность в основную архитектуру агента с самого начала, а не добавляет её позже, и процесс проектирования явно ориентирован на пользователя, при этом люди с ограниченными возможностями рассматриваются как основные пользователи, которые определяют требования для всех.

2. Какие проблемы решает внедрение нативно адаптивных интерфейсов (NAI) в разработке программного обеспечения?

Ответ: внедрение NAI решает проблему «пробела в доступности» — отставания между добавлением новых функций продукта и их использованием людьми с ограниченными возможностями. Встраивание агентов в интерфейс позволяет системе адаптироваться без ожидания создания специальных надстроек, что сокращает разрыв между разработкой новых функций и их доступностью для всех пользователей.

3. Какие примеры конкретных прототипов NAI приведены в статье?

Ответ: в статье приведены примеры следующих прототипов NAI:
* StreetReaderAI — создан для слепых и слабовидящих пользователей, ориентирующихся в городской среде. Сочетает в себе ИИ-описатель, который обрабатывает данные с камеры и геопространственные данные, с интерфейсом ИИ-чата для запросов на естественном языке.
* Мультимодальный агентский видеоплеер (MAVP) — ориентирован на доступность онлайн-видео. Использует описанный выше конвейер на основе Gemini для обеспечения адаптивных аудиоописаний.
* Грамматическая лаборатория — двуязычная (американский жестовый язык и английский) платформа для обучения, созданная RIT/NTID при поддержке Google.org и Google. Использует Gemini для генерации индивидуальных вопросов с выбором ответа.

4. Какие основные выводы можно сделать из статьи о нативно адаптивных интерфейсах (NAI)?

Ответ: основные выводы из статьи включают в себя то, что агент является пользовательским интерфейсом, а не надстройкой, архитектура оркестратора + субагенты позволяет управлять динамическими модулями, мультимодальные Gemini + RAG обеспечивают адаптивное взаимодействие, реальные системы, такие как StreetReaderAI, MAVP и Grammar Laboratory, воплощают NAI в конкретных инструментах, а доступность является основным ограничением проектирования.

5. Как влияет внедрение NAI на удобство использования программного обеспечения для широкой аудитории?

Ответ: внедрение NAI повышает удобство использования программного обеспечения для широкой аудитории, включая пользователей без инвалидности, которые сталкиваются с нехваткой времени, когнитивной нагрузкой или ограничениями окружающей среды. Это достигается за счёт использования эффекта «бордюра», когда решения для пользователей с ограниченными возможностями повышают надёжность и удобство использования для всех пользователей.

Источник