Google разрабатывает новый подход к помощи в дополненной реальности (AR)

Sensible Agent — это исследовательская платформа и прототип искусственного интеллекта от Google, который выбирает как действие, которое должен выполнить агент в дополненной реальности (AR), так и способ взаимодействия для его выполнения, основываясь на мультимодальном контексте в реальном времени (например, заняты ли руки, есть ли фоновый шум, социальная обстановка).

Вместо того чтобы рассматривать «что предложить» и «как спросить» как отдельные задачи, Sensible Agent вычисляет их совместно, чтобы минимизировать трение и неловкость в общественных местах.

Как работает система?

Прототип на гарнитуре XR класса Android реализует конвейер с тремя основными этапами:

1. Анализ контекста: объединяет эгоцентричные изображения (вывод языка для сцены/активности/знакомости) с классификатором окружающего звука (YAMNet) для обнаружения таких условий, как шум или разговор.

2. Генератор проактивных запросов: предлагает большой мультимодальной модели несколько примеров для выбора действия, структуры запроса (двоичный/многовариантный/с иконкой) и модальности представления.

3. Уровень взаимодействия: активирует только те методы ввода, которые совместимы с обнаруженной доступностью ввода/вывода, например, кивок головой для «да», когда шёпот неприемлем, или фиксация взгляда, когда заняты руки.

Откуда берутся политики с несколькими выстрелами — из интуиции дизайнера или из данных?

Команда заложила основу для пространства политик на основе двух исследований:

* Экспертный семинар (n=12) для определения случаев, когда проактивная помощь полезна, и какие микро-входы социально приемлемы;
* Исследование контекстуального сопоставления (n=40; 960 записей) в повседневных сценариях (например, спортзал, продуктовый магазин, музей, дорога, приготовление пищи), где участники указывали желаемые действия агента и выбирали предпочтительный тип запроса и модальность с учётом контекста.

Эти сопоставления определяют несколько примеров, используемых во время выполнения, смещая выбор «что+как» с ad-hoc эвристик на основанные на данных шаблоны (например, многовариантный выбор в незнакомой обстановке, двоичный выбор под давлением времени, иконка + визуальный в социально чувствительных настройках).

Какие конкретные техники взаимодействия поддерживает прототип?

* Для двоичных подтверждений система распознаёт кивок/покачивание головой;
* Для многовариантного выбора схема наклона головы сопоставляет влево/вправо/назад с опциями 1/2/3;
* Жесты пальцами поддерживают числовой выбор и поднятие большого пальца вверх/вниз;
* Задержка взгляда активирует визуальные кнопки, где точечный наведение было бы неудобным;
* Краткий словарный запас речи (например, «да», «нет», «один», «два», «три») обеспечивает минимальный путь диктовки;
* Нелексические разговорные звуки («мм-хм») покрывают шумные или шепотные контексты.

Важно отметить, что конвейер предлагает только те модальности, которые возможны при текущих ограничениях (например, подавляет звуковые подсказки в тихих пространствах; избегает фиксации взгляда, если пользователь не смотрит на HUD).

Предварительное исследование показало, что совместный выбор действительно снижает стоимость взаимодействия?

Предварительное исследование с участием одного и того же субъекта (n=10) сравнивало платформу с базовой линией голосовых подсказок в AR и 360° VR и показало более низкие воспринимаемые усилия при взаимодействии и меньшую навязчивость при сохранении удобства использования и предпочтений.

Это небольшая выборка, типичная для ранней проверки HCI; это направление доказательств, а не доказательство качества продукта, но оно соответствует тезису о том, что объединение намерений и модальности снижает накладные расходы.

Как работает аудиосторона, и почему YAMNet?

YAMNet — это лёгкий аудиоклассификатор на основе MobileNet-v1, обученный на Google AudioSet, предсказывающий 521 класс. В этом контексте это практичный выбор для обнаружения приблизительных условий окружающей среды — присутствия речи, музыки, шума толпы — достаточно быстро, чтобы управлять звуковыми подсказками или делать ставку на визуальное/жестикуляционное взаимодействие, когда речь будет неудобной или ненадёжной.

Как можно интегрировать его в существующую стопку AR или мобильного ассистента?

Минимальный план внедрения выглядит следующим образом:

1. Инструментировать лёгкий анализатор контекста (VLM на эгоцентричных кадрах + теги окружающего звука) для создания компактного состояния;
2. Создать таблицу с несколькими выстрелами сопоставления контекста→(действие, тип запроса, модальность) на основе внутренних пилотов или пользовательских исследований;
3. Предложить LMM выдать одновременно «что» и «как»;
4. Предоставлять только возможные методы ввода в соответствии с состоянием и сохранять подтверждения двоичными по умолчанию;
5. Регистрировать выбор и результаты для автономного обучения политик.

Артефакты Sensible Agent показывают, что это возможно в WebXR/Chrome на аппаратном обеспечении класса Android, поэтому переход на нативный HMD-запуск или даже на телефонную гарнитуру — это в основном инженерное упражнение.

Краткое содержание

Sensible Agent реализует проактивную AR как совместную задачу политики — выбор действия и модальности взаимодействия в одном, обусловленном контекстом решении — и подтверждает подход с помощью работающего прототипа WebXR и небольшого пользовательского исследования, показывающего более низкие воспринимаемые усилия при взаимодействии по сравнению с голосовой базовой линией.

Вклад фреймворка — это не продукт, а воспроизводимый рецепт: набор данных сопоставления контекста→(что/как), несколько примеров для их связывания во время выполнения и простые входные примитивы, соответствующие социальным и I/O ограничениям.

1. Какие методы взаимодействия поддерживает прототип Sensible Agent и как они адаптируются к различным контекстам?

Прототип Sensible Agent поддерживает несколько методов взаимодействия, адаптированных к различным контекстам. Среди них:
* двоичные подтверждения (кивок/покачивание головой);
* многовариантный выбор (наклон головы влево/вправо/назад для выбора опций);
* жесты пальцами для числового выбора и поднятия большого пальца вверх/вниз;
* задержка взгляда для активации визуальных кнопок;
* краткий словарный запас речи (например, «да», «нет», «один», «два», «три») для минимальной диктовки;
* нелексические разговорные звуки («мм-хм») для шумных или шепотных контекстов.

Конвейер предлагает только те модальности, которые возможны при текущих ограничениях (например, подавляет звуковые подсказки в тихих пространствах).

2. Какие данные использовались для определения политик взаимодействия в прототипе Sensible Agent?

Для определения политик взаимодействия в прототипе Sensible Agent использовались данные, полученные в результате двух исследований:
* экспертного семинара (n=12) для определения случаев, когда проактивная помощь полезна, и какие микро-входы социально приемлемы;
* исследования контекстуального сопоставления (n=40; 960 записей) в повседневных сценариях (например, спортзал, продуктовый магазин, музей, дорога, приготовление пищи), где участники указывали желаемые действия агента и выбирали предпочтительный тип запроса и модальность с учётом контекста.

Эти сопоставления определяют несколько примеров, используемых во время выполнения, смещая выбор «что+как» с ad-hoc эвристик на основанные на данных шаблоны.

3. Какие преимущества предоставляет совместный выбор действия и модальности взаимодействия в дополненной реальности по сравнению с традиционными методами?

Совместный выбор действия и модальности взаимодействия в дополненной реальности предоставляет несколько преимуществ по сравнению с традиционными методами:
* снижение воспринимаемых усилий при взаимодействии;
* уменьшение навязчивости при сохранении удобства использования;
* адаптация к различным контекстам и ограничениям (например, подавление звуковых подсказок в тихих пространствах).

Источник