Компания Google представила новый подход к голосовому поиску — Speech-to-Retrieval (S2R). Этот метод позволяет напрямую сопоставлять устный запрос с вложением и извлекать информацию без предварительной конвертации речи в текст.
Основные принципы S2R
Команда Google позиционирует S2R как архитектурное и философское изменение, направленное на устранение распространения ошибок в классическом каскадном подходе моделирования и сосредоточение системы на намерении поиска, а не на точности транскрипции.
В традиционном каскадном подходе моделирования автоматическое распознавание речи (ASR) сначала создаёт единую текстовую строку, которая затем передаётся на поиск. Небольшие ошибки транскрипции могут изменить смысл запроса и привести к неверным результатам.
S2R переосмысливает проблему вокруг вопроса «Какая информация нужна?» и обходит хрупкий промежуточный транскрипт.
Оценка потенциала S2R
Исследовательская группа Google проанализировала разрыв между частотой ошибок слов (WER, качество ASR) и средним взаимным рангом (MRR, качество поиска). Используя проверенные человеком транскрипты для имитации идеального условия каскадного моделирования, команда сравнила:
* каскадное ASR (базовый уровень);
* каскадное моделирование (верхняя граница).
Было обнаружено, что более низкий WER не всегда предсказывает более высокий MRR. Постоянный разрыв в MRR между базовым уровнем и эталонным значением указывает на возможности для моделей, которые оптимизируют намерение поиска непосредственно из аудио.
Архитектура: двойной энкодер с совместным обучением
В основе S2R лежит архитектура двойного энкодера. Аудиоэнкодер преобразует устный запрос в насыщенное аудиовложение, которое фиксирует семантический смысл, а документ-энкодер генерирует соответствующее векторное представление документов.
Система обучается на парных данных (аудиозапрос, соответствующий документ) так, что вектор аудиозапроса геометрически близок к векторам соответствующих документов в пространстве представлений.
Путь обслуживания: потоковое аудио, поиск по сходству и ранжирование
Во время вывода аудиоданные передаются на предварительно обученный аудиоэнкодер для получения вектора запроса. Этот вектор используется для эффективного выявления наиболее релевантного набора результатов из индекса Google; система ранжирования поиска, которая объединяет сотни сигналов, затем вычисляет окончательный порядок.
Оценка S2R на SVQ
В рамках оценки Simple Voice Questions (SVQ) представлено сравнение трёх систем:
* каскадное ASR (синий);
* каскадное моделирование (зелёный);
* S2R (оранжевый).
Столбец S2R значительно превосходит базовый уровень каскадного ASR и приближается к верхней границе, установленной каскадным моделированием по MRR.
Открытые ресурсы: SVQ и Massive Sound Embedding Benchmark (MSEB)
Чтобы поддержать прогресс сообщества, Google опубликовал Simple Voice Questions (SVQ) на Hugging Face: короткие аудиовопросы, записанные в 26 локациях на 17 языках и в различных аудиоусловиях (чистый звук, фоновый речевой шум, шум от движения транспорта, медиашум).
Набор данных выпущен как неразделённый набор для оценки и лицензирован CC-BY-4.0. SVQ является частью Massive Sound Embedding Benchmark (MSEB), открытого фреймворка для оценки методов встраивания звука по различным задачам.
Ключевые выводы
* Google перевела голосовой поиск на Speech-to-Retrieval (S2R), сопоставляя устные запросы с вложениями и пропуская транскрипцию.
* Двойной энкодер (аудиоэнкодер + документ-энкодер) выравнивает аудио/запросные векторы с вложениями документов для прямого семантического поиска.
* В ходе оценки S2R превосходит производственный каскад ASR→поиск и приближается к верхней границе, установленной эталонной транскрипцией по MRR.
* S2R уже используется в производстве и поддерживает несколько языков, интегрирован с существующей системой ранжирования Google.
* Google выпустила Simple Voice Questions (SVQ) (17 языков, 26 локаций) в рамках MSEB для стандартизации бенчмаркинга поиска по речи.
Редакционные комментарии
Speech-to-Retrieval (S2R) — это значимая архитектурная коррекция, а не косметический апгрейд: заменив звено ASR→текст на интерфейс встраивания, ориентированный на речь, Google согласовал цель оптимизации с качеством поиска и устранил основной источник каскадных ошибок.
Внедрение в производство и многоязычный охват имеют значение, но сейчас интересна операционная работа — калибровка оценок релевантности, полученных из аудио, стресс-тестирование переключения кодов и работы в шумных условиях, а также количественная оценка компромиссов в области конфиденциальности, поскольку голосовые вложения становятся ключами запросов.
1. В чём заключается основное отличие подхода Speech-to-Retrieval (S2R) от традиционного каскадного подхода моделирования?
Основное отличие заключается в том, что S2R позволяет напрямую сопоставлять устный запрос с вложением и извлекать информацию без предварительной конвертации речи в текст. В то время как традиционный подход сначала преобразует речь в текст, а затем передаёт его на поиск, что может привести к ошибкам транскрипции и неверным результатам.
2. Какие ключевые компоненты лежат в основе архитектуры S2R?
В основе S2R лежит архитектура двойного энкодера. Аудиоэнкодер преобразует устный запрос в насыщенное аудиовложение, которое фиксирует семантический смысл, а документ-энкодер генерирует соответствующее векторное представление документов. Система обучается на парных данных (аудиозапрос, соответствующий документ) так, что вектор аудиозапроса геометрически близок к векторам соответствующих документов в пространстве представлений.
3. Как оценивается потенциал S2R и какие результаты были получены в ходе оценки?
Исследовательская группа Google проанализировала разрыв между частотой ошибок слов (WER) и средним взаимным рангом (MRR). Было обнаружено, что более низкий WER не всегда предсказывает более высокий MRR. В рамках оценки Simple Voice Questions (SVQ) представлено сравнение трёх систем: каскадное ASR, каскадное моделирование и S2R. Столбец S2R значительно превосходит базовый уровень каскадного ASR и приближается к верхней границе, установленной каскадным моделированием по MRR.
4. Какие выводы можно сделать о потенциале S2R на основе представленного текста?
На основе представленного текста можно сделать вывод, что S2R является значимой архитектурной коррекцией, которая позволяет улучшить качество поиска и устранить основной источник каскадных ошибок. S2R уже используется в производстве и поддерживает несколько языков, интегрирован с существующей системой ранжирования Google.
5. Какие ресурсы были выпущены Google для поддержки прогресса сообщества в области голосового поиска?
Google выпустила Simple Voice Questions (SVQ) на Hugging Face: короткие аудиовопросы, записанные в 26 локациях на 17 языках и в различных аудиоусловиях. Набор данных выпущен как неразделённый набор для оценки и лицензирован CC-BY-4.0. SVQ является частью Massive Sound Embedding Benchmark (MSEB), открытого фреймворка для оценки методов встраивания звука по различным задачам.