Проектирование полностью потокового голосового агента с учётом бюджетов задержки в сквозной передаче данных, инкрементальным ASR, потоковой обработкой LLM и синтезом речи в реальном времени

Microsoft Research выпускает OptiMind: модель с 20 миллиардами параметров, которая преобразует естественный язык в готовые к решению модели оптимизации

В этом руководстве мы создаём полностью потокового голосового агента, который имитирует работу современных систем речевого общения с низкой задержкой в реальном времени. Мы моделируем полный конвейер, от фрагментированного аудиовхода и потокового распознавания речи до инкрементального анализа языковой модели и потокового вывода текста в речь, одновременно отслеживая задержку на каждом этапе.

Основные компоненты

1. Аудиовход: мы моделируем потоковое аудио, разбивая речь на фрагменты фиксированной длительности, которые поступают асинхронно.
2. ASR (автоматическое распознавание речи): мы реализуем потоковый модуль ASR, который выдаёт частичные транскрипции до выдачи окончательного результата.
3. LLM (языковая модель): мы генерируем ответы по токенам, чтобы зафиксировать время до первого токена.
4. TTS (текст в речь): мы преобразуем инкрементный текст в аудиофрагменты для имитации раннего и непрерывного синтеза речи.

Этапы работы

1. Приём аудио: агент получает аудиофрагмент и начинает его обработку.
2. Распознавание речи: ASR анализирует аудио и выдаёт транскрипцию.
3. Анализ языковой модели: LLM генерирует ответ на основе транскрипции.
4. Синтез речи: TTS преобразует текст в аудио для вывода.

Оптимизация

Мы применяем агрессивные бюджеты задержки, чтобы протестировать конвейер в реалистичных условиях. Мы используем эти прогоны для проверки соответствия системы целевым показателям отзывчивости во время взаимодействий.

В заключение мы продемонстрировали, как полностью потокового голосового агента можно организовать в виде единого асинхронного конвейера с чёткими границами этапов и измеримыми гарантиями производительности.

Microsoft Research выпустила OptiMind — систему на основе искусственного интеллекта, которая преобразует описания сложных задач принятия решений на естественном языке в математические формулировки, которые могут выполнять оптимизационные решатели.

Что такое OptiMind?

OptiMind — это специализированная модель Mixture of Experts с 20 миллиардами параметров в семействе трансформаторов gpt-oss. Около 3,6 миллиарда параметров активны на токен, поэтому стоимость вывода ближе к модели среднего размера, сохраняя при этом высокую производительность. Длина контекста составляет 128 000 токенов, что позволяет использовать длинные спецификации и многоэтапные рассуждения внутри одного запроса.

Модель принимает на вход описание задачи оптимизации на естественном языке. На выходе получается математическая формулировка вместе с исполняемым кодом Python, который использует GurobiPy. Сгенерированный скрипт определяет переменные решения, ограничения и цель, вызывает решатель Gurobi и выводит оптимальное значение цели и решения.

Архитектура, настройка обучения и наборы данных

Базовая модель — openai/gpt-oss-20b, доработанная в microsoft/OptiMind-SFT с использованием очищенных наборов данных для оптимизации. Архитектура представляет собой трансформатор Mixture of Experts с маршрутизацией, которая активирует подмножество экспертов для каждого токена. Модель выпущена под лицензией MIT.

Для обучения используются 8 графических процессоров NVIDIA B200, а для вывода и оценки в эталонной настройке — 8 графических процессоров NVIDIA H100. Сообщается, что время тонкой настройки составляет около 8 часов. Для регулярного использования команда рекомендует не менее 32 ГБ видеопамяти на графических процессорах, таких как A100, H100 или B200.

Для обучения с учителем исследовательская группа создаёт очищенные версии OR Instruct и OptMATH. Для тестирования используются проверенные экспертами и очищенные версии IndustryOR, Mamo Complex и OptMATH. Эти тесты охватывают сложные задачи формулирования, где существующие модели часто достигают лишь 20–50% точности на исходных шумных версиях.

Анализ ошибок на основе классов и очистка данных

Ключевая техническая идея в OptiMind заключается в объединении опыта оптимизации с обучением LLM. Исследовательская группа классифицирует задачи из OR-Instruct и OptMATH по 53 начальным классам, например, покрытие множества, планирование потока или задача коммивояжёра.

Для каждого класса они запускают модель gpt-oss-20b-base на выборке задач и выбирают экземпляры, в которых выходные данные модели расходятся с истинным значением. Эксперты по оптимизации проверяют эти элементы, выявляют повторяющиеся ошибки формулирования и пишут краткие описания ошибок и профилактические подсказки.

Исследовательская группа использует полуавтоматизированный конвейер. Они регенерируют решения с более крупной моделью, которой предлагаются подсказки, связанные с конкретным классом, применяют мажоритарное голосование для повышения качества решений и отбрасывают несогласованные элементы. Они также обнаруживают недостающие параметры и двусмысленные утверждения и при необходимости регенерируют описания задач. В результате получается очищенный обучающий корпус, который лучше согласован с правильными математическими формулировками.

Инференс-пайплайн, подсказки и масштабирование во время тестирования

Во время инференса OptiMind ведёт себя как многоступенчатая система, а не как однократное приглашение. По умолчанию сначала классифицируется каждый тестовый экземпляр в один из 53 классов оптимизации, использованных во время анализа ошибок. Затем к приглашению добавляется сводка ошибок и пары подсказок, связанных с этим классом.

Модель генерирует цепочку рассуждений, математическую формулировку и код GurobiPy. Когда доступно больше вычислительных ресурсов, система может применить самосогласованность с мажоритарным голосованием. Она генерирует несколько сценариев-кандидатов, выполняет их и выбирает решение, которое встречается чаще всего в пределах заданных числовых допусков.

Многооборотный режим коррекции также может быть включён. Система запускает сгенерированный код, фиксирует журналы решателя или ошибки выполнения, передаёт эту обратную связь модели, и модель вносит коррективы в формулировку и код в течение нескольких раундов. Это устраняет некоторые ошибки моделирования и кодирования за счёт более высокой задержки.

Количественные показатели на оптимизационных бенчмарках

На очищенных версиях IndustryOR, Mamo-Complex и OptMATH фреймворк OptiMind значительно повышает точность решений. Доработанная модель повышает точность формулировок на 20,7% по нескольким оптимизационным бенчмаркам по сравнению с базовой моделью и превосходит другие открытые модели аналогичного или большего размера.

Эти результаты основаны на тщательной очистке как обучающих, так и тестовых данных. Исследовательская группа сообщает, что многие очевидные ошибки модели на исходных тестах на самом деле были связаны с отсутствующими данными, двусмысленными описаниями или неправильными эталонными решениями, и что повторная очистка может поднять кажущуюся точность для фиксированной модели с примерно 40 до 60% до диапазона 70–90% на исправленных наборах.

1. Какие основные компоненты включает в себя система потокового голосового агента, описанная в статье?

Основные компоненты системы потокового голосового агента включают:
* аудиовход (разбиение речи на фрагменты фиксированной длительности);
* ASR (автоматическое распознавание речи, выдача частичных транскрипций до окончательного результата);
* LLM (языковая модель, генерация ответов по токенам);
* TTS (текст в речь, преобразование инкрементного текста в аудиофрагменты).

2. Какие этапы включает в себя работа потокового голосового агента?

Этапы работы потокового голосового агента:
* приём аудиофрагмента и начало его обработки;
* распознавание речи (ASR анализирует аудио и выдаёт транскрипцию);
* анализ языковой модели (LLM генерирует ответ на основе транскрипции);
* синтез речи (TTS преобразует текст в аудио для вывода).

3. Какие параметры и характеристики имеет модель OptiMind, выпущенная Microsoft Research?

Модель OptiMind имеет следующие параметры и характеристики:
* 20 миллиардов параметров в семействе трансформаторов gpt-oss;
* около 3,6 миллиарда параметров активны на токен;
* длина контекста составляет 128 000 токенов;
* модель принимает на вход описание задачи оптимизации на естественном языке и выдаёт математическую формулировку вместе с исполняемым кодом Python, который использует GurobiPy.

4. Какие методы используются для обучения и настройки модели OptiMind?

Для обучения и настройки модели OptiMind используются следующие методы:
* использование очищенных наборов данных для оптимизации;
* применение 8 графических процессоров NVIDIA B200 для обучения;
* применение 8 графических процессоров NVIDIA H100 для вывода и оценки в эталонной настройке;
* время тонкой настройки составляет около 8 часов;
* рекомендуется не менее 32 ГБ видеопамяти на графических процессорах, таких как A100, H100 или B200, для регулярного использования.

5. Какие количественные показатели демонстрируют эффективность модели OptiMind на оптимизационных бенчмарках?

На очищенных версиях IndustryOR, Mamo-Complex и OptMATH фреймворк OptiMind значительно повышает точность решений. Доработанная модель повышает точность формулировок на 20,7% по нескольким оптимизационным бенчмаркам по сравнению с базовой моделью и превосходит другие открытые модели аналогичного или большего размера.

Источник