Проектирование полностью потокового голосового агента с учётом бюджетов задержки в сквозной передаче данных, инкрементальным ASR, потоковой обработкой LLM и синтезом речи в реальном времени

Microsoft Research выпускает OptiMind: модель с 20 миллиардами параметров, которая преобразует естественный язык в готовые к решению модели оптимизации

В этом руководстве мы создаём полностью потокового голосового агента, который имитирует работу современных систем речевого общения с низкой задержкой в реальном времени. Мы моделируем полный конвейер, от фрагментированного аудиовхода и потокового распознавания речи до инкрементального анализа языковой модели и потокового вывода текста в речь, одновременно отслеживая задержку на каждом этапе.

Основные компоненты

1. Аудиовход: мы моделируем потоковое аудио, разбивая речь на фрагменты фиксированной длительности, которые поступают асинхронно.
2. ASR (автоматическое распознавание речи): мы реализуем потоковый модуль ASR, который выдаёт частичные транскрипции до выдачи окончательного результата.
3. LLM (языковая модель): мы генерируем ответы по токенам, чтобы зафиксировать время до первого токена.
4. TTS (текст в речь): мы преобразуем инкрементный текст в аудиофрагменты для имитации раннего и непрерывного синтеза речи.

Этапы работы

1. Приём аудио: агент получает аудиофрагмент и начинает его обработку.
2. Распознавание речи: ASR анализирует аудио и выдаёт транскрипцию.
3. Анализ языковой модели: LLM генерирует ответ на основе транскрипции.
4. Синтез речи: TTS преобразует текст в аудио для вывода.

Оптимизация

Мы применяем агрессивные бюджеты задержки, чтобы протестировать конвейер в реалистичных условиях. Мы используем эти прогоны для проверки соответствия системы целевым показателям отзывчивости во время взаимодействий.

В заключение мы продемонстрировали, как полностью потокового голосового агента можно организовать в виде единого асинхронного конвейера с чёткими границами этапов и измеримыми гарантиями производительности.

Microsoft Research выпустила OptiMind — систему на основе искусственного интеллекта, которая преобразует описания сложных задач принятия решений на естественном языке в математические формулировки, которые могут выполнять оптимизационные решатели.

Что такое OptiMind?

OptiMind — это специализированная модель Mixture of Experts с 20 миллиардами параметров в семействе трансформаторов gpt-oss. Около 3,6 миллиарда параметров активны на токен, поэтому стоимость вывода ближе к модели среднего размера, сохраняя при этом высокую производительность. Длина контекста составляет 128 000 токенов, что позволяет использовать длинные спецификации и многоэтапные рассуждения внутри одного запроса.

Модель принимает на вход описание задачи оптимизации на естественном языке. На выходе получается математическая формулировка вместе с исполняемым кодом Python, который использует GurobiPy. Сгенерированный скрипт определяет переменные решения, ограничения и цель, вызывает решатель Gurobi и выводит оптимальное значение цели и решения.

Архитектура, настройка обучения и наборы данных

Базовая модель — openai/gpt-oss-20b, доработанная в microsoft/OptiMind-SFT с использованием очищенных наборов данных для оптимизации. Архитектура представляет собой трансформатор Mixture of Experts с маршрутизацией, которая активирует подмножество экспертов для каждого токена. Модель выпущена под лицензией MIT.

Для обучения используются 8 графических процессоров NVIDIA B200, а для вывода и оценки в эталонной настройке — 8 графических процессоров NVIDIA H100. Сообщается, что время тонкой настройки составляет около 8 часов. Для регулярного использования команда рекомендует не менее 32 ГБ видеопамяти на графических процессорах, таких как A100, H100 или B200.

Для обучения с учителем исследовательская группа создаёт очищенные версии OR Instruct и OptMATH. Для тестирования используются проверенные экспертами и очищенные версии IndustryOR, Mamo Complex и OptMATH. Эти тесты охватывают сложные задачи формулирования, где существующие модели часто достигают лишь 20–50% точности на исходных шумных версиях.

Анализ ошибок на основе классов и очистка данных

Ключевая техническая идея в OptiMind заключается в объединении опыта оптимизации с обучением LLM. Исследовательская группа классифицирует задачи из OR-Instruct и OptMATH по 53 начальным классам, например, покрытие множества, планирование потока или задача коммивояжёра.

Для каждого класса они запускают модель gpt-oss-20b-base на выборке задач и выбирают экземпляры, в которых выходные данные модели расходятся с истинным значением. Эксперты по оптимизации проверяют эти элементы, выявляют повторяющиеся ошибки формулирования и пишут краткие описания ошибок и профилактические подсказки.

Исследовательская группа использует полуавтоматизированный конвейер. Они регенерируют решения с более крупной моделью, которой предлагаются подсказки, связанные с конкретным классом, применяют мажоритарное голосование для повышения качества решений и отбрасывают несогласованные элементы. Они также обнаруживают недостающие параметры и двусмысленные утверждения и при необходимости регенерируют описания задач. В результате получается очищенный обучающий корпус, который лучше согласован с правильными математическими формулировками.

Инференс-пайплайн, подсказки и масштабирование во время тестирования

Во время инференса OptiMind ведёт себя как многоступенчатая система, а не как однократное приглашение. По умолчанию сначала классифицируется каждый тестовый экземпляр в один из 53 классов оптимизации, использованных во время анализа ошибок. Затем к приглашению добавляется сводка ошибок и пары подсказок, связанных с этим классом.

Модель генерирует цепочку рассуждений, математическую формулировку и код GurobiPy. Когда доступно больше вычислительных ресурсов, система может применить самосогласованность с мажоритарным голосованием. Она генерирует несколько сценариев-кандидатов, выполняет их и выбирает решение, которое встречается чаще всего в пределах заданных числовых допусков.

Многооборотный режим коррекции также может быть включён. Система запускает сгенерированный код, фиксирует журналы решателя или ошибки выполнения, передаёт эту обратную связь модели, и модель вносит коррективы в формулировку и код в течение нескольких раундов. Это устраняет некоторые ошибки моделирования и кодирования за счёт более высокой задержки.

Количественные показатели на оптимизационных бенчмарках

На очищенных версиях IndustryOR, Mamo-Complex и OptMATH фреймворк OptiMind значительно повышает точность решений. Доработанная модель повышает точность формулировок на 20,7% по нескольким оптимизационным бенчмаркам по сравнению с базовой моделью и превосходит другие открытые модели аналогичного или большего размера.

Эти результаты основаны на тщательной очистке как обучающих, так и тестовых данных. Исследовательская группа сообщает, что многие очевидные ошибки модели на исходных тестах на самом деле были связаны с отсутствующими данными, двусмысленными описаниями или неправильными эталонными решениями, и что повторная очистка может поднять кажущуюся точность для фиксированной модели с примерно 40 до 60% до диапазона 70–90% на исправленных наборах.

1. Какие основные компоненты включает в себя система потокового голосового агента, описанная в статье?

Основные компоненты системы потокового голосового агента включают:
* аудиовход (разбиение речи на фрагменты фиксированной длительности);
* ASR (автоматическое распознавание речи, выдача частичных транскрипций до окончательного результата);
* LLM (языковая модель, генерация ответов по токенам);
* TTS (текст в речь, преобразование инкрементного текста в аудиофрагменты).

2. Какие этапы включает в себя работа потокового голосового агента?

Этапы работы потокового голосового агента:
* приём аудиофрагмента и начало его обработки;
* распознавание речи (ASR анализирует аудио и выдаёт транскрипцию);
* анализ языковой модели (LLM генерирует ответ на основе транскрипции);
* синтез речи (TTS преобразует текст в аудио для вывода).

3. Какие параметры и характеристики имеет модель OptiMind, выпущенная Microsoft Research?

Модель OptiMind имеет следующие параметры и характеристики:
* 20 миллиардов параметров в семействе трансформаторов gpt-oss;
* около 3,6 миллиарда параметров активны на токен;
* длина контекста составляет 128 000 токенов;
* модель принимает на вход описание задачи оптимизации на естественном языке и выдаёт математическую формулировку вместе с исполняемым кодом Python, который использует GurobiPy.

4. Какие методы используются для обучения и настройки модели OptiMind?

Для обучения и настройки модели OptiMind используются следующие методы:
* использование очищенных наборов данных для оптимизации;
* применение 8 графических процессоров NVIDIA B200 для обучения;
* применение 8 графических процессоров NVIDIA H100 для вывода и оценки в эталонной настройке;
* время тонкой настройки составляет около 8 часов;
* рекомендуется не менее 32 ГБ видеопамяти на графических процессорах, таких как A100, H100 или B200, для регулярного использования.

5. Какие количественные показатели демонстрируют эффективность модели OptiMind на оптимизационных бенчмарках?

Источник