Liquid AI выпустила LFM2-Audio-1.5B: комплексная модель для работы с аудиоданными с задержкой ответа менее 100 мс

Компания Liquid AI выпустила LFM2-Audio-1.5B — компактную модель для работы с аудиоданными, которая понимает и генерирует речь и текст с помощью единого сквозного стека. Модель предназначена для использования в ассистентах с низкой задержкой в режиме реального времени на устройствах с ограниченными ресурсами.

Что нового?

LFM2-Audio расширяет языковую основу LFM2 с 1,2 миллиарда параметров для обработки аудио и текста в виде последовательных токенов. Модель разделяет аудиопредставления: входные данные — это непрерывные вложения, проецируемые непосредственно из необработанных фрагментов сигналов (~80 мс), а выходные данные — дискретные аудиокоды. Это позволяет избежать артефактов дискретизации на входном пути, сохраняя при этом авторегрессивное обучение и генерацию для обеих модальностей на выходном пути.

Реализация

Выпущенная контрольная точка использует:
* Основа: LFM2 (гибридная свёртка + внимание), 1,2 миллиарда параметров (только LM).
* Аудиокодер: FastConformer (~115 миллионов).
* Аудиодекодер: RQ-Transformer, предсказывающий дискретные токены аудиокодека Mimi (8 кодовых книг).
* Контекст: 32 768 токенов; словарь: 65 536 (текст) / 2049×8 (аудио).
* Точность: bfloat16; лицензия: LFM Open License v1.0; языки: английский.

Два режима генерации для агентов в реальном времени

* Чередующаяся генерация для живого чата «речь-в-речь», где модель чередует текстовые и аудиотокены, чтобы минимизировать воспринимаемую задержку.
* Последовательная генерация для ASR/TTS (смена модальностей поочерёдно).

Liquid AI предоставляет пакет Python (liquid-audio) и демонстрацию Gradio для воспроизведения такого поведения.

Задержка

Команда Liquid AI сообщает, что сквозная задержка составляет менее 100 мс от 4-секундного аудиозапроса до первого слышимого ответа — это показатель воспринимаемой оперативности при интерактивном использовании.

Бенчмарки: VoiceBench и результаты ASR

В VoiceBench — наборе из девяти оценок аудиоассистентов — Liquid сообщает общий балл 56,78 для LFM2-Audio-1.5B, с показателями по задачам, опубликованными в виде таблицы в блоге (например, AlpacaEval 3,71, CommonEval 3,49, WildVoice 3,17).

Команда Liquid AI сравнивает этот результат с более крупными моделями, такими как Qwen2.5-Omni-3B и Moshi-7B, в той же таблице. (VoiceBench — это внешний бенчмарк, представленный в конце 2024 года для голосовых помощников на основе LLM.)

Модельная карточка на Hugging Face содержит дополнительную таблицу VoiceBench (с тесно связанными, но не идентичными значениями по задачам) и включает классические ASR WER, где LFM2-Audio соответствует Whisper-large-v3-turbo или превосходит его для некоторых наборов данных, несмотря на то, что это универсальная модель для работы с речью и текстом. Например (чем меньше, тем лучше): AMI 15,36 против 16,13 (Whisper-large-v3-turbo), LibriSpeech-clean 2,03 против 2,10.

Почему это важно для тенденций в области голосового ИИ?

Большинство «омни»-стеков связывают ASR → LLM → TTS, что увеличивает задержку и делает интерфейсы хрупкими. Однобазовая конструкция LFM2-Audio с непрерывными входными вложениями и дискретными выходными кодами уменьшает логические связи и позволяет чередовать декодирование для раннего аудиоизлучения.

Для разработчиков это означает более простые конвейеры и более быстрое восприятие времени отклика, при этом модель поддерживает ASR, TTS, классификацию и диалоговых агентов. Liquid AI предоставляет код, демонстрационные точки входа и дистрибуцию через Hugging Face.

Ознакомьтесь с [GitHub-страницей](https://github.com/), [модельной карточкой Hugging Face](https://huggingface.co/LiquidAI/LFM2-Audio-1.5B) и [техническими деталями](https://www.liquid.ai/blog/lfm2-audio-an-end-to-end-audio-foundation-model). Не стесняйтесь посетить нашу [GitHub-страницу](https://github.com/), чтобы найти учебные пособия, коды и блокноты. Также подписывайтесь на нас в [Twitter](https://twitter.com/) и присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning/) (более 100 тысяч участников) и подписывайтесь на [наш новостной бюллетень](https://www.liquid.ai/newsletter). А если вы в Telegram, присоединяйтесь к нам и там!

1. Какие особенности модели LFM2-Audio-1.5B делают её подходящей для использования в ассистентах с низкой задержкой в режиме реального времени?

Ответ: Модель LFM2-Audio-1.5B предназначена для использования в ассистентах с низкой задержкой в режиме реального времени на устройствах с ограниченными ресурсами благодаря своей компактности и способности понимать и генерировать речь и текст с помощью единого сквозного стека. Она также имеет низкую сквозную задержку (менее 100 мс) от аудиозапроса до ответа.

2. Какие компоненты используются в реализации модели LFM2-Audio-1.5B?

Ответ: В реализации модели LFM2-Audio-1.5B используются следующие компоненты:
* Основа: LFM2 (гибридная свёртка + внимание), 1,2 миллиарда параметров (только LM).
* Аудиокодер: FastConformer (~115 миллионов).
* Аудиодекодер: RQ-Transformer, предсказывающий дискретные токены аудиокодека Mimi (8 кодовых книг).

3. Какие два режима генерации доступны для агентов в реальном времени в модели LFM2-Audio-1.5B?

Ответ: Для агентов в реальном времени в модели LFM2-Audio-1.5B доступны два режима генерации:
* Чередующаяся генерация для живого чата «речь-в-речь», где модель чередует текстовые и аудиотокены, чтобы минимизировать воспринимаемую задержку.
* Последовательная генерация для ASR/TTS (смена модальностей поочерёдно).

4. Какие результаты были получены при тестировании модели LFM2-Audio-1.5B на VoiceBench?

Ответ: При тестировании модели LFM2-Audio-1.5B на VoiceBench был получен общий балл 56,78. Показатели по задачам были опубликованы в виде таблицы в блоге. Например, AlpacaEval — 3,71, CommonEval — 3,49, WildVoice — 3,17.

5. Как модель LFM2-Audio-1.5B сравнивается с более крупными моделями, такими как Qwen2.5-Omni-3B и Moshi-7B, по результатам тестирования на VoiceBench?

Ответ: Команда Liquid AI сравнивает результаты LFM2-Audio-1.5B с более крупными моделями, такими как Qwen2.5-Omni-3B и Moshi-7B, в таблице VoiceBench. Результаты показывают, что LFM2-Audio-1.5B имеет хорошие показатели по сравнению с более крупными моделями.

Источник