Новая разработка из Китайской академии наук: Stream-Omni, большая языковая модель для кросс-модального искусственного интеллекта в реальном времени

Понимание ограничений современных омнимодальных архитектур

Большие мультимодальные модели (LMM) демонстрируют выдающиеся возможности в работе с текстом, изображениями и речью, открывая широкие перспективы для различных приложений. Хотя модели, ориентированные на обработку изображений, добились успеха, омнимодальные LMM, поддерживающие речевое взаимодействие на основе визуальной информации, сталкиваются с проблемами из-за существенных различий в представлении данных между модальностями.

Недавние омнимодальные LMM стремятся объединить текст, зрение и речь, комбинируя представления от отдельных кодировщиков модальностей по размерности последовательности. Однако они зависят от больших объёмов данных для обучения соответствию между модальностями на основе данных. Это не соответствует ограниченным общедоступным наборам данных с тремя модальностями и обладает недостаточной гибкостью для получения промежуточных текстовых результатов во время речевого взаимодействия.

Классификация существующих LMM по модальности

Современные LMM можно разделить на три категории: ориентированные на зрение, ориентированные на речь и омнимодальные.

  • Ориентированные на зрение LMM, такие как LLaVA, используют кодировщики изображений для извлечения визуальных характеристик, которые затем объединяются с текстовыми входными данными и передаются в LLM для генерации текста.

  • Ориентированные на речь LMM используют либо непрерывные методы, такие как Mini-Omni и LLaMA-Omni, для проецирования характеристик в пространства встраивания LLM, либо дискретные речевые единицы, такие как SpeechGPT и Moshi, для преобразования речи в дискретные единицы для прямой обработки LLM.

  • Омнимодальные LMM, такие как VITA-1.5, MiniCPM2.6-o и Qwen2.5-Omni, извлекают представления из различных кодировщиков, объединяют их для мультимодального понимания и используют речевые декодеры для синтеза.

Представление Stream-Omni: подход к выравниванию, ориентированный на текст

Исследователи из Университета Китайской академии наук предложили Stream-Omni — большую модель, объединяющую язык, зрение и речь, предназначенную для решения проблем выравнивания модальностей в омнимодальных системах.

Stream-Omni использует основу LLM и выравнивает зрение и речь для текста на основе их семантических отношений, а не простых подходов конкатенации. Для зрения метод применяет конкатенацию по размерности последовательности для выравнивания зрения и текста. Для речевого взаимодействия он вводит слой на основе CTC для выравнивания речи и текста.

Дизайн Stream-Omni преодолевает ограничения методов, основанных на конкатенации, путём внедрения целевых механизмов выравнивания.

Обзор архитектуры: двухуровневая интеграция речи и визуальное кодирование

Архитектура Stream-Omni использует основу LLM со стратегиями прогрессивного выравнивания модальностей. Для выравнивания зрения и текста Stream-Omni применяет кодировщик изображений и проекционный слой для извлечения визуальных представлений. Для выравнивания речи и текста он вводит специальные речевые слои, присутствующие как в нижней, так и в верхней части основы LLM, что обеспечивает двунаправленное сопоставление между речью и текстом.

Stream-Omni создаёт свой обучающий корпус с помощью автоматизированных конвейеров, используя наборы данных LLaVA для пар «изображение-текст», LibriSpeech и WenetSpeech для речевых данных, а также создаёт набор данных InstructOmni путём преобразования текущих наборов данных инструкций с помощью синтеза речи.

Оценка мультимодальных возможностей в различных областях

В задачах визуального понимания Stream-Omni демонстрирует производительность, сравнимую с передовыми моделями, ориентированными на зрение, и превосходит VITA-1.5, снижая интерференцию между модальностями при сохранении сильных визуальных возможностей.

Для речевого взаимодействия Stream-Omni демонстрирует выдающуюся производительность на основе знаний, используя меньше речевых данных (23 тыс. часов) по сравнению с моделями, основанными на дискретных речевых единицах, такими как SpeechGPT, Moshi и GLM-4-Voice.

В оценках речевого взаимодействия, основанного на зрении, на бенчмарке SpokenVisIT Stream-Omni превосходит VITA-1.5 в реальном визуальном понимании. Качество речевого текстового сопоставления с помощью Stream-Omni обеспечивает превосходную производительность ASR на бенчмарке LibriSpeech как по точности, так и по времени вывода.

Заключение: сдвиг парадигмы в мультимодальном выравнивании

В заключение исследователи представили Stream-Omni — решение проблем выравнивания модальностей в омнимодальных системах. Этот метод показывает, что эффективное выравнивание модальностей может быть достигнуто с помощью конкатенации по размерности последовательности для пар «изображение-текст» и сопоставления по размерности слоёв для интеграции речи и текста, что устраняет необходимость в обширных наборах данных для трёхмодального обучения.

Более того, это исследование устанавливает новую парадигму для омнимодальных LMM, показывая, что целевые стратегии выравнивания, основанные на семантических отношениях, могут преодолеть ограничения традиционных подходов, основанных на конкатенации, в мультимодальных системах искусственного интеллекта.

Ознакомиться с документом и моделью можно на Hugging Face. Вся заслуга в проведении этого исследования принадлежит исследователям этого проекта. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тыс. участников машинного обучения) и подписывайтесь на нашу рассылку.

1. Какие проблемы существуют у современных омнимодальных больших языковых моделей (LMM) при работе с текстом, изображениями и речью?

Современные омнимодальные LMM сталкиваются с проблемами из-за существенных различий в представлении данных между модальностями. Они зависят от больших объёмов данных для обучения соответствию между модальностями на основе данных. Это не соответствует ограниченным общедоступным наборам данных с тремя модальностями и обладает недостаточной гибкостью для получения промежуточных текстовых результатов во время речевого взаимодействия.

2. Какие категории LMM существуют в зависимости от модальности и в чём их особенности?

Современные LMM можно разделить на три категории:
* Ориентированные на зрение LMM, такие как LLaVA, используют кодировщики изображений для извлечения визуальных характеристик, которые затем объединяются с текстовыми входными данными и передаются в LLM для генерации текста.
* Ориентированные на речь LMM используют либо непрерывные методы, такие как Mini-Omni и LLaMA-Omni, для проецирования характеристик в пространства встраивания LLM, либо дискретные речевые единицы, такие как SpeechGPT и Moshi, для преобразования речи в дискретные единицы для прямой обработки LLM.
* Омнимодальные LMM, такие как VITA-1.5, MiniCPM2.6-o и Qwen2.5-Omni, извлекают представления из различных кодировщиков, объединяют их для мультимодального понимания и используют речевые декодеры для синтеза.

3. Какие преимущества предлагает модель Stream-Omni по сравнению с другими омнимодальными LMM?

Stream-Omni использует основу LLM и выравнивает зрение и речь для текста на основе их семантических отношений, а не простых подходов конкатенации. Для зрения метод применяет конкатенацию по размерности последовательности для выравнивания зрения и текста. Для речевого взаимодействия он вводит слой на основе CTC для выравнивания речи и текста.

Stream-Omni создаёт свой обучающий корпус с помощью автоматизированных конвейеров, используя наборы данных LLaVA для пар «изображение-текст», LibriSpeech и WenetSpeech для речевых данных, а также создаёт набор данных InstructOmni путём преобразования текущих наборов данных инструкций с помощью синтеза речи.

В задачах визуального понимания Stream-Omni демонстрирует производительность, сравнимую с передовыми моделями, ориентированными на зрение, и превосходит VITA-1.5, снижая интерференцию между модальностями при сохранении сильных визуальных возможностей.

Для речевого взаимодействия Stream-Omni демонстрирует выдающуюся производительность на основе знаний, используя меньше речевых данных (23 тыс. часов) по сравнению с моделями, основанными на дискретных речевых единицах, такими как SpeechGPT, Moshi и GLM-4-Voice.

4. Какие методы использует Stream-Omni для выравнивания зрения и речи с текстом?

Для выравнивания зрения и текста Stream-Omni применяет кодировщик изображений и проекционный слой для извлечения визуальных представлений. Для выравнивания речи и текста он вводит специальные речевые слои, присутствующие как в нижней, так и в верхней части основы LLM, что обеспечивает двунаправленное сопоставление между речью и текстом.

Источник

Оставьте комментарий