LongCat Flash Omni — это открытая омнимодальная модель с 560 миллиардами параметров, в которой активировано около 27 миллиардов параметров на токен. Она разработана командой LongCat из Meituan и предназначена для аудиовизуального взаимодействия в реальном времени.
Архитектура и модальные присоединения
LongCat Flash Omni сохраняет языковую модель без изменений, добавляя модули восприятия. Кодировщик LongCat ViT обрабатывает как изображения, так и видеокадры, поэтому отдельная видеобашня не требуется. Аудиокодер вместе с аудиокодеком LongCat преобразует речь в дискретные токены, а декодер может выводить речь из того же потока LLM, что обеспечивает аудиовизуальное взаимодействие в реальном времени.
Потоковая передача и чередование функций
Исследовательская группа описывает поточное аудиовизуальное чередование функций, при котором аудиофункции, видеофункции и временные метки упаковываются в сегменты по 1 секунде. Видео по умолчанию выбирается с частотой 2 кадра в секунду, затем частота регулируется в соответствии с длиной видео. В отчёте не связывается правило выборки с фазами разговора пользователя или модели, поэтому правильное описание — это выборка, обусловленная длительностью. Это обеспечивает низкую задержку и по-прежнему предоставляет пространственный контекст для задач GUI, OCR и видео QA.
Обучение от текста к омни
Обучение проходит поэтапно. Сначала команда LongCat тренирует текстовую основу LongCat Flash, которая активирует от 18,6 до 31,3 миллиарда параметров на токен, в среднем 27 миллиардов, затем применяет продолжение предварительного обучения текстовой речи, затем мультимодальное продолжение предварительного обучения с использованием изображений и видео, затем расширяет контекст до 128 тысяч, затем выполняет выравнивание аудиокодера.
Дизайн системы, параллелизм с разделением по модальности
Поскольку у энкодеров и LLM разные схемы вычислений, Meituan использует параллелизм с разделением по модальности. Визуальные и аудиоэнкодеры работают с гибридным шардингом и пересчётом активации, LLM работает с конвейером, контекстом и параллелизмом экспертов, а ModalityBridge выравнивает вложения и градиенты. Исследовательская группа сообщает, что мультимодальная тонкая настройка под контролем сохраняет более 90 процентов пропускной способности по сравнению с обучением только с текстом, что является основным системным результатом этого выпуска.
Бенчмарки и позиционирование
LongCat Flash Omni достигает 61,4 балла в OmniBench, что выше, чем у Qwen 3 Omni Instruct (58,5) и Qwen 2.5 Omni (55,0), но ниже, чем у Gemini 2.5 Pro (66,8). В VideoMME он набирает 78,2 балла, что близко к GPT 4o и Gemini 2.5 Flash, а в VoiceBench достигает 88,7, что немного выше, чем у GPT 4o Audio в той же таблице.
Ключевые выводы
LongCat Flash Omni — это открытая омнимодальная модель, построенная на базе Meituan 560B MoE, она активирует около 27 миллиардов параметров на токен через MoE с подключёнными по кратчайшему пути нулями вычислительных экспертов, поэтому сохраняет большую ёмкость, но при этом удобна для вычислений.
Модель добавляет унифицированное кодирование видео и потоковое аудио к существующей LLM LongCat Flash, используя стандартную частоту видеосъёмки 2 кадра в секунду с регулировкой по длительности, и упаковывает аудиовизуальные функции в сегменты по 1 секунде для синхронизированного декодирования, что обеспечивает взаимодействие в реальном времени.
LongCat Flash Omni набирает 61,4 балла в OmniBench, выше, чем Qwen 3 Omni Instruct (58,5), но ниже, чем Gemini 2.5 Pro (66,8). Meituan использует параллелизм с разделением по модальности, визуальные и аудиоэнкодеры работают с гибридным шардингом, LLM работает с конвейером, контекстом и параллелизмом экспертов.
Редакционные комментарии
Этот выпуск показывает, что Meituan пытается сделать омнимодальное взаимодействие практическим, а не экспериментальным. Модель сохраняет 560B Shortcut connected Mixture of Experts с 27B активированными, поэтому языковая основа остаётся совместимой с более ранними выпусками LongCat. Она добавляет потоковое аудиовизуальное восприятие с частотой видеосъёмки 2 кадра в секунду по умолчанию и регулировкой по длительности, поэтому задержка остаётся низкой без потери пространственной привязки.
1. Какие ключевые особенности архитектуры LongCat Flash Omni способствуют её способности к аудиовизуальному взаимодействию в реальном времени?
Ответ: LongCat Flash Omni использует кодировщик LongCat ViT для обработки изображений и видеокадров, что позволяет обойтись без отдельной видеобашни. Аудиокодер вместе с аудиокодеком LongCat преобразует речь в дискретные токены, а декодер может выводить речь из того же потока LLM. Это обеспечивает аудиовизуальное взаимодействие в реальном времени.
2. Как происходит обучение LongCat Flash Omni и какие этапы оно включает?
Ответ: обучение проходит поэтапно. Сначала команда LongCat тренирует текстовую основу LongCat Flash, затем применяет продолжение предварительного обучения текстовой речи, затем мультимодальное продолжение предварительного обучения с использованием изображений и видео, затем расширяет контекст до 128 тысяч, затем выполняет выравнивание аудиокодера.
3. Какие результаты демонстрирует LongCat Flash Omni в различных бенчмарках?
Ответ: LongCat Flash Omni достигает 61,4 балла в OmniBench, что выше, чем у Qwen 3 Omni Instruct (58,5) и Qwen 2.5 Omni (55,0), но ниже, чем у Gemini 2.5 Pro (66,8). В VideoMME он набирает 78,2 балла, что близко к GPT 4o и Gemini 2.5 Flash, а в VoiceBench достигает 88,7, что немного выше, чем у GPT 4o Audio.
4. Какие выводы можно сделать о преимуществах LongCat Flash Omni по сравнению с другими моделями?
Ответ: LongCat Flash Omni сохраняет большую ёмкость при активации около 27 миллиардов параметров на токен, удобна для вычислений и обеспечивает взаимодействие в реальном времени благодаря потоковому аудиовизуальному восприятию. Это делает её более практичной для аудиовизуального взаимодействия по сравнению с экспериментальными моделями.
5. Какие методы использует Meituan для обеспечения параллелизма и эффективности вычислений в LongCat Flash Omni?
Ответ: Meituan использует параллелизм с разделением по модальности. Визуальные и аудиоэнкодеры работают с гибридным шардингом и пересчётом активации, LLM работает с конвейером, контекстом и параллелизмом экспертов, а ModalityBridge выравнивает вложения и градиенты. Это позволяет сохранить более 90 процентов пропускной способности по сравнению с обучением только с текстом.