Uni-MoE-2.0-Omni: открытая омнимодальная модель на основе Qwen2.5-7B для понимания текста, изображений, аудио и видео

Команда исследователей из Харбинского технологического института, Шэньчжэнь, представила Uni-MoE-2.0-Omni — полностью открытую омнимодальную большую модель, которая продвигает линейку Uni-MoE в сторону языково-ориентированных мультимодальных рассуждений. Система обучена с нуля на плотной основе Qwen2.5-7B и расширена до архитектуры Mixture of Experts с динамической маршрутизацией мощностей, прогрессивным обучением с учителем и подкреплением, а также примерно на 75 миллиардах токенов тщательно подобранных мультимодальных данных. Она обрабатывает текст, изображения, аудио и видео для понимания и может генерировать изображения, текст и речь.

Архитектура

Core Uni-MoE-2.0-Omni — это трансформер в стиле Qwen2.5-7B, который служит языковым центром. Вокруг этого центра исследовательская группа присоединяет унифицированный кодер речи, который отображает различные аудиоданные, включая звуки окружающей среды, речь и музыку, в общее пространство представлений.

В визуальной части предварительно обученные визуальные кодеры обрабатывают изображения и видеокадры, затем передают последовательности токенов в тот же трансформер. Для генерации используется контекстно-зависимый модуль MoE на основе TTS и диффузионный трансформер, ориентированный на задачи.

Все модальности преобразуются в последовательности токенов, которые имеют унифицированный интерфейс для языковой модели. Это упрощает межмодальное слияние и делает языковую модель центральным контроллером как для понимания, так и для генерации.

Omni Modality 3D RoPE и слияние, управляемое MoE

Перекрёстное модальное выравнивание обрабатывается механизмом Omni Modality 3D RoPE, который кодирует временную и пространственную структуру непосредственно в поворотные позиционные встраивания. Вместо использования только одномерных позиций для текста система назначает три координаты для токенов: время, высоту и ширину для визуальных и аудиопотоков, а также время для речи.

Это даёт трансформатору явное представление о том, когда и где происходит каждый токен, что важно для понимания видео и задач аудиовизуального рассуждения.

Обучение

Тренировочный конвейер организован в соответствии с рецептом, соответствующим данным. Сначала используется языково-ориентированная кросс-модальная фаза предварительного обучения с использованием парных корпусов изображений и текста, аудио и текста, а также видео и текста. Этот этап учит модель проецировать каждую модальность в общее семантическое пространство, согласованное с языком.

Затем на этапе прогрессивного обучения с учителем активируются эксперты, сгруппированные по категориям аудио, зрения и текста. Во время этого этапа исследовательская группа вводит специальные управляющие токены, чтобы модель могла выполнять такие задачи, как синтез речи с условием текста и генерация изображений внутри одного языкового интерфейса.

Генерация

Для генерации речи Uni-MoE-2.0-Omni использует контекстно-зависимый модуль MoE TTS, который находится поверх языковой модели. LLM выдаёт управляющие токены, которые описывают тембр, стиль и язык, наряду с текстовым контентом. MoE TTS потребляет эту последовательность и производит дискретные аудиотокены, которые затем декодируются в сигналы основной полосы частот внешней моделью кодека, согласовываясь с унифицированным кодером речи на входной стороне.

Результаты

Uni-MoE-2.0-Omni оценивается на 85 мультимодальных бенчмарках, которые охватывают изображения, текст, видео, аудио и кросс- или тримодальные рассуждения. Модель превосходит Qwen2.5-Omni, которая обучена примерно на 1,2 триллиона токенов, более чем на 50 из 76 общих бенчмарков.

Focal Loss vs Binary Cross-Entropy: практическое руководство по несбалансированной классификации

Binary cross-entropy (BCE) — это функция потерь по умолчанию для бинарной классификации, но она плохо работает на несбалансированных наборах данных. Причина в том, что BCE одинаково взвешивает ошибки обоих классов, даже когда один класс чрезвычайно редок.

Focal Loss уменьшает вклад простых, уверенных прогнозов и усиливает влияние сложных примеров из класса меньшинства. В результате модель меньше фокусируется на подавляюще лёгком большинстве и больше — на закономерностях, которые действительно имеют значение.

Создание несбалансированного набора данных

Мы создаём синтетический набор данных для бинарной классификации с соотношением 99:1 с помощью make_classification. Это гарантирует, что почти все образцы принадлежат к классу большинства, что делает его идеальной настройкой для демонстрации того, почему BCE испытывает трудности и как Focal Loss помогает.

Создание нейронной сети

Мы определяем простую нейронную сеть с двумя скрытыми слоями, чтобы эксперимент был лёгким и сосредоточенным на функциях потерь. Эта небольшая архитектура достаточна для изучения границы принятия решений в нашем двумерном наборе данных, чётко подчёркивая различия между BCE и Focal Loss.

Реализация Focal Loss

Этот класс реализует функцию Focal Loss, которая модифицирует бинарную перекрёстную энтропию, снижая вес простых примеров и сосредотачивая обучение на сложных, неправильно классифицированных выборках.

Обучение модели

Мы определяем простой цикл обучения, который оптимизирует модель, используя выбранную функцию потерь, и оценивает точность на тестовом наборе. Затем мы обучаем две идентичные нейронные сети — одну со стандартной потерей BCE, а другую с Focal Loss — что позволяет нам напрямую сравнивать, как каждая функция потерь работает на одном и том же несбалансированном наборе данных.

Построение границы принятия решений

Модель BCE производит почти плоскую границу принятия решений, которая предсказывает только класс большинства, полностью игнорируя образцы меньшинства. В отличие от этого, модель Focal Loss показывает гораздо более утончённую и осмысленную границу принятия решений, успешно идентифицируя больше областей с классом меньшинства и улавливая закономерности, которым BCE не удаётся научиться.

Построение матрицы путаницы

В матрице путаницы модели BCE сеть правильно идентифицирует только 1 образец из класса меньшинства, в то время как неверно классифицирует 27 из них как класс большинства. Это показывает, что BCE склоняется к предсказанию почти всего как класса большинства из-за дисбаланса.

Google DeepMind’s WeatherNext 2 использует функциональные генеративные сети для 8-кратного ускорения вероятностных прогнозов погоды

Google DeepMind Research представила WeatherNext 2 — систему прогнозирования погоды на основе искусственного интеллекта, которая теперь используется для обновлённых прогнозов в Google Search, Gemini, Pixel Weather и Google Maps Platform’s Weather API.

От детерминированных сеток к функциональным ансамблям

В основе WeatherNext 2 лежит модель FGN. Вместо прогнозирования одного детерминированного будущего поля модель напрямую выбирает из совместного распределения по 15-дневным глобальным траекториям погоды.

Моделирование эпистемической и алеаторной неопределённости в функциональном пространстве

FGN разделяет эпистемическую и алеаторную неопределённость практическим образом для крупномасштабного прогнозирования. Эпистемическая неопределённость, которая возникает из-за ограниченных данных и несовершенного обучения, обрабатывается глубоким ансамблем из 4 независимо инициализированных и обученных моделей.

Алеаторная неопределённость, которая представляет собой неотъемлемую изменчивость в атмосфере и неразрешённые процессы, обрабатывается с помощью функциональных возмущений. На каждом этапе прогноза модель выбирает 32-мерный гауссовский вектор шума 𝜖ₜ и подаёт его через параметрически общие слои условной нормализации внутри сети.

Обучение на маргиналах с CRPS, изучение совместной структуры

Ключевой выбор дизайна заключается в том, что FGN обучается только на маргиналах по местоположению и переменным, а не на явных многомерных целях. Модель использует непрерывную ранжированную вероятностную оценку (CRPS) в качестве функции потерь при обучении, вычисленную с помощью честного оценщика на ансамблевых выборках в каждой точке сетки и усреднённую по переменным, уровням и времени.

Измеренные преимущества перед GenCast и традиционными базовыми показателями

На маргинальных метриках ансамбль FGN в WeatherNext 2 явно превосходит GenCast. FGN достигает лучшего CRPS в 99,9% случаев со статистически значимыми преимуществами, со средним улучшением примерно на 6,5% и максимальными преимуществами около 18% для некоторых переменных на более коротких временных отрезках.

1. Какие ключевые особенности архитектуры Uni-MoE-2.0-Omni делают её эффективной для обработки мультимодальных данных?

Uni-MoE-2.0-Omni — это трансформер в стиле Qwen2.5-7B, который служит языковым центром. Вокруг этого центра исследовательская группа присоединяет унифицированный кодер речи, который отображает различные аудиоданные, включая звуки окружающей среды, речь и музыку, в общее пространство представлений. В визуальной части предварительно обученные визуальные кодеры обрабатывают изображения и видеокадры, затем передают последовательности токенов в тот же трансформер.

2. В чём заключается преимущество использования Focal Loss по сравнению с Binary Cross-Entropy при работе с несбалансированными наборами данных?

Binary cross-entropy (BCE) — это функция потерь по умолчанию для бинарной классификации, но она плохо работает на несбалансированных наборах данных. Причина в том, что BCE одинаково взвешивает ошибки обоих классов, даже когда один класс чрезвычайно редок. Focal Loss уменьшает вклад простых, уверенных прогнозов и усиливает влияние сложных примеров из класса меньшинства. В результате модель меньше фокусируется на подавляюще лёгком большинстве и больше — на закономерностях, которые действительно имеют значение.

3. Какие методы используются в WeatherNext 2 для моделирования эпистемической и алеаторной неопределённости?

В основе WeatherNext 2 лежит модель FGN. Эпистемическая неопределённость, которая возникает из-за ограниченных данных и несовершенного обучения, обрабатывается глубоким ансамблем из 4 независимо инициализированных и обученных моделей. Алеаторная неопределённость, которая представляет собой неотъемлемую изменчивость в атмосфере и неразрешённые процессы, обрабатывается с помощью функциональных возмущений. На каждом этапе прогноза модель выбирает 32-мерный гауссовский вектор шума 𝜖ₜ и подаёт его через параметрически общие слои условной нормализации внутри сети.

Источник