Введение
Команда исследователей из Харбинского технологического университета в Шэньчжэне представила Uni-MoE-2.0-Omni — полностью открытую омнимодальную большую модель, которая продвигает линейку Uni-MoE в сторону языково-центричного мультимодального анализа.
Система обучена с нуля на плотном бэкбоне Qwen2.5-7B и расширена до архитектуры Mixture of Experts с динамической маршрутизацией мощностей, прогрессивным обучением с учителем и подкреплением, а также примерно на 75 миллиардах токенов тщательно подобранных мультимодальных данных. Она обрабатывает текст, изображения, аудио и видео для понимания и может генерировать изображения, текст и речь.
Архитектура
Core Uni-MoE-2.0-Omni — это трансформер в стиле Qwen2.5-7B, который служит языковым центром. Вокруг этого центра исследовательская группа присоединяет унифицированный кодировщик речи, который преобразует различные аудиоданные, включая звуки окружающей среды, речь и музыку, в общее пространство представлений.
С визуальной стороны предварительно обученные визуальные кодировщики обрабатывают изображения и видеокадры, затем передают последовательности токенов в тот же трансформер. Для генерации используется основанный на MoE модуль TTS и диффузионный трансформер, учитывающий задачу.
Все модальности преобразуются в последовательности токенов, которые имеют унифицированный интерфейс для языковой модели. Это упрощает кросс-модальное слияние и делает языковую модель центральным контроллером как для понимания, так и для генерации.
Fusion Omni Modality 3D RoPE и управляемое слияние MoE
Кросс-модальное выравнивание обрабатывается механизмом Omni Modality 3D RoPE, который кодирует временную и пространственную структуру непосредственно в поворотные позиционные встраивания. Вместо использования только одномерных позиций для текста система назначает три координаты для токенов: время, высоту и ширину для визуальных и аудиопотоков, а также время для речи.
Это даёт трансформеру явное представление о том, когда и где происходит каждый токен, что важно для понимания видео и аудиовизуальных задач.
Слои Mixture of Experts заменяют стандартные блоки MLP стеком MoE, в котором есть три типа экспертов. Пустые эксперты действуют как нулевые функции, которые позволяют пропускать вычисления во время вывода. Направленные эксперты специфичны для модальности и хранят знания о предметной области для аудио, зрения или текста. Общие эксперты всегда активны и обеспечивают путь передачи общей информации между модальностями.
Тренировка
Тренировочный конвейер организован в соответствии с рецептом, соответствующим данным. Сначала на этапе кросс-модального предварительного обучения используется парные корпуса изображений, текста, аудио и видео. Этот шаг учит модель проецировать каждую модальность в общее семантическое пространство, выровненное с языком.
Затем на этапе прогрессивного обучения с учителем активируются эксперты, сгруппированные по категориям аудио, зрения и текста. На этом этапе исследовательская группа вводит специальные управляющие токены, чтобы модель могла выполнять такие задачи, как синтез речи по тексту и генерация изображений внутри одного языкового интерфейса.
Генерация
Для генерации речи Uni-MoE-2.0-Omni использует контекстно-зависимый модуль MoE TTS, который находится поверх языковой модели. ЯЗЫКОВАЯ МОДЕЛЬ выдаёт управляющие токены, которые описывают тембр, стиль и язык, наряду с текстовым контентом. MoE TTS потребляет эту последовательность и производит дискретные аудиотокены, которые затем декодируются в сигналы основной частоты внешней моделью кодека.
С визуальной стороны используется диффузионный трансформер, учитывающий как задачу, так и токены изображения. Токены задач кодируют, должна ли система выполнять генерацию текста в изображение, редактирование или низкоуровневое улучшение.
Бенчмарки и открытые контрольные точки
Uni-MoE-2.0-Omni оценивается на 85 мультимодальных бенчмарках, которые охватывают изображения, текст, видео, аудио и кросс- или тримодальное рассуждение. Модель превосходит Qwen2.5-Omni, обученную примерно на 1,2 триллионах токенов, более чем на 50 из 76 общих бенчмарков.
Focal Loss vs Binary Cross-Entropy: практическое руководство по несбалансированной классификации
Введение
Binary cross-entropy (BCE) — это функция потерь по умолчанию для бинарной классификации, но она плохо работает на несбалансированных наборах данных. Причина в том, что BCE одинаково взвешивает ошибки обоих классов, даже когда один класс крайне редок.
Представьте себе два прогноза: образец класса меньшинства с истинной меткой 1, предсказанной как 0,3, и образец класса большинства с истинной меткой 0, предсказанной как 0,7. Оба дают одинаковое значение BCE: −log(0,3). Но должны ли эти две ошибки рассматриваться одинаково? В несбалансированном наборе данных — определённо нет, ошибка на образце меньшинства гораздо более значима.
Именно здесь на помощь приходит Focal Loss. Она уменьшает вклад простых, уверенных прогнозов и усиливает влияние сложных примеров из класса меньшинства. В результате модель меньше фокусируется на подавляюще простом классе большинства и больше на закономерностях, которые действительно имеют значение.
Создание несбалансированного набора данных
Мы создаём синтетический набор данных для бинарной классификации с соотношением 99:1 с помощью make_classification. Это гарантирует, что почти все образцы принадлежат классу большинства, что делает его идеальной настройкой для демонстрации того, почему BCE испытывает трудности и как Focal Loss помогает.
Создание нейронной сети
Мы определяем простую нейронную сеть с двумя скрытыми слоями, чтобы эксперимент был лёгким и сосредоточенным на функциях потерь. Эта небольшая архитектура достаточна для изучения границы принятия решений в нашем двумерном наборе данных, чётко подчёркивая различия между BCE и Focal Loss.
Реализация Focal Loss
Этот класс реализует функцию Focal Loss, которая модифицирует бинарную кросс-энтропию, уменьшая вес простых примеров и сосредотачивая обучение на сложных, неправильно классифицированных образцах. Термин gamma контролирует, насколько агрессивно подавляются простые примеры, а alpha присваивает более высокий вес классу меньшинства. Вместе они помогают модели лучше обучаться на несбалансированных наборах данных.
Обучение модели
Мы определяем простой цикл обучения, который оптимизирует модель, используя выбранную функцию потерь, и оценивает точность на тестовом наборе. Затем мы обучаем две идентичные нейронные сети — одну со стандартной потерей BCE, а другую с Focal Loss — что позволяет нам напрямую сравнивать, как каждая функция потерь работает на одном и том же несбалансированном наборе данных.
Построение границы принятия решений
Модель BCE производит почти плоскую границу принятия решений, которая предсказывает только класс большинства, полностью игнорируя образцы меньшинства. В отличие от этого, модель Focal Loss показывает гораздо более тонкую и осмысленную границу принятия решений, успешно идентифицируя больше регионов класса меньшинства и улавливая закономерности, которые BCE не может изучить.
Построение матрицы ошибок
В матрице ошибок модели BCE сеть правильно идентифицирует только 1 образец класса меньшинства, в то время как неверно классифицирует 27 из них как класс большинства. Это показывает, что BCE склоняется к предсказанию почти всего как класса большинства из-за дисбаланса. В отличие от этого, модель Focal Loss правильно предсказывает 14 образцов меньшинства и уменьшает количество неправильных классификаций с 27 до 14.
Google DeepMind представила WeatherNext 2
Введение
Google DeepMind Research представила WeatherNext 2 — систему искусственного интеллекта для прогнозирования погоды в среднесрочной перспективе, которая теперь используется для улучшенных прогнозов в Google Search, Gemini, Pixel Weather и Google Maps Platform’s Weather API.
От детерминированных сеток к функциональным ансамблям
В основе WeatherNext 2 лежит модель FGN. Вместо того чтобы предсказывать одно детерминированное будущее поле, модель напрямую выбирает из совместного распределения по 15-дневным глобальным траекториям погоды.
Моделирование эпистемической и алеаторной неопределённости в функциональном пространстве
FGN разделяет эпистемическую и алеаторную неопределённость практическим образом для крупномасштабного прогнозирования. Эпистемическая неопределённость, которая возникает из-за ограниченных данных и несовершенного обучения, обрабатывается глубоким ансамблем из 4 независимо инициализированных и обученных моделей.
Измерение успехов над GenCast и традиционными базовыми показателями
На маргинальных метриках ансамбль FGN в WeatherNext 2 явно превосходит GenCast. FGN достигает лучшего CRPS в 99,9% случаев со статистически значимым приростом, со средним улучшением около 6,5% и максимальным приростом около 18% для некоторых переменных на более коротких временных отрезках.
1. Какие ключевые особенности и преимущества модели Uni-MoE-2.0-Omni, и как они способствуют её мультимодальному анализу?
Uni-MoE-2.0-Omni — это полностью открытая омнимодальная большая модель, которая обрабатывает текст, изображения, аудио и видео для понимания и может генерировать изображения, текст и речь. Она обучена на плотном бэкбоне Qwen2.5-7B и расширена до архитектуры Mixture of Experts с динамической маршрутизацией мощностей, прогрессивным обучением с учителем и подкреплением, а также примерно на 75 миллиардах токенов тщательно подобранных мультимодальных данных.
2. Как работает механизм кросс-модального выравнивания в Uni-MoE-2.0-Omni, и какие преимущества он предоставляет?
Кросс-модальное выравнивание в Uni-MoE-2.0-Omni обрабатывается механизмом Omni Modality 3D RoPE, который кодирует временную и пространственную структуру непосредственно в поворотные позиционные встраивания. Это даёт трансформеру явное представление о том, когда и где происходит каждый токен, что важно для понимания видео и аудиовизуальных задач.
3. В чём заключается основная идея использования Focal Loss вместо Binary Cross-Entropy в задачах бинарной классификации, и как она помогает при работе с несбалансированными наборами данных?
Binary cross-entropy (BCE) одинаково взвешивает ошибки обоих классов, даже когда один класс крайне редок. Focal Loss уменьшает вклад простых, уверенных прогнозов и усиливает влияние сложных примеров из класса меньшинства. В результате модель меньше фокусируется на подавляюще простом классе большинства и больше на закономерностях, которые действительно имеют значение.
4. Какие методы и подходы используются для моделирования эпистемической и алеаторной неопределённости в модели FGN, лежащей в основе WeatherNext 2?
Эпистемическая неопределённость, которая возникает из-за ограниченных данных и несовершенного обучения, обрабатывается глубоким ансамблем из 4 независимо инициализированных и обученных моделей. Это позволяет модели FGN в WeatherNext 2 более точно прогнозировать погоду, разделяя эпистемическую и алеаторную неопределённость.
5. Каковы основные преимущества модели WeatherNext 2 по сравнению с традиционными методами прогнозирования погоды и системой GenCast?
На маргинальных метриках ансамбль FGN в WeatherNext 2 явно превосходит GenCast. FGN достигает лучшего CRPS в 99,9% случаев со статистически значимым приростом, со средним улучшением около 6,5% и максимальным приростом около 18% для некоторых переменных на более коротких временных отрезках. Это показывает, что WeatherNext 2 обеспечивает более точные и надёжные прогнозы погоды.