Beijing Academy of Artificial Intelligence (BAAI) представляет OmniGen2 — мультимодальную генеративную модель нового поколения с открытым исходным кодом. Новая архитектура расширяет возможности предшественника OmniGen и объединяет в рамках единой трансформерной структуры генерацию текста в изображение, редактирование изображений и генерацию по тематике.
Декапсулированная мультимодальная архитектура
В отличие от предыдущих моделей, которые используют общие параметры для текста и изображений, OmniGen2 представляет два отдельных пути: авторегрессионный трансформер для генерации текста и трансформер на основе диффузии для синтеза изображений. Также используется новая стратегия позиционирования под названием Omni-RoPE, которая позволяет гибко обрабатывать последовательности, пространственные координаты и различия модальностей, обеспечивая высококачественную генерацию и редактирование изображений.
Чтобы сохранить предварительно обученную способность генерации текста (основанную на Qwen2.5-VL-3B), OmniGen2 передаёт функции, полученные из VAE, только на путь диффузии. Это позволяет избежать ухудшения понимания текста и способности генерации модели, сохраняя при этом богатое визуальное представление для модуля синтеза изображений.
Механизм отражения для итеративной генерации
Одной из выдающихся особенностей OmniGen2 является механизм отражения. Интегрируя петли обратной связи во время обучения, модель способна анализировать свои выходные данные, выявлять несоответствия и предлагать усовершенствования. Этот процесс имитирует самокоррекцию во время тестирования и значительно повышает точность выполнения инструкций и визуальную согласованность, особенно для таких тонких задач, как изменение цвета, количества объектов или позиционирования.
Набор данных для отражения был создан с использованием многоходовой обратной связи, что позволяет модели научиться исправлять и прекращать генерацию на основе оценки контента. Этот механизм особенно полезен для преодоления разрыва в качестве между открытыми и коммерческими моделями.
Бенчмарк OmniContext: оценка контекстуальной согласованности
Для строгой оценки генерации в контексте команда представляет OmniContext — бенчмарк, включающий три основных типа задач: SINGLE, MULTIPLE и SCENE, в категориях Character, Object и Scene. OmniGen2 демонстрирует самые современные результаты среди открытых моделей в этой области, набрав 7,18 баллов в целом — опережая другие ведущие модели, такие как BAGEL и UniWorld-V1.
Оценка использует три основных показателя: Prompt Following (PF), Subject Consistency (SC) и Overall Score (среднее геометрическое значение), каждый из которых проверен с помощью GPT-4.1. Эта система бенчмаркинга подчёркивает не только визуальный реализм, но и семантическую согласованность с подсказками и согласованность между изображениями.
Конвейер данных и обучающий корпус
OmniGen2 был обучен на 140 миллионах образцов T2I и 10 миллионах проприетарных изображений, дополненных тщательно подобранными наборами данных для генерации и редактирования в контексте. Эти наборы данных были созданы с использованием видеоконвейера, который извлекает семантически согласованные пары кадров и автоматически генерирует инструкции с помощью моделей Qwen2.5-VL. Полученные аннотации охватывают детальные манипуляции с изображениями, вариации движения и композиционные изменения.
Для обучения параметры MLLM остаются в основном замороженными, чтобы сохранить общее понимание, в то время как диффузионный модуль обучен с нуля и оптимизирован для совместного визуально-текстового внимания. Специальный токен «$|$img$|$» запускает генерацию изображений в выходных последовательностях, оптимизируя процесс мультимодального синтеза.
Результаты по задачам
OmniGen2 демонстрирует высокие результаты в различных областях:
* Text-to-Image (T2I): достигает показателя 0,86 в GenEval и 83,57 в DPG-Bench.
* Редактирование изображений: превосходит открытые базовые показатели с высокой семантической согласованностью (SC=7.16).
* Генерация в контексте: устанавливает новые стандарты в OmniContext с показателями 7,81 (SINGLE), 7,23 (MULTIPLE) и 6,71 (SCENE).
* Отражение: демонстрирует эффективное исправление неудачных генераций с многообещающей точностью коррекции и поведением завершения.
Заключение
OmniGen2 — это надёжная и эффективная мультимодальная генеративная система, которая продвигает унифицированное моделирование за счёт архитектурного разделения, высококачественных конвейеров данных и интегрированного механизма отражения. Открывая исходные модели, наборы данных и код, проект закладывает прочную основу для будущих исследований в области контролируемой, согласованной генерации изображений и текста.
Будущие улучшения могут быть сосредоточены на обучении с подкреплением для усовершенствования механизма отражения и расширении многоязычной и низкокачественной устойчивости.
1. Какие ключевые особенности отличают OmniGen2 от предыдущих моделей мультимодального ИИ?
Ответ: OmniGen2 отличается от предыдущих моделей мультимодального ИИ благодаря своей декапсулированной мультимодальной архитектуре, которая включает два отдельных пути: авторегрессионный трансформер для генерации текста и трансформер на основе диффузии для синтеза изображений. Также используется новая стратегия позиционирования под названием Omni-RoPE, которая позволяет гибко обрабатывать последовательности, пространственные координаты и различия модальностей.
2. Какие механизмы используются в OmniGen2 для повышения точности выполнения инструкций и визуальной согласованности?
Ответ: В OmniGen2 используется механизм отражения, который интегрирует петли обратной связи во время обучения. Модель способна анализировать свои выходные данные, выявлять несоответствия и предлагать усовершенствования. Этот процесс имитирует самокоррекцию во время тестирования и значительно повышает точность выполнения инструкций и визуальную согласованность.
3. Какие результаты демонстрирует OmniGen2 в различных областях мультимодального ИИ?
Ответ: OmniGen2 демонстрирует высокие результаты в различных областях мультимодального ИИ:
* Text-to-Image (T2I): достигает показателя 0,86 в GenEval и 83,57 в DPG-Bench.
* Редактирование изображений: превосходит открытые базовые показатели с высокой семантической согласованностью (SC=7.16).
* Генерация в контексте: устанавливает новые стандарты в OmniContext с показателями 7,81 (SINGLE), 7,23 (MULTIPLE) и 6,71 (SCENE).
* Отражение: демонстрирует эффективное исправление неудачных генераций с многообещающей точностью коррекции и поведением завершения.
4. Какие данные использовались для обучения OmniGen2?
Ответ: Для обучения OmniGen2 использовались 140 миллионов образцов T2I и 10 миллионов проприетарных изображений, дополненных тщательно подобранными наборами данных для генерации и редактирования в контексте. Эти наборы данных были созданы с использованием видеоконвейера, который извлекает семантически согласованные пары кадров и автоматически генерирует инструкции с помощью моделей Qwen2.5-VL.
5. Какие перспективы развития модели OmniGen2 обозначены в статье?
Ответ: Будущие улучшения модели OmniGen2 могут быть сосредоточены на обучении с подкреплением для усовершенствования механизма отражения и расширении многоязычной и низкокачественной устойчивости.