Генерация изображений с помощью авторегрессионных моделей развивалась благодаря достижениям в области последовательного моделирования, изначально применявшимся в обработке естественного языка. В этой области основное внимание уделяется созданию изображений по одному токену за раз, подобно тому как строятся предложения в языковых моделях.
Преимущество этого подхода заключается в способности поддерживать структурную согласованность изображения, одновременно обеспечивая высокий уровень контроля над процессом генерации. Исследователи, начавшие применять эти методы к визуальным данным, обнаружили, что структурированное прогнозирование не только сохраняет пространственную целостность, но и эффективно поддерживает такие задачи, как манипулирование изображениями и мультимодальный перевод.
Однако генерация изображений высокого разрешения остаётся ресурсоёмкой и медленной. Основная проблема — количество токенов, необходимых для представления сложных визуальных образов. Растровые методы, преобразующие двумерные изображения в линейные последовательности, требуют тысяч токенов для детальных изображений, что приводит к длительному времени вывода и высокому потреблению памяти. Например, моделям типа Infinity требуется более 10 000 токенов для изображения размером 1024×1024. Это становится неприемлемым для приложений реального времени или при масштабировании на более обширные наборы данных.
Снижение нагрузки на токены
Чтобы снизить нагрузку на токены, были разработаны инновации, такие как предсказание следующего масштаба, используемое в VAR и FlexVAR. Эти модели создают изображения, прогнозируя последовательно более мелкие масштабы, что имитирует тенденцию человека сначала делать набросок общих контуров, а затем добавлять детали. Однако они всё ещё полагаются на сотни токенов — 680 в случае VAR и FlexVAR для изображений размером 256×256.
Подходы, такие как TiTok и FlexTok, используют одномерную токенизацию для сжатия пространственной избыточности, но часто не могут эффективно масштабироваться. Например, gFID FlexTok увеличивается с 1,9 при 32 токенах до 2,5 при 256 токенах, что указывает на ухудшение качества вывода по мере увеличения количества токенов.
Введение DetailFlow
Исследователи из ByteDance представили DetailFlow — одномерный авторегрессионный фреймворк для генерации изображений. Этот метод организует последовательности токенов от глобальных до мелких деталей, используя процесс, называемый предсказанием следующей детали.
В отличие от традиционных двумерных растровых методов или методов, основанных на масштабе, DetailFlow использует одномерный токенизатор, обученный на последовательно деградированных изображениях. Такая конструкция позволяет модели определять приоритетность основных структур изображения перед уточнением визуальных деталей.
Механизм в DetailFlow основан на одномерном скрытом пространстве, где каждый токен вносит всё больше деталей. Более ранние токены кодируют глобальные особенности, а более поздние — уточняют конкретные визуальные аспекты. Для обучения исследователи создали функцию сопоставления разрешений, которая связывает количество токенов с целевым разрешением.
Во время обучения модель подвергается воздействию изображений различного качества и учится прогнозировать выходы с более высоким разрешением по мере введения дополнительных токенов. Также реализована параллельная предсказание токенов путём группировки последовательностей и прогнозирования целых наборов одновременно. Поскольку параллельное предсказание может привести к ошибкам выборки, был интегрирован механизм самокоррекции.
Результаты экспериментов
Результаты экспериментов на бенчмарке ImageNet 256×256 были примечательными. DetailFlow достиг показателя gFID 2,96, используя всего 128 токенов, что превзошло VAR (3,3) и FlexVAR (3,05), которые использовали 680 токенов. Детальный анализ подтвердил, что обучение с самокоррекцией и семантический порядок токенов существенно улучшают качество вывода.
Благодаря фокусировке на семантической структуре и снижению избыточности, DetailFlow представляет собой жизнеспособное решение для давних проблем в области авторегрессионной генерации изображений.
Ссылки
Ознакомиться с подробностями можно в [статье](ссылка на статью) и на [странице GitHub](ссылка на GitHub). Все заслуги за это исследование принадлежат исследователям проекта. Подписывайтесь на нас в [Twitter](ссылка на Twitter) и присоединяйтесь к нашему [ML SubReddit](ссылка на SubReddit), а также подписывайтесь на [рассылку новостей](ссылка на рассылку).