Введение в MDMs и их неэффективность
Masked Diffusion Models (MDMs) — это мощные инструменты для генерации дискретных данных, таких как текст или символьные последовательности, путём постепенного раскрытия токенов. На каждом шаге токены либо маскируются, либо раскрываются. Однако было замечено, что многие шаги в обратном процессе не изменяют последовательность, что приводит к повторной обработке идентичных входных данных и напрасной трате вычислительных ресурсов. До 37% шагов могут вообще не обновлять последовательность. Эта неэффективность подчёркивает ключевое ограничение текущих MDMs, что стимулирует разработку более эффективных методов выборки, которые минимизируют холостые шаги и максимизируют использование каждого шага генерации.
Эволюция и усовершенствования в MDMs
Концепция дискретных диффузионных моделей возникла из ранних работ с двоичными данными, позже распространившись на практические приложения, такие как генерация текста и изображений с помощью различных стратегий создания шума. Недавние усилия усовершенствовали MDMs путём упрощения целей обучения и изучения альтернативных скрытых представлений.
Улучшения включают:
* смешивание авторегрессионных методов с MDMs;
* управление выборкой с помощью энергетических моделей;
* выборочное ремаскирование токенов для повышения качества вывода;
* дистилляция для сокращения количества шагов выборки.
Некоторые методы используют непрерывный шум (например, гауссовский) для моделирования дискретных данных; однако подходы вроде Bit Diffusion борются с трудноразрешимыми вероятностями из-за своей зависимости от квантования.
Представление Prime: схема частичной маскировки
Исследователи из Vector Institute, NVIDIA и Национального тайваньского университета представили метод под названием Partial Masking (Prime) для усовершенствования MDMs. В отличие от традиционного бинарного маскирования, Prime позволяет токенам принимать промежуточные состояния, маскируя подчасти закодированной формы токена. Это позволяет модели постепенно раскрывать информацию о токенах, улучшая качество предсказаний и сокращая избыточные вычисления.
Усовершенствованная модель MDM-Prime достигает высоких результатов:
* более низкая перплексия для текста (15,36 на OpenWebText);
* конкурентные оценки FID для задач с изображениями (3,26 на CIFAR-10, 6,98 на ImageNet-32);
* превосходит предыдущие MDMs и авторегрессионные модели без использования авторегрессионных методов.
Архитектура и улучшения в обучении
MDM-Prime — это модифицированная замаскированная диффузионная модель, которая вводит частичную маскировку на уровне под-токенов. Вместо того чтобы рассматривать каждый токен как единое целое, они разлагают его на последовательность под-токенов с помощью обратимой функции. Это позволяет модели генерировать более плавные промежуточные состояния во время диффузии, тем самым сокращая количество холостых шагов. Обратный процесс обучается с использованием вариационной границы по этим под-токенам.
Для устранения зависимостей между под-токенами и предотвращения получения недействительных выходных данных модель изучает совместное распределение вероятностей, одновременно отфильтровывая несогласованные последовательности. Архитектура включает в себя эффективную конструкцию кодировщика-декодера, оптимизированную для обработки под-токенов.
Эмпирическая оценка на текстовых и графических задачах
Исследование оценивает MDM-Prime как на задачах по генерации текста, так и на задачах по генерации изображений. При генерации текста с использованием набора данных OpenWebText MDM-Prime демонстрирует значительные улучшения в перплексии и соотношении холостых шагов, особенно при гранулярности под-токенов ℓ ≥ 4. Он превосходит предыдущие методы, не полагаясь на авторегрессионные стратегии, и хорошо обобщается на различных нулевых тестовых тестах.
Для генерации изображений на CIFAR-10 и ImageNet-32 MDM-Prime с ℓ = 2 достигает лучшего качества выборки и более низких оценок FID по сравнению с базовыми показателями, будучи при этом более эффективным. Он также хорошо справляется с задачами условной генерации изображений, выдавая согласованные результаты путём предсказания замаскированных под-токенов из частично наблюдаемых изображений.
Заключение и более широкие последствия
В заключение, научное понимание эволюционировало от представления атомов как мельчайших единиц материи до признания более фундаментальных частиц, о чём свидетельствуют такие открытия, как электрон и Стандартная модель. Аналогично, в генеративном моделировании исследование представляет Prime — метод, который разбивает токены дискретных данных на более мелкие под-токены. Построенный на основе MDMs, Prime повышает эффективность, позволяя токенам существовать в промежуточных состояниях, избегая повторных вычислений для неизменных входных данных. Это позволяет создавать более детальные и выразительные модели. Их подход превосходит предыдущие методы как в генерации текста (с перплексией 15,36), так и в генерации изображений (достигая конкурентных оценок FID), предлагая мощный инструмент для точной генерации данных.
Ознакомьтесь с [статьёй](), [страницей проекта](), [страницей на GitHub](). Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также подписывайтесь на нас в [Twitter](), и присоединяйтесь к нашему [ML SubReddit]() с более чем 100 тысячами участников и подписывайтесь на [наш Newsletter]().
Статья «MDM-Prime: обобщённая структура Masked Diffusion Models (MDMs), которая позволяет частично нескрытые токены во время выборки» впервые опубликована на MarkTechPost.
1. Какие проблемы существуют в традиционных Masked Diffusion Models (MDMs) и как их решает MDM-Prime?
В традиционных Masked Diffusion Models (MDMs) многие шаги в обратном процессе не изменяют последовательность, что приводит к повторной обработке идентичных входных данных и напрасной трате вычислительных ресурсов. MDM-Prime решает эту проблему путём введения частичной маскировки на уровне под-токенов. Это позволяет модели генерировать более плавные промежуточные состояния во время диффузии, сокращая количество холостых шагов.
2. Какие улучшения были внесены в MDMs и как они повлияли на эффективность моделей?
Улучшения в MDMs включают:
* смешивание авторегрессионных методов с MDMs;
* управление выборкой с помощью энергетических моделей;
* выборочное ремаскирование токенов для повышения качества вывода;
* дистилляция для сокращения количества шагов выборки.
Эти улучшения позволили упростить цели обучения и изучить альтернативные скрытые представления, что повысило эффективность MDMs.
3. Какие результаты демонстрирует MDM-Prime при генерации текста и изображений?
При генерации текста с использованием набора данных OpenWebText MDM-Prime демонстрирует значительные улучшения в перплексии и соотношении холостых шагов, особенно при гранулярности под-токенов ℓ ≥ 4. Он превосходит предыдущие методы, не полагаясь на авторегрессионные стратегии, и хорошо обобщается на различных нулевых тестовых тестах.
Для генерации изображений на CIFAR-10 и ImageNet-32 MDM-Prime с ℓ = 2 достигает лучшего качества выборки и более низких оценок FID по сравнению с базовыми показателями, будучи при этом более эффективным. Он также хорошо справляется с задачами условной генерации изображений, выдавая согласованные результаты путём предсказания замаскированных под-токенов из частично наблюдаемых изображений.
4. Какие методы используются в MDM-Prime для устранения зависимостей между под-токенами и предотвращения получения недействительных выходных данных?
Для устранения зависимостей между под-токенами и предотвращения получения недействительных выходных данных модель изучает совместное распределение вероятностей, одновременно отфильтровывая несогласованные последовательности. Архитектура включает в себя эффективную конструкцию кодировщика-декодера, оптимизированную для обработки под-токенов.
5. Какие преимущества предлагает MDM-Prime по сравнению с предыдущими методами генерации текста и изображений?
MDM-Prime предлагает следующие преимущества по сравнению с предыдущими методами:
* более низкая перплексия для текста (15,36 на OpenWebText);
* конкурентные оценки FID для задач с изображениями (3,26 на CIFAR-10, 6,98 на ImageNet-32);
* превосходит предыдущие MDMs и авторегрессионные модели без использования авторегрессионных методов;
* эффективное сокращение количества холостых шагов;
* возможность генерации более детальных и выразительных моделей.