Google DeepMind представляет Unified Latents (UL): фреймворк машинного обучения для совместной регуляризации скрытых представлений

Google DeepMind разработала новый фреймворк под названием Unified Latents (UL), который предназначен для совместной регуляризации скрытых представлений с помощью диффузионной априорной модели и декодера.

Текущие тенденции в генеративном искусственном интеллекте

Генеративный искусственный интеллект (ИИ) в настоящее время опирается на модели скрытой диффузии (LDMs) для управления вычислительными затратами при синтезе высокого разрешения. Сжимая данные в низкоразмерное скрытое пространство, модели могут эффективно масштабироваться. Однако существует фундаментальный компромисс: более низкая информационная плотность упрощает обучение скрытых представлений, но снижает качество реконструкции, в то время как более высокая плотность обеспечивает почти идеальную реконструкцию, но требует большей вычислительной мощности.

Архитектура: три столпа Unified Latents

Фреймворк Unified Latents (UL) основан на трёх технических компонентах:

1. Фиксированное кодирование гауссовского шума. В отличие от стандартных вариационных автоэнкодеров (VAEs), которые обучают распределение кодировщика, UL использует детерминированный кодировщик E𝝷, который предсказывает одно скрытое представление zclean. Затем это скрытое представление преобразуется в конечный логарифм отношения сигнал/шум (log-SNR) λ(0)=5.
2. Согласование априорных значений. Диффузионная модель априорных значений согласована с этим минимальным уровнем шума. Это согласование позволяет термину Кульбака-Лейблера (KL) в нижней границе доказательства (ELBO) сократиться до простой взвешенной средней квадратичной ошибки (MSE) по уровням шума.
3. Перевзвешенная ELBO декодера. Декодер использует сигмоидально взвешенную потерю, которая обеспечивает интерпретируемую границу для битрейта скрытого представления, позволяя модели определять приоритеты на разных уровнях шума.

Двухэтапный процесс обучения

Фреймворк UL реализуется в два этапа для оптимизации качества обучения и генерации скрытых представлений:

Этап 1: совместное обучение скрытых представлений. На первом этапе кодировщик, диффузионная априорная модель (P𝝷) и диффузионный декодер (D𝝷) обучаются совместно. Цель — изучить скрытые представления, которые одновременно кодируются, регулируются и моделируются. Выходной шум кодировщика связан напрямую с минимальным уровнем шума априорной модели, что обеспечивает плотную верхнюю границу битрейта скрытого представления.

Этап 2: масштабирование базовой модели. Исследовательская группа обнаружила, что априорная модель, обученная исключительно на потере ELBO на этапе 1, не даёт оптимальных результатов, поскольку она одинаково взвешивает низкочастотный и высокочастотный контент. Следовательно, на этапе 2 кодировщик и декодер замораживаются. Затем на скрытых представлениях обучается новая «базовая модель» с использованием сигмоидального взвешивания, что значительно улучшает производительность. Этот этап позволяет использовать более крупные размеры моделей и размеры пакетов.

Технические характеристики и эталонные показатели

Unified Latents демонстрируют высокую эффективность в соотношении между вычислительными затратами на обучение (FLOPs) и качеством генерации.

| Метрика | Датасет | Результат | Значимость |
|———|———|———|———|
| FID | ImageNet-512 | 1.4 | Превосходит модели, обученные на стабильных диффузионных скрытых представлениях при заданном бюджете вычислительных ресурсов. |
| FVD | Kinetics-600 | 1.3 | Устанавливает новый эталон (SOTA) для генерации видео. |
| PSNR | ImageNet-512 | До 30.1 | Поддерживает высокую точность реконструкции даже при более высоких уровнях сжатия. |

На ImageNet-512 UL превзошёл предыдущие подходы, включая варианты DiT и EDM2, с точки зрения затрат на обучение по сравнению с генерацией FID. В видеозадачах с использованием Kinetics-600 небольшая модель UL достигла FVD 1.7, а средний вариант достиг SOTA 1.3 FVD.

Ключевые выводы

Интегрированная диффузионная структура. UL — это фреймворк, который совместно оптимизирует кодировщик, диффузионную априорную модель и диффузионный декодер, обеспечивая одновременное кодирование, регуляризацию и моделирование скрытых представлений для высокоэффективной генерации.

Фиксированная граница информации о шуме. Используя детерминированный кодировщик, который добавляет фиксированное количество гауссовского шума (конкретно при log-SNR λ(0)=5) и связывает его с минимальным уровнем шума априорной модели, модель обеспечивает плотную, интерпретируемую верхнюю границу битрейта скрытого представления.

Двухэтапная стратегия обучения. Процесс включает в себя начальный этап совместного обучения для автоэнкодера и априорной модели, за которым следует второй этап, на котором кодировщик и декодер замораживаются, а на скрытых представлениях обучается более крупная «базовая модель» для максимизации качества выборки.

Эталонная производительность. Фреймворк установил новый эталон (SOTA) по расстоянию Фреше для видео (FVD) 1.3 на Kinetics-600 и достиг конкурентоспособного расстояния Фреше для начала (FID) 1.4 на ImageNet-512, требуя при этом меньше вычислительных FLOPs, чем стандартные базовые модели скрытой диффузии.

1. Какие основные компоненты составляют архитектуру Unified Latents (UL) и как они взаимодействуют между собой?

В архитектуре Unified Latents (UL) можно выделить три основных компонента:
* фиксированное кодирование гауссовского шума, где используется детерминированный кодировщик, который предсказывает одно скрытое представление;
* согласование априорных значений, при котором диффузионная модель априорных значений согласована с минимальным уровнем шума;
* перевзвешенная ELBO декодера, где декодер использует сигмоидально взвешенную потерю, которая обеспечивает интерпретируемую границу для битрейта скрытого представления.

2. Какие преимущества предлагает фреймворк UL по сравнению с другими моделями скрытой диффузии?

Фреймворк Unified Latents (UL) предлагает несколько преимуществ по сравнению с другими моделями скрытой диффузии:
* высокая эффективность в соотношении между вычислительными затратами на обучение (FLOPs) и качеством генерации;
* установление нового эталона (SOTA) для генерации видео;
* поддержание высокой точности реконструкции даже при более высоких уровнях сжатия.

3. Какие метрики используются для оценки эффективности фреймворка UL и какие результаты были достигнуты на различных датасетах?

Для оценки эффективности фреймворка Unified Latents (UL) используются следующие метрики:
* FID (Fréchet Inception Distance) на датасете ImageNet-512 — результат 1.4;
* FVD (Fréchet Video Distance) на Kinetics-600 — результат 1.3;
* PSNR (Peak Signal-to-Noise Ratio) на ImageNet-512 — результат до 30.1.

4. Какие ключевые выводы можно сделать из разработки и применения фреймворка UL?

Ключевые выводы из разработки и применения фреймворка Unified Latents (UL):
* UL — это фреймворк, который совместно оптимизирует кодировщик, диффузионную априорную модель и диффузионный декодер, обеспечивая одновременное кодирование, регуляризацию и моделирование скрытых представлений для высокоэффективной генерации.
* фиксированная граница информации о шуме обеспечивает плотную, интерпретируемую верхнюю границу битрейта скрытого представления;
* двухэтапная стратегия обучения позволяет максимизировать качество выборки;
* фреймворк установил новый эталон (SOTA) по расстоянию Фреше для видео (FVD) 1.3 на Kinetics-600 и достиг конкурентоспособного расстояния Фреше для начала (FID) 1.4 на ImageNet-512, требуя при этом меньше вычислительных FLOPs, чем стандартные базовые модели скрытой диффузии.

5. Какие технические характеристики и эталонные показатели демонстрируют высокую эффективность фреймворка UL?

Фреймворк Unified Latents (UL) демонстрирует высокую эффективность в соотношении между вычислительными затратами на обучение (FLOPs) и качеством генерации. На ImageNet-512 UL превзошёл предыдущие подходы, включая варианты DiT и EDM2, с точки зрения затрат на обучение по сравнению с генерацией FID. В видеозадачах с использованием Kinetics-600 небольшая модель UL достигла FVD 1.7, а средний вариант достиг SOTA 1.3 FVD. Также поддерживается высокая точность реконструкции даже при более высоких уровнях сжатия (PSNR до 30.1 на ImageNet-512).

Источник