Яндекс выпустил Alchemist: компактный набор данных для тонкой настройки под контролем учителя для повышения качества моделей генерации текста в изображение

Несмотря на значительный прогресс в генерации текста в изображение (T2I), достигнутый благодаря таким моделям, как DALL-E 3, Imagen 3 и Stable Diffusion 3, достижение стабильного качества выходных данных — как с точки зрения эстетики, так и согласованности — остаётся сложной задачей. Хотя крупномасштабное предварительное обучение предоставляет общие знания, этого недостаточно для достижения высокого эстетического качества и согласованности.

Тонкая настройка под контролем учителя (SFT) является важным этапом после обучения, но её эффективность сильно зависит от качества набора данных для тонкой настройки.

Текущие общедоступные наборы данных, используемые в SFT, либо ориентированы на узкие визуальные области (например, аниме или определённые жанры искусства), либо основаны на базовых эвристических фильтрах для данных веб-масштаба.

Подход: курирование набора данных под руководством модели

Чтобы решить эти проблемы, Яндекс выпустил Alchemist — общедоступный набор данных общего назначения для SFT, состоящий из 3350 тщательно отобранных пар изображений и текстов. В отличие от традиционных наборов данных, Alchemist создан с использованием новой методологии, которая использует предварительно обученную диффузионную модель для оценки качества выборки.

Этот подход позволяет выбрать обучающие данные, которые оказывают большое влияние на производительность генеративной модели, не полагаясь на субъективную маркировку человеком или упрощённую эстетическую оценку.

Alchemist предназначен для повышения качества выходных данных моделей T2I за счёт целенаправленной тонкой настройки.

Техническая конструкция: конвейер фильтрации и характеристики набора данных

Конструирование Alchemist включает в себя многоэтапный конвейер фильтрации, начиная примерно с 10 миллиардов изображений из Интернета.

Первичная фильтрация: удаление NSFW-контента и изображений с низким разрешением (пороговое значение >1024×1024 пикселей).

Грубая фильтрация качества: применение классификаторов для исключения изображений со сжатыми артефактами, размытием при движении, водяными знаками и другими дефектами. Эти классификаторы были обучены на стандартных наборах данных для оценки качества изображений, таких как KonIQ-10k и PIPAL.

Дедупликация и обрезка на основе IQA: для кластеризации похожих изображений используются функции, подобные SIFT, сохраняя только высококачественные. Изображения дополнительно оцениваются с помощью модели TOPIQ, что обеспечивает сохранение чистых образцов.

Выбор на основе диффузии: ключевым вкладом является использование активаций перекрёстного внимания предварительно обученной диффузионной модели для ранжирования изображений. Функция оценки определяет образцы, которые сильно активируют функции, связанные с визуальной сложностью, эстетической привлекательностью и стилистическим богатством. Это позволяет выбрать образцы, которые с наибольшей вероятностью повысят производительность последующих моделей.

Переписывание подписей: финально отобранные изображения получают новые подписи с помощью модели зрения и языка, настроенной для создания текстовых описаний в стиле подсказок. Это обеспечивает лучшее согласование и удобство использования в рабочих процессах SFT.

Благодаря исследованиям по удалению отдельных компонентов (ablation studies) авторы определяют, что увеличение размера набора данных свыше 3350 (например, до 7 тыс. или 19 тыс. образцов) приводит к снижению качества тонко настроенных моделей, что подтверждает ценность целенаправленных, высококачественных данных по сравнению с их объёмом.

Результаты для различных моделей T2I

Эффективность Alchemist была оценена на пяти вариантах Stable Diffusion: SD1.5, SD2.1, SDXL, SD3.5 Medium и SD3.5 Large. Каждая модель была настроена с использованием трёх наборов данных: (i) набор данных Alchemist, (ii) размерно соответствующий подмножество из LAION-Aesthetics v2 и (iii) их соответствующие базовые показатели.

Экспертная оценка: эксперты-аннотаторы провели параллельные оценки по четырём критериям — релевантности текста и изображения, эстетическому качеству, сложности изображения и точности. Модели, настроенные с помощью Alchemist, показали статистически значимое улучшение эстетических показателей и показателей сложности, часто превосходя как базовые версии, так и версии, настроенные с помощью LAION-Aesthetics, с разницей в 12–20%.

Автоматизированные метрики: по таким метрикам, как FD-DINOv2, CLIP Score, ImageReward и HPS-v2, модели, настроенные с помощью Alchemist, обычно набирали более высокие баллы, чем их коллеги. Примечательно, что улучшения были более последовательными по сравнению с моделями на основе LAION, соответствующими по размеру, чем с базовыми моделями.

Анализ размера набора данных: тонкая настройка с более крупными вариантами Alchemist (7 тыс. и 19 тыс. образцов) привела к снижению производительности, подчёркивая, что более строгая фильтрация и более высокое качество каждого образца более эффективны, чем размер набора данных.

Яндекс использовал набор данных для обучения своей собственной генеративной модели текста в изображение, YandexART v2.5, и планирует продолжать использовать его для будущих обновлений модели.

Заключение

Alchemist представляет собой чётко определённый и эмпирически подтверждённый путь для повышения качества генерации текста в изображение посредством тонкой настройки под контролем учителя. Подход подчёркивает важность качества выборки по сравнению с масштабом и представляет воспроизводимую методологию для создания наборов данных без использования проприетарных инструментов.

Хотя улучшения наиболее заметны в таких перцептивных атрибутах, как эстетика и сложность изображения, фреймворк также подчёркивает компромиссы, которые возникают в отношении точности, особенно для новых базовых моделей, уже оптимизированных с помощью внутренней SFT. Тем не менее Alchemist устанавливает новый стандарт для наборов данных SFT общего назначения и предлагает ценный ресурс для исследователей и разработчиков, работающих над повышением качества выходных данных генеративных моделей зрения.

Источник

Оставьте комментарий