В области мультимодального искусственного интеллекта модели для редактирования изображений на основе инструкций преобразуют взаимодействие пользователей с визуальным контентом. Команда Alibaba’s Qwen выпустила Qwen-Image-Edit в августе 2025 года. Эта модель основана на Qwen-Image с 20 миллиардами параметров и предоставляет расширенные возможности редактирования.
Архитектура и ключевые инновации
Qwen-Image-Edit расширяет архитектуру мультимодального диффузионного трансформатора (MMDiT) Qwen-Image, которая включает в себя:
* Qwen2.5-VL — мультимодальную большую языковую модель (MLLM) для обработки текста;
* вариационный автоэнкодер (VAE) для токенизации изображений;
* основную часть MMDiT для совместного моделирования.
Для редактирования модель использует двойное кодирование: входное изображение обрабатывается Qwen2.5-VL для выделения высокоуровневых семантических признаков и VAE для низкоуровневых реконструктивных деталей, которые объединяются в потоке изображений MMDiT. Это обеспечивает сбалансированную семантическую согласованность (например, сохранение идентичности объекта при изменении позы) и визуальную точность (например, сохранение неизменённых областей).
Мультимодальное масштабируемое позиционное кодирование (MSRoPE) дополнено рамочным измерением для дифференциации изображений до и после редактирования, что поддерживает такие задачи, как редактирование текста и изображений (TI2I). VAE, настроенная на текстовых данных, обеспечивает превосходную реконструкцию с 33,42 PSNR на общих изображениях и 36,63 на текстовых, превосходя FLUX-VAE и SD-3.5-VAE.
Ключевые особенности Qwen-Image-Edit
* Семантическое и внешнее редактирование: поддерживает низкоуровневое редактирование внешнего вида (например, добавление, удаление или модификацию элементов с сохранением других областей неизменными) и высокоуровневое визуальное семантическое редактирование (например, создание интеллектуальной собственности, вращение объектов и передачу стиля).
* Точное редактирование текста: позволяет редактировать двуязычный (китайский и английский) текст, включая прямое добавление, удаление и модификацию текста на изображениях, сохраняя при этом исходный шрифт, размер и стиль.
* Высокие показатели в бенчмарках: достигает передовых результатов в нескольких общедоступных бенчмарках для задач редактирования изображений, позиционируя себя как надёжную базовую модель для генерации и управления.
Обучение и конвейер данных
Используя курируемый набор данных Qwen-Image из миллиардов пар изображений и текста в областях природы (55 %), дизайна (27 %), людей (13 %) и синтетических данных (5 %), Qwen-Image-Edit применяет парадигму многозадачного обучения, объединяя T2I, I2I и TI2I цели. Семиэтапный конвейер фильтрации улучшает данные по качеству и балансу, включая стратегии рендеринга синтетического текста (Pure, Compositional, Complex) для решения проблем с китайскими иероглифами в длинном хвосте.
Расширенные возможности редактирования
Qwen-Image-Edit отлично справляется с семантическим редактированием, позволяя создавать интеллектуальную собственность, например, генерировать эмодзи в стиле MBTI из талисмана (например, капибары), сохраняя при этом согласованность персонажа. Поддерживает синтез новых видов с углом обзора 180 градусов, вращая объекты или сцены с высокой точностью, достигая 15,11 PSNR на GSO — превосходя специализированные модели, такие как CRM.
Результаты тестирования и оценки
Qwen-Image-Edit лидирует в тестах редактирования, набрав 7,56 балла в целом на GEdit-Bench-EN и 7,52 на CN, опережая GPT Image 1 (7,53 EN, 7,30 CN) и FLUX.1 Kontext [Pro] (6,56 EN, 1,23 CN). На ImgEdit он достигает 4,27 в целом, превосходя в таких задачах, как замена объектов (4,66) и изменение стиля (4,81). Оценка глубины даёт 0,078 AbsRel на KITTI, что конкурентоспособно с DepthAnything v2.
Развёртывание и практическое использование
Qwen-Image-Edit можно развернуть через Hugging Face Diffusers.
“`
from diffusers import QwenImageEditPipeline
import torch
from PIL import Image
pipeline = QwenImageEditPipeline.from_pretrained(“Qwen/Qwen-Image-Edit”)
pipeline.to(torch.bfloat16).to(“cuda”)
image = Image.open(“input.png”).convert(“RGB”)
prompt = “Change the rabbit’s color to purple, with a flash light background.”
output = pipeline(image=image, prompt=prompt, numinferencesteps=50, truecfgscale=4.0).images
output.save(“output.png”)
“`
Alibaba Cloud’s Model Studio предлагает доступ к API для масштабируемого вывода. Лицензия Apache 2.0, репозиторий GitHub предоставляет код для обучения.
Будущие перспективы
Qwen-Image-Edit продвигает интерфейсы «видение — язык», обеспечивая беспрепятственное манипулирование контентом для создателей. Унифицированный подход к пониманию и генерации предполагает потенциальные расширения до видео и 3D, способствуя инновационным приложениям в дизайне, управляемом искусственным интеллектом.
1. Какие ключевые инновации были внедрены в модель Qwen-Image-Edit по сравнению с предыдущей версией Qwen-Image?
Ответ: в модель Qwen-Image-Edit были внедрены следующие ключевые инновации: расширение архитектуры мультимодального диффузионного трансформатора (MMDiT) Qwen-Image, включая Qwen2.5-VL — мультимодальную большую языковую модель (MLLM) для обработки текста, вариационный автоэнкодер (VAE) для токенизации изображений и основную часть MMDiT для совместного моделирования.
2. Какие типы редактирования поддерживает Qwen-Image-Edit и какие примеры высокоуровневого и низкоуровневого редактирования приведены в статье?
Ответ: Qwen-Image-Edit поддерживает низкоуровневое редактирование внешнего вида (например, добавление, удаление или модификацию элементов с сохранением других областей неизменными) и высокоуровневое визуальное семантическое редактирование (например, создание интеллектуальной собственности, вращение объектов и передачу стиля).
3. Какие результаты тестирования и оценки были получены для Qwen-Image-Edit на различных бенчмарках?
Ответ: Qwen-Image-Edit лидирует в тестах редактирования, набрав 7,56 балла в целом на GEdit-Bench-EN и 7,52 на CN, опережая GPT Image 1 и FLUX.1 Kontext [Pro]. На ImgEdit он достигает 4,27 в целом, превосходя в таких задачах, как замена объектов (4,66) и изменение стиля (4,81). Оценка глубины даёт 0,078 AbsRel на KITTI.
4. Как можно развернуть Qwen-Image-Edit для практического использования?
Ответ: Qwen-Image-Edit можно развернуть через Hugging Face Diffusers. Для этого можно использовать следующий код:
“`
from diffusers import QwenImageEditPipeline
import torch
from PIL import Image
pipeline = QwenImageEditPipeline.from_pretrained(“Qwen/Qwen-Image-Edit”)
pipeline.to(torch.bfloat16).to(“cuda”)
image = Image.open(“input.png”).convert(“RGB”)
prompt = “Change the rabbit’s color to purple, with a flash light background.”
output = pipeline(image=image, prompt=prompt, numinferencesteps=50, truecfgscale=4.0).images
output.save(“output.png”)
“`
5. Какие будущие перспективы открывает Qwen-Image-Edit в области интерфейсов «видение — язык»?
Ответ: Qwen-Image-Edit продвигает интерфейсы «видение — язык», обеспечивая беспрепятственное манипулирование контентом для создателей. Унифицированный подход к пониманию и генерации предполагает потенциальные расширения до видео и 3D, способствуя инновационным приложениям в дизайне, управляемом искусственным интеллектом.