Команда Qwen представляет Qwen-Image-Edit: версию Qwen-Image для редактирования изображений с расширенными возможностями семантического и внешнего редактирования

В области мультимодального искусственного интеллекта модели для редактирования изображений на основе инструкций преобразуют взаимодействие пользователей с визуальным контентом. Команда Alibaba’s Qwen выпустила Qwen-Image-Edit в августе 2025 года. Эта модель основана на Qwen-Image с 20 миллиардами параметров и предоставляет расширенные возможности редактирования.

Архитектура и ключевые инновации

Qwen-Image-Edit расширяет архитектуру мультимодального диффузионного трансформатора (MMDiT) Qwen-Image, которая включает в себя:
* Qwen2.5-VL — мультимодальную большую языковую модель (MLLM) для обработки текста;
* вариационный автоэнкодер (VAE) для токенизации изображений;
* основную часть MMDiT для совместного моделирования.

Для редактирования модель использует двойное кодирование: входное изображение обрабатывается Qwen2.5-VL для выделения высокоуровневых семантических признаков и VAE для низкоуровневых реконструктивных деталей, которые объединяются в потоке изображений MMDiT. Это обеспечивает сбалансированную семантическую согласованность (например, сохранение идентичности объекта при изменении позы) и визуальную точность (например, сохранение неизменённых областей).

Мультимодальное масштабируемое позиционное кодирование (MSRoPE) дополнено рамочным измерением для дифференциации изображений до и после редактирования, что поддерживает такие задачи, как редактирование текста и изображений (TI2I). VAE, настроенная на текстовых данных, обеспечивает превосходную реконструкцию с 33,42 PSNR на общих изображениях и 36,63 на текстовых, превосходя FLUX-VAE и SD-3.5-VAE.

Ключевые особенности Qwen-Image-Edit

* Семантическое и внешнее редактирование: поддерживает низкоуровневое редактирование внешнего вида (например, добавление, удаление или модификацию элементов с сохранением других областей неизменными) и высокоуровневое визуальное семантическое редактирование (например, создание интеллектуальной собственности, вращение объектов и передачу стиля).
* Точное редактирование текста: позволяет редактировать двуязычный (китайский и английский) текст, включая прямое добавление, удаление и модификацию текста на изображениях, сохраняя при этом исходный шрифт, размер и стиль.
* Высокие показатели в бенчмарках: достигает передовых результатов в нескольких общедоступных бенчмарках для задач редактирования изображений, позиционируя себя как надёжную базовую модель для генерации и управления.

Обучение и конвейер данных

Используя курируемый набор данных Qwen-Image из миллиардов пар изображений и текста в областях природы (55 %), дизайна (27 %), людей (13 %) и синтетических данных (5 %), Qwen-Image-Edit применяет парадигму многозадачного обучения, объединяя T2I, I2I и TI2I цели. Семиэтапный конвейер фильтрации улучшает данные по качеству и балансу, включая стратегии рендеринга синтетического текста (Pure, Compositional, Complex) для решения проблем с китайскими иероглифами в длинном хвосте.

Расширенные возможности редактирования

Qwen-Image-Edit отлично справляется с семантическим редактированием, позволяя создавать интеллектуальную собственность, например, генерировать эмодзи в стиле MBTI из талисмана (например, капибары), сохраняя при этом согласованность персонажа. Поддерживает синтез новых видов с углом обзора 180 градусов, вращая объекты или сцены с высокой точностью, достигая 15,11 PSNR на GSO — превосходя специализированные модели, такие как CRM.

Результаты тестирования и оценки

Qwen-Image-Edit лидирует в тестах редактирования, набрав 7,56 балла в целом на GEdit-Bench-EN и 7,52 на CN, опережая GPT Image 1 (7,53 EN, 7,30 CN) и FLUX.1 Kontext [Pro] (6,56 EN, 1,23 CN). На ImgEdit он достигает 4,27 в целом, превосходя в таких задачах, как замена объектов (4,66) и изменение стиля (4,81). Оценка глубины даёт 0,078 AbsRel на KITTI, что конкурентоспособно с DepthAnything v2.

Развёртывание и практическое использование

Qwen-Image-Edit можно развернуть через Hugging Face Diffusers.

«`
from diffusers import QwenImageEditPipeline
import torch
from PIL import Image

pipeline = QwenImageEditPipeline.from_pretrained(«Qwen/Qwen-Image-Edit»)
pipeline.to(torch.bfloat16).to(«cuda»)

image = Image.open(«input.png»).convert(«RGB»)
prompt = «Change the rabbit’s color to purple, with a flash light background.»
output = pipeline(image=image, prompt=prompt, numinferencesteps=50, truecfgscale=4.0).images
output.save(«output.png»)
«`

Alibaba Cloud’s Model Studio предлагает доступ к API для масштабируемого вывода. Лицензия Apache 2.0, репозиторий GitHub предоставляет код для обучения.

Будущие перспективы

Qwen-Image-Edit продвигает интерфейсы «видение — язык», обеспечивая беспрепятственное манипулирование контентом для создателей. Унифицированный подход к пониманию и генерации предполагает потенциальные расширения до видео и 3D, способствуя инновационным приложениям в дизайне, управляемом искусственным интеллектом.

1. Какие ключевые инновации были внедрены в модель Qwen-Image-Edit по сравнению с предыдущей версией Qwen-Image?

Ответ: в модель Qwen-Image-Edit были внедрены следующие ключевые инновации: расширение архитектуры мультимодального диффузионного трансформатора (MMDiT) Qwen-Image, включая Qwen2.5-VL — мультимодальную большую языковую модель (MLLM) для обработки текста, вариационный автоэнкодер (VAE) для токенизации изображений и основную часть MMDiT для совместного моделирования.

2. Какие типы редактирования поддерживает Qwen-Image-Edit и какие примеры высокоуровневого и низкоуровневого редактирования приведены в статье?

Ответ: Qwen-Image-Edit поддерживает низкоуровневое редактирование внешнего вида (например, добавление, удаление или модификацию элементов с сохранением других областей неизменными) и высокоуровневое визуальное семантическое редактирование (например, создание интеллектуальной собственности, вращение объектов и передачу стиля).

3. Какие результаты тестирования и оценки были получены для Qwen-Image-Edit на различных бенчмарках?

Ответ: Qwen-Image-Edit лидирует в тестах редактирования, набрав 7,56 балла в целом на GEdit-Bench-EN и 7,52 на CN, опережая GPT Image 1 и FLUX.1 Kontext [Pro]. На ImgEdit он достигает 4,27 в целом, превосходя в таких задачах, как замена объектов (4,66) и изменение стиля (4,81). Оценка глубины даёт 0,078 AbsRel на KITTI.

4. Как можно развернуть Qwen-Image-Edit для практического использования?

Ответ: Qwen-Image-Edit можно развернуть через Hugging Face Diffusers. Для этого можно использовать следующий код:
«`
from diffusers import QwenImageEditPipeline
import torch
from PIL import Image

pipeline = QwenImageEditPipeline.from_pretrained(«Qwen/Qwen-Image-Edit»)
pipeline.to(torch.bfloat16).to(«cuda»)

5. Какие будущие перспективы открывает Qwen-Image-Edit в области интерфейсов «видение — язык»?

Ответ: Qwen-Image-Edit продвигает интерфейсы «видение — язык», обеспечивая беспрепятственное манипулирование контентом для создателей. Унифицированный подход к пониманию и генерации предполагает потенциальные расширения до видео и 3D, способствуя инновационным приложениям в дизайне, управляемом искусственным интеллектом.

Источник