Преодоление разрыва между художественным замыслом и техническим исполнением
Ретушь фотографий — ключевой аспект цифровой фотографии, позволяющий пользователям манипулировать такими элементами изображения, как тон, экспозиция и контраст, для создания визуально привлекательного контента. Независимо от того, используются ли эти инструменты в профессиональных целях или для личного самовыражения, пользователи часто стремятся улучшить изображения в соответствии с определёнными эстетическими целями. Однако искусство ретуши фотографий требует как технических знаний, так и творческой чувствительности, что затрудняет достижение высококачественных результатов без значительных усилий или опыта.
Основная проблема заключается в разрыве между инструментами ручного редактирования и автоматизированными решениями. Хотя профессиональное программное обеспечение, такое как Adobe Lightroom, предлагает широкие возможности ретуши, освоение этих инструментов может занять много времени и оказаться сложным для обычных пользователей. С другой стороны, методы на основе искусственного интеллекта упрощают процесс редактирования, но не всегда предлагают необходимый контроль или точность для детальной работы. Эти автоматизированные решения также с трудом обобщают различные визуальные сцены или поддерживают сложные инструкции пользователя.
Ограничения современных моделей редактирования фотографий на основе ИИ
Традиционные инструменты используют оптимизацию нулевого и первого порядка, а также обучение с подкреплением для выполнения задач по ретуши фотографий. Другие применяют методы, основанные на диффузии, для синтеза изображений. Эти стратегии демонстрируют прогресс, но в целом им мешает неспособность обрабатывать детальный региональный контроль, поддерживать высокое разрешение или сохранять исходное содержание изображения.
Даже более новые крупные модели, такие как GPT-4o и Gemini-2-Flash, предлагают редактирование на основе текста, но ограничивают контроль пользователя, а их генеративные процессы часто перезаписывают важные детали контента.
JarvisArt: мультимодальный ИИ-ретушер, интегрирующий Chain-of-Thought и API Lightroom
Исследователи из Сямыньского университета, Китайского университета Гонконга, Bytedance, Национального университета Сингапура и Университета Цинхуа представили JarvisArt — интеллектуального ретуширующего агента. Эта система использует мультимодальную большую языковую модель для гибкого редактирования изображений по инструкциям.
JarvisArt обучен имитировать процесс принятия решений профессиональными художниками, интерпретируя намерения пользователя через визуальные и языковые сигналы и выполняя действия по ретуши с помощью более чем 200 инструментов в Adobe Lightroom через специальный протокол интеграции.
Методология включает три основных компонента:
1. Исследователи создали высококачественный набор данных MMArt, который включает 5 000 стандартных и 50 000 образцов с аннотациями Chain-of-Thought, охватывающих различные стили и сложности редактирования.
2. JarvisArt проходит двухэтапный процесс обучения. На начальном этапе используется контролируемая тонкая настройка для развития способностей к рассуждениям и выбору инструментов. Затем следует оптимизация групповой относительной политики для ретуши (GRPO-R), которая включает индивидуальные вознаграждения за использование инструментов, такие как точность ретуши и качество восприятия, для улучшения способности системы генерировать редакционные материалы профессионального качества.
3. Специализированный протокол Agent-to-Lightroom (A2L) обеспечивает беспрепятственное и прозрачное использование инструментов в Lightroom, позволяя пользователям динамически настраивать редактирование.
Оценка возможностей JarvisArt и его производительности в реальных условиях
Способность JarvisArt интерпретировать сложные инструкции и применять детальные правки была оценена с помощью MMArt-Bench — эталона, созданного на основе реальных пользовательских правок. Система продемонстрировала улучшение средних показателей точности на уровне пикселей на 60% по сравнению с GPT-4o при сохранении аналогичных возможностей выполнения инструкций.
JarvisArt также продемонстрировал универсальность в обработке как глобальных, так и локальных правок, с возможностью манипулирования изображениями произвольного разрешения. Например, он может корректировать текстуру кожи, яркость глаз или чёткость волос на основе региональных инструкций. Эти результаты были достигнуты при сохранении эстетических целей, определённых пользователем, демонстрируя практичное сочетание контроля и качества при выполнении различных задач редактирования.
Заключение: генеративный агент, сочетающий креативность с технической точностью
Исследовательская группа решила важную задачу — обеспечить интеллектуальную высококачественную ретушь фотографий, не требующую профессиональных знаний. Представленный метод устраняет разрыв между автоматизацией и контролем пользователя, сочетая синтез данных, обучение на основе рассуждений и интеграцию с коммерческим программным обеспечением.
JarvisArt предлагает практичное и мощное решение для творческих пользователей, которым нужна гибкость и качество при редактировании изображений.
1. Какие проблемы в области ретуши фотографий решает JarvisArt?
JarvisArt решает проблему разрыва между художественным замыслом пользователя и техническим исполнением при ретуши фотографий. Система позволяет интерпретировать сложные инструкции и применять детальные правки, устраняя необходимость глубоких технических знаний для достижения высококачественных результатов.
2. Какие методы и подходы используются в JarvisArt для ретуши фотографий?
JarvisArt использует мультимодальную большую языковую модель для гибкого редактирования изображений по инструкциям. Система обучена имитировать процесс принятия решений профессиональными художниками, интерпретируя намерения пользователя через визуальные и языковые сигналы и выполняя действия по ретуши с помощью более чем 200 инструментов в Adobe Lightroom через специальный протокол интеграции.
3. Какие результаты были достигнуты при использовании JarvisArt?
JarvisArt продемонстрировал улучшение средних показателей точности на уровне пикселей на 60% по сравнению с GPT-4o при сохранении аналогичных возможностей выполнения инструкций. Система также продемонстрировала универсальность в обработке как глобальных, так и локальных правок, с возможностью манипулирования изображениями произвольного разрешения.
4. Какие возможности предоставляет JarvisArt творческим пользователям?
JarvisArt предлагает творческим пользователям гибкость и качество при редактировании изображений. Система обеспечивает интеллектуальную высококачественную ретушь фотографий, не требующую профессиональных знаний, что делает её доступной для широкого круга пользователей.
5. Как JarvisArt сочетает креативность с технической точностью?
JarvisArt сочетает креативность с технической точностью через синтез данных, обучение на основе рассуждений и интеграцию с коммерческим программным обеспечением. Это позволяет системе интерпретировать сложные инструкции и применять детальные правки, сохраняя при этом эстетические цели, определённые пользователем.