Меньшие дипфейки могут представлять большую угрозу

Инструменты разговорного искусственного интеллекта, такие как ChatGPT и Google Gemini, теперь используются для создания дипфейков, которые не меняют лица, а более тонкими способами могут переписать всю историю внутри изображения. Изменяя жесты, реквизит и фон, эти правки обманывают как детекторы искусственного интеллекта, так и людей, повышая ставки в выявлении того, что является реальным в интернете.

В нынешних условиях, особенно после принятия такого значимого законодательства, как закон TAKE IT DOWN, многие из нас связывают дипфейки и синтез идентичности с помощью искусственного интеллекта с порнографией без согласия и политическими манипуляциями — в общем, с грубыми искажениями истины.

Это приучает нас ожидать, что изображения, созданные с помощью искусственного интеллекта, всегда будут связаны с контентом высокой ставки, где качество рендеринга и манипуляция контекстом могут добиться успеха в достижении убедительности, по крайней мере в краткосрочной перспективе.

Однако исторически более тонкие изменения часто оказывали более зловещее и устойчивое влияние — например, передовые фотографические трюки, которые позволили Сталину стереть с фотографий тех, кто впал в немилость, как это сатирически изображено в романе Джорджа Оруэлла «1984», где главный герой Уинстон Смит проводит дни, переписывая историю и создавая, уничтожая и «исправляя» фотографии.

В следующем примере проблема со вторым изображением заключается в том, что мы «не знаем того, чего не знаем» — что бывший глава сталинской тайной полиции Николай Ежов занимал место, где теперь есть только защитный барьер:

Теперь вы видите его, теперь он… исчез. Фотографические манипуляции сталинской эпохи удаляют опального члена партии из истории. Источник: общественное достояние, через https://www.rferl.org/a/soviet-airbrushing-the-censors-who-scratched-out-history/29361426.html

Течения такого рода, часто повторяющиеся, сохраняются во многих отношениях; не только в культуре, но и в самом компьютерном зрении, которое выводит тенденции из статистически доминирующих тем и мотивов в обучающих наборах данных.

Например, тот факт, что смартфоны снизили входной барьер и значительно снизили стоимость фотографии, означает, что их иконография стала неизбежно ассоциироваться со многими абстрактными понятиями, даже когда это неуместно.

Если обычные дипфейки можно воспринимать как акт «нападения», то пагубные и настойчивые мелкие изменения в аудиовизуальных медиа больше похожи на «газлайтинг». Кроме того, способность такого рода дипфейков оставаться незамеченными затрудняет их идентификацию с помощью современных систем обнаружения дипфейков (которые ищут грубые изменения).

MultiFakeVerse

Исследователи из Австралии попытались обратить внимание на отсутствие внимания к «тонким» дипфейкам в литературе, создав обширный новый набор данных манипуляций с изображениями, ориентированными на человека, которые изменяют контекст, эмоции и повествование, не меняя при этом основную идентичность субъекта.

Набор данных MultiFakeVerse состоит из 845 826 изображений, сгенерированных с помощью моделей языка зрения (VLM), которые можно получить онлайн и загрузить с разрешения.

Авторы заявляют:

«Этот подход, основанный на VLM, позволяет вносить семантические, контекстуально-зависимые изменения, такие как модификация действий, сцен и взаимодействий человека с объектами, а не синтетические или низкоуровневые замены идентичности и региональные редакторы, которые распространены в существующих наборах данных».

Исследователи протестировали как людей, так и ведущие системы обнаружения дипфейков на своём новом наборе данных, чтобы увидеть, насколько хорошо можно идентифицировать эти тонкие манипуляции. Люди-участники испытывали трудности, правильно классифицируя изображения как настоящие или поддельные только примерно в 62% случаев, и ещё больше затруднялись определить, какие части изображения были изменены.

Существующие детекторы дипфейков, обученные в основном на более очевидных наборах данных о замене лиц или заполнении, работали плохо, часто не фиксируя, что произошла какая-либо манипуляция. Даже после настройки на MultiFakeVerse уровень обнаружения оставался низким, что показывает, насколько плохо современные системы справляются с этими тонкими, ориентированными на повествование изменениями.

Метод

Набор данных MultiFakeVerse был создан на основе четырёх реальных наборов изображений с участием людей в различных ситуациях: EMOTIC; PISC, PIPA и PIC 2.0. Начиная с 86 952 исходных изображений, исследователи создали 758 041 манипулированную версию.

Для предложения шести минимальных правок для каждого изображения использовались фреймворки Gemini-2.0-Flash и ChatGPT-4o — правки, предназначенные для тонкого изменения восприятия зрителя о наиболее заметном человеке на изображении.

Модели были проинструктированы генерировать модификации, которые сделали бы субъекта наивным, гордым, раскаявшимся, неопытным или беспечным, или для корректировки какого-либо фактического элемента в сцене. Наряду с каждой правкой модели также производили ссылочное выражение, чтобы чётко идентифицировать цель модификации, обеспечивая возможность последующего процесса редактирования для применения изменений к нужному человеку или объекту на каждом изображении.

Авторы поясняют:

«Обратите внимание, что ссылочное выражение — это широко исследуемая область в сообществе, которая означает фразу, которая может устранить неоднозначность цели на изображении, например, для изображения, на котором два человека сидят за столом, один разговаривает по телефону, а другой просматривает документы, подходящим ссылочным выражением для последнего будет «мужчина слева с листом бумаги».

После определения правок фактическая манипуляция с изображением была выполнена путём побуждения моделей языка зрения применить указанные изменения, оставив остальную часть сцены нетронутой.

Для этой задачи исследователи протестировали три системы: GPT-Image-1; Gemini-2.0-Flash-Image-Generation; и ICEdit.

После генерации двадцати двух тысяч образцов изображений Gemini-2.0-Flash стал наиболее последовательным методом, производящим правки, которые органично вписывались в сцену без видимых артефактов; ICEdit часто производил более очевидные подделки с заметными недостатками в изменённых областях; а GPT-Image-1 иногда затрагивал непреднамеренные части изображения, отчасти из-за его соответствия фиксированным выходным соотношениям сторон.

Анализ изображений

Каждое манипулированное изображение сравнивалось с исходным, чтобы определить, какая часть изображения была изменена. Различия на уровне пикселей между двумя версиями были рассчитаны с фильтрацией небольшого случайного шума для сосредоточения на значимых правках. В некоторых изображениях были затронуты только крошечные области; в других — до восьмидесяти процентов сцены было изменено.

Чтобы оценить, насколько изменился смысл каждого изображения в свете этих изменений, были сгенерированы подписи как для исходных, так и для манипулированных изображений с помощью модели языка зрения ShareGPT-4V.

Эти подписи были преобразованы в эмбеддинги с помощью Long-CLIP, что позволило сравнить, насколько далеко разошёлся контент между версиями. Наибольшие семантические изменения наблюдались в случаях, когда были изменены объекты, близкие к человеку или непосредственно связанные с ним, поскольку эти небольшие корректировки могли значительно изменить интерпретацию изображения.

Заключение

Новое исследование обнажает слепое пятно как в человеческом, так и в машинном восприятии: в то время как большая часть общественных дебатов вокруг дипфейков сосредоточена на громких заменах идентичности, эти более тихие «повествовательные правки» труднее обнаружить и потенциально более разрушительны в долгосрочной перспективе.

Поскольку такие системы, как ChatGPT и Gemini, играют всё более активную роль в создании такого рода контента, и поскольку мы сами всё чаще участвуем в изменении реальности наших собственных фотопотоков, модели обнаружения, основанные на выявлении грубых манипуляций, могут предложить неадекватную защиту.

То, что демонстрирует MultiFakeVerse, — это не то, что обнаружение провалилось, а то, что, по крайней мере, часть проблемы может перейти в более сложную, медленно развивающуюся форму: ту, где небольшие визуальные обманы накапливаются незамеченными.

Источник

Оставьте комментарий