Метод обучения генеративных ИИ-моделей для поиска персонализированных объектов

Представьте, что человек приходит с французским бульдогом по кличке Базер в парк для собак. Определить Базера среди других собак легко для его хозяина.

Но если кто-то захочет использовать генеративную ИИ-модель вроде GPT-5 для наблюдения за питомцем, пока он на работе, модель может не справиться с этой задачей. Модели обработки естественного языка и изображений, такие как GPT-5, часто отлично распознают общие объекты, например, собаку, но плохо справляются с поиском персонализированных объектов, таких как французский бульдог по кличке Базер.

Чтобы устранить этот недостаток, исследователи из Массачусетского технологического института (MIT) и лаборатории MIT-IBM Watson AI Lab разработали новый метод обучения, который учит модели обработки естественного языка и изображений локализовать персонализированные объекты на сцене.

Их метод использует тщательно подготовленные данные для отслеживания видео, в которых один и тот же объект отслеживается на нескольких кадрах. Набор данных был разработан таким образом, чтобы модель должна была сосредоточиться на контекстуальных подсказках для идентификации персонализированного объекта, а не полагаться на знания, которые она ранее запомнила.

Когда модели дают несколько примеров изображений с персонализированным объектом, например, с чьим-то питомцем, переобученная модель лучше определяет местоположение этого же питомца на новом изображении.

Модели, переобученные с помощью их метода, превзошли существующие системы в этой задаче. Важно, что их техника не нарушает остальные общие способности модели.

Новый подход может помочь будущим ИИ-системам отслеживать конкретные объекты во времени, например, детский рюкзак, или локализовать интересующие объекты, такие как вид животного при экологическом мониторинге. Это также может помочь в разработке ассистивных технологий на базе ИИ, которые помогают пользователям с нарушениями зрения находить определённые предметы в комнате.

«В конечном счёте мы хотим, чтобы эти модели могли учиться на основе контекста, как это делают люди. Если модель сможет это делать, вместо того чтобы переобучать её для каждой новой задачи, мы могли бы просто предоставить несколько примеров, и она бы поняла, как выполнять задачу на основе этого контекста. Это очень мощная способность», — говорит Джеханзеб Мирза, постдок MIT и старший автор статьи об этом методе.

Неожиданный недостаток

Исследователи обнаружили, что большие языковые модели (LLM) могут превосходно учиться на основе контекста. Если им предоставить несколько примеров задачи, например, задач на сложение, они могут научиться решать новые задачи на сложение на основе предоставленного контекста.

Модель обработки естественного языка и изображений (VLM) — это, по сути, LLM с подключённым к ней визуальным компонентом, поэтому исследователи MIT подумали, что она унаследует возможности LLM по обучению в контексте. Но это не так.

«Сообщество исследователей пока не смогло найти однозначного ответа на эту конкретную проблему. Узкое место может быть связано с тем, что часть визуальной информации теряется в процессе объединения двух компонентов, но мы просто не знаем», — говорит Мирза.

Исследователи поставили перед собой задачу улучшить способности VLM к локализации в контексте, которая включает в себя поиск конкретного объекта на новом изображении. Они сосредоточились на данных, используемых для переобучения существующих VLM для новой задачи, процесс, называемый тонкой настройкой.

Типичные данные для тонкой настройки собраны из случайных источников и изображают коллекции повседневных объектов. Одно изображение может содержать припаркованные на улице машины, а другое — букет цветов.

«В этих данных нет реальной согласованности, поэтому модель никогда не научится распознавать один и тот же объект на нескольких изображениях», — говорит он.

Чтобы решить эту проблему, исследователи разработали новый набор данных, отбирая образцы из существующих данных для отслеживания видео. Эти данные представляют собой видеоклипы, показывающие один и тот же объект, движущийся по сцене, например, тигра, идущего по травянистой местности.

Они вырезали кадры из этих видео и структурировали набор данных так, чтобы каждый вход состоял из нескольких изображений, показывающих один и тот же объект в разных контекстах, с примерами вопросов и ответов о его местоположении.

«Используя несколько изображений одного и того же объекта в разных контекстах, мы побуждаем модель последовательно локализовать этот объект, ориентируясь на контекст», — объясняет Мирза.

Принуждение к концентрации

Но исследователи обнаружили, что VLM склонны обманывать. Вместо того чтобы отвечать на основе контекстуальных подсказок, они идентифицируют объект, используя знания, полученные во время предварительного обучения.

Например, поскольку модель уже научилась тому, что изображение тигра и метка «тигр» коррелируют, она может идентифицировать тигра, пересекающего луг, на основе этого предварительно обученного знания, а не на основе контекста.

Чтобы решить эту проблему, исследователи использовали псевдоимена вместо фактических названий категорий объектов в наборе данных. В этом случае они изменили имя тигра на «Чарли».

«Нам потребовалось некоторое время, чтобы понять, как предотвратить обман модели. Но мы изменили правила игры для модели. Модель не знает, что «Чарли» может быть тигром, поэтому она вынуждена искать контекст», — говорит он.

Исследователи также столкнулись с трудностями в поиске наилучшего способа подготовки данных. Если кадры расположены слишком близко друг к другу, фон изменится недостаточно, чтобы обеспечить разнообразие данных.

В итоге тонкая настройка VLM с помощью этого нового набора данных улучшила точность персонализированной локализации в среднем примерно на 12 процентов. Когда они включили набор данных с псевдонимами, прирост производительности достиг 21 процента.

В будущем исследователи хотят изучить возможные причины, по которым VLM не наследуют возможности обучения в контексте от своих базовых LLM. Кроме того, они планируют изучить дополнительные механизмы для повышения производительности VLM без необходимости переобучать их с помощью новых данных.

1. Какие проблемы существуют в обучении генеративных ИИ-моделей для поиска персонализированных объектов и как исследователи из Массачусетского технологического института (MIT) и лаборатории MIT-IBM Watson AI Lab предложили их решить?

Исследователи обнаружили, что генеративные ИИ-модели, такие как GPT-5, хорошо распознают общие объекты, но плохо справляются с поиском персонализированных объектов. Для решения этой проблемы они разработали новый метод обучения, который использует тщательно подготовленные данные для отслеживания видео, в которых один и тот же объект отслеживается на нескольких кадрах.

2. Какие данные используются для переобучения существующих VLM для новой задачи и почему они неэффективны?

Для переобучения существующих VLM используются данные, собранные из случайных источников и изображающие коллекции повседневных объектов. Однако эти данные не имеют реальной согласованности, поэтому модель никогда не научится распознавать один и тот же объект на нескольких изображениях.

3. Какие методы использовали исследователи для предотвращения «обмана» VLM и как это повлияло на результаты?

Чтобы предотвратить «обман» VLM, исследователи использовали псевдоимена вместо фактических названий категорий объектов в наборе данных. Это заставило модель искать контекст для идентификации объекта, а не полагаться на предварительно обученные знания. В результате точность персонализированной локализации улучшилась примерно на 12 процентов при использовании нового набора данных и на 21 процент при включении набора данных с псевдонимами.

4. Какие перспективы развития исследований в области обучения генеративных ИИ-моделей для поиска персонализированных объектов?

Исследователи планируют изучить возможные причины, по которым VLM не наследуют возможности обучения в контексте от своих базовых LLM. Кроме того, они хотят изучить дополнительные механизмы для повышения производительности VLM без необходимости переобучать их с помощью новых данных.

5. Какие потенциальные применения имеет новый метод обучения генеративных ИИ-моделей для поиска персонализированных объектов?

Новый метод обучения может помочь будущим ИИ-системам отслеживать конкретные объекты во времени, например, детский рюкзак, или локализовать интересующие объекты, такие как вид животного при экологическом мониторинге. Это также может помочь в разработке ассистивных технологий на базе ИИ, которые помогают пользователям с нарушениями зрения находить определённые предметы в комнате.

Источник