Обучение моделей искусственного интеллекта основам рисования, подобно тому как это делают люди

Когда мы пытаемся передать или понять идеи, слова не всегда помогают. Иногда более эффективный подход — это простой набросок концепции. Например, схема цепи может помочь разобраться в том, как работает система.

Но что, если искусственный интеллект мог бы помочь нам в исследовании этих визуализаций? Хотя эти системы обычно умеют создавать реалистичные картины и мультяшные рисунки, многие модели не могут уловить суть набросков: их пошаговый итеративный процесс, который помогает людям проводить мозговой штурм и редактировать то, как они хотят представить свои идеи.

Новая система для создания набросков от лаборатории MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) и Стэнфордского университета

Новая система для создания набросков от лаборатории MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) и Стэнфордского университета может рисовать так же, как мы. Их метод под названием SketchAgent использует мультимодальную языковую модель — системы искусственного интеллекта, которые обучаются на тексте и изображениях, например, Anthropic’s Claude 3.5 Sonnet — для превращения текстовых подсказок в наброски за несколько секунд. Например, он может нарисовать дом либо самостоятельно, либо в сотрудничестве, рисуя вместе с человеком, или используя текстовый ввод для наброска каждой части отдельно.

Исследователи показали, что SketchAgent может создавать абстрактные рисунки различных концепций, таких как робот, бабочка, спираль ДНК, блок-схема и даже Сиднейский оперный театр. В будущем этот инструмент можно будет расширить до интерактивной арт-игры, которая поможет учителям и исследователям наглядно представлять сложные концепции или давать пользователям быстрый урок рисования.

Постдок CSAIL Яэль Винкер, которая является ведущим автором статьи, представляющей SketchAgent, отмечает, что система представляет собой более естественный способ общения людей с ИИ.

«Не все осознают, насколько много они рисуют в повседневной жизни. Мы можем рисовать свои мысли или прорабатывать идеи с помощью набросков», — говорит она. «Наш инструмент призван имитировать этот процесс, делая мультимодальные языковые модели более полезными в помощи нам в визуальном выражении идей».

SketchAgent обучает эти модели рисовать пошагово, не обучаясь на каких-либо данных. Вместо этого исследователи разработали «язык рисования», в котором набросок переводится в пронумерованную последовательность штрихов на сетке. Системе был показан пример того, как можно нарисовать дом, где каждый штрих был помечен в соответствии с тем, что он представлял — например, седьмой штрих был прямоугольником с надписью «входная дверь» — чтобы помочь модели обобщить новые концепции.

Оценка способностей ИИ к рисованию

Хотя модели преобразования текста в изображение, такие как DALL-E 3, могут создавать интригующие рисунки, им не хватает важнейшего компонента набросков: спонтанного творческого процесса, в котором каждый штрих может повлиять на общий дизайн. С другой стороны, рисунки SketchAgent представлены в виде последовательности штрихов, что делает их более естественными и плавными, как человеческие наброски.

Предыдущие работы также имитировали этот процесс, но обучали свои модели на наборах данных, нарисованных людьми, которые часто ограничены по масштабу и разнообразию. SketchAgent использует предварительно обученные языковые модели, которые знают множество концепций, но не умеют рисовать. Когда исследователи научили языковые модели этому процессу, SketchAgent начал рисовать разнообразные концепции, на которых он не был специально обучен.

Тем не менее Винкер и её коллеги хотели увидеть, активно ли SketchAgent работает с людьми над процессом рисования или работает независимо от своего партнёра по рисованию. Команда протестировала свою систему в режиме совместной работы, где человек и языковая модель работают над рисованием определённой концепции в тандеме. Удаление штрихов SketchAgent показало, что штрихи их инструмента были важны для окончательного рисунка. На рисунке парусника, например, удаление искусственных штрихов, представляющих мачту, сделало общий набросок неузнаваемым.

В другом эксперименте исследователи из CSAIL и Стэнфорда подключили к SketchAgent различные мультимодальные языковые модели, чтобы увидеть, какая из них может создать наиболее узнаваемые наброски. Их основная модель, Claude 3.5 Sonnet, генерировала наиболее человеческую векторную графику (по сути, текстовые файлы, которые можно преобразовать в изображения высокого разрешения). Она превзошла такие модели, как GPT-4o и Claude 3 Opus.

«Тот факт, что Claude 3.5 Sonnet превзошёл другие модели, такие как GPT-4o и Claude 3 Opus, говорит о том, что эта модель обрабатывает и генерирует визуальную информацию по-другому», — говорит соавтор Тамар Ротт Шахам.

Она добавляет, что SketchAgent может стать полезным интерфейсом для сотрудничества с моделями искусственного интеллекта за пределами стандартного текстового общения. «По мере того как модели продвигаются в понимании и генерации других модальностей, таких как наброски, они открывают новые способы для пользователей выражать идеи и получать ответы, которые кажутся более интуитивными и человечными», — говорит Шахам. «Это может значительно обогатить взаимодействие, сделав ИИ более доступным и универсальным».

Хотя возможности рисования SketchAgent многообещающие, пока он не может делать профессиональные наброски. Он создаёт простые представления концепций с помощью стикеров и каракулей, но ему сложно рисовать такие вещи, как логотипы, предложения, сложные существа, такие как единороги и коровы, и конкретные человеческие фигуры.

Иногда их модель также неправильно понимала намерения пользователей при совместном рисовании, например, когда SketchAgent нарисовал кролика с двумя головами. По словам Винкера, это может быть связано с тем, что модель разбивает каждую задачу на более мелкие шаги (также называемые рассуждениями «цепочкой мыслей»). При работе с людьми модель создаёт план рисования, потенциально неверно интерпретируя, какую часть этого плана вносит человек. Исследователи могли бы усовершенствовать эти навыки рисования, обучаясь на синтетических данных из диффузионных моделей.

Кроме того, SketchAgent часто требует нескольких раундов подсказок для создания человекоподобных каракулей. В будущем команда стремится упростить взаимодействие и рисование с помощью мультимодальных языковых моделей, включая усовершенствование их интерфейса.

Тем не менее инструмент показывает, что ИИ может рисовать разнообразные концепции так же, как это делают люди, с пошаговым сотрудничеством человека и ИИ, что приводит к более согласованным окончательным проектам.

Эта работа была частично поддержана Национальным научным фондом США, грантом Хоффмана-Йи от Стэнфордского института искусственного интеллекта, ориентированного на человека, компанией Hyundai Motor Co., Исследовательской лабораторией армии США, программой лидерства Zuckerman STEM и стипендией Viterbi.

Источник

Оставьте комментарий