Раскрытие предубеждений, настроений, личностей и абстрактных концепций, скрытых в больших языковых моделях

ChatGPT, Claude и другие большие языковые модели накопили столько человеческих знаний, что стали не просто генераторами ответов. Они могут выражать абстрактные концепции, такие как определённые тональности, личности, предубеждения и настроения. Однако не совсем понятно, как эти модели изначально представляют абстрактные концепции на основе содержащихся в них знаний.

Команда из Массачусетского технологического института (MIT) и Калифорнийского университета в Сан-Диего разработала способ проверить, содержат ли большие языковые модели (LLM) скрытые предубеждения, личности, настроения или другие абстрактные концепции. Их метод может точно определить связи внутри модели, которые кодируют интересующую концепцию. Более того, метод позволяет манипулировать этими связями, усиливая или ослабляя концепцию в любом ответе модели.

Команда доказала, что их метод может быстро выявлять и управлять более чем 500 общими концепциями в некоторых из крупнейших LLM, используемых сегодня. Например, исследователи могли сосредоточиться на представлениях модели о таких личностях, как «социальный influencer» и «конспиролог», а также о таких позициях, как «страх перед браком» и «фанат Бостона». Они могли настраивать эти представления, чтобы усиливать или минимизировать концепции в любых ответах, которые генерирует модель.

В случае с концепцией «конспиролога» команда успешно идентифицировала представление этой концепции в одной из крупнейших моделей обработки языка и изображений, доступных на сегодняшний день. Усилив представление, они предложили модели объяснить происхождение знаменитого изображения «Голубого мрамора» Земли, сделанного с борта «Аполлона-17». Модель сгенерировала ответ с тоном и перспективой конспиролога.

Команда признаёт, что извлечение определённых концепций сопряжено с рисками, и иллюстрирует их (и предостерегает от них). В целом, однако, они видят в новом подходе способ выявить скрытые концепции и потенциальные уязвимости в LLM, которые затем можно усилить или ослабить для повышения безопасности модели или повышения её производительности.

«Что на самом деле говорит о LLM, так это то, что в них есть эти концепции, но не все они активно проявляются», — говорит Адитьянараянан «Адит» Радхакrishnan, доцент кафедры математики в MIT. «С помощью нашего метода есть способы извлечь эти разные концепции и активировать их таким образом, что подсказки не могут дать вам ответов».

Команда опубликовала свои выводы сегодня в исследовании, опубликованном в журнале Science. Соавторами исследования являются Радхакrishnan, Дэниел Биглхоул и Михаил Белкин из Калифорнийского университета в Сан-Диего, а также Эник Боикс-Адсера из Пенсильванского университета.

Рыба в чёрном ящике

По мере того как использование ChatGPT от OpenAI, Gemini от Google, Claude от Anthropic и других помощников на основе искусственного интеллекта стремительно растёт, учёные стремятся понять, как модели представляют определённые абстрактные концепции, такие как «галлюцинация» и «обман». В контексте LLM галлюцинация — это ответ, который является ложным или содержит вводящую в заблуждение информацию, которую модель «галлюцинировала» или сконструировала ошибочно как факт.

Чтобы выяснить, закодирована ли в LLM такая концепция, как «галлюцинация», учёные часто использовали подход «неконтролируемого обучения» — тип машинного обучения, при котором алгоритмы широко исследуют немаркированные представления, чтобы найти закономерности, которые могут быть связаны с концепцией, такой как «галлюцинация». Но для Радхакrishnan такой подход может быть слишком широким и вычислительно затратным.

«Это как рыбалка с большой сетью, пытаясь поймать один вид рыбы. Вы получите много рыбы, которую вам придётся просмотреть, чтобы найти нужную», — говорит он. «Вместо этого мы собираемся с наживкой для нужного вида рыбы».

Он и его коллеги ранее разработали основы более целенаправленного подхода с помощью типа алгоритма прогнозного моделирования, известного как рекурсивная машина признаков (RFM). RFM предназначен для прямого выявления признаков или закономерностей в данных, используя математический механизм, который нейронные сети — широкая категория моделей ИИ, включающая LLM — неявно используют для изучения признаков.

Поскольку алгоритм был эффективным и действенным подходом для выявления признаков в целом, команда задалась вопросом, можно ли использовать его для выявления представлений концепций в LLM, которые на сегодняшний день являются наиболее широко используемым типом нейронных сетей и, возможно, наименее изученным.

«Мы хотели применить наши алгоритмы изучения признаков к LLM, чтобы целенаправленно обнаружить представления концепций в этих больших и сложных моделях», — говорит Радхакrishnan.

Схождение на концепции

Новый подход команды выявляет любую интересующую концепцию в LLM и «направляет» или управляет ответом модели на основе этой концепции. Исследователи искали 512 концепций в пяти классах: страхи (например, перед браком, насекомыми и даже кнопками); эксперты (социальный influencer, medievalist); настроения (хвастливое, отстранённо-весёлое); предпочтения по расположению (Бостон, Куала-Лумпур); и персонажи (Ада Лавлейс, Нил Тайсон).

Затем исследователи искали представления каждой концепции в нескольких современных больших языковых моделях и моделях обработки изображений. Они сделали это, обучив RFM распознавать числовые закономерности в LLM, которые могли бы представлять конкретную концепцию, представляющую интерес.

Стандартная большая языковая модель — это, по сути, нейронная сеть, которая принимает подсказку на естественном языке, например: «Почему небо голубое?» и делит подсказку на отдельные слова, каждое из которых кодируется математически в виде списка или вектора чисел. Модель проводит эти векторы через ряд вычислительных слоёв, создавая матрицы из множества чисел, которые на каждом слое используются для идентификации других слов, которые с наибольшей вероятностью будут использованы для ответа на исходную подсказку. В конце концов, слои сходятся на наборе чисел, который декодируется обратно в текст в виде ответа на естественном языке.

Подход команды обучает RFM распознавать числовые закономерности в LLM, которые могут быть связаны с конкретной концепцией. Например, чтобы выяснить, содержит ли LLM какое-либо представление о «конспирологе», исследователи сначала обучают алгоритм идентифицировать закономерности среди представлений LLM о 100 подсказках, которые явно связаны с заговорами, и 100 других подсказках, которые не связаны. Таким образом, алгоритм научится выявлять закономерности, связанные с концепцией конспиролога. Затем исследователи могут математически модулировать активность концепции конспиролога, возмущая представления LLM с помощью этих идентифицированных закономерностей.

Метод может быть применён для поиска и управления любой общей концепцией в LLM. Среди множества примеров исследователи выявили представления и настроили LLM так, чтобы она давала ответы в тоне и с точки зрения «конспиролога». Они также выявили и усилили концепцию «анти-отказа» и показали, что, хотя обычно модель была бы запрограммирована на отказ от определённых подсказок, она вместо этого отвечала, например, давая инструкции, как ограбить банк.

Радхакrishnan говорит, что этот подход можно использовать для быстрого поиска и минимизации уязвимостей в LLM. Его также можно использовать для усиления определённых черт, личностей, настроений или предпочтений, таких как подчёркивание концепции «краткости» или «рассуждения» в любом ответе, который генерирует LLM. Команда сделала код, лежащий в основе метода, общедоступным.

«В LLM явно хранится множество этих абстрактных концепций в каком-то представлении», — говорит Радхакrishnan. «Есть способы, с помощью которых, если мы достаточно хорошо поймём эти представления, мы сможем создать узкоспециализированные LLM, которые по-прежнему безопасны в использовании, но действительно эффективны для выполнения определённых задач».

Эта работа была частично поддержана Национальным научным фондом, Фондом Саймонса, институтом TILOS и Управлением военно-морских исследований США.

1. Какие методы используются для выявления скрытых предубеждений и абстрактных концепций в больших языковых моделях (LLM)?

В статье описывается метод, разработанный командой из Массачусетского технологического института (MIT) и Калифорнийского университета в Сан-Диего. Этот метод позволяет точно определить связи внутри модели, которые кодируют интересующую концепцию, а также манипулировать этими связями, усиливая или ослабляя концепцию в любом ответе модели.

2. Какие типы абстрактных концепций могут быть выявлены в LLM с помощью описанного метода?

В статье перечислены следующие типы абстрактных концепций: страхи (например, перед браком, насекомыми и даже кнопками); эксперты (социальный influencer, medievalist); настроения (хвастливое, отстранённо-весёлое); предпочтения по расположению (Бостон, Куала-Лумпур); и персонажи (Ада Лавлейс, Нил Тайсон).

3. Какие риски связаны с извлечением определённых концепций из LLM?

Команда, разработавшая метод, признаёт, что извлечение определённых концепций сопряжено с рисками. Однако они видят в новом подходе способ выявить скрытые концепции и потенциальные уязвимости в LLM, которые затем можно усилить или ослабить для повышения безопасности модели или повышения её производительности.

4. Какие преимущества предлагает новый подход к выявлению представлений концепций в LLM по сравнению с традиционным методом «неконтролируемого обучения»?

В статье отмечается, что традиционный метод «неконтролируемого обучения» может быть слишком широким и вычислительно затратным. Новый подход предлагает более целенаправленный и эффективный способ выявления представлений концепций в LLM.

5. Какие возможности открывает новый метод для разработчиков LLM?

Новый метод позволяет разработчикам быстро находить и минимизировать уязвимости в LLM, а также усиливать определённые черты, личности, настроения или предпочтения. Это может привести к созданию узкоспециализированных LLM, которые будут более эффективными для выполнения определённых задач.

Источник