Как обучить большие языковые модели генерировать менее токсичный язык: метод SASA

По мере взросления наш словарный запас и способы его использования расширяются, а опыт становится богаче. Это позволяет нам мыслить, рассуждать и взаимодействовать с другими людьми более точно и целенаправленно. Соответственно, наш выбор слов начинает соответствовать нашим личным ценностям, этике, культурным нормам и взглядам. Со временем у большинства из нас формируется внутренний «гид», который помогает понимать контекст разговора и часто предостерегает от распространения информации и чувств, которые могут быть вредными или неуместными.

Оказывается, большие языковые модели (LLM), обученные на обширных общедоступных наборах данных и поэтому часто содержащие предвзятости и токсичные выражения, могут приобрести аналогичную способность контролировать свой язык.

Новый метод, разработанный Массачусетским технологическим институтом (MIT), лабораторией MIT-IBM Watson AI и IBM Research, называется SASA (Self-Disciplined Autoregressive Sampling — авторегрессионный выбор с самодисциплиной). Он позволяет LLM очищать свои выходные данные от токсичности без ущерба для беглости речи.

В отличие от других методов очистки, этот алгоритм декодирования изучает границу между токсичным и нетоксичным подпространствами в собственном внутреннем представлении LLM, не изменяя параметры модели, не требуя повторного обучения или внешней модели вознаграждения. Затем, во время логического вывода, алгоритм оценивает токсичность частично сгенерированной фразы: уже сгенерированные и принятые токены (слова), а также каждый потенциальный новый токен, который может быть выбран для близости к границе классификатора. Далее он выбирает вариант слова, который помещает фразу в нетоксичное пространство, предлагая быстрый и эффективный способ генерации менее токсичного языка.

«Мы хотели найти способ для любой существующей языковой модели во время процесса генерации подвергать декодирование некоторым человеческим ценностям, примером которых в нашем случае является токсичность», — говорит ведущий автор исследования Чинг-Юн «Айрин» Ко, доктор философии 2024 года, бывший аспирант лаборатории MIT-IBM Watson AI и нынешний научный сотрудник исследовательского центра Томаса Дж. Уотсона компании IBM в Нью-Йорке.

Соавторами Ко являются Лука Даниэль, профессор департамента электротехники и информатики MIT, член лаборатории MIT-IBM Watson AI и научный руководитель Ко; а также несколько членов лаборатории MIT-IBM Watson AI и/или IBM Research — Пин-Ю Чен, Пайель Дас, Юссеф Мруэ, Сохам Дан, Георгиос Коллиас, Субхаджит Чаудхури и Теджасвини Педапати. Работа будет представлена на Международной конференции по изучению представлений.

**Поиск «ограничителей»**

Ресурсы для обучения LLM почти всегда включают контент, собранный из публичных пространств, таких как интернет и другие легкодоступные наборы данных. Таким образом, нецензурная лексика и язык, используемый для издевательств, являются их составляющей, хотя иногда они встречаются в контексте литературных произведений. Отсюда следует, что LLM могут по своей природе генерировать — или быть обманутыми в генерации — опасного и/или предвзятого контента, который часто содержит неприятные слова или язык ненависти, даже в ответ на безобидные запросы. Кроме того, было обнаружено, что они могут изучать и усиливать язык, который не предпочтителен или даже вреден для многих приложений и последующих задач, что приводит к необходимости разработки стратегий смягчения или коррекции.

Существует множество способов добиться устойчивой генерации языка, которая была бы справедливой и соответствовала ценностям. Некоторые методы используют повторное обучение LLM на очищенном наборе данных, что дорого, занимает много времени и может изменить производительность LLM; другие используют внешние модели вознаграждения при декодировании, такие как выборка или поиск луча, которые требуют больше времени для выполнения и дополнительной памяти. В случае с SASA Ко, Даниэль и команда IBM Research разработали метод, который использует авторегрессивную природу LLM и с помощью стратегии, основанной на декодировании во время логического вывода LLM, постепенно направляет генерацию — по одному токену за раз — от нежелательного вывода к более качественному языку.

Исследовательская группа достигла этого, создав линейный классификатор, который работает в изученном подпространстве встраивания LLM. Когда LLM обучаются, слова со схожим значением размещаются близко друг к другу в векторном пространстве и дальше от непохожих слов; исследователи выдвинули гипотезу о том, что встраивание LLM также будет фиксировать контекстную информацию, которая может быть использована для очистки. Исследователи использовали наборы данных, которые содержали набор запроса (первая половина предложения или мысли), ответа (завершение этого предложения) и аннотации, присвоенные человеком, например, токсичные или нетоксичные, предпочтительные или непривлекательные, с непрерывными метками от 0 до 1, обозначающими возрастающую токсичность. Затем был применён байесовский классификатор для изучения и условного разделения бинарных подпространств внутри вложений предложений, представленных положительными значениями (нетоксичное пространство) и отрицательными числами (токсичное пространство).

Система SASA работает путём перерасчёта вероятностей выборки новейшего потенциального токена на основе его значения и расстояния сгенерированной фразы до классификатора с целью сохранения близости к исходному распределению выборки.

Чтобы проиллюстрировать это, если пользователь генерирует потенциальный токен №12 в предложении, LLM просматривает свой полный словарный запас в поисках подходящего слова на основе 11 слов, которые были до этого, и используя top-k, top-p, фильтрует и выдаёт примерно 10 токенов для выбора. Затем SASA оценивает каждый из этих токенов в частично завершённом предложении на предмет его близости к классификатору (то есть значение токенов 1–11 плюс каждый потенциальный токен 12). Токены, которые создают предложения в положительном пространстве, поощряются, а те, что находятся в отрицательном пространстве, штрафуются. Кроме того, чем дальше от классификатора, тем сильнее воздействие.

«Цель состоит в том, чтобы изменить процесс авторегрессионной выборки путём перерасчёта вероятности хороших токенов. Если следующий токен, вероятно, будет токсичным с учётом контекста, мы собираемся уменьшить вероятность выборки для тех, кто склонен к токсичности», — говорит Ко. Исследователи выбрали такой подход, «потому что то, что мы говорим, независимо от того, безобидно это или нет, зависит от контекста».

**Снижение токсичности для соответствия ценностям**

Исследователи оценили свой метод по сравнению с несколькими базовыми интервенциями с использованием трёх LLM увеличивающегося размера; все они были трансформерами и авторегрессионными: GPT2-Large, Llama2-7b и Llama 3.1-8b-Instruct с 762 миллионами, 7 миллиардами и 8 миллиардами параметров соответственно. Для каждого запроса LLM ставилась задача завершить предложение/фразу 25 раз, а PerspectiveAPI оценивал их по шкале от 0 до 1, где всё, что выше 0,5, считалось токсичным. Команда рассматривала два показателя: средний максимальный балл токсичности за 25 генераций для всех запросов и уровень токсичности, который представлял собой вероятность создания хотя бы одного токсичного выражения за 25 генераций. Также анализировалась сниженная беглость (и, следовательно, повышенная недосказанность). SASA была протестирована на завершение наборов данных RealToxicityPrompts (RPT), BOLD и AttaQ, которые содержали естественно возникающие английские предложения-запросы.

Исследователи усложнили свои испытания по очистке от токсичности с помощью SASA, начав с нетоксичных запросов из набора данных RPT в поисках вредных завершений предложений. Затем они перешли к более сложным запросам из RPT, которые с большей вероятностью могли привести к тревожным результатам, а также применили SASA к модели с настроенными инструкциями, чтобы оценить, может ли их методика дополнительно сократить нежелательные выходные данные. Они также использовали тесты BOLD и AttaQ для изучения общей применимости SASA для очистки от токсичности. С помощью набора данных BOLD исследователи также искали гендерные предубеждения в генерации языка и пытались достичь сбалансированного уровня токсичности между полами. Наконец, команда рассмотрела время выполнения, использование памяти и то, как SASA может быть объединена с фильтрацией слов для достижения здоровой и/или полезной генерации языка.

«Если задуматься о том, как люди думают и реагируют на события в мире, мы видим плохие вещи, так что дело не в том, чтобы позволить языковой модели видеть только хорошее. Речь идёт о понимании всего спектра — как хорошего, так и плохого, — говорит Ко, — и о стремлении придерживаться наших ценностей в речи и действиях».

В целом, SASA добилась значительного сокращения генерации токсичного языка, продемонстрировав результаты наравне с RAD, передовым методом использования внешних моделей вознаграждения. Однако повсеместно наблюдалось, что более сильная очистка от токсичности сопровождается снижением беглости. До вмешательства LLM генерировали больше токсичных ответов на запросы, помеченные как женские, чем на мужские; однако SASA смогла значительно сократить количество вредных ответов, сделав их более равномерными. Аналогично фильтрация слов в дополнение к SASA заметно снизила уровень токсичности, но также затруднила способность LLM отвечать связно.

Преимущество этой работы заключается в том, что это чётко определённая задача оптимизации с ограничениями, говорит Ко, а это означает, что можно достичь и настроить баланс между открытой генерацией языка, которая звучит естественно, и необходимостью сокращения нежелательного языка.

Кроме того, по словам Ко, SASA в будущем может работать с несколькими атрибутами: «Для людей у нас есть несколько человеческих ценностей. Мы не хотим говорить токсичные вещи, но мы также хотим быть правдивыми, полезными и лояльными… Если вы хотите настроить модель на все эти ценности, это потребует больше вычислительных ресурсов и, конечно же, дополнительного обучения». Благодаря лёгкости SASA её можно легко применять в таких обстоятельствах: «Если вы хотите работать с несколькими ценностями, нужно просто проверить положение генерации в нескольких подпространствах. Это лишь незначительно увеличивает нагрузку на вычисления и параметры», — говорит Ко, что ведёт к более позитивному, справедливому и соответствующему принципам языку.

Эта работа частично поддерживалась лабораторией MIT-IBM Watson AI и Национальным научным фондом.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *