Исследователи обнаружили недостаток, снижающий надёжность больших языковых моделей

Большие языковые модели (LLMs) иногда усваивают неверные уроки, согласно исследованию Массачусетского технологического института (MIT).

Вместо того чтобы отвечать на запрос, основываясь на знаниях в определённой области, LLM может использовать грамматические шаблоны, усвоенные во время обучения. Это может привести к неожиданным сбоям модели при выполнении новых задач.

Исследователи обнаружили, что модели могут ошибочно связывать определённые структуры предложений с конкретными темами. Таким образом, LLM может дать убедительный ответ, распознав знакомую формулировку, а не поняв вопрос.

Их эксперименты показали, что даже самые мощные LLM могут совершать такую ошибку.

Этот недостаток может снизить надёжность LLM, выполняющих такие задачи, как обработка запросов клиентов, обобщение клинических заметок и составление финансовых отчётов.

Он также может представлять опасность для безопасности. Злоумышленник может использовать это для того, чтобы заставить LLM создавать вредоносный контент, даже если у моделей есть механизмы предотвращения таких ответов.

После выявления этого явления и изучения его последствий исследователи разработали процедуру бенчмаркинга для оценки зависимости модели от этих неверных корреляций. Эта процедура может помочь разработчикам устранить проблему до развёртывания LLM.

«Это побочный продукт того, как мы обучаем модели, но теперь модели используются на практике в критически важных для безопасности областях, далеко выходящих за рамки задач, которые создали эти синтаксические режимы сбоев. Если вы не знакомы с обучением моделей как конечный пользователь, это может быть неожиданно», — говорит Марзье Гасемми, доцент кафедры электротехники и компьютерных наук (EECS) Массачусетского технологического института, член Института медицинских инженерных наук MIT и Лаборатории информационных систем и систем принятия решений, старший автор исследования.

Застрявшие на синтаксисе

LLMs обучаются на огромном количестве текстов из интернета. В процессе обучения модель учится понимать отношения между словами и фразами — знания, которые она использует позже при ответе на запросы.

В предыдущих работах исследователи обнаружили, что LLM улавливают закономерности в частях речи, которые часто появляются вместе в обучающих данных. Они называют эти паттерны «синтаксическими шаблонами».

Для ответа на вопросы в определённой области LLM необходимо понимание синтаксиса наряду со знанием семантики.

«Например, в новостной сфере существует определённый стиль написания. Таким образом, модель изучает не только семантику, но и основную структуру того, как предложения должны быть объединены, чтобы соответствовать определённому стилю для этой области», — объясняет Шайб.

Но в этом исследовании они определили, что LLM учатся связывать эти синтаксические шаблоны с определёнными областями. Модель может ошибочно полагаться исключительно на эту усвоенную связь при ответе на вопросы, а не на понимание запроса и предмета.

Например, LLM может усвоить, что вопрос «Где находится Париж?» структурирован как наречие/глагол/имя собственное/глагол. Если в обучающих данных модели много примеров построения предложений, LLM может связать этот синтаксический шаблон с вопросами о странах.

Так, если модели дать новый вопрос с той же грамматической структурой, но бессмысленными словами, например «Быстро сидеть парижским облачным?», она может ответить «Франция», даже если такой ответ не имеет смысла.

«Это недооценённый тип ассоциаций, который модель усваивает, чтобы правильно отвечать на вопросы. Мы должны уделять больше внимания не только семантике, но и синтаксису данных, которые мы используем для обучения наших моделей», — говорит Шайб.

Упуская смысл

Исследователи проверили это явление, разработав синтетические эксперименты, в которых для каждой области в обучающих данных модели появлялся только один синтаксический шаблон. Они тестировали модели, заменяя слова синонимами, антонимами или случайными словами, но сохраняя тот же синтаксис.

В каждом случае они обнаружили, что LLM часто всё равно отвечали правильно, даже когда вопрос был полной бессмыслицей.

Когда они реструктурировали тот же вопрос, используя новый паттерн частей речи, LLM часто не могли дать правильный ответ, даже если основной смысл вопроса оставался прежним.

Они использовали этот подход для тестирования предварительно обученных LLM, таких как GPT-4 и Llama, и обнаружили, что такое же усвоенное поведение значительно снижает их производительность.

Исследователи изучили, может ли кто-то использовать это явление для получения вредоносных ответов от LLM, которые были специально обучены отказываться от таких запросов.

Они обнаружили, что, сформулировав вопрос с использованием синтаксического шаблона, который модель связывает с «безопасным» набором данных (не содержащим вредоносную информацию), можно заставить модель переопределить свою политику отказа и создать вредоносный контент.

«Из этой работы мне стало ясно, что нам нужны более надёжные средства защиты для устранения уязвимостей в LLM. В этой статье мы определили новую уязвимость, возникающую из-за того, как LLM обучаются. Поэтому нам нужно придумать новые средства защиты, основанные на том, как LLM изучают язык, а не просто специальные решения для различных уязвимостей», — говорит Суриякумар.

Хотя исследователи не изучали стратегии смягчения последствий в этой работе, они разработали автоматическую технику бенчмаркинга, которую можно использовать для оценки зависимости LLM от этой неверной корреляции между синтаксисом и областью. Этот новый тест может помочь разработчикам заранее устранять этот недостаток в своих моделях, снижая риски для безопасности и повышая производительность.

В будущем исследователи хотят изучить потенциальные стратегии смягчения последствий, которые могут включать в себя расширение обучающих данных для предоставления более широкого спектра синтаксических шаблонов. Их также интересует изучение этого явления в моделях рассуждений — специальных типах LLM, предназначенных для решения многошаговых задач.

«Я думаю, что это действительно творческий подход к изучению режимов сбоев LLM. Эта работа подчёркивает важность лингвистических знаний и анализа в исследованиях безопасности LLM — аспекта, который не был в центре внимания, но, очевидно, должен быть», — говорит Джесси Ли, доцент Техасского университета в Остине, который не участвовал в этой работе.

Исследование частично финансировалось Bridgewater AIA Labs Fellowship, Национальным научным фондом, Фондом Гордона и Бетти Мур, Google Research Award и Schmidt Sciences.

1. Какие проблемы больших языковых моделей (LLMs) выявлены в статье?

В статье говорится, что LLM иногда усваивают неверные уроки и могут использовать грамматические шаблоны, усвоенные во время обучения, вместо того чтобы отвечать на запрос, основываясь на знаниях в определённой области. Это может привести к неожиданным сбоям модели при выполнении новых задач.

2. Какие последствия может иметь обнаруженный недостаток LLM?

Обнаруженный недостаток может снизить надёжность LLM, выполняющих такие задачи, как обработка запросов клиентов, обобщение клинических заметок и составление финансовых отчётов. Кроме того, злоумышленник может использовать это для того, чтобы заставить LLM создавать вредоносный контент.

3. Какие методы использовали исследователи для проверки явления?

Исследователи разработали синтетические эксперименты, в которых для каждой области в обучающих данных модели появлялся только один синтаксический шаблон. Они тестировали модели, заменяя слова синонимами, антонимами или случайными словами, но сохраняя тот же синтаксис.

4. Какие выводы сделали исследователи относительно стратегий смягчения последствий?

Хотя исследователи не изучали стратегии смягчения последствий в этой работе, они разработали автоматическую технику бенчмаркинга, которую можно использовать для оценки зависимости LLM от неверной корреляции между синтаксисом и областью. Этот новый тест может помочь разработчикам заранее устранять этот недостаток в своих моделях, снижая риски для безопасности и повышая производительность.

5. Какие направления для будущих исследований предлагают авторы статьи?

Авторы статьи предлагают в будущем изучить потенциальные стратегии смягчения последствий, которые могут включать в себя расширение обучающих данных для предоставления более широкого спектра синтаксических шаблонов. Также интересно изучить это явление в моделях рассуждений — специальных типах LLM, предназначенных для решения многошаговых задач.

Источник