Большие языковые модели (LLMs) используются через диалоговые интерфейсы, которые представляют полезные, безвредные и честные помощники. Однако они не могут поддерживать согласованные черты личности на этапах обучения и развёртывания. LLM демонстрируют резкие и непредсказуемые изменения личности при использовании различных стратегий подсказок или контекстуальных входных данных.
Процесс обучения также может вызывать непреднамеренные изменения личности, как это видно, когда модификации RLHF непреднамеренно создают чрезмерно подхалимское поведение в GPT-4o, что приводит к валидации вредоносного контента и усилению негативных эмоций. Это подчёркивает слабые места в текущих практиках развёртывания LLM и подчёркивает острую необходимость в надёжных инструментах для обнаружения и предотвращения вредных изменений личности.
Связанные работы
Методы линейного зондирования извлекают интерпретируемые направления для таких видов поведения, как распознавание сущностей, подхалимство и шаблоны отказов, путём создания контрастных пар образцов и вычисления различий в активации. Однако эти методы сталкиваются с неожиданным обобщением во время тонкой настройки, когда обучение на примерах из узкой предметной области может вызвать более широкое рассогласование из-за возникающих сдвигов вдоль значимых линейных направлений.
Текущие методы прогнозирования и контроля, включая градиентный анализ для выявления вредоносных обучающих выборок, методы разреженного автоэнкодера и удаление признаков во время обучения, демонстрируют ограниченную эффективность в предотвращении нежелательных изменений поведения.
Подход исследователей из Anthropic
Команда исследователей из Anthropic, UT Austin, Constellation, Truthful AI и UC Berkeley представляет подход к решению проблемы нестабильности личности в LLM через векторы персон в пространстве активации. Метод извлекает направления, соответствующие конкретным чертам личности, таким как злое поведение, подхалимство и склонность к галлюцинациям, используя автоматизированный конвейер, который требует только описаний целевых черт на естественном языке.
Более того, исследователи показывают, что преднамеренные и непреднамеренные изменения личности после тонкой настройки сильно коррелируют с движениями вдоль векторов персон, предлагая возможности для вмешательства посредством постфактум коррекции или профилактических методов управления.
Кроме того, исследователи показывают, что вызванные тонкой настройкой изменения личности можно предсказать до тонкой настройки, выявляя проблемные обучающие данные как на уровне набора данных, так и на уровне отдельных образцов.
Для мониторинга изменений личности во время тонкой настройки создаются два набора данных. Первый содержит явные примеры злонамеренных ответов, подхалимского поведения и сфабрикованной информации. Второй — «похожие на новое рассогласование» (EM-like) наборы данных, которые содержат проблемы, специфичные для узкой предметной области, такие как некорректные медицинские советы, ошибочные политические аргументы, неверные математические задачи и уязвимый код.
Исследователи извлекают средние скрытые состояния для обнаружения поведенческих сдвигов во время тонкой настройки, опосредованных векторами персон на последнем токене подсказки в наборах данных для оценки, вычисляя разницу для получения векторов сдвига активации. Эти векторы сдвига затем сопоставляются с ранее извлечёнными направлениями персон для измерения изменений, вызванных тонкой настройкой, вдоль определённых измерений черт.
Метрики разницы проекций на уровне набора данных показывают сильную корреляцию с выражением черт после тонкой настройки, позволяя на раннем этапе выявлять наборы обучающих данных, которые могут вызвать нежелательные характеристики личности. Это оказывается более эффективным, чем методы необработанной проекции, для прогнозирования сдвигов черт, поскольку учитывает естественные модели ответов базовой модели на конкретные подсказки.
Обнаружение на уровне выборки достигает высокой разделимости между проблемными и контрольными выборками в наборах данных, выявляющих черты (Evil II, Sycophantic II, Hallucination II) и «EM-подобных» наборах данных (Opinion Mistake II). Направления личности идентифицируют отдельные обучающие выборки, которые вызывают изменения личности, с высокой точностью, превосходя традиционные методы фильтрации данных и обеспечивая широкий охват как по содержанию, выявляющему черты, так и по ошибкам, специфичным для предметной области.
В заключение исследователи представили автоматизированный конвейер, который извлекает векторы персон из описаний черт на естественном языке, предоставляя инструменты для мониторинга и контроля изменений личности на этапах развёртывания, обучения и предварительной подготовки в LLM.
Будущие направления исследований включают характеристику полной размерности пространства персон, идентификацию естественных основ личности, изучение корреляций между векторами персон и моделями совместного выражения черт, а также исследование ограничений линейных методов для определённых черт личности. Это исследование закладывает фундаментальное понимание динамики личности в моделях и предлагает практические рамки для создания более надёжных и контролируемых систем языковых моделей.
Ресурсы
* [Статья](https://www.marktechpost.com/)
* [Технический блог](https://www.marktechpost.com/)
* [Страница на GitHub](https://github.com/)
* [Страница на GitHub с учебными пособиями, кодами и ноутбуками](https://github.com/)
* [Twitter](https://twitter.com/)
* [ML SubReddit](https://www.reddit.com/)
* [Newsletter](https://www.marktechpost.com/newsletter/)
1. Какие проблемы связаны с изменениями личности больших языковых моделей (LLMs) при использовании различных стратегий подсказок или контекстуальных входных данных?
В тексте указано, что LLM демонстрируют резкие и непредсказуемые изменения личности при использовании различных стратегий подсказок или контекстуальных входных данных. Это может привести к валидации вредоносного контента и усилению негативных эмоций.
2. Какие методы используются для обнаружения и предотвращения вредных изменений личности в LLM?
В статье описаны методы линейного зондирования, градиентный анализ для выявления вредоносных обучающих выборок, методы разреженного автоэнкодера и удаление признаков во время обучения. Однако эти методы демонстрируют ограниченную эффективность в предотвращении нежелательных изменений поведения.
3. Как исследователи из Anthropic предлагают решать проблему нестабильности личности в LLM?
Исследователи из Anthropic предлагают использовать векторы персон в пространстве активации. Метод извлекает направления, соответствующие конкретным чертам личности, таким как злое поведение, подхалимство и склонность к галлюцинациям. Это позволяет предсказывать и контролировать изменения личности в LLM.
4. Какие данные используются для мониторинга изменений личности во время тонкой настройки?
Для мониторинга изменений личности во время тонкой настройки создаются два набора данных. Первый содержит явные примеры злонамеренных ответов, подхалимского поведения и сфабрикованной информации. Второй — «похожие на новое рассогласование» (EM-like) наборы данных, которые содержат проблемы, специфичные для узкой предметной области, такие как некорректные медицинские советы, ошибочные политические аргументы, неверные математические задачи и уязвимый код.
5. Какие метрики используются для измерения изменений, вызванных тонкой настройкой, вдоль определённых измерений черт?
Исследователи извлекают средние скрытые состояния для обнаружения поведенческих сдвигов во время тонкой настройки, опосредованных векторами персон на последнем токене подсказки в наборах данных для оценки. Затем вычисляется разница для получения векторов сдвига активации, которые сопоставляются с ранее извлечёнными направлениями персон. Метрики разницы проекций на уровне набора данных показывают сильную корреляцию с выражением черт после тонкой настройки.