Обращение к большим языковым моделям за моральными советами сопряжено с риском скрытых предубеждений

Всё больше людей обращаются к большим языковым моделям, таким как ChatGPT, за жизненными советами и бесплатной психологической помощью, поскольку иногда их считают пространством, свободным от человеческих предубеждений. Однако новое исследование, опубликованное в Proceedings of the National Academy of Sciences, предупреждает, что полагаться на большие языковые модели (LLM) для решения моральных дилемм не стоит, поскольку в их ответах обнаруживаются значительные когнитивные искажения.

Эксперименты учёных

Исследователи из Университетского колледжа Лондона и Калифорнийского университета провели серию экспериментов с использованием популярных больших языковых моделей — GPT-4-turbo, GPT-4o, Llama 3.1-Instruct и Claude 3.5 Sonnet. Они обнаружили, что модели имеют более выраженное уклонение от действий, чем люди, и их советы поощряют бездействие, а не активные действия при принятии моральных решений.

Кроме того, большие языковые модели склонны отвечать «нет», изменяя своё решение или совет в зависимости от формулировки вопроса. Результаты также показали, что в ситуациях, когда личные интересы противопоставляются общественному благу, ответы LLM были более альтруистичными, чем у людей.

Моральные ориентиры и когнитивные искажения

Разработчики LLM внедрили моральные ориентиры в системы, чтобы ответы чат-ботов способствовали доброте и справедливости, а также препятствовали ненависти и незаконной деятельности. Однако эти ограничения не всегда надёжны, поскольку LLM склонны к галлюцинациям и функционируют непредсказуемо, часто проявляя когнитивные искажения.

Такие отклонения стали предметом пристального внимания из-за растущей зависимости от чат-ботов, поскольку предубеждения в программировании и данных для обучения LLM могут напрямую влиять на принятие решений реальными людьми.

Исследования моральных дилемм

Предыдущие исследования показали, что LLM реагируют на традиционные моральные дилеммы иначе, чем люди. Однако большая часть этих исследований была сосредоточена на нереалистичных сценариях, таких как классическая проблема с трамваем, которая не является точным отражением повседневных моральных решений.

Чтобы изучить, насколько большие языковые модели (LLM) влияют на взгляды людей на важные моральные и социальные вопросы, исследователи разработали серию из четырёх исследований. В первом исследовании сравнивалось, как LLM рассуждают и предлагают советы по моральным дилеммам, и как репрезентативная выборка взрослых жителей США реагирует на те же ситуации. Участникам и моделям искусственного интеллекта были предложены 22 тщательно разработанные сценария.

Второе исследование было направлено на изучение сильного уклонения от действий, наблюдаемого в первом исследовании, и на конкретную проверку «да–нет-предвзятости» путём изменения формулировок дилемм. Третье исследование повторило первые два, но заменило сложные дилеммы более простыми, взятыми из постов в Reddit. Последнее исследование было сосредоточено на поиске источников наблюдаемых предубеждений.

Результаты показали усиленное уклонение от действий, когда LLM с большей вероятностью одобряют бездействие в моральных дилеммах по сравнению с людьми. В случае «да–нет-предвзятости» у людей она не была обнаружена; однако 3 из 4 использованных LLM были предвзяты в сторону ответа «нет» (GPT-4o предпочитал «да»), даже когда это означало изменение их первоначального решения при переформулировке вопросов.

Результаты также показали, что эти предубеждения в значительной степени возникают в процессе тонкой настройки, выполняемой для превращения предварительно обученной LLM в чат-бота. Доказательства ясно показывают, что безоговорочная зависимость от LLM может усилить существующие предубеждения и ввести новые в процесс принятия решений в обществе. Исследователи считают, что их выводы будут способствовать будущим улучшениям в принятии моральных решений и советов LLM.

Источник

Оставьте комментарий