Большие языковые модели (LLMs) позиционируются как инструменты, которые могут демократизировать доступ к информации по всему миру. Они предлагают знания в удобном для пользователя интерфейсе независимо от его происхождения или местоположения. Однако новое исследование Центра конструктивной коммуникации (CCC) Массачусетского технологического института (MIT) показывает, что эти системы искусственного интеллекта могут работать хуже для тех пользователей, которые больше всего могли бы от них выиграть.
Исследование CCC
Исследование, проведённое учёными из CCC, базирующегося в MIT Media Lab, показало, что современные чат-боты с искусственным интеллектом, включая OpenAI’s GPT-4, Anthropic’s Claude 3 Opus и Meta’s Llama 3, иногда предоставляют менее точные и правдивые ответы пользователям с низким уровнем владения английским языком, менее формальным образованием или из-за пределов Соединённых Штатов. Модели также чаще отказываются отвечать на вопросы таких пользователей и в некоторых случаях отвечают снисходительным или покровительственным тоном.
«Мы были вдохновлены перспективой того, что LLM могут помочь решить проблему неравного доступа к информации во всём мире, — говорит ведущий автор Элинор Пул-Даян, технический сотрудник Школы менеджмента Sloan MIT. — Но эта идея не может стать реальностью, пока мы не обеспечим, чтобы предвзятости моделей и вредные тенденции были безопасно смягчены для всех пользователей, независимо от языка, национальности или других демографических характеристик».
Систематическая недостаточная производительность по нескольким параметрам
Для этого исследования команда проверила, как три LLM ответили на вопросы из двух наборов данных: TruthfulQA и SciQ. TruthfulQA предназначен для измерения правдивости модели (опираясь на распространённые заблуждения и буквальную истину о реальном мире), в то время как SciQ содержит вопросы научного экзамена, проверяющие фактическую точность. Исследователи добавили короткие биографии пользователей к каждому вопросу, варьируя три характеристики: уровень образования, владение английским языком и страну происхождения.
Во всех трёх моделях и в обоих наборах данных исследователи обнаружили значительное снижение точности, когда вопросы задавались пользователями, описанными как имеющие менее формальное образование или не являющимися носителями английского языка. Эффекты были наиболее выраженными для пользователей, находящихся на пересечении этих категорий: те, у кого было менее формальное образование и кто не говорил на английском языке как на родном, видели наибольшее снижение качества ответов.
Исследование также изучило, как страна происхождения влияет на производительность модели. Тестируя пользователей из США, Ирана и Китая с одинаковым уровнем образования, исследователи обнаружили, что Claude 3 Opus, в частности, работал значительно хуже для пользователей из Ирана в обоих наборах данных.
«Мы видим наибольшее снижение точности для пользователя, который является одновременно не носителем английского языка и менее образованным, — говорит Джад Каббара, научный сотрудник CCC и соавтор статьи. — Эти результаты показывают, что негативные последствия поведения модели по отношению к этим характеристикам пользователей усугубляются тревожным образом, что позволяет предположить: такие модели, развёрнутые в масштабе, рискуют распространять вредное поведение или дезинформацию среди тех, кто наименее способен её выявить».
Отказ и снисходительный тон
Особенно поразительными были различия в том, как часто модели отказывались отвечать на вопросы вообще. Например, Claude 3 Opus отказывался отвечать почти на 11% вопросов для менее образованных пользователей, не являющихся носителями английского языка, — по сравнению с 3,6% для контрольной группы без биографии пользователя.
Когда исследователи вручную проанализировали эти отказы, они обнаружили, что Claude отвечал снисходительным, покровительственным или насмешливым тоном в 43,7% случаев для менее образованных пользователей, по сравнению с менее чем 1% для высокообразованных пользователей. В некоторых случаях модель имитировала ломаный английский или использовала утрированный диалект.
Модель также отказывалась предоставлять информацию по определённым темам специально для менее образованных пользователей из Ирана или России, включая вопросы об атомной энергетике, анатомии и исторических событиях — даже несмотря на то, что она отвечала на те же вопросы правильно для других пользователей.
«Это ещё один индикатор, предполагающий, что процесс выравнивания может стимулировать модели воздерживаться от предоставления информации определённым пользователям, чтобы избежать потенциального дезинформирования их, хотя модель явно знает правильный ответ и предоставляет его другим пользователям», — говорит Каббара.
Эхо человеческих предубеждений
Результаты отражают документированные закономерности социокогнитивных предубеждений человека. Исследования в социальных науках показали, что носители английского языка часто воспринимают не носителей языка как менее образованных, интеллектуальных и компетентных, независимо от их реальных знаний. Подобные предвзятые представления были зафиксированы среди учителей, оценивающих студентов, не являющихся носителями английского языка.
«Ценность больших языковых моделей очевидна в их необычайной популярности среди людей и в огромных инвестициях, поступающих в эту технологию, — говорит Деб Рой, профессор медиаискусств и наук, директор CCC и соавтор статьи. — Это исследование является напоминанием о том, как важно постоянно оценивать систематические предубеждения, которые могут незаметно проникнуть в эти системы, создавая несправедливый вред для определённых групп без нашего полного осознания».
Выводы особенно важны, учитывая, что функции персонализации — такие как ChatGPT’s Memory, который отслеживает информацию пользователя в ходе разговоров — становятся всё более распространёнными. Такие функции рискуют по-разному относиться к уже маргинализированным группам.
«LLMs рекламируются как инструменты, которые будут способствовать более равному доступу к информации и произведут революцию в персонализированном обучении, — говорит Пул-Даян. — Но наши результаты показывают, что они могут фактически усугубить существующее неравенство, систематически предоставляя дезинформацию или отказываясь отвечать на запросы определённых пользователей. Люди, которые могут больше всего полагаться на эти инструменты, могут получать некачественную, ложную или даже вредную информацию».
1. Какие выводы можно сделать из исследования Центра конструктивной коммуникации (CCC) Массачусетского технологического института (MIT) о работе больших языковых моделей (LLMs) с пользователями, имеющими низкий уровень владения английским языком или менее формальное образование?
Из исследования следует, что LLMs, такие как OpenAI’s GPT-4, Anthropic’s Claude 3 Opus и Meta’s Llama 3, могут работать хуже для пользователей с низким уровнем владения английским языком и менее формальным образованием. Они предоставляют менее точные и правдивые ответы, чаще отказываются отвечать на вопросы и в некоторых случаях отвечают снисходительным или покровительственным тоном.
2. Какие параметры были использованы для проверки производительности LLM в исследовании?
Для проверки производительности LLM исследователи использовали два набора данных: TruthfulQA и SciQ. TruthfulQA предназначен для измерения правдивости модели, а SciQ содержит вопросы научного экзамена, проверяющие фактическую точность. Исследователи также добавили короткие биографии пользователей к каждому вопросу, варьируя три характеристики: уровень образования, владение английским языком и страну происхождения.
3. Какие результаты были получены при изучении влияния страны происхождения на производительность модели?
Исследователи обнаружили, что Claude 3 Opus работал значительно хуже для пользователей из Ирана в обоих наборах данных. Это указывает на то, что страна происхождения может влиять на производительность модели.
4. Какие проблемы могут возникнуть из-за снисходительного тона и отказов отвечать на вопросы со стороны LLM?
Снисходительный тон и отказы отвечать на вопросы могут привести к тому, что пользователи будут чувствовать себя неуверенно и не смогут получить необходимую информацию. Это может усугубить существующее неравенство и ограничить доступ к образованию и информации для определённых групп пользователей.
5. Какие рекомендации можно дать разработчикам LLM на основе результатов исследования?
На основе результатов исследования разработчикам LLM можно рекомендовать провести дополнительную работу по устранению предвзятости и обеспечению равного доступа к информации для всех пользователей. Это может включать в себя улучшение алгоритмов, обучение моделей на более разнообразных наборах данных и разработку инструментов для выявления и исправления предвзятости.