Языки с большим объёмом данных учитывают постороннюю информацию при рекомендации методов лечения

Большие языковые модели (БЯМ), используемые для выдачи рекомендаций по лечению, могут принимать во внимание неклиническую информацию в сообщениях пациентов, такую как опечатки, лишние пробелы, отсутствие маркеров пола или использование неопределённого, драматического и неформального языка. Это было обнаружено в исследовании, проведённом исследователями MIT.

Они выяснили, что внесение стилистических или грамматических изменений в сообщения увеличивает вероятность того, что БЯМ порекомендует пациенту самостоятельно справиться с заявленным состоянием здоровья, а не прийти на приём, даже если пациенту необходимо обратиться за медицинской помощью.

Их анализ также показал, что эти неклинические вариации в тексте, имитирующие реальное общение людей, с большей вероятностью изменяют рекомендации модели для пациенток, что приводит к более высокому проценту женщин, которым ошибочно советовали не обращаться за медицинской помощью, согласно мнению врачей-людей.

Марзие Гасеми, доцент кафедры электротехники и компьютерных наук MIT (EECS), член Института медицинских инженерных наук и Лаборатории информационных систем и принятия решений, и старший автор исследования, говорит: «Эта работа является убедительным доказательством того, что модели должны проходить аудит перед использованием в здравоохранении, где они уже используются».

Эти выводы указывают на то, что БЯМ учитывают неклиническую информацию для принятия клинических решений ранее неизвестными способами. Это подчёркивает необходимость более тщательных исследований БЯМ, прежде чем они будут задействованы в таких важных приложениях, как рекомендации по лечению.

«Эти модели часто обучаются и тестируются на вопросах медицинских экзаменов, но затем используются в задачах, которые довольно далеки от этого, например, для оценки тяжести клинического случая. Мы всё ещё многого не знаем об этих моделях», — добавляет Абинита Гурабатина, аспирантка EECS и ведущий автор исследования.

К работе над статьёй, которая будет представлена на конференции ACM по вопросам справедливости, подотчётности и прозрачности, присоединились аспирантка Эйлин Пан и постдок Уолтер Герич.

Смешанные сообщения

Большие языковые модели, такие как GPT-4 от OpenAI, используются для составления клинических заметок и сортировки сообщений пациентов в медицинских учреждениях по всему миру, чтобы оптимизировать некоторые задачи и помочь перегруженным врачам.

Растёт число исследований, посвящённых изучению способности БЯМ к клиническому мышлению, особенно с точки зрения справедливости, но лишь немногие исследования оценивали, как неклиническая информация влияет на суждения модели.

Гурабатина провела эксперименты, в которых меняла гендерные маркеры в заметках пациентов, и была удивлена, что ошибки форматирования в запросах, такие как лишние пробелы, вызывали значительные изменения в ответах БЯМ.

Чтобы изучить эту проблему, исследователи разработали исследование, в котором они изменили входные данные модели, поменяв местами или удалив гендерные маркеры, добавив красочный или неопределённый язык или вставив дополнительные пробелы и опечатки в сообщения пациентов.

Каждая пертурбация была разработана так, чтобы имитировать текст, который мог бы быть написан кем-то из уязвимой группы пациентов, на основе психосоциальных исследований того, как люди общаются с врачами.

Например, дополнительные пробелы и опечатки имитируют написание пациентов с ограниченным знанием английского языка или с меньшими технологическими способностями, а добавление неопределённого языка представляет пациентов с тревожностью по поводу здоровья.

«Медицинские наборы данных, на которых обучаются эти модели, обычно очищаются и структурируются и не очень реалистично отражают население пациентов. Мы хотели посмотреть, как эти очень реалистичные изменения в тексте могут повлиять на последующие варианты использования», — говорит Гурабатина.

Они использовали БЯМ для создания возмущённых копий тысяч заметок пациентов, сохраняя при этом все клинические данные, такие как лекарства и предыдущие диагнозы. Затем они оценили четыре БЯМ, включая большую коммерческую модель GPT-4 и меньшую БЯМ, созданную специально для медицинских учреждений.

Они дали каждой БЯМ три вопроса, основанных на заметке пациента: должен ли пациент лечиться дома, должен ли пациент прийти на приём в клинику и должен ли пациенту быть выделен медицинский ресурс, такой как лабораторный анализ.

Исследователи сравнили рекомендации БЯМ с реальными клиническими ответами.

Неоднородные рекомендации

Они обнаружили несоответствия в рекомендациях по лечению и значительное расхождение между БЯМ при подаче им возмущённых данных. Во всех случаях БЯМ продемонстрировали увеличение на 7–9% предложений по самолечению для всех девяти типов изменённых сообщений пациентов.

Это означает, что БЯМ с большей вероятностью рекомендовали пациентам не обращаться за медицинской помощью, когда сообщения содержали опечатки или гендерно-нейтральные местоимения. Использование красочного языка, например сленга или драматических выражений, оказало наибольшее влияние.

Они также обнаружили, что модели допускали примерно на 7% больше ошибок для пациенток и с большей вероятностью рекомендовали пациенткам самостоятельное лечение дома, даже когда исследователи удалили все гендерные маркеры из клинического контекста.

Многие из худших результатов, например, когда пациентам рекомендовалось лечиться самостоятельно при наличии серьёзного заболевания, вероятно, не были бы выявлены тестами, которые фокусируются на общей клинической точности моделей.

«В исследованиях мы склонны смотреть на агрегированные статистические данные, но многое теряется при переводе. Нам нужно посмотреть на направление, в котором происходят эти ошибки — не рекомендовать посещение, когда это необходимо, гораздо более вредно, чем поступать наоборот», — говорит Гурабатина.

Неоднородность, вызванная неклиническим языком, становится ещё более выраженной в условиях общения, когда БЯМ взаимодействует с пациентом, что является распространённым вариантом использования для чат-ботов, ориентированных на пациентов.

Но в последующей работе исследователи обнаружили, что эти же изменения в сообщениях пациентов не влияют на точность человеческих врачей.

«В нашей последующей работе, которая находится на рассмотрении, мы также обнаружили, что большие языковые модели хрупки к изменениям, которые не влияют на человеческих врачей», — говорит Гасеми. «Это, возможно, неудивительно — БЯМ не были разработаны для определения приоритетности медицинской помощи пациентам. БЯМ достаточно гибкие и производительные, что мы можем подумать, что это хороший вариант использования. Но мы не хотим оптимизировать систему здравоохранения, которая хорошо работает только для пациентов из определённых групп».

Исследователи хотят расширить эту работу, разработав естественные языковые возмущения, которые охватят другие уязвимые группы населения и лучше имитируют реальные сообщения. Они также хотят изучить, как БЯМ определяют пол по клиническому тексту.

1. Какие проблемы возникают при использовании больших языковых моделей (БЯМ) в здравоохранении?

В статье указано, что БЯМ могут учитывать неклиническую информацию при рекомендации методов лечения, что может привести к ошибкам в диагностике и лечении. Например, внесение стилистических или грамматических изменений в сообщения увеличивает вероятность того, что БЯМ порекомендует пациенту самостоятельно справиться с заявленным состоянием здоровья, а не прийти на приём.

2. Какие методы использовали исследователи для изучения влияния неклинической информации на рекомендации БЯМ?

Исследователи разработали исследование, в котором они изменили входные данные модели, поменяв местами или удалив гендерные маркеры, добавив красочный или неопределённый язык или вставив дополнительные пробелы и опечатки в сообщения пациентов. Каждая пертурбация была разработана так, чтобы имитировать текст, который мог бы быть написан кем-то из уязвимой группы пациентов.

3. Какие результаты были получены в ходе исследования?

Исследование показало, что БЯМ с большей вероятностью рекомендовали пациентам не обращаться за медицинской помощью, когда сообщения содержали опечатки или гендерно-нейтральные местоимения. Использование красочного языка, например сленга или драматических выражений, оказало наибольшее влияние. Также было обнаружено, что модели допускали примерно на 7% больше ошибок для пациенток и с большей вероятностью рекомендовали пациенткам самостоятельное лечение дома, даже когда исследователи удалили все гендерные маркеры из клинического контекста.

4. Какие выводы можно сделать из этого исследования?

Исследование подчёркивает необходимость более тщательных исследований БЯМ, прежде чем они будут задействованы в таких важных приложениях, как рекомендации по лечению. Оно также указывает на то, что БЯМ учитывают неклиническую информацию для принятия клинических решений ранее неизвестными способами.

5. Какие дальнейшие исследования планируют провести авторы статьи?

Авторы статьи планируют расширить эту работу, разработав естественные языковые возмущения, которые охватят другие уязвимые группы населения и лучше имитируют реальные сообщения. Они также хотят изучить, как БЯМ определяют пол по клиническому тексту.

Источник

Оставьте комментарий