Разработка точного дифференциального диагноза (ДД) является основополагающей частью медицинской помощи. Обычно это достигается путём поэтапного процесса, который объединяет историю болезни пациента, физикальное обследование и диагностические тесты. С развитием больших языковых моделей (LLM) появляется всё больше возможностей для поддержки и автоматизации части этого диагностического процесса с помощью интерактивных инструментов на основе искусственного интеллекта.
В отличие от традиционных AI-систем, ориентированных на постановку единственного диагноза, реальное клиническое мышление предполагает постоянное обновление и оценку множества диагностических возможностей по мере поступления новых данных о пациенте. Хотя глубокое обучение успешно применяется для постановки ДД в таких областях, как радиология, офтальмология и дерматология, этим моделям в целом не хватает интерактивных диалоговых возможностей, необходимых для эффективного взаимодействия с врачами.
Появление LLM открывает новые возможности для создания инструментов, которые могут поддерживать ДД посредством взаимодействия на естественном языке. Такие модели, как GPT-4 общего назначения и Med-PaLM 2, специфичные для медицины, продемонстрировали высокую эффективность при сдаче тестов с множественным выбором и стандартизированных медицинских экзаменов. Хотя эти тесты первоначально оценивают медицинские знания модели, они не отражают её полезности в реальных клинических условиях или способности помогать врачам во время сложных случаев.
Исследователи из Google представили AMIE — большую языковую модель, адаптированную для клинического диагностического мышления, чтобы оценить её эффективность в помощи с ДД. В исследовании, в котором приняли участие 20 врачей и 302 сложных реальных медицинских случая, автономная работа AMIE превзошла результаты врачей без поддержки ИИ. При интеграции в интерактивный интерфейс врачи, использующие AMIE вместе с традиционными инструментами, составили значительно более точные и полные списки ДД, чем те, кто пользовался только стандартными ресурсами. AMIE не только повысила точность диагностики, но и улучшила способности врачей к клиническому мышлению. Её производительность также превзошла GPT-4 в автоматизированных оценках, что обещает широкие возможности для применения в реальных клинических условиях и более широкий доступ к поддержке на уровне экспертов.
AMIE, языковая модель, специально настроенная для медицинских задач, продемонстрировала высокую эффективность в составлении ДД. Её списки получили высокие оценки по качеству, уместности и полноте. В 54% случаев ДД от AMIE включал правильный диагноз, что значительно превосходит результаты врачей без поддержки ИИ. Точная постановка диагноза в топ-10 составила 59%, причём правильный диагноз занимал первое место в 29% случаев. Врачи, которым помогала AMIE, также повысили точность своей диагностики по сравнению с использованием поисковых инструментов или работой в одиночку. Несмотря на то что врачи были новичками в использовании интерфейса AMIE, они применяли его аналогично традиционным методам поиска, что свидетельствует о практической удобности модели.
При сравнительном анализе AMIE и GPT-4 на подмножестве из 70 случаев NEJM CPC прямое сравнение оценок людьми было ограничено из-за разных групп оценщиков. Вместо этого использовалась автоматизированная метрика, которая, как было показано, достаточно хорошо согласуется с суждениями людей. Хотя GPT-4 незначительно превзошёл AMIE по точности топ-1 (хотя и не статистически значимо), AMIE продемонстрировала превосходную точность топ-n для n > 1, с заметным приростом для n > 2. Это говорит о том, что AMIE генерирует более полные и подходящие ДД, что является важным аспектом реального клинического мышления. Кроме того, AMIE превзошла сертифицированных врачей в задачах по постановке ДД и значительно улучшила показатели врачей в качестве вспомогательного инструмента, обеспечив более высокую точность топ-n, качество ДД и полноту по сравнению с традиционной поисковой поддержкой.
Помимо сырой производительности, conversational interface AMIE оказался интуитивно понятным и эффективным, а врачи сообщили о возросшей уверенности в своих списках ДД после его использования. Хотя существуют ограничения — такие как отсутствие у AMIE доступа к изображениям и табличным данным в материалах врачей, а также искусственный характер презентаций случаев в стиле CPC — потенциал модели для образовательной поддержки и помощи в диагностике обнадеживает, особенно в сложных или ограниченных ресурсами условиях. Тем не менее исследование подчёркивает необходимость тщательной интеграции LLM в клинические рабочие процессы с учётом калибровки доверия, выражения неопределённости модели и потенциального смещения привязки и галлюцинаций. Будущие работы должны тщательно оценивать реальную применимость, справедливость и долгосрочные последствия AI-помощников в диагностике.
Добавить комментарий