Проблемы больших языковых моделей в принятии медицинских решений: борьба с галлюцинациями через поиск знаний
Большие языковые модели (LLM) призваны революционизировать здравоохранение благодаря интеллектуальной поддержке принятия решений и адаптивным чат-ассистентам. Однако их склонность к выдаче фактических медицинских ошибок является серьёзной проблемой.
Одним из распространённых решений является RAG (Retrieval-Augmented Generation), где внешние медицинские знания разбиваются на более мелкие фрагменты текста, которые LLM могут извлекать и использовать при генерации. Хотя это перспективно, текущие методы RAG зависят от неструктурированного медицинского контента, который часто содержит шум, нефильтрован и сложен для эффективной интерпретации LLM.
Существует явная потребность в лучшей организации и представлении медицинских знаний, чтобы LLM могли использовать их более надёжно и точно.
Ограничения текущих подходов RAG в здравоохранении
Хотя LLM впечатляюще справляются с общими языковыми задачами, они часто терпят неудачу в областях, требующих актуальных и точных знаний, таких как медицина. RAG предлагает экономически эффективную альтернативу дорогостоящей настройке, основываясь на внешней литературе. Однако многие современные системы RAG полагаются на общие текстовые вложения и стандартные векторные базы данных, которые не оптимизированы для медицинского контента.
В отличие от общих областей, в медицине отсутствуют большие высококачественные наборы данных, объединяющие медицинские вопросы с соответствующими ответами. Существующие наборы данных, такие как PubMedQA или MedQA, либо слишком малы, либо слишком структурированы (например, с вариантами ответов), либо не содержат открытых, реальных ответов, необходимых для создания надёжных систем медицинского поиска.
Набор данных MIRIAD: структурирование медицинских вопросов и ответов с использованием рецензируемых данных
Исследователи из ETH Zurich, Стэнфорда, клиники Майо и других учреждений разработали MIRIAD — крупномасштабный набор данных, состоящий из более чем 5,8 миллиона высококачественных медицинских пар вопрос-ответ. Каждая пара тщательно перефразирована и обоснована рецензируемой литературой с помощью полуавтоматического процесса, включающего LLM, фильтры и экспертную оценку.
В отличие от предыдущих неструктурированных наборов данных, MIRIAD предлагает структурированные, извлекаемые медицинские знания, повышая точность LLM в сложных медицинских задачах по вопросам и ответам на 6,7% и улучшая обнаружение галлюцинаций на 22,5–37%.
Они также запустили MIRIAD-Atlas — визуальный инструмент, охватывающий 56 медицинских областей, который позволяет пользователям исследовать и взаимодействовать с этим богатым ресурсом, тем самым повышая доверие к ИИ в здравоохранении.
Конвейер данных: фильтрация и структурирование медицинской литературы с помощью LLM и классификаторов
Для создания MIRIAD исследователи отфильтровали 894 000 медицинских статей из корпуса S2ORC и разбили их на чистые фрагменты текста, исключив слишком длинный или шумный контент. Они использовали LLM со структурированными подсказками для генерации более 10 миллионов пар вопросов и ответов, позже уточнив их до 5,8 миллиона с помощью фильтрации на основе правил.
Специализированный классификатор, основанный на метках GPT-4, помог дополнительно сузить их до 4,4 миллиона высококачественных пар. Медицинские эксперты также проверили выборку на точность, релевантность и обоснованность.
Наконец, они создали MIRIAD-Atlas — интерактивную 2D-карту набора данных, используя встраивание и уменьшение размерности для кластеризации связанного контента по темам и дисциплинам.
Повышение производительности: повышение точности вопросов и ответов и обнаружение галлюцинаций с помощью MIRIAD
Набор данных MIRIAD значительно повышает производительность больших языковых моделей в медицинских задачах. При использовании в RAG модели достигли точности на 6,7% выше по сравнению с использованием неструктурированных данных, даже при одинаковом объёме извлечённого контента.
MIRIAD также улучшил способность моделей обнаруживать медицинские галлюцинации, с улучшением F1-оценки в диапазоне от 22,5% до 37%. Кроме того, обучение моделей извлечения на MIRIAD привело к повышению качества извлечения.
Структура набора данных, основанная на проверенных источниках, обеспечивает более точный и надёжный доступ к информации, поддерживая широкий спектр медицинских приложений.
MIRIAD-Atlas: визуальное исследование в 56 медицинских областях
В заключение, MIRIAD — это большой структурированный набор данных, состоящий из 5,8 миллиона медицинских пар вопрос-ответ, обоснованных рецензируемой литературой и созданных для поддержки ряда приложений медицинского ИИ. Он включает интерактивный атлас для удобного изучения и обеспечивает строгий контроль качества с помощью автоматических фильтров, оценок LLM и экспертных обзоров.
В отличие от предыдущих неструктурированных корпусов, MIRIAD повышает точность поиска в медицинских вопросах и ответах и может помочь выявить галлюцинации в языковых моделях. Хотя он ещё не является исчерпывающим, он закладывает прочную основу для будущих наборов данных. Дальнейшие улучшения могут обеспечить более точный поиск с участием пользователей и лучшую интеграцию с клиническими инструментами и системами медицинского ИИ.
Ознакомиться с документом, страницей GitHub и набором данных на Hugging Face можно по ссылкам. Все заслуги за это исследование принадлежат исследователям этого проекта. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку.
1. Какие проблемы существуют у больших языковых моделей (LLM) в контексте принятия медицинских решений?
* В статье отмечается, что LLM склонны выдавать фактические медицинские ошибки. Это связано с тем, что текущие методы RAG (Retrieval-Augmented Generation) зависят от неструктурированного медицинского контента, который часто содержит шум и сложен для интерпретации LLM.
2. Какие преимущества предлагает набор данных MIRIAD для повышения точности LLM в медицинских задачах?
* MIRIAD предлагает структурированные, извлекаемые медицинские знания, повышая точность LLM в сложных медицинских задачах по вопросам и ответам на 6,7% и улучшая обнаружение галлюцинаций на 22,5–37%. Это достигается за счёт использования рецензируемой литературы и полуавтоматического процесса, включающего LLM, фильтры и экспертную оценку.
3. Какие методы использовались для создания набора данных MIRIAD?
* Для создания MIRIAD исследователи отфильтровали 894 000 медицинских статей из корпуса S2ORC и разбили их на чистые фрагменты текста. Они использовали LLM со структурированными подсказками для генерации более 10 миллионов пар вопросов и ответов, позже уточнив их до 5,8 миллиона с помощью фильтрации на основе правил. Специализированный классификатор, основанный на метках GPT-4, помог дополнительно сузить их до 4,4 миллиона высококачественных пар. Медицинские эксперты также проверили выборку на точность, релевантность и обоснованность.
4. Какие улучшения в производительности LLM были достигнуты благодаря использованию набора данных MIRIAD?
* При использовании в RAG модели достигли точности на 6,7% выше по сравнению с использованием неструктурированных данных, даже при одинаковом объёме извлечённого контента. MIRIAD также улучшил способность моделей обнаруживать медицинские галлюцинации, с улучшением F1-оценки в диапазоне от 22,5% до 37%.
5. Какие перспективы открывает использование MIRIAD-Atlas для медицинских специалистов и разработчиков ИИ?
* MIRIAD-Atlas — это визуальный инструмент, охватывающий 56 медицинских областей, который позволяет пользователям исследовать и взаимодействовать с MIRIAD. Это повышает доверие к ИИ в здравоохранении и может помочь медицинским специалистам и разработчикам ИИ более эффективно использовать медицинские знания в своих приложениях.