Исследователи из ETH и Стэнфорда представили MIRIAD: набор данных из 5,8 млн пар для повышения точности LLM в медицинском ИИ

Проблемы больших языковых моделей в принятии медицинских решений: борьба с галлюцинациями через поиск знаний

Большие языковые модели (LLM) призваны революционизировать здравоохранение благодаря интеллектуальной поддержке принятия решений и адаптивным чат-ассистентам. Однако их склонность к выдаче фактических медицинских ошибок является серьёзной проблемой.

Одним из распространённых решений является RAG (Retrieval-Augmented Generation), где внешние медицинские знания разбиваются на более мелкие фрагменты текста, которые LLM могут извлекать и использовать при генерации. Хотя это перспективно, текущие методы RAG зависят от неструктурированного медицинского контента, который часто содержит шум, нефильтрован и сложен для эффективной интерпретации LLM.

Существует явная потребность в лучшей организации и представлении медицинских знаний, чтобы LLM могли использовать их более надёжно и точно.

Ограничения текущих подходов RAG в здравоохранении

Хотя LLM впечатляюще справляются с общими языковыми задачами, они часто терпят неудачу в областях, требующих актуальных и точных знаний, таких как медицина. RAG предлагает экономически эффективную альтернативу дорогостоящей настройке, основываясь на внешней литературе. Однако многие современные системы RAG полагаются на общие текстовые вложения и стандартные векторные базы данных, которые не оптимизированы для медицинского контента.

В отличие от общих областей, в медицине отсутствуют большие высококачественные наборы данных, объединяющие медицинские вопросы с соответствующими ответами. Существующие наборы данных, такие как PubMedQA или MedQA, либо слишком малы, либо слишком структурированы (например, с вариантами ответов), либо не содержат открытых, реальных ответов, необходимых для создания надёжных систем медицинского поиска.

Набор данных MIRIAD: структурирование медицинских вопросов и ответов с использованием рецензируемых данных

Исследователи из ETH Zurich, Стэнфорда, клиники Майо и других учреждений разработали MIRIAD — крупномасштабный набор данных, состоящий из более чем 5,8 миллиона высококачественных медицинских пар вопрос-ответ. Каждая пара тщательно перефразирована и обоснована рецензируемой литературой с помощью полуавтоматического процесса, включающего LLM, фильтры и экспертную оценку.

В отличие от предыдущих неструктурированных наборов данных, MIRIAD предлагает структурированные, извлекаемые медицинские знания, повышая точность LLM в сложных медицинских задачах по вопросам и ответам на 6,7% и улучшая обнаружение галлюцинаций на 22,5–37%.

Они также запустили MIRIAD-Atlas — визуальный инструмент, охватывающий 56 медицинских областей, который позволяет пользователям исследовать и взаимодействовать с этим богатым ресурсом, тем самым повышая доверие к ИИ в здравоохранении.

Конвейер данных: фильтрация и структурирование медицинской литературы с помощью LLM и классификаторов

Для создания MIRIAD исследователи отфильтровали 894 000 медицинских статей из корпуса S2ORC и разбили их на чистые фрагменты текста, исключив слишком длинный или шумный контент. Они использовали LLM со структурированными подсказками для генерации более 10 миллионов пар вопросов и ответов, позже уточнив их до 5,8 миллиона с помощью фильтрации на основе правил.

Специализированный классификатор, основанный на метках GPT-4, помог дополнительно сузить их до 4,4 миллиона высококачественных пар. Медицинские эксперты также проверили выборку на точность, релевантность и обоснованность.

Наконец, они создали MIRIAD-Atlas — интерактивную 2D-карту набора данных, используя встраивание и уменьшение размерности для кластеризации связанного контента по темам и дисциплинам.

Повышение производительности: повышение точности вопросов и ответов и обнаружение галлюцинаций с помощью MIRIAD

Набор данных MIRIAD значительно повышает производительность больших языковых моделей в медицинских задачах. При использовании в RAG модели достигли точности на 6,7% выше по сравнению с использованием неструктурированных данных, даже при одинаковом объёме извлечённого контента.

MIRIAD также улучшил способность моделей обнаруживать медицинские галлюцинации, с улучшением F1-оценки в диапазоне от 22,5% до 37%. Кроме того, обучение моделей извлечения на MIRIAD привело к повышению качества извлечения.

Структура набора данных, основанная на проверенных источниках, обеспечивает более точный и надёжный доступ к информации, поддерживая широкий спектр медицинских приложений.

MIRIAD-Atlas: визуальное исследование в 56 медицинских областях

В заключение, MIRIAD — это большой структурированный набор данных, состоящий из 5,8 миллиона медицинских пар вопрос-ответ, обоснованных рецензируемой литературой и созданных для поддержки ряда приложений медицинского ИИ. Он включает интерактивный атлас для удобного изучения и обеспечивает строгий контроль качества с помощью автоматических фильтров, оценок LLM и экспертных обзоров.

В отличие от предыдущих неструктурированных корпусов, MIRIAD повышает точность поиска в медицинских вопросах и ответах и может помочь выявить галлюцинации в языковых моделях. Хотя он ещё не является исчерпывающим, он закладывает прочную основу для будущих наборов данных. Дальнейшие улучшения могут обеспечить более точный поиск с участием пользователей и лучшую интеграцию с клиническими инструментами и системами медицинского ИИ.

Ознакомиться с документом, страницей GitHub и набором данных на Hugging Face можно по ссылкам. Все заслуги за это исследование принадлежат исследователям этого проекта. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку.

1. Какие проблемы существуют у больших языковых моделей (LLM) в контексте принятия медицинских решений?

* В статье отмечается, что LLM склонны выдавать фактические медицинские ошибки. Это связано с тем, что текущие методы RAG (Retrieval-Augmented Generation) зависят от неструктурированного медицинского контента, который часто содержит шум и сложен для интерпретации LLM.

2. Какие преимущества предлагает набор данных MIRIAD для повышения точности LLM в медицинских задачах?

* MIRIAD предлагает структурированные, извлекаемые медицинские знания, повышая точность LLM в сложных медицинских задачах по вопросам и ответам на 6,7% и улучшая обнаружение галлюцинаций на 22,5–37%. Это достигается за счёт использования рецензируемой литературы и полуавтоматического процесса, включающего LLM, фильтры и экспертную оценку.

3. Какие методы использовались для создания набора данных MIRIAD?

* Для создания MIRIAD исследователи отфильтровали 894 000 медицинских статей из корпуса S2ORC и разбили их на чистые фрагменты текста. Они использовали LLM со структурированными подсказками для генерации более 10 миллионов пар вопросов и ответов, позже уточнив их до 5,8 миллиона с помощью фильтрации на основе правил. Специализированный классификатор, основанный на метках GPT-4, помог дополнительно сузить их до 4,4 миллиона высококачественных пар. Медицинские эксперты также проверили выборку на точность, релевантность и обоснованность.

4. Какие улучшения в производительности LLM были достигнуты благодаря использованию набора данных MIRIAD?

* При использовании в RAG модели достигли точности на 6,7% выше по сравнению с использованием неструктурированных данных, даже при одинаковом объёме извлечённого контента. MIRIAD также улучшил способность моделей обнаруживать медицинские галлюцинации, с улучшением F1-оценки в диапазоне от 22,5% до 37%.

5. Какие перспективы открывает использование MIRIAD-Atlas для медицинских специалистов и разработчиков ИИ?

* MIRIAD-Atlas — это визуальный инструмент, охватывающий 56 медицинских областей, который позволяет пользователям исследовать и взаимодействовать с MIRIAD. Это повышает доверие к ИИ в здравоохранении и может помочь медицинским специалистам и разработчикам ИИ более эффективно использовать медицинские знания в своих приложениях.

Источник

Оставьте комментарий