Компания Google Research расширила программу Health AI Developer Foundations (HAI-DEF) выпуском модели MedGemma-1.5. Модель представлена как открытая отправная точка для разработчиков, которые хотят создавать системы обработки медицинских изображений, текста и речи, а затем адаптировать их к местным рабочим процессам и нормативам.
MedGemma 1.5: малая мультимодальная модель для реальных клинических данных
MedGemma — это семейство медицинских генеративных моделей, построенных на основе Gemma. Новый выпуск, MedGemma-1.5-4B, ориентирован на разработчиков, которым нужна компактная модель, способная работать с реальными клиническими данными. Предыдущая модель MedGemma-1-27B остаётся доступной для более требовательных случаев использования, связанных с текстом.
MedGemma-1.5-4B является мультимодальной. Она принимает текст, двумерные изображения, многомерные объёмы и изображения патологии в виде целых слайдов. Модель является частью программы Health AI Developer Foundations, поэтому она предназначена для тонкой настройки, а не как готовое диагностическое устройство.
Поддержка многомерных КТ, МРТ и патологии
Одним из значительных изменений в MedGemma-1.5 является поддержка многомерных изображений. Модель может обрабатывать трёхмерные объёмы КТ и МРТ в виде наборов срезов вместе с подсказкой на естественном языке. Она также может обрабатывать большие гистопатологические слайды, работая с патчами, извлечёнными из слайда.
На внутренних тестах MedGemma-1.5 улучшает точность выявления заболеваний на КТ с 58% до 61% и на МРТ с 51% до 65%, если усреднить результаты по всем заболеваниям. Для гистопатологии показатель ROUGE L для случаев с одним слайдом увеличивается с 0,02 до 0,49. Это соответствует показателю 0,498 ROUGE L для модели PolyPath, специфичной для данной задачи.
Бенчмарки визуализации и извлечения отчётов
MedGemma-1.5 также улучшает несколько бенчмарков, которые ближе к производственным рабочим процессам.
* На бенчмарке Chest ImaGenome для анатомической локализации на рентгеновских снимках грудной клетки модель улучшает пересечение по объединению с 3% до 38%.
* На бенчмарке MS-CXR-T для продольного сравнения рентгеновских снимков грудной клетки макроточность увеличивается с 61% до 66%.
* В рамках внутренних тестов с одним изображением, охватывающих рентгенографию грудной клетки, дерматологию, гистопатологию и офтальмологию, средняя точность повышается с 59% до 62%.
Для разработчиков это означает меньшее количество правил для анализа полуструктурированных PDF-файлов или текстовых отчётов. Приложения, развёрнутые в Google Cloud, теперь могут работать напрямую с DICOM — стандартным форматом файлов, используемым в радиологии. Это устраняет необходимость в специальном предварительном процессоре для многих больничных систем.
Медицинские текстовые рассуждения с MedQA и EHRQA
MedGemma-1.5 — это не только модель для работы с изображениями. Она также улучшает базовую производительность при работе с медицинскими текстами.
* На MedQA, бенчмарке с множественным выбором для ответов на медицинские вопросы, модель 4B повышает точность с 64% до 69% по сравнению с предыдущей MedGemma.
* На EHRQA, бенчмарке по ответам на вопросы в электронных медицинских записях на основе текста, точность повышается с 68% до 90%.
Эти показатели имеют значение, если вы планируете использовать MedGemma-1.5 в качестве основы для таких инструментов, как обобщение диаграмм, обоснование рекомендаций или генерация с дополненным поиском по клиническим заметкам. Размер 4B поддерживает практичные затраты на тонкую настройку и обслуживание.
MedASR: модель автоматического распознавания речи в медицине
В клинических рабочих процессах используется большое количество продиктованной речи. MedASR — это новая модель автоматического распознавания речи в медицине, выпущенная вместе с MedGemma-1.5.
MedASR использует архитектуру на основе Conformer, которая предварительно обучена и настроена для клинического аудио. Она ориентирована на такие задачи, как диктовка рентгенографии грудной клетки, отчёты по радиологии и общие медицинские заметки. Модель доступна через тот же канал Health AI Developer Foundations на Vertex AI и Hugging Face.
При оценке по сравнению с Whisper-large-v3, общей моделью ASR, MedASR снижает количество ошибок в словах при диктовке рентгенографии грудной клетки с 12,5% до 5,2%. Это соответствует уменьшению количества ошибок транскрипции на 58%. На более широком внутреннем медицинском диктант-бенчмарке MedASR достигает 5,2% количества ошибок в словах, в то время как Whisper-large-v3 имеет 28,2%, что соответствует уменьшению ошибок на 82%.
Ключевые выводы
* MedGemma-1.5-4B — это компактная мультимодальная медицинская модель, которая работает с текстом, 2D-изображениями, 3D-объёмами КТ и МРТ, а также с целыми слайдами патологии. Она выпущена в рамках программы Health AI Developer Foundations для адаптации к местным вариантам использования.
* На визуальных бенчмарках MedGemma-1.5 улучшает выявление заболеваний на КТ с 58% до 61%, на МРТ — с 51% до 65%, а показатель ROUGE-L для гистопатологии — с 0,02 до 0,49, соответствуя производительности модели PolyPath.
* Для последующих клинических задач MedGemma-1.5 повышает показатель пересечения по объединению Chest ImaGenome с 3% до 38%, макроточность MS-CXR-T — с 61% до 66% и макро F1 при извлечении лабораторных отчётов — с 60% до 78%, сохраняя размер модели на уровне 4 миллиардов параметров.
* MedGemma-1.5 также улучшает текстовые рассуждения, повышая точность MedQA с 64% до 69% и EHRQA — с 68% до 90%, что делает её подходящей в качестве основы для систем обобщения диаграмм и ответов на вопросы в электронных медицинских записях.
* MedASR, модель автоматического распознавания речи в медицине на основе Conformer, в рамках той же программы сокращает количество ошибок в словах при диктовке рентгенографии грудной клетки с 12,5% до 5,2% и на широком медицинском диктант-бенчмарке — с 28,2% до 5,2% по сравнению с Whisper-large-v3, обеспечивая настроенный под домен интерфейс для работы с MedGemma.
1. Какие возможности предоставляет модель MedGemma-1.5 для разработчиков медицинских ИИ-систем?
MedGemma-1.5 — это компактная мультимодальная медицинская модель, которая работает с текстом, двумерными изображениями, трёхмерными объёмами КТ и МРТ, а также с целыми слайдами патологии. Она выпущена в рамках программы Health AI Developer Foundations для адаптации к местным вариантам использования.
2. Какие улучшения в точности выявления заболеваний демонстрирует MedGemma-1.5 на различных типах медицинских изображений?
На внутренних тестах MedGemma-1.5 улучшает точность выявления заболеваний на КТ с 58% до 61% и на МРТ с 51% до 65%, если усреднить результаты по всем заболеваниям. Для гистопатологии показатель ROUGE L для случаев с одним слайдом увеличивается с 0,02 до 0,49.
3. Какие задачи может решать модель MedASR, выпущенная вместе с MedGemma-1.5?
MedASR — это новая модель автоматического распознавания речи в медицине, которая использует архитектуру на основе Conformer, предварительно обученную и настроенную для клинического аудио. Она ориентирована на такие задачи, как диктовка рентгенографии грудной клетки, отчёты по радиологии и общие медицинские заметки.
4. Какие преимущества даёт использование MedGemma-1.5 для анализа медицинских текстов по сравнению с предыдущими моделями?
На MedQA, бенчмарке с множественным выбором для ответов на медицинские вопросы, модель 4B повышает точность с 64% до 69% по сравнению с предыдущей MedGemma. На EHRQA, бенчмарке по ответам на вопросы в электронных медицинских записях на основе текста, точность повышается с 68% до 90%.
5. Какие параметры модели MedGemma-1.5 позволяют использовать её для практических целей?
Размер модели MedGemma-1.5 составляет 4 миллиарда параметров, что поддерживает практичные затраты на тонкую настройку и обслуживание. Это делает её подходящей для использования в реальных клинических условиях.