В рамках развития открытых технологий в сфере медицинского ИИ компании Google DeepMind и Google Research представили две новые модели в рамках проекта MedGemma:
* MedGemma 27B Multimodal — крупномасштабная модель для обработки визуальной и текстовой информации;
* MedSigLIP — лёгкий кодировщик медицинских изображений и текста.
Эти модели являются наиболее мощными среди открытых моделей, выпущенных на сегодняшний день в рамках Health AI Developer Foundations (HAI-DEF).
Архитектура MedGemma
Модель MedGemma основана на трансформере Gemma 3 и расширяет его возможности в области здравоохранения за счёт интеграции мультимодальной обработки и настройки для конкретной предметной области.
Семейство MedGemma предназначено для решения основных задач в области клинического ИИ, а именно:
* неоднородность данных;
* ограниченное супервизия по конкретным задачам;
* необходимость эффективного развёртывания в реальных условиях.
Модели обрабатывают как медицинские изображения, так и клинические тексты, что делает их особенно полезными для таких задач, как диагностика, составление отчётов, поиск информации и агентское рассуждение.
MedGemma 27B Multimodal: масштабирование мультимодального мышления в здравоохранении
Модель MedGemma 27B Multimodal представляет собой значительный шаг вперёд по сравнению с её текстовым предшественником. Она включает в себя усовершенствованную архитектуру для обработки визуальной и текстовой информации, оптимизированную для сложных медицинских рассуждений, включая понимание электронных медицинских записей (EHR) и принятие решений на основе изображений.
Основные характеристики:
* Ввод: модель принимает как медицинские изображения, так и текст через единый интерфейс.
* Архитектура: использует декодер трансформатора с 27 миллиардами параметров с произвольным чередованием изображений и текста, оснащённый кодировщиком изображений высокого разрешения (896×896).
* Видеонакодер: использует ядро SigLIP-400M, настроенное на 33 миллионах и более пар медицинских изображений и текстов, включая крупномасштабные данные из радиологии, гистопатологии, офтальмологии и дерматологии.
Производительность:
* Достигает точности 87,7% на MedQA (текстовый вариант), превосходя все открытые модели с менее чем 50 миллиардами параметров.
* Демонстрирует надёжные возможности в агентских средах, таких как AgentClinic, обрабатывая многоэтапное принятие решений в рамках симулированных диагностических потоков.
* Обеспечивает сквозное рассуждение по истории пациента, клиническим изображениям и геномике — критически важно для персонализированного планирования лечения.
Клинические варианты использования:
* мультимодальное ответы на вопросы (VQA-RAD, SLAKE);
* генерация радиологических отчётов (MIMIC-CXR);
* кросс-модальный поиск (поиск по тексту и изображению);
* симулированные клинические агенты (AgentClinic-MIMIC-IV).
Ранние оценки показывают, что MedGemma 27B Multimodal конкурирует с более крупными закрытыми моделями, такими как GPT-4o и Gemini 2.5 Pro, в задачах, специфичных для предметной области, при этом будучи полностью открытой и более эффективной с точки зрения вычислений.
MedSigLIP: лёгкий, настроенный для предметной области кодировщик изображений и текста
MedSigLIP — это кодировщик визуальной и текстовой информации, адаптированный из SigLIP-400M и оптимизированный специально для приложений в области здравоохранения. Несмотря на меньший масштаб, он играет основополагающую роль в обеспечении визуальных возможностей как для MedGemma 4B, так и для MedGemma 27B Multimodal.
Основные возможности:
* Лёгкость: с 400 миллионами параметров и уменьшенным разрешением (448×448) модель поддерживает развёртывание на периферии и мобильный вывод.
* Готовность к линейному зондированию: модель демонстрирует конкурентоспособность в задачах медицинской классификации без тонкой настройки под конкретные задачи.
* Кросс-доменная генерализация: превосходит специализированные модели, работающие только с изображениями, в дерматологии, офтальмологии, гистопатологии и радиологии.
Оценка:
* Рентгенограммы грудной клетки (CXR14, CheXpert): превосходит модель-основатель ELIXR, используемую в HAI-DEF, на 2% по AUC.
* Дерматология (US-Derm MCQA): достигает 0,881 AUC при линейном зондировании по 79 кожным заболеваниям.
* Офтальмология (EyePACS): обеспечивает 0,857 AUC при классификации диабетической ретинопатии по 5 классам.
* Гистопатология: соответствует или превосходит современные методы в классификации подтипов рака (например, колоректального, предстательной железы, молочной железы).
Модель использует усреднённое косинусное сходство между встраиванием изображений и текста для классификации без обучения и поиска. Кроме того, настройка линейного зонда (логистическая регрессия) позволяет эффективно настраивать модель с минимальным объёмом размеченных данных.
Развёртывание и интеграция в экосистему
Обе модели являются полностью открытыми, с весами, скриптами для обучения и учебными пособиями, доступными через репозиторий MedGemma. Они полностью совместимы с инфраструктурой Gemma и могут быть интегрированы в конвейеры с использованием инструментов или агентов на основе LLM, используя менее 10 строк кода Python.
Поддержка квантования и дистилляции моделей позволяет развёртывать их на мобильных устройствах без значительной потери производительности. Важно отметить, что MedGemma 4B и MedSigLIP могут быть развёрнуты на одном GPU, а более крупные модели, такие как вариант на 27 миллиардов параметров, остаются доступными для академических лабораторий и учреждений с умеренными вычислительными бюджетами.
Заключение
Выпуск MedGemma 27B Multimodal и MedSigLIP свидетельствует о зрелости стратегии открытых исходников в разработке ИИ для здравоохранения. Эти модели демонстрируют, что при правильной адаптации к предметной области и использовании эффективных архитектур высокопроизводительный медицинский ИИ не обязательно должен быть проприетарным или непомерно дорогим.
Сочетая сильные встроенные рассуждения с модульной адаптивностью, эти модели снижают входной барьер для создания приложений клинического уровня — от систем сортировки и диагностических агентов до мультимодальных инструментов поиска.
1. Какие основные задачи в области клинического ИИ решают модели MedGemma и MedSigLIP?
Ответ: модели MedGemma и MedSigLIP предназначены для решения основных задач в области клинического ИИ, таких как работа с неоднородными данными, ограниченное супервизия по конкретным задачам и эффективное развёртывание в реальных условиях. Они обрабатывают медицинские изображения и клинические тексты, что делает их полезными для диагностики, составления отчётов, поиска информации и агентского рассуждения.
2. Какие характеристики и особенности архитектуры делают модель MedGemma 27B Multimodal эффективной для медицинских рассуждений?
Ответ: модель MedGemma 27B Multimodal включает усовершенствованную архитектуру для обработки визуальной и текстовой информации, оптимизированную для сложных медицинских рассуждений. Она использует декодер трансформатора с 27 миллиардами параметров, кодировщик изображений высокого разрешения (896×896) и ядро SigLIP-400M, настроенное на 33 миллионах и более парах медицинских изображений и текстов.
3. Какие клинические варианты использования демонстрируют модели MedGemma и MedSigLIP?
Ответ: клинические варианты использования моделей MedGemma и MedSigLIP включают мультимодальные ответы на вопросы (VQA-RAD, SLAKE), генерацию радиологических отчётов (MIMIC-CXR), кросс-модальный поиск (поиск по тексту и изображению) и симулированные клинические агенты (AgentClinic-MIMIC-IV).
4. Какие преимущества имеют модели MedGemma и MedSigLIP по сравнению с более крупными закрытыми моделями?
Ответ: ранние оценки показывают, что MedGemma 27B Multimodal конкурирует с более крупными закрытыми моделями, такими как GPT-4o и Gemini 2.5 Pro, в задачах, специфичных для предметной области, при этом будучи полностью открытой и более эффективной с точки зрения вычислений. Модель MedSigLIP также демонстрирует конкурентоспособность в задачах медицинской классификации без тонкой настройки под конкретные задачи.
5. Какие возможности предоставляет модель MedSigLIP для развёртывания на периферии и мобильный вывод?
Ответ: модель MedSigLIP с 400 миллионами параметров и уменьшенным разрешением (448×448) поддерживает развёртывание на периферии и мобильный вывод. Это делает её подходящей для использования в мобильных устройствах и других периферийных устройствах.