Команда Google Health AI выпустила MedASR — модель преобразования речи в текст на основе архитектуры Conformer. Она предназначена для клинической диктовки и разговоров между врачами и пациентами и разработана для интеграции в современные рабочие процессы с использованием искусственного интеллекта.
Что такое MedASR и как она используется?
MedASR — это модель преобразования речи в текст, основанная на архитектуре Conformer. Она предварительно обучена для медицинской диктовки и транскрипции. Модель позиционируется как отправная точка для разработчиков, которые хотят создавать приложения для здравоохранения, основанные на распознавании голоса, такие как инструменты для диктовки в радиологии или системы для записи заметок о визитах пациентов.
Модель имеет 105 миллионов параметров и принимает одноканальное аудио с частотой 16 000 герц и 16-битными целыми волновыми формами. Она выдаёт только текстовый вывод, поэтому может быть напрямую интегрирована в системы обработки естественного языка или генеративные модели, такие как MedGemma.
MedASR входит в портфель Health AI Developer Foundations вместе с MedGemma, MedSigLIP и другими медицинскими моделями, которые имеют общие условия использования и согласованную систему управления.
Данные для обучения и специализация по предметной области
MedASR обучена на разнообразном корпусе деидентифицированной медицинской речи. Набор данных включает около 5 000 часов диктовки врачей и клинических разговоров в области радиологии, внутренней медицины и семейной медицины.
Для обучения пары аудиосегментов сопоставляются с транскриптами и метаданными. Подмножества разговорных данных аннотируются медицинскими именованными сущностями, включая симптомы, лекарства и состояния. Это даёт модели хорошее покрытие клинической лексики и фраз, которые используются в рутинной документации.
Модель предназначена только для английского языка, и большинство обучающих аудиозаписей получены от носителей языка, выросших в Соединённых Штатах. В документации отмечается, что производительность может быть ниже для других профилей говорящих или при использовании шумных микрофонов, и рекомендуется тонкая настройка для таких условий.
Архитектура и декодирование
MedASR следует дизайну кодировщика Conformer. Conformer сочетает в себе блоки свёртки с уровнями самовнимания, что позволяет улавливать локальные акустические закономерности и более длительные временные зависимости в одном стеке.
Модель представлена в виде автоматизированного детектора речи с интерфейсом в стиле CTC. В эталонной реализации разработчики используют AutoProcessor для создания входных функций из аудиоданных в виде волновых форм и AutoModelForCTC для получения последовательностей токенов. По умолчанию используется жадное декодирование. Модель также может быть объединена с внешней шестиграммовой языковой моделью с лучевым поиском размером 8 для повышения точности распознавания слов.
Результаты на задачах медицинской речи
Ключевые результаты с жадным декодированием и с шестиграммовой языковой моделью:
* RAD DICT, диктовка радиолога: MedASR жадное — 6,6%, MedASR плюс языковая модель — 4,6%, Gemini 2.5 Pro — 10,0%, Gemini 2.5 Flash — 24,4%, Whisper v3 Large — 25,3%.
* GENERAL DICT, общая и внутренняя медицина: MedASR жадное — 9,3%, MedASR плюс языковая модель — 6,9%, Gemini 2.5 Pro — 16,4%, Gemini 2.5 Flash — 27,1%, Whisper v3 Large — 33,1%.
* FM DICT, семейная медицина: MedASR жадное — 8,1%, MedASR плюс языковая модель — 5,8%, Gemini 2.5 Pro — 14,6%, Gemini 2.5 Flash — 19,9%, Whisper v3 Large — 32,5%.
* Eye Gaze, диктовка по 998 случаям рентгенографии грудной клетки MIMIC: MedASR жадное — 6,6%, MedASR плюс языковая модель — 5,2%, Gemini 2.5 Pro — 5,9%, Gemini 2.5 Flash — 9,3%, Whisper v3 Large — 12,5%.
Рабочий процесс разработчика и варианты развёртывания
Минимальный пример конвейера:
«`
from transformers import pipeline
import huggingface_hub
audio = huggingfacehub.hfhubdownload(«google/medasr», «testaudio.wav»)
pipe = pipeline(«automatic-speech-recognition», model=»google/medasr»)
result = pipe(audio, chunklengths=20, stridelengths=2)
print(result)
«`
Для большего контроля разработчики загружают AutoProcessor и AutoModelForCTC, пересчитывают аудио до 16 000 герц с помощью librosa, перемещают тензоры в CUDA, если доступно, и вызывают model.generate, а затем processor.batch_decode.
Ключевые выводы
* MedASR — это лёгкая модель преобразования речи в текст на основе Conformer с открытыми весами. Она имеет 105 миллионов параметров, обучена специально для медицинской диктовки и транскрипции и выпущена в рамках программы Health AI Developer Foundations как модель только для английского языка для разработчиков в сфере здравоохранения.
* Обучение по предметной области на основе около 5 000 часов деидентифицированной медицинской аудиозаписи: MedASR предварительно обучена на диктовке врачей и клинических разговорах по таким специальностям, как радиология, внутренняя медицина и семейная медицина, что обеспечивает ей хорошее покрытие клинической терминологии по сравнению с системами преобразования речи в текст общего назначения.
* Конкурентные или более высокие показатели ошибок распознавания слов на тестах медицинской диктовки: в наборах данных по внутренней радиологии, общей медицине, семейной медицине и Eye Gaze модель MedASR с жадным декодированием или с языковой моделью соответствует или превосходит крупные общие модели, такие как Gemini 2.5 Pro, Gemini 2.5 Flash и Whisper v3 Large, по показателю ошибок распознавания слов для английской медицинской речи.
1. Какие особенности архитектуры MedASR позволяют ей эффективно работать с медицинской речью?
Ответ: MedASR основана на архитектуре Conformer, которая сочетает в себе блоки свёртки с уровнями самовнимания. Это позволяет модели улавливать локальные акустические закономерности и более длительные временные зависимости в одном стеке.
2. Какие данные использовались для обучения MedASR и как это влияет на её производительность в медицинской транскрипции?
Ответ: MedASR обучена на разнообразном корпусе деидентифицированной медицинской речи, включая около 5 000 часов диктовки врачей и клинических разговоров в области радиологии, внутренней медицины и семейной медицины. Это обеспечивает модели хорошее покрытие клинической лексики и фраз, которые используются в рутинной документации.
3. Какие результаты показала MedASR в сравнении с другими моделями на задачах медицинской речи?
Ответ: В сравнении с другими моделями, такими как Gemini 2.5 Pro, Gemini 2.5 Flash и Whisper v3 Large, MedASR продемонстрировала конкурентные или более высокие показатели ошибок распознавания слов на тестах медицинской диктовки. Например, на задаче RAD DICT (диктовка радиолога) MedASR с жадным декодированием показала результат 6,6%, а с добавлением языковой модели — 4,6%.
4. Какие минимальные требования для использования MedASR в рабочем процессе разработчика?
Ответ: Для использования MedASR в рабочем процессе разработчик может использовать минимальный пример конвейера, который включает загрузку модели и аудиофайла, а затем вызов pipeline для получения результата транскрипции. Для большего контроля разработчики могут загружать AutoProcessor и AutoModelForCTC, пересчитывать аудио до 16 000 герц с помощью librosa, перемещать тензоры в CUDA, если доступно, и вызывать model.generate, а затем processor.batch_decode.
5. Какие преимущества предоставляет MedASR разработчикам в сфере здравоохранения?
Ответ: MedASR предоставляет разработчикам в сфере здравоохранения лёгкую модель преобразования речи в текст на основе Conformer с открытыми весами. Она обучена специально для медицинской диктовки и транскрипции, что делает её полезной для создания приложений для здравоохранения, основанных на распознавании голоса.