Исследователи из Стэнфордского университета в сотрудничестве с ETH Zurich, а также технологическими лидерами, включая Google Research и Amazon, представили OpenTSLM — новое семейство языковых моделей временных рядов (TSLM).
Преодоление критического ограничения
Существенный прорыв призван преобразовать искусственный интеллект в здравоохранении. Текущие модели больших языковых моделей (LLM) сталкиваются с трудностями при интерпретации и анализе сложных непрерывных медицинских данных временных рядов, таких как ЭКГ, ЭЭГ и данные с носимых датчиков.
Ограничения LLM в анализе временных рядов
Медицина по своей сути является временной. Точная диагностика во многом зависит от отслеживания изменений жизненно важных показателей, биомаркеров и сложных сигналов. Несмотря на распространение цифровых технологий в здравоохранении, самые передовые модели искусственного интеллекта с трудом обрабатывают эти необработанные непрерывные данные.
Основная проблема заключается в «проблеме модальности» — разнице между непрерывными сигналами (например, сердцебиением) и дискретными текстовыми токенами, которые понимают LLM. Предыдущие попытки преодолеть этот разрыв путём преобразования сигналов в текст оказались неэффективными и трудно масштабируемыми.
Почему модели Vision-Language (VLM) неэффективны для анализа данных временных рядов
Распространённым обходным решением было преобразование данных временных рядов в статические изображения (линейные графики) и ввод их в передовые модели Vision-Language (VLM). Однако исследование OpenTSLM демонстрирует, что этот подход удивительно неэффективен для точного анализа медицинских данных.
VLM в основном обучаются на естественных фотографиях; они распознают объекты и сцены, а не плотную последовательную динамику визуализаций данных. Когда высокочастотные сигналы, такие как ЭКГ, преобразуются в пиксели, теряется важная детализированная информация. Тонкие временные зависимости и высокочастотные изменения, жизненно важные для выявления сердечных аритмий или определённых стадий сна, становятся незаметными.
Исследование подтверждает, что VLM значительно сложнее при анализе этих графиков, подчёркивая, что временные ряды должны рассматриваться как отдельная модальность данных, а не просто как картинка.
Представляем OpenTSLM: нативный подход к модальности
OpenTSLM интегрирует временные ряды как нативную модальность непосредственно в предварительно обученные LLM (такие как Llama и Gemma), обеспечивая естественный языковой запрос и рассуждения над сложными медицинскими данными.
Исследовательская группа изучила две различные архитектуры:
1. OpenTSLM-SoftPrompt (неявное моделирование)
Этот подход кодирует данные временных рядов в обучаемые токены, которые затем объединяются с текстовыми токенами (мягкое побуждение). Хотя этот метод эффективен для коротких всплесков данных, он плохо масштабируется. Более длинные последовательности требуют экспоненциально больше памяти, что делает его непрактичным для всестороннего анализа.
2. OpenTSLM-Flamingo (явное моделирование)
Вдохновлённый архитектурой Flamingo, это прорывное решение для масштабируемости. Он явно моделирует временные ряды как отдельную модальность. Он использует специализированный кодировщик и преобразователь Perceiver для создания представления данных фиксированного размера, независимо от его длины, и объединяет его с текстом с помощью управляемого перекрёстного внимания.
OpenTSLM-Flamingo поддерживает стабильные требования к памяти даже при работе с обширными потоками данных. Например, при обучении на комплексном анализе данных ЭКГ вариант Flamingo требовал всего 40 ГБ видеопамяти, по сравнению с 110 ГБ для варианта SoftPrompt, использующего ту же основу LLM.
Прорывы в производительности: превосходство над GPT-4o
Результаты демонстрируют явное превосходство специализированного подхода TSLM. Для оценки производительности команда создала три новых набора данных Chain-of-Thought (CoT), ориентированных на медицинские рассуждения: HAR-CoT (распознавание активности), Sleep-CoT (стадирование сна ЭЭГ) и ECG-QA-CoT (ответы на вопросы по ЭКГ).
Распознавание активности: OpenTSLM достиг 65,4% F1-меры.
Стадирование сна: OpenTSLM достиг 69,9% F1-меры, значительно превзойдя лучший из настроенных только текстовых базовых показателей (9,05%).
Примечательно, что даже маломасштабные модели OpenTSLM (1 миллиард параметров) значительно превзошли GPT-4o. Независимо от того, обрабатывали ли данные в виде текстовых токенов (где GPT-4o набрал всего 15,47% в Sleep-CoT) или в виде изображений, модель переднего края не смогла сравниться со специализированными TSLM.
Этот вывод подчёркивает, что специализированные, адаптированные к предметной области архитектуры искусственного интеллекта могут достигать превосходных результатов без масштабного подхода, открывая путь для эффективного развёртывания медицинского искусственного интеллекта на устройствах.
Клиническая валидация в Стэнфордской больнице: обеспечение доверия и прозрачности
Важным элементом медицинского искусственного интеллекта является доверие. В отличие от традиционных моделей, которые выдают одну классификацию, OpenTSLM генерирует удобочитаемые обоснования (Chain-of-Thought), объясняя свои прогнозы. Эта прозрачность искусственного интеллекта жизненно важна для клинических условий.
Чтобы проверить качество этих рассуждений, был проведён экспертный обзор с участием пяти кардиологов из Стэнфордской больницы. Они оценили обоснования, сгенерированные моделью OpenTSLM-Flamingo для интерпретации ЭКГ.
Оценка показала, что модель предоставила правильную или частично правильную интерпретацию ЭКГ в 92,9% случаев. Модель продемонстрировала исключительную силу в интеграции клинического контекста (85,1% положительных оценок), демонстрируя сложные возможности рассуждения над необработанными данными датчиков.
Будущее мультимодального машинного обучения
Внедрение OpenTSLM знаменует собой значительный прогресс в мультимодальном машинном обучении. Эффективно преодолевая разрыв между LLM и данными временных рядов, это исследование закладывает основу для универсальных TSLM, способных работать с разнообразными продольными данными не только в здравоохранении, но и в финансах, промышленном мониторинге и других областях.
Чтобы ускорить инновации в этой области, команды Стэнфорда и ETH Zurich сделали весь код, наборы данных и веса обученных моделей открытыми.
Ознакомиться с документом можно здесь. Инструкции, код и записные книжки можно найти на нашей странице GitHub. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit ML численностью более 100 тысяч человек. Подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там.
1. Какие проблемы существующих больших языковых моделей (LLM) решает OpenTSLM?
Ответ: OpenTSLM решает проблему интерпретации и анализа сложных непрерывных медицинских данных временных рядов, таких как ЭКГ, ЭЭГ и данные с носимых датчиков, с которыми сталкиваются текущие модели LLM.
2. Почему модели Vision-Language (VLM) оказались неэффективными для анализа данных временных рядов?
Ответ: Модели VLM обучаются на естественных фотографиях и распознают объекты и сцены, а не плотную последовательную динамику визуализаций данных. При преобразовании высокочастотных сигналов, таких как ЭКГ, в пиксели теряется важная детализированная информация, и тонкие временные зависимости становятся незаметными.
3. Какие два подхода к моделированию временных рядов представлены в OpenTSLM?
Ответ: В OpenTSLM представлены два подхода к моделированию временных рядов: OpenTSLM-SoftPrompt (неявное моделирование) и OpenTSLM-Flamingo (явное моделирование). Первый кодирует данные временных рядов в обучаемые токены, которые затем объединяются с текстовыми токенами. Второй явно моделирует временные ряды как отдельную модальность, используя специализированный кодировщик и преобразователь Perceiver для создания представления данных фиксированного размера.
4. Какие результаты были получены при тестировании OpenTSLM на медицинских данных?
Ответ: Результаты тестирования OpenTSLM на медицинских данных показали явное превосходство специализированного подхода TSLM. Например, в задаче распознавания активности OpenTSLM достиг 65,4% F1-меры, а в задаче стадирования сна ЭЭГ — 69,9% F1-меры. Даже маломасштабные модели OpenTSLM (1 миллиард параметров) значительно превзошли GPT-4o.
5. Как обеспечивается доверие к модели OpenTSLM в клинических условиях?
Ответ: Доверие к модели OpenTSLM в клинических условиях обеспечивается за счёт генерации удобочитаемых обоснований (Chain-of-Thought), объясняющих её прогнозы. Экспертный обзор с участием кардиологов из Стэнфордской больницы показал, что модель предоставила правильную или частично правильную интерпретацию ЭКГ в 92,9% случаев.