Зачем нужна конфиденциальность пациентов?
Клятва Гиппократа, считающаяся одним из самых ранних и широко известных текстов по медицинской этике в мире, гласит: «Всё, что я увижу или услышу в жизни моих пациентов, будь то в связи с моей профессиональной практикой или нет, что не следует обсуждать вне, я сохраню в тайне, считая всё такое частным».
В эпоху алгоритмов, жаждущих данных, и кибератак конфиденциальность становится всё более дефицитной. Медицина — одна из немногих оставшихся областей, где конфиденциальность остаётся центральной в практике, позволяя пациентам доверять своим врачам конфиденциальную информацию.
Исследование MIT
Но в статье, написанной в соавторстве с исследователями MIT, изучается, как модели искусственного интеллекта, обученные на обезличенных электронных медицинских записях (EMR), могут запоминать информацию, специфичную для пациента. Работа, представленная на конференции 2025 года по обработке нейронной информации (NeurIPS), рекомендует тщательно протестировать модели, чтобы убедиться, что целевые запросы не могут раскрыть информацию.
Подчёркивается, что утечка должна оцениваться в контексте здравоохранения, чтобы определить, нарушает ли она конфиденциальность пациентов.
Модели, обученные на EMR, обычно обобщают знания для более точных прогнозов, используя множество записей пациентов. Но при «запоминании» модель использует данные одного пациента для формирования вывода, что может нарушать конфиденциальность. Примечательно, что модели-основы уже известны своей склонностью к утечке данных.
«Знания в этих моделях с высокой ёмкостью могут быть ресурсом для многих сообществ, но злоумышленники могут побудить модель извлечь информацию из обучающих данных», — говорит Сана Тонекабони, постдок в Центре Эрика и Венди Шмидт в Институте Броуда при MIT и Гарварде и первый автор статьи.
Практические шаги для обеспечения конфиденциальности
Учитывая риск того, что базовые модели могут запоминать конфиденциальные данные, она отмечает: «Эта работа — шаг к тому, чтобы убедиться, что у нашего сообщества есть практические шаги по оценке, прежде чем выпускать модели».
Для проведения исследования потенциального риска, который модели EMR могут представлять в медицине, Тонекабони обратилась к доценту MIT Марзие Гассеми. Гассеми, член лаборатории информатики и искусственного интеллекта, руководит группой Healthy ML, которая занимается надёжным машинным обучением в здравоохранении.
Оценка рисков утечки данных
Насколько много информации нужно злоумышленнику, чтобы раскрыть конфиденциальные данные, и каковы риски, связанные с утечкой информации? Для оценки этого исследовательская группа разработала серию тестов, которые, как они надеются, заложат основу для будущих оценок конфиденциальности.
«Мы действительно постарались сделать акцент на практичности. Если злоумышленнику нужно знать дату и значение дюжины лабораторных анализов из вашей карты, чтобы извлечь информацию, риск вреда невелик. Если у меня уже есть доступ к такому уровню защищённых исходных данных, зачем мне атаковать большую базовую модель?» — говорит Гассеми.
С неизбежной оцифровкой медицинских записей утечки данных стали более распространёнными. За последние 24 месяца Министерство здравоохранения и социальных служб США зарегистрировало 747 утечек данных, затрагивающих более 500 человек, большинство из которых были классифицированы как хакерские/IT-инциденты.
Пациенты с уникальными заболеваниями особенно уязвимы, учитывая, как легко их выделить. «Даже при обезличенных данных всё зависит от того, какую информацию вы раскрываете об индивидууме, — говорит Тонекабони. — Как только вы их идентифицируете, вы узнаете гораздо больше».
В своих структурированных тестах исследователи обнаружили, что чем больше информации у злоумышленника о конкретном пациенте, тем больше вероятность, что модель выдаст конфиденциальные данные. Они продемонстрировали, как отличить случаи обобщения модели от запоминания на уровне пациента, чтобы правильно оценить риск для конфиденциальности.
В статье также подчёркивается, что некоторые утечки более вредны, чем другие. Например, модель, раскрывающая возраст пациента или демографические данные, может быть охарактеризована как менее серьёзная утечка, чем модель, раскрывающая более конфиденциальную информацию, такую как диагноз ВИЧ или злоупотребление алкоголем.
Исследователи отмечают, что пациенты с уникальными заболеваниями особенно уязвимы, учитывая, как легко их выделить, что может потребовать более высокого уровня защиты.
Работа поддержана Центром Эрика и Венди Шмидт в Институте Броуда при MIT и Гарварде, Wallenberg AI, Фондом Кнута и Алисы Валленберг, Национальным научным фондом США (NSF), наградой Фонда Гордона и Бетти Мур, стипендией для исследователей Google и программой AI2050 в Schmidt Sciences. Ресурсы, использованные при подготовке этого исследования, были предоставлены частично провинцией Онтарио, правительством Канады через CIFAR и компаниями, спонсирующими Векторный институт.
1. Какие риски связаны с запоминанием данных моделями искусственного интеллекта в медицине?
Модели искусственного интеллекта, обученные на обезличенных электронных медицинских записях (EMR), могут запоминать информацию, специфичную для пациента. Это может нарушать конфиденциальность и приводить к утечке данных.
2. Какие практические шаги предлагаются для обеспечения конфиденциальности при использовании моделей искусственного интеллекта в медицине?
Для проведения исследования потенциального риска, который модели EMR могут представлять в медицине, исследователи разработали серию тестов. Эти тесты помогут заложить основу для будущих оценок конфиденциальности. Также отмечается важность оценки моделей перед их выпуском.
3. Какие типы данных считаются более конфиденциальными в контексте медицинских записей?
Некоторые утечки данных более вредны, чем другие. Например, модель, раскрывающая возраст пациента или демографические данные, может быть охарактеризована как менее серьёзная утечка, чем модель, раскрывающая более конфиденциальную информацию, такую как диагноз ВИЧ или злоупотребление алкоголем.
4. Почему пациенты с уникальными заболеваниями особенно уязвимы в контексте утечек данных?
Пациенты с уникальными заболеваниями особенно уязвимы, учитывая, как легко их выделить. Даже при обезличенных данных всё зависит от того, какую информацию вы раскрываете об индивидууме. Как только вы их идентифицируете, вы узнаете гораздо больше. Это может потребовать более высокого уровня защиты.
5. Какие организации и фонды поддержали исследование, упомянутое в статье?
Работа поддержана Центром Эрика и Венди Шмидт в Институте Броуда при MIT и Гарварде, Wallenberg AI, Фондом Кнута и Алисы Валленберг, Национальным научным фондом США (NSF), наградой Фонда Гордона и Бетти Мур, стипендией для исследователей Google и программой AI2050 в Schmidt Sciences. Ресурсы, использованные при подготовке этого исследования, были предоставлены частично провинцией Онтарио, правительством Канады через CIFAR и компаниями, спонсирующими Векторный институт.