Как обеспечить конфиденциальность данных в искусственном интеллекте: фреймворк PAC Privacy и его преимущества

Защита конфиденциальности данных имеет свою цену. Существуют методы обеспечения безопасности, которые защищают чувствительные данные пользователей, такие как адреса клиентов, от злоумышленников, которые могут попытаться извлечь их из моделей искусственного интеллекта. Однако эти методы часто снижают точность моделей.

Исследователи из Массачусетского технологического института (MIT) недавно разработали фреймворк, основанный на новой метрике конфиденциальности под названием PAC Privacy. Этот фреймворк позволяет сохранять производительность модели искусственного интеллекта, одновременно обеспечивая безопасность чувствительных данных, таких как медицинские изображения или финансовые записи, от злоумышленников. Теперь они сделали свою методику более вычислительно эффективной, улучшив компромисс между точностью и конфиденциальностью, и создали формальный шаблон, который можно использовать для придания конфиденциальности практически любому алгоритму без необходимости доступа к его внутреннему устройству.

Команда применила новую версию PAC Privacy для придания конфиденциальности нескольким классическим алгоритмам для анализа данных и задач машинного обучения. Они также продемонстрировали, что более «стабильные» алгоритмы легче поддаются конфиденциальной обработке с помощью их метода. Прогнозы стабильного алгоритма остаются согласованными, даже когда его обучающие данные слегка изменяются. Большая стабильность помогает алгоритму делать более точные прогнозы на ранее не встречавшихся данных.

Исследователи утверждают, что повышенная эффективность новой системы PAC Privacy и четырёхшаговый шаблон, которому можно следовать для её реализации, упростят применение этой методики в реальных ситуациях.

«Мы склонны считать надёжность и конфиденциальность несвязанными с созданием высокопроизводительного алгоритма или даже входящими в противоречие с ним. Сначала мы создаём работающий алгоритм, затем делаем его надёжным, а потом конфиденциальным. Мы показали, что это не всегда правильная постановка вопроса. Если вы сделаете ваш алгоритм более эффективным в различных условиях, вы, по сути, получите конфиденциальность бесплатно», — говорит Маюри Шридхар, аспирантка MIT и ведущий автор статьи об этой системе обеспечения конфиденциальности.

Чтобы защитить чувствительные данные, которые использовались для обучения модели искусственного интеллекта, инженеры часто добавляют в модель шум или общую случайность, чтобы злоумышленнику было сложнее угадать исходные обучающие данные. Этот шум снижает точность модели, поэтому чем меньше шума добавляется, тем лучше.

PAC Privacy автоматически оценивает наименьшее количество шума, которое необходимо добавить в алгоритм для достижения желаемого уровня конфиденциальности. Исходный алгоритм PAC Privacy запускает пользовательскую модель искусственного интеллекта множество раз на разных выборках набора данных. Он измеряет дисперсию, а также корреляции между этими многочисленными выходами и использует эту информацию для оценки того, сколько шума необходимо добавить для защиты данных.

Новый вариант PAC Privacy работает таким же образом, но ему не нужно представлять всю матрицу корреляций данных по выходам; ему нужны только дисперсии выходов.

«Поскольку то, что вы оцениваете, намного меньше всей ковариационной матрицы, вы можете сделать это намного быстрее», — объясняет Шридхар. Это означает, что можно масштабировать до гораздо больших наборов данных.

Добавление шума может снизить полезность результатов, и важно минимизировать потери полезности. Из-за вычислительных затрат исходный алгоритм PAC Privacy был ограничен добавлением изотропного шума, который добавляется равномерно во всех направлениях. Поскольку новая версия оценивает анизотропный шум, адаптированный к конкретным характеристикам обучающих данных, пользователь может добавить меньше общего шума для достижения того же уровня конфиденциальности, повышая точность конфиденциального алгоритма.

Как она изучала PAC Privacy, Шридхар выдвинула гипотезу о том, что более стабильные алгоритмы будет легче сделать конфиденциальными с помощью этой методики. Она использовала более эффективный вариант PAC Privacy, чтобы проверить эту теорию на нескольких классических алгоритмах.

Алгоритмы, которые более стабильны, имеют меньшую дисперсию выходов при небольшом изменении обучающих данных. PAC Privacy разбивает набор данных на фрагменты, запускает алгоритм на каждом фрагменте данных и измеряет дисперсию между выходами. Чем больше дисперсия, тем больше шума необходимо добавить для придания конфиденциальности алгоритму.

Используя методы стабилизации для уменьшения дисперсии выходов алгоритма, можно также уменьшить количество шума, необходимое для его конфиденциальной обработки, объясняет она.

Команда показала, что эти гарантии конфиденциальности остаются сильными независимо от тестируемого алгоритма и что новый вариант PAC Privacy требует на порядок меньше испытаний для оценки шума. Они также протестировали метод в симуляциях атак, продемонстрировав, что его гарантии конфиденциальности могут противостоять самым современным атакам.

«Мы хотим изучить, как алгоритмы могут быть разработаны совместно с PAC Privacy, чтобы алгоритм с самого начала был более стабильным, безопасным и надёжным», — говорит Девадас. Исследователи также хотят протестировать свой метод на более сложных алгоритмах и further explore the privacy-utility tradeoff.

«Вопрос теперь в том: когда происходят эти беспроигрышные ситуации и как мы можем сделать так, чтобы они происходили чаще?» — говорит Шридхар.

«Я думаю, что ключевое преимущество PAC Privacy в этой настройке по сравнению с другими определениями конфиденциальности заключается в том, что это чёрный ящик — вам не нужно вручную анализировать каждый отдельный запрос, чтобы сделать результаты конфиденциальными. Это можно сделать полностью автоматически. Мы активно создаём базу данных с поддержкой PAC, расширяя существующие SQL-движки для поддержки практических, автоматизированных и эффективных частных аналитических данных», — говорит Сянъяо Ю, доцент кафедры компьютерных наук Университета Висконсин-Мэдисон, который не участвовал в этом исследовании.

Это исследование частично поддерживается компаниями Cisco Systems и Capital One, Министерством обороны США и стипендией MathWorks.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *