Повышение способности моделей искусственного интеллекта объяснять свои прогнозы

В ситуациях с высокими ставками, например, в медицинской диагностике, пользователи часто хотят знать, что привело модель компьютерного зрения к определённому прогнозу, чтобы определить, можно ли доверять её выводам.

Моделирование узкого места концепций

Одним из методов, позволяющих системам искусственного интеллекта объяснить процесс принятия решений, является моделирование узкого места концепций. Эти методы заставляют модель глубокого обучения использовать набор понятных человеку концепций для прогнозирования.

В новом исследовании учёные из Массачусетского технологического института (MIT) разработали метод, который побуждает модель достигать более высокой точности и давать более чёткие и краткие объяснения.

Концепции, которые использует модель, обычно заранее определяются экспертами. Например, врач может предложить использовать такие понятия, как «сгруппированные коричневые точки» и «вариативная пигментация», чтобы предсказать, что на медицинском изображении показана меланома.

Однако ранее определённые концепции могут быть неактуальны или недостаточно детализированы для конкретной задачи, что снижает точность модели. Новый метод извлекает концепции, которым модель уже научилась во время обучения для выполнения этой конкретной задачи, и заставляет модель использовать их, давая более качественные объяснения, чем стандартные модели узкого места концепций.

Подход

Подход использует пару специализированных моделей машинного обучения, которые автоматически извлекают знания из целевой модели и переводят их в понятные человеку концепции. В итоге их метод может преобразовать любую предварительно обученную модель компьютерного зрения в модель, которая может использовать концепции для объяснения своих рассуждений.

«В каком-то смысле мы хотим иметь возможность читать мысли этих моделей компьютерного зрения. Модель узкого места концепций — это один из способов для пользователей узнать, о чём модель думает и почему она сделала определённый прогноз. Поскольку наш метод использует более качественные концепции, он может привести к более высокой точности и в конечном итоге повысить подотчётность моделей искусственного интеллекта, работающих по принципу „чёрного ящика“», — говорит ведущий автор Антонио Де Сантис, аспирант Политехнического университета Милана.

Создание более эффективного узкого места

Модели узкого места концепций (CBM) — популярный подход для повышения объяснимости искусственного интеллекта. Эти методы добавляют промежуточный шаг, заставляя модель компьютерного зрения прогнозировать концепции, присутствующие на изображении, а затем использовать эти концепции для принятия окончательного прогноза.

Этот промежуточный шаг, или «узкое место», помогает пользователям понять логику модели. Например, модель, которая идентифицирует виды птиц, может выбрать такие концепции, как «жёлтые лапы» и «синие крылья», прежде чем предсказать, что это ласточка.

Однако, поскольку эти концепции часто генерируются заранее людьми или большими языковыми моделями (LLM), они могут не соответствовать конкретной задаче. Кроме того, даже если задан набор предопределённых концепций, модель иногда всё равно использует нежелательную изученную информацию, что является проблемой, известной как утечка информации.

Исследователи из MIT предложили другой подход: поскольку модель была обучена на огромном объёме данных, она, возможно, усвоила концепции, необходимые для генерации точных прогнозов для конкретной задачи. Они стремились создать CBM, извлекая эти существующие знания и преобразовав их в текст, понятный человеку.

В первом шаге их метода специализированная модель глубокого обучения, называемая разрежённым автоэнкодером, выборочно берёт наиболее релевантные функции, которым модель научилась, и реконструирует их в несколько концепций. Затем мультимодальная LLM описывает каждую концепцию простым языком.

Этот мультимодальный LLM также аннотирует изображения в наборе данных, определяя, какие концепции присутствуют и отсутствуют на каждом изображении. Исследователи используют этот аннотированный набор данных для обучения модуля узкого места концепций, чтобы распознавать концепции.

Они включают этот модуль в целевую модель, заставляя её делать прогнозы, используя только набор изученных концепций, которые исследователи извлекли.

Контроль концепций

Они преодолели множество проблем при разработке этого метода, от обеспечения правильной аннотации LLM концепций до определения того, идентифицировал ли разрежённый автоэнкодер понятные человеку концепции.

Чтобы модель не использовала неизвестные или нежелательные концепции, они ограничивают её использование только пятью концепциями для каждого прогноза. Это также заставляет модель выбирать наиболее релевантные концепции и делает объяснения более понятными.

Когда они сравнили свой подход с современными CBM в таких задачах, как прогнозирование видов птиц и выявление поражений кожи на медицинских изображениях, их метод достиг наивысшей точности, предоставляя при этом более точные объяснения.

Их подход также генерировал концепции, которые были более применимы к изображениям в наборе данных.

«Мы показали, что извлечение концепций из исходной модели может превосходить другие CBM, но всё ещё существует компромисс между интерпретируемостью и точностью, который необходимо решить. Чёрные модели, которые не являются интерпретируемыми, всё ещё превосходят наши», — говорит Де Сантис.

В будущем исследователи хотят изучить потенциальные решения проблемы утечки информации, возможно, путём добавления дополнительных модулей узкого места концепций, чтобы нежелательные концепции не могли просочиться. Они также планируют масштабировать свой метод, используя более крупный мультимодальный LLM для аннотирования большего обучающего набора данных, что может повысить производительность.

«Я в восторге от этой работы, потому что она продвигает интерпретируемый искусственный интеллект в очень многообещающем направлении и создаёт естественный мост к символическому искусственному интеллекту и графам знаний», — говорит Андреас Хотхо, профессор и глава кафедры Data Science в Университете Вюрцбурга, который не участвовал в этой работе. «Выводя концепции узкого места из внутренних механизмов модели, а не только из концепций, определённых человеком, он предлагает путь к более точным объяснениям модели и открывает множество возможностей для последующей работы со структурированными знаниями».

Это исследование было поддержано стипендией Progetto Rocca, Итальянским министерством университетов и исследований в рамках Национального плана восстановления и resilience, Thales Alenia Space и Европейским союзом в рамках проекта NextGenerationEU.

1. Какие проблемы решает новый метод моделирования узкого места концепций, разработанный учёными из Массачусетского технологического института?

Ответ: новый метод решает проблему недостаточной точности и объяснимости моделей искусственного интеллекта. Он позволяет моделям использовать более качественные концепции для объяснения своих рассуждений, что повышает их точность и подотчётность.

2. Какие методы используются для извлечения и преобразования концепций в понятные человеку формы в новом подходе?

Ответ: для извлечения концепций используется разрежённый автоэнкодер, который выборочно берёт наиболее релевантные функции, которым модель научилась, и реконструирует их в несколько концепций. Затем мультимодальная LLM описывает каждую концепцию простым языком и аннотирует изображения в наборе данных, определяя, какие концепции присутствуют и отсутствуют на каждом изображении.

3. Почему ограничение использования моделью только пяти концепций для каждого прогноза важно?

Ответ: ограничение использования моделью только пятью концепциями для каждого прогноза важно, чтобы модель не использовала неизвестные или нежелательные концепции. Это также заставляет модель выбирать наиболее релевантные концепции и делает объяснения более понятными.

4. В чём заключается преимущество нового метода по сравнению с современными CBM (моделями узкого места концепций)?

Ответ: преимущество нового метода заключается в том, что он может превосходить другие CBM в таких задачах, как прогнозирование видов птиц и выявление поражений кожи на медицинских изображениях. Он также генерирует концепции, которые более применимы к изображениям в наборе данных.

5. Какие перспективы открывает новое исследование в области интерпретируемого искусственного интеллекта?

Ответ: новое исследование открывает перспективы для более точных объяснений моделей искусственного интеллекта и создаёт мост к символическому искусственному интеллекту и графам знаний. Это может привести к более глубокому пониманию работы моделей и повышению их прозрачности и подотчётности.

Источник