Почему важно выходить за рамки чрезмерно агрегированных метрик машинного обучения

Исследователи из Массачусетского технологического института (MIT) обнаружили существенные примеры сбоев моделей машинного обучения, когда эти модели применяются к данным, отличным от тех, на которых они были обучены. Это поднимает вопросы о необходимости тестирования всякий раз, когда модель внедряется в новой среде.

«Мы демонстрируем, что даже когда вы обучаете модели на больших объёмах данных и выбираете лучшую среднюю модель, в новой среде эта „лучшая модель“ может оказаться худшей для 6–75% новых данных», — говорит Марзье Гасемми, доцент кафедры электротехники и компьютерных наук (EECS) MIT, член Института медицинской инженерии и наук и главный исследователь в Лаборатории информационных и управляющих систем.

В статье, представленной на конференции Neural Information Processing Systems (NeurIPS 2025) в декабре, исследователи отмечают, что модели, обученные эффективно диагностировать заболевания на рентгеновских снимках грудной клетки в одной больнице, могут считаться эффективными в другой больнице в среднем. Однако оценка производительности исследователей показала, что некоторые из наиболее эффективных моделей в первой больнице оказались наименее эффективными для до 75% пациентов во второй больнице, хотя при агрегировании всех пациентов во второй больнице высокая средняя производительность скрывает эти сбои.

Выводы исследователей

Их выводы демонстрируют, что, хотя ложные корреляции (например, когда система машинного обучения, не «увидев» многих коров на пляже, классифицирует фотографию идущей по пляжу коровы как косатку просто из-за фона) считаются смягчаемыми путём улучшения производительности модели на наблюдаемых данных, они всё равно возникают и остаются риском для надёжности модели в новых условиях.

В случае модели медицинской диагностики, обученной на рентгеновских снимках грудной клетки, модель могла научиться коррелировать конкретную и нерелевантную маркировку на рентгеновских снимках одной больницы с определённой патологией. В другой больнице, где маркировка не используется, эта патология может быть пропущена.

Предыдущие исследования группы Гасемми показали, что модели могут ложно коррелировать такие факторы, как возраст, пол и раса, с медицинскими выводами. Если, например, модель была обучена на рентгеновских снимках грудной клетки пожилых людей с пневмонией и не «видела» столько рентгеновских снимков, принадлежащих молодым людям, она может предсказать, что только у пожилых пациентов есть пневмония.

«Мы хотим, чтобы модели научились смотреть на анатомические особенности пациента и затем принимать решение на основе этого», — говорит Олавале Салаудин, постдок MIT и ведущий автор статьи. «Но на самом деле всё, что коррелирует с решением в данных, может быть использовано моделью. И эти корреляции могут оказаться ненадёжными при изменении условий, что делает прогнозы модели ненадёжным источником для принятия решений».

Ложные корреляции способствуют рискам предвзятого принятия решений. В статье, представленной на конференции NeurIPS, исследователи показали, что, например, модели рентгеновских снимков грудной клетки, которые улучшили общую диагностику, на самом деле работали хуже с пациентами с плевральными заболеваниями или увеличенным кардиомедиастинумом, что означает увеличение сердца или центральной грудной полости.

Другие авторы статьи — аспиранты Хаоран Чжан и Кумаил Альхамуд, доцент кафедры EECS Сара Бери и Гасемми.

Алгоритм OODSelect

Хотя предыдущие работы в целом признавали, что модели, упорядоченные от лучших к худшим по производительности, сохранят этот порядок при применении в новых условиях (так называемая точность по линии), исследователи смогли продемонстрировать примеры, когда наиболее эффективные модели в одной среде оказывались наименее эффективными в другой.

Салаудин разработал алгоритм под названием OODSelect, чтобы находить примеры, где точность по линии была нарушена. По сути, он обучил тысячи моделей, используя данные из первого набора условий, и рассчитал их точность. Затем он применил модели к данным из второго набора условий. Когда те, у кого была самая высокая точность по данным первого набора условий, ошибались при применении к большому проценту примеров во втором наборе условий, это позволило выявить проблемные подмножества или подгруппы.

Салаудин также подчёркивает опасность агрегированной статистики для оценки, которая может скрывать более детальную и важную информацию о производительности модели.

В ходе своей работы исследователи выделили «наиболее неверно рассчитанные примеры», чтобы не смешивать ложные корреляции в наборе данных с ситуациями, которые просто трудно классифицировать.

Статья NeurIPS выпускает код исследователей и некоторые идентифицированные подмножества для будущей работы.

Как только больница или любая организация, использующая машинное обучение, выявит подмножества, в которых модель работает плохо, эта информация может быть использована для улучшения модели для её конкретной задачи и условий. Исследователи рекомендуют будущим разработчикам использовать OODSelect, чтобы выделить цели для оценки и разработать подходы для более последовательного повышения производительности.

«Мы надеемся, что выпущенный код и подмножества OODSelect станут ступенькой», — пишут исследователи, — «к созданию эталонов и моделей, которые противостоят негативным последствиям ложных корреляций».

1. Почему важно тестировать модели машинного обучения в новых условиях?

Ответ: исследователи из Массачусетского технологического института обнаружили, что модели машинного обучения, обученные на больших объёмах данных, могут оказаться неэффективными в новой среде. Это связано с тем, что модели могут научиться коррелировать нерелевантные факторы с целевыми переменными, что делает их прогнозы ненадёжными в новых условиях.

2. Какие риски связаны с использованием чрезмерно агрегированных метрик для оценки производительности моделей машинного обучения?

Ответ: агрегированные метрики могут скрывать информацию о производительности модели в подгруппах данных. Например, модель, имеющая высокую среднюю производительность, может оказаться неэффективной для определённых подмножеств данных, что может привести к неправильным решениям.

3. Как алгоритм OODSelect помогает выявлять проблемные подмножества данных?

Ответ: алгоритм OODSelect разработан для выявления примеров, где точность модели по линии была нарушена. Он обучает тысячи моделей на данных из первого набора условий и рассчитывает их точность. Затем модели применяются к данным из второго набора условий, и те, у кого была самая высокая точность по данным первого набора, могут ошибаться при применении к большому проценту примеров во втором наборе. Это позволяет выявить проблемные подмножества или подгруппы данных.

4. Какие рекомендации дают исследователи разработчикам моделей машинного обучения?

Ответ: исследователи рекомендуют разработчикам использовать алгоритм OODSelect для выделения целей для оценки и разработки подходов для более последовательного повышения производительности моделей. Они также призывают к созданию эталонов и моделей, которые противостоят негативным последствиям ложных корреляций.

5. Какие последствия могут возникнуть из-за использования моделей машинного обучения, обученных на основе ложных корреляций?

Ответ: использование моделей, обученных на основе ложных корреляций, может привести к предвзятому принятию решений и снижению надёжности моделей в новых условиях. Например, модель, обученная на рентгеновских снимках грудной клетки пожилых людей с пневмонией, может предсказывать наличие пневмонии только у пожилых пациентов, игнорируя возможность заболевания у молодых людей.

Источник