Предположим, учёный-эколог изучает, связано ли воздействие загрязнения воздуха с более низким весом при рождении в определённом округе.
Он может обучить модель машинного обучения, чтобы оценить величину этой связи, поскольку методы машинного обучения особенно хорошо справляются с изучением сложных взаимосвязей.
Стандартные методы машинного обучения превосходно справляются с прогнозированием и иногда предоставляют неопределённости, например, доверительные интервалы для этих прогнозов. Однако они обычно не предоставляют оценки или доверительные интервалы при определении связи между двумя переменными.
🔬 Проблема доверительных интервалов в пространственных данных
Для решения этой проблемы были разработаны другие методы. Но исследователи из MIT обнаружили, что в пространственных условиях эти доверительные интервалы могут быть совершенно неточными.
Когда такие переменные, как уровень загрязнения воздуха или осадки, изменяются в разных местах, общепринятые методы построения доверительных интервалов могут утверждать высокий уровень уверенности, когда на самом деле оценка полностью не отражает фактическое значение. Эти ошибочные доверительные интервалы могут ввести пользователя в заблуждение, заставив поверить в модель, которая не сработала.
🔬 Новый метод
Исследователи разработали новый метод, предназначенный для построения действительных доверительных интервалов для задач, связанных с данными, которые изменяются в пространстве. В ходе моделирования и экспериментов с реальными данными их метод оказался единственной техникой, которая последовательно генерировала точные доверительные интервалы.
Эта работа может помочь исследователям в таких областях, как экология, экономика и эпидемиология, лучше понять, когда можно доверять результатам определённых экспериментов.
«Существует множество проблем, когда люди заинтересованы в изучении явлений в пространстве, таких как погода или управление лесами. Мы показали, что для этого широкого класса задач существуют более подходящие методы, которые могут обеспечить более высокую производительность, лучшее понимание происходящего и более надёжные результаты», — говорит Тамара Бродерик, доцент кафедры электротехники и компьютерных наук (EECS) Массачусетского технологического института (MIT), член Лаборатории информационных и управляющих систем (LIDS) и Института данных, систем и общества, сотрудник Лаборатории компьютерных наук и искусственного интеллекта (CSAIL), и старший автор этого исследования.
Неверные предположения
Пространственная связь предполагает изучение того, как переменная и определённый результат связаны в географической области. Например, можно изучить, как лесной покров в Соединённых Штатах связан с высотой над уровнем моря.
Чтобы решить этот тип задачи, учёный может собрать данные наблюдений из многих мест и использовать их для оценки связи в другом месте, где у него нет данных.
Исследователи MIT обнаружили, что в этом случае существующие методы часто генерируют совершенно неверные доверительные интервалы. Модель может утверждать, что на 95% уверена, что её оценка отражает истинную связь между лесным покровом и высотой над уровнем моря, хотя на самом деле она не уловила эту связь вообще.
После изучения этой проблемы исследователи определили, что предположения, на которых основаны методы доверительных интервалов, не выполняются, когда данные изменяются пространственно.
📊 Предположения
Предположения — это правила, которые необходимо соблюдать, чтобы результаты статистического анализа были достоверными.
Во-первых, предполагается, что исходные данные, собранные для обучения модели, независимы и одинаково распределены. Но, например, датчики качества воздуха Агентства по охране окружающей среды США (EPA) размещаются с учётом расположения других датчиков.
Во-вторых, существующие методы часто предполагают, что модель абсолютно верна, но это предположение никогда не бывает верным на практике.
Наконец, предполагается, что исходные данные похожи на целевые данные, где нужно провести оценку. Но в пространственных условиях исходные данные могут существенно отличаться от целевых данных, поскольку целевые данные находятся в другом месте, чем исходные данные.
Например, учёный может использовать данные датчиков загрязнения воздуха EPA для обучения модели машинного обучения, которая может прогнозировать последствия для здоровья в сельской местности, где нет датчиков. Но датчики загрязнения воздуха EPA, вероятно, размещены в городских районах, где больше транспорта и тяжёлой промышленности, поэтому данные о качестве воздуха будут сильно отличаться от данных о качестве воздуха в сельской местности.
В этом случае оценки связи с использованием городских данных страдают от систематической ошибки, поскольку целевые данные систематически отличаются от исходных данных.
Гладкое решение
Новый метод построения доверительных интервалов явно учитывает эту потенциальную систематическую ошибку.
Вместо того чтобы предполагать, что исходные и целевые данные похожи, исследователи предполагают, что данные плавно изменяются в пространстве.
Например, с мелкими частицами загрязнения воздуха не следует ожидать, что уровень загрязнения на одном городском квартале будет резко отличаться от уровня загрязнения на следующем городском квартале. Вместо этого уровни загрязнения будут плавно снижаться по мере удаления от источника загрязнения.
«Для этих типов задач предположение о пространственной гладкости более уместно. Оно лучше соответствует тому, что на самом деле происходит в данных», — говорит Бродерик.
Когда они сравнили свой метод с другими распространёнными методами, они обнаружили, что он был единственным, который мог последовательно генерировать надёжные доверительные интервалы для пространственного анализа. Кроме того, их метод остаётся надёжным, даже когда данные наблюдений искажены случайными ошибками.
В будущем исследователи хотят применить этот анализ к различным типам переменных и изучить другие приложения, где он может обеспечить более надёжные результаты.
Это исследование было частично профинансировано грантом MIT Social and Ethical Responsibilities of Computing (SERC), Управлением военно-морских исследований, Generali, Microsoft и Национальным научным фондом (NSF).
1. Какие проблемы существуют при использовании стандартных методов машинного обучения для определения связи между двумя переменными в пространственных данных?
Ответ: стандартные методы машинного обучения не всегда предоставляют точные оценки или доверительные интервалы при определении связи между двумя переменными, особенно в пространственных условиях. Они могут генерировать неточные доверительные интервалы, которые могут ввести пользователя в заблуждение.
2. Какие предположения лежат в основе существующих методов построения доверительных интервалов, и почему они могут быть неверными в случае пространственных данных?
Ответ: предположения, на которых основаны методы доверительных интервалов, включают независимость и одинаковое распределение исходных данных, абсолютную верность модели и схожесть исходных и целевых данных. Однако в пространственных условиях эти предположения могут не выполняться, что приводит к неверным доверительным интервалам.
3. В чём заключается новый метод построения доверительных интервалов, разработанный исследователями MIT, и как он учитывает потенциальную систематическую ошибку в пространственных данных?
Ответ: новый метод учитывает потенциальную систематическую ошибку в пространственных данных, предполагая, что данные плавно изменяются в пространстве. Это более соответствует тому, что происходит в данных, и позволяет последовательно генерировать надёжные доверительные интервалы для пространственного анализа.
4. Какие преимущества имеет новый метод по сравнению с другими распространёнными методами построения доверительных интервалов?
Ответ: новый метод имеет несколько преимуществ по сравнению с другими методами. Он последовательно генерирует надёжные доверительные интервалы для пространственного анализа, даже когда данные наблюдений искажены случайными ошибками. Это делает его более подходящим для использования в различных областях, таких как экология, экономика и эпидемиология.
5. Какие перспективы у нового метода в будущем?
Ответ: исследователи планируют применить этот анализ к различным типам переменных и изучить другие приложения, где он может обеспечить более надёжные результаты. Это может помочь исследователям в таких областях, как экология, экономика и эпидемиология, лучше понять, когда можно доверять результатам определённых экспериментов.