Неидеальное поведение моделей: популярные программные инструменты могут давать ошибочные прогнозы

Некоторые модели, используемые для прогнозирования всего — от финансовых тенденций до популяций животных в экосистеме, некорректны, — утверждает статистик Университета штата Айдахо.

В новой статье, опубликованной в [PLOS One](https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0333993), Джесси Уиллер, доцент кафедры математики и статистики в Университете штата Айдахо, и его соавтор Эдвард Ионидес, профессор статистики в Мичиганском университете, утверждают, что алгоритмы, лежащие в основе моделей авторегрессии интегрированного скользящего среднего (ARIMA) в двух распространённых программных средах, дают не столь точные оценки параметров.

В статистике оценки параметров — это оценки, которые используют собранные данные выборки для вывода о совокупности.

«Это как если бы у вас был калькулятор, который утверждает, что правильно складывает два плюс два, но иногда выдаёт неправильный ответ, например, два плюс два равно три», — объясняет Уиллер, эксперт в области статистики и вычислений. «Мы часто полагаемся на статистическое программное обеспечение, как на калькулятор, поэтому, если калькулятор сообщает вам, что выдаёт определённую оценку параметра, он должен делать это с очень высокой точностью».

Модели ARIMA являются одними из наиболее часто используемых для анализа данных, собранных с течением времени. Они используются для связи текущего значения чего-либо — скажем, цены на яйца или количества медведей, живущих на определённом участке леса, — с прошлыми значениями того же измерения. Это позволяет исследователям учитывать закономерности и тенденции в исторических данных, способствуя [научным открытиям](https://phys.org/tags/scientific+discovery/) и прогнозированию будущих значений.

«Модели ARIMA обычно являются первыми временными рядами, с которыми студенты знакомятся в классе», — говорит Уиллер. «Их преподают не только на курсах статистики, но и на курсах из других дисциплин, потому что они очень полезны. Модели ARIMA также обычно являются базовым сравнением при разработке новых алгоритмов статистики и машинного обучения».

В ходе исследования Уиллера и Ионидеса, посвящённого программному обеспечению, используемому для моделей ARIMA, они обнаружили и устранили потенциальную проблему оптимизации в алгоритме оценки максимального правдоподобия — алгоритме, который использует данные выборки для подбора [статистической модели](https://phys.org/tags/statistical+model/), — используемом программным обеспечением, что приводило к неоптимальным оценкам параметров. В свою очередь, по словам Уиллера, неоптимальные оценки параметров могут повлиять на точность прогнозирования и другие статистические анализы, зависящие от точных значений параметров.

«Большинство практикующих даже не подозревают о существовании проблемы. Мы обнаружили, что оценки максимального правдоподобия программного обеспечения не были полностью оптимизированы, что приводило к ненадёжным оценкам параметров», — сказал Уиллер. «Алгоритмы, которые используются, утверждают, что максимизируют вероятность модели, но не делают этого в удивительно большом количестве случаев — до 60% времени — в зависимости от данных и модели».

В дополнение к выявлению ошибок исследователи предлагают новый алгоритм для решения этой проблемы и демонстрируют, что он работает в R.

«Модели ARIMA используются каждый день исследователями и профессионалами в отрасли для прогнозирования и научного анализа во многих областях — экономике, здравоохранении, метеорологии и других», — сказал Уиллер.

«Если программное обеспечение, оценивающее эти модели, имеет недостатки, это может привести к неожиданным результатам или ошибочным решениям. Выявляя и исправляя эти проблемы в подходе максимального правдоподобия, это исследование помогает гарантировать, что практики и исследователи могут полагаться на результаты, что в конечном итоге улучшает процесс принятия решений и научное понимание. Даже постепенные улучшения точности оценки могут иметь значительное влияние в реальном мире».

Предоставлено [Университетом штата Айдахо](https://phys.org/partners/idaho-state-university/)

Источник