«Среднее по Хуберу» для геометрических данных защищает от шума и выбросов

В эпоху сложных данных учёные всё чаще сталкиваются с информацией, которая не укладывается на плоских евклидовых поверхностях. От трёхмерных медицинских сканов до ориентации роботов и преобразований в ИИ — большая часть современных данных находится в искривлённых геометрических пространствах, называемых римановыми многообразиями. Точный анализ таких данных остаётся сложной задачей, особенно когда шум или выбросы искажают результаты.

Профессор Джонмин Ли из Департамента статистики Пусанского национального университета в сотрудничестве с профессором Сонгю Джуном из Сеульского национального университета разработали новый статистический метод — среднее по Хуберу. Этот метод предназначен для повышения надёжности и точности анализа данных на искривлённых пространствах. Исследование опубликовано в Журнале Королевского статистического общества, серия B: Статистическая методология 25 августа 2025 года.

«Наше исследование представляет собой надёжное обобщение классического среднего Фреше на римановых многообразиях», — сказал Ли. — «Это обеспечивает большую устойчивость к выбросам и повышает надёжность статистического анализа геометрических данных».

Среднее по Хуберу автоматически адаптируется к структуре данных, используя L₂ (метод наименьших квадратов) для типичных наблюдений и L₁ (абсолютное отклонение) для больших отклонений. Этот баланс позволяет достичь точки разрушения 0,5, что означает надёжность оценки даже при наличии половины выбросов или экстремальных значений в данных. Исследование также содержит теоретические гарантии существования, уникальности, сходимости и несмещённости оценки, а также новый вычислительный алгоритм, который быстро сходится на практике.

«Этот метод обеспечивает более надёжный анализ данных в неевклидовых условиях, что имеет потенциальное применение в таких областях, как компьютерное зрение, медицинская визуализация и анализ форм», — пояснил Ли.

В медицинской визуализации среднее по Хуберу может улучшить усреднение данных о форме мозга или органов, что приведёт к более точным диагнозам. В робототехнике это может помочь системам лучше интерпретировать данные о движении и ориентации даже в шумных или непредсказуемых условиях. В ИИ и машинном обучении метод может сделать модели, работающие с геометрическими данными (связанными вращениями, графами или преобразованиями), более устойчивыми и справедливыми.

«Предоставляя основу для надёжного и геометрически осознанного анализа данных, это исследование может незаметно поддержать следующее поколение надёжного ИИ, точной медицины и интеллектуальных технологий, взаимодействующих с реальным миром», — добавил Ли.

Предоставлено Пусанским национальным университетом.

Источник