Учёные любят горячие статистические дискуссии. Когда речь заходит о поиске аналогов Земли или признаков биосигнатур в атмосфере, такие дискуссии могут иметь реальные последствия как для распределения дополнительных ресурсов наблюдения, так и для общего понимания человечеством своего места во Вселенной.
В новой статье, опубликованной на сервере препринтов arXiv, два известных охотника за экзопланетами, Дэвид Киппинг из Колумбийского университета и Бьёрн Беннеке из Калифорнийского университета в Лос-Анджелесе, утверждают, что их коллеги в области обнаружения экзопланет десятилетиями неправильно проводили статистику, и предлагают способ лучше представлять свои результаты общественности.
Хотя статистика может показаться далёкой от общего процесса освоения космоса, она абсолютно критична для развития науки. Чтобы доказать существование явления (или планеты) вне всяких сомнений, данные должны поддерживать определённое количество «статистической значимости». Для этого существует математическая формула, известная как теорема Байеса, но также есть и базовое человеческое понимание. И, похоже, путаница заключается в том, как перевести математику в нечто, что общественность может понять и принять относительно научного открытия.
Перевод, подробно описанный в статье, касается перехода от байесовской статистики (то есть вероятности того, что что-то произошло, а не произошло) к «частотной статистике» (то есть тому, насколько удивительно, что это произошло). В частотных терминах это обычно называют «сигма-значением» по названию греческой буквы, используемой в его математическом описании. И это сигма-значение лежит в основе конфликта, согласно статье.
Сигма-значения приобрели известность благодаря своей роли в открытии бозона Хиггса на Большом адронном коллайдере в 2012 году. Его статистическая значимость в «пять сигм» ввела концепцию частотной статистики в публичный дискурс о науке и с тех пор служит отправной точкой для этих разговоров.
Существует математическая формула для перевода байесовской статистики в частотную, и метод, обычно используемый охотниками за экзопланетами, был изложен в статье 2001 года группой статистиков. Последующая статья 2013 года, более адаптированная к потребностям охотников за экзопланетами (и написанная в соавторстве с одним из авторов новой статьи — доктором Беннеке), ещё больше укрепила использование этого преобразования в научной литературе. Однако типографская ошибка в статье 2013 года могла способствовать неверному толкованию значимости статистики — там упоминалось «по крайней мере» сигма-значение, тогда как должно было быть сказано «не более».
Авторы утверждают, что с первых дней охоты за экзопланетами её практики неверно представляли вероятность своих открытий, неверно истолковав коэффициент преобразования из байесовского в частотный язык.
Один из конкретных примеров, на который они обращают внимание, — недавнее (и, по общему признанию, уже спорное) обнаружение диметилсульфида (ДМС) в атмосфере экзопланеты K2-18b. Они утверждают, что, учитывая ограничения байесовских факторов, в заголовке статьи, представляющей доказательства этого открытия, должно было быть указано, что значимость составляет «менее трёх сигм».
Хотя это может показаться мелочью, суть в том, чтобы продемонстрировать, что значимость может быть значительно меньше трёх сигм, что ставит под сомнение само открытие. Это может быть не так для этого конкретного открытия, но небрежная статистическая методология может привести к запутанным результатам в будущем.
Что же делать? Существует несколько более строгих статистических методов для преобразования между байесовской и частотной статистикой, но авторам гораздо проще просто использовать сами байесовские факторы. Представление о том, что публика не привыкла к их использованию, неверно — в азартных играх традиционно используются байесовские факторы, хотя они описываются там как «коэффициенты».
Если учёные, занимающиеся экзопланетами, начнут использовать этот привычный язык, возможно, их результаты будут более широко приняты. Или, возможно, другой лагерь или конкурирующие охотники за экзопланетами опубликуют статью в журнале, наполненную мемами, о необходимости частотной статистики. В любом случае наука будет продолжать развиваться по мере сбора дополнительных данных, и дискуссии о том, что означают эти данные, будут продолжаться до тех пор, пока есть учёные, готовые спорить об этом.