От статистической значимости хотят избавиться

Некоторое время ученые обсуждали, что делать с одним из самых известных инструментов, используемых для описания научной достоверости, концепцией «статистической значимости». Некоторые думают, что все в порядке. Другие хотят сделать ее меньше, в то время как третьи спорят в пользу его устранения вообще.

Перефразируя известную цитату Уинстона Черчилля, p-value уже давно был худшим способом отличить полезные идеи в науке от всякой лажи… за исключением всех других методов, которые время от времени пытались сделать то же самое.

На самом деле это не вина p. Само по себе значение просто говорит вам, насколько вероятно, что вы поддержали не ту лошадь в своем эксперименте. Обычно, если значение падает ниже 0,05, это означает, что вероятность того, что нулевая гипотеза-объяснение ваших наблюдений, которые не являются частью вашей блестящей идеи, – меньше пяти процентов, – это то, что действительно стоит за вашими результатами.

Почему пять процентов? Потому что история, правда. Это лучше, чем 10 процентов, но при этом она не так строго, как один процент. Есть куча статистических инструментов, которые исследователи могут использовать, чтобы рассчитать этот показатель значимости. Проблемы возникают, когда мы пытаемся перевести этот математический идеал в нечто, что мы могли бы обрабатывать и сравнивать.

Вместе с исполнительным директором американской статистической ассоциации и отставным вице-президентом Mathematica Policy Research Алленом Ширмом, статистик Университета Джорджии Николь Лазар написал статью, передающую антологию размышлений о том, как мы могли бы сделать лучше, чем «p».

Очевидно, что есть способы, которыми вероятностная цифра может принести нам пользу, но только если мы не делаем глупых вещей с ней, например, предполагая, что она дает больше, чем на самом деле.

«Мы должны научиться воспринимать неопределенность», — пишут некоторые из авторов в Nature. — Один из практических способов сделать это-переименовать доверительные интервалы как «интервалы совместимости» и интерпретировать их таким образом, чтобы избежать самоуверенности».

Это не просто новый облик p-value. Для этого потребуется, чтобы исследователи активно описывали практические последствия ценностей в этих интервалах. Конечная цель состояла бы в том, чтобы установить практику, которая избегала бы отсечения, приводящего к истинному или ложному мышлению, и вместо этого усиливала бы неопределенность, лежащую в основе научного метода.