P-значение (англ.P-value), p-уровень значимости, p-критерий — вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики (среднего арифметического, медианы и др.), по сравнению с ранее наблюдаемым, при условии, что нулевая гипотеза верна.
Пример вычисления P-значения. Вертикальная координата — плотность вероятности каждого результата, вычисленная для нулевой гипотезы . Величина P-значения — область под кривой, ограниченной по оси абсцисс наблюдаемой точкой данных.
Пусть — статистика, используемая при тестировании некоторой нулевой гипотезы . Предполагается, что если нулевая гипотеза справедлива, то распределение этой статистики известно. Обозначим функцию распределения . P-значение чаще всего (при проверке правосторонней альтернативы) определяется как:
При проверке левосторонней альтернативы,
В случае двустороннего теста p-значение равно:
Если p(t) меньше заданного уровня значимости, то нулевая гипотеза отвергается в пользу альтернативной. В противном случае она не отвергается.
Преимуществом данного подхода является то, что видно при каком уровне значимости нулевая гипотеза будет отвергнута, а при каких принята, то есть виден уровень надежности статистических выводов, точнее вероятность ошибки при отвержении нулевой гипотезы. При любом уровне значимости больше нулевая гипотеза отвергается, а при меньших значениях — нет.
Критика
Использование p-значений для проверки нулевых гипотез в работах по медицине, естественным наукам подвергается критике со стороны многих специалистов. Отмечается, что их использование нередко приводят к ошибкам первого рода (false positive)[7]. В частности, журнал Basic and Applied Social Psychology (BASP) в 2015 году вовсе запретил публикацию статей, в которых используются p-значения. Редакторы журнала объяснили это тем, что сделать исследование, в котором получено p < 0,05 не очень сложно, и такие низкие значения p слишком часто становятся оправданием для низкопробных исследований[8].
Неправильная интерпретация P-значений
Широко распространено мнение о том, что P-значения часто неверно интерпретируются и неправильно используются.[9][10][11]
Одна из практик, подвергшихся особой критике, заключается в принятии альтернативной гипотезы для любого P-значения, номинально меньшего 0,05 без других подтверждающих доказательств. Хотя P-значения полезны при оценке того, насколько несовместимы данные с данной статистической моделью, необходимо также учитывать контекстуальные факторы, такие как «дизайн исследования, качество измерений, внешние доказательства изучаемого явления и обоснованность предположений, лежащих в основе анализа данных».[11] Еще одна проблема заключается в том, что P-значение часто неверно понимается как вероятность того, что нулевая гипотеза верна.[11][12]
Некоторые специалисты предложили заменить P-значения на альтернативные метрики доказательности,[11] такие как доверительный интервал,[13][14]отношение правдоподобий,[15][16]
или отношение апостериорных вероятностей (Bayes factors),[17][18][19]
однако продолжается острая дискуссия о возможности применения таких альтернатив.[20][21]
Другие специалисты предложили убрать фиксированные пороговые значения значимости и интерпретировать P-значения как непрерывные величины, характеризующие величину доказательств, направленных против правдоподобия нулевой гипотезы.[22][23]
↑ Colquhoun, David (2014). “An investigation of the false discovery rate and the misinterpretation of p-values”. Royal Society Open Science. 1: 140216. DOI:10.1098/rsos.140216.
↑ Marden, John I. (December 2000). “Hypothesis Testing: From p Values to Bayes Factors”. Journal of the American Statistical Association. 95 (452): 1316. DOI:10.2307/2669779.
Goodman, S. N.ruen.Aligning statistical and scientific reasoning: Misunderstanding and misuse of statistical significance impede science: [англ.]// Science.— 2016.— Vol.352, no.6290.— P.1180—1181.— DOI:10.1126/science.aaf5406.
Halsey, L. G.The fickle P value generates irreproducible results: [англ.]/ L. G. Halsey, D. Curran-Everett, S. L. Vowler [et al.]// Nature Methods.— 2015.— Vol.12, no.3.— P.179—185.— DOI:10.1038/nmeth.3288.
Nuzzo, R.Statistical errors: P values, the “gold standard” of statistical validity, are not as reliable as many scientists assume: [англ.]// Nature.— 2014.— Vol.506, no.7487.— P.150—152.— DOI:10.1038/506150a.
Taroni, F.Statistical hypothesis testing and common misinterpretations: Should we abandon p-value in forensic science applications?: [англ.]/ F. Taroni, A. Biedermann, S. Bozza// Forensic Science Internationalruen.— 2016.— Vol.259(February).— P.e32-e36.— DOI:10.1016/j.forsciint.2015.11.013.
Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.
2019-2025 WikiSort.ru - проект по пересортировке и дополнению контента Википедии