WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

P-значение (англ. P-value), p-уровень значимости, p-критерий — вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики (среднего арифметического, медианы и др.), по сравнению с ранее наблюдаемым, при условии, что нулевая гипотеза верна.

Особенностью P-значений является их неустойчивость на эквивалентных выборках, что может стать препятствием для воспроизводимости результатов эксперимента^[1]^[2]^[3]. Альтернативы использованию P-значений включают такие методы, как оценочная статистика^ru_en и фактор Байеса^ru_en^[4]^[5]^[6].

Формальное определение и процедура тестирования

Пусть $T(X)$ — статистика, используемая при тестировании некоторой нулевой гипотезы $H_{0}$ . Предполагается, что если нулевая гипотеза справедлива, то распределение этой статистики известно. Обозначим функцию распределения $F(t)=P(T<t)$ . P-значение чаще всего (при проверке правосторонней альтернативы) определяется как:

$P(t)=P(T>t)=1-F(t)$

При проверке левосторонней альтернативы,

$P_{0}(t)=P(T<t)=F(t)$

В случае двустороннего теста p-значение равно:

$P(t)=2\min(P_{0},P)$

Если p(t) меньше заданного уровня значимости, то нулевая гипотеза отвергается в пользу альтернативной. В противном случае она не отвергается.

Преимуществом данного подхода является то, что видно при каком уровне значимости нулевая гипотеза будет отвергнута, а при каких принята, то есть виден уровень надежности статистических выводов, точнее вероятность ошибки при отвержении нулевой гипотезы. При любом уровне значимости больше $p$ нулевая гипотеза отвергается, а при меньших значениях — нет.

Критика

Использование p-значений для проверки нулевых гипотез в работах по медицине, естественным наукам подвергается критике со стороны многих специалистов. Отмечается, что их использование нередко приводят к ошибкам первого рода (false positive)^[7]. В частности, журнал Basic and Applied Social Psychology (BASP) в 2015 году вовсе запретил публикацию статей, в которых используются p-значения. Редакторы журнала объяснили это тем, что сделать исследование, в котором получено p < 0,05 не очень сложно, и такие низкие значения p слишком часто становятся оправданием для низкопробных исследований^[8].

Неправильная интерпретация P-значений

Широко распространено мнение о том, что P-значения часто неверно интерпретируются и неправильно используются.^[9]^[10]^[11] Одна из практик, подвергшихся особой критике, заключается в принятии альтернативной гипотезы для любого P-значения, номинально меньшего 0,05 без других подтверждающих доказательств. Хотя P-значения полезны при оценке того, насколько несовместимы данные с данной статистической моделью, необходимо также учитывать контекстуальные факторы, такие как «дизайн исследования, качество измерений, внешние доказательства изучаемого явления и обоснованность предположений, лежащих в основе анализа данных».^[11] Еще одна проблема заключается в том, что P-значение часто неверно понимается как вероятность того, что нулевая гипотеза верна.^[11]^[12] Некоторые специалисты предложили заменить P-значения на альтернативные метрики доказательности,^[11] такие как доверительный интервал,^[13]^[14] отношение правдоподобий,^[15]^[16] или отношение апостериорных вероятностей (Bayes factors),^[17]^[18]^[19] однако продолжается острая дискуссия о возможности применения таких альтернатив.^[20]^[21] Другие специалисты предложили убрать фиксированные пороговые значения значимости и интерпретировать P-значения как непрерывные величины, характеризующие величину доказательств, направленных против правдоподобия нулевой гипотезы.^[22]^[23]

См. также

Примечания

↑ Cumming, 2008.
↑ Nuzzo, 2014.
↑ Halsey, Curran-Everett, Vowler et al., 2015.
↑ Cumming, 2010.
↑ Taroni, Biedermann, Bozza, 2016.
↑ Goodman, 2016.
↑ Douglas H. Johnson. The Insignificance of Statistical Significance Testing (англ.) // The Journal of Wildlife Management. — 1999. — Vol. 3, no. 63. — P. 763—772.
↑ Chris Woolston. Psychology journal bans P values (англ.) // Nature News. — 2015-03-05. — Vol. 519, iss. 7541. — P. 9–9. — DOI:10.1038/519009f.
↑ “Scientists Perturbed by Loss of Stat Tool to Sift Research Fudge from Fact”. Scientific American. April 16, 2015.
↑ Goodman SN (1999). “Toward evidence-based medical statistics. 1: The P value fallacy”. Annals of Internal Medicine. 130 (12): 995—1004. DOI:10.7326/0003-4819-130-12-199906150-00008. PMID 10383371.
1 2 3 4 Wasserstein, Ronald L.; Lazar, Nicole A. (2016). “The ASA's statement on p-values: context, process, and purpose”. The American Statistician. 70: 129—133. DOI:10.1080/00031305.2016.1154108.
↑ Colquhoun, David (2014). “An investigation of the false discovery rate and the misinterpretation of p-values”. Royal Society Open Science. 1: 140216. DOI:10.1098/rsos.140216.
↑ Lee, Dong Kyu (7 March 2017). “Alternatives to P value: confidence interval and effect size”. Korean Journal of Anesthesiology. 69 (6): 555—562. DOI:10.4097/kjae.2016.69.6.555. ISSN 2005-6419. PMC 5133225. PMID 27924194.
↑ Ranstam, J. (August 2012). “Why the P-value culture is bad and confidence intervals a better alternative”. Osteoarthritis and Cartilage. 20 (8): 805—808. DOI:10.1016/j.joca.2012.04.001. Проверено 7 March 2017.
↑ Perneger, Thomas V (12 May 2001). “Sifting the evidence: Likelihood ratios are alternatives to P values”. BMJ: British Medical Journal. 322 (7295): 1184. ISSN 0959-8138. PMC 1120301. PMID 11379590.
↑ Royall, Richard. The Likelihood Paradigm for Statistical Evidence // The Nature of Scientific Evidence : [англ.]. — P. 119–152. — DOI:10.7208/chicago/9780226789583.003.0005.
↑ Replacing p-values with Bayes-Factors: A Miracle Cure for the Replicability Crisis in Psychological Science (неопр.). Replicability-Index (30 April 2015). Проверено 7 марта 2017.
↑ Marden, John I. (December 2000). “Hypothesis Testing: From p Values to Bayes Factors”. Journal of the American Statistical Association. 95 (452): 1316. DOI:10.2307/2669779.
↑ Stern, Hal S. (16 February 2016). “A Test by Any Other Name: Values, Bayes Factors, and Statistical Inference”. Multivariate Behavioral Research. 51 (1): 23—29. DOI:10.1080/00273171.2015.1099032. PMC 4809350. PMID 26881954.
↑ Murtaugh, Paul A. (March 2014). “In defense of p-values”. Ecology. 95 (3): 611—617. DOI:10.1890/13-0590.1.
↑ Aschwanden, Christie Statisticians Found One Thing They Can Agree On: It’s Time To Stop Misusing P-Values (неопр.). FiveThirtyEight (Mar 7, 2016).
↑ Amrhein, Valentin; Korner-Nievergelt, Fränzi; Roth, Tobias (2017). “The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research”. PeerJ. 5: e3544. DOI:10.7717/peerj.3544.
↑ Amrhein, Valentin; Greenland, Sander (2017). “Remove, rather than redefine, statistical significance”. Nature Human Behaviour. 1: 0224. DOI:10.1038/s41562-017-0224-0.

Литература

Cumming, G. Replication and p intervals: p values predict the future only vaguely, but confidence intervals do much better : [англ.] // Perspectives on Psychological Science^ru_en. — 2008. — Vol. 3, no. 4. — P. 286—300. — DOI:10.1111/j.1745-6924.2008.00079.x.
Cumming, G. Understanding, teaching, and using p values // ICOTS-8 Conference Proceedings : Data and context in statistics education: towards an evidence-based society : [англ.] / C. Reading (Ed.). — International Association for Statistical Education : International Statistical Institute, 2010. — ISBN 978-90-77713-54-9.
Goodman, S. N.^ru_en. Aligning statistical and scientific reasoning: Misunderstanding and misuse of statistical significance impede science : [англ.] // Science. — 2016. — Vol. 352, no. 6290. — P. 1180—1181. — DOI:10.1126/science.aaf5406.
Halsey, L. G. The fickle P value generates irreproducible results : [англ.] / L. G. Halsey, D. Curran-Everett, S. L. Vowler [et al.] // Nature Methods. — 2015. — Vol. 12, no. 3. — P. 179—185. — DOI:10.1038/nmeth.3288.
Nuzzo, R. Statistical errors: P values, the “gold standard” of statistical validity, are not as reliable as many scientists assume : [англ.] // Nature. — 2014. — Vol. 506, no. 7487. — P. 150—152. — DOI:10.1038/506150a.
Taroni, F. Statistical hypothesis testing and common misinterpretations: Should we abandon p-value in forensic science applications? : [англ.] / F. Taroni, A. Biedermann, S. Bozza // Forensic Science International^ru_en. — 2016. — Vol. 259 (February). — P. e32-e36. — DOI:10.1016/j.forsciint.2015.11.013.

Ссылки

Рубанович, А. В. Введение в Байесовский анализ (неопр.). Презентации к лекциям. ИОГен РАН. Проверено 13 июня 2016.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[_e0560e9782e2dfaf-1] Cumming, 2008.

[_9e37bc6c9237b57c-2] Nuzzo, 2014.

[_1addee9a989f24e5-3] Halsey, Curran-Everett, Vowler et al., 2015.

[_2ccdeba6f2374610-4] Cumming, 2010.

[_1d784fabd128c456-5] Taroni, Biedermann, Bozza, 2016.

[_01ba6182a3260533-6] Goodman, 2016.

[7] Douglas H. Johnson. The Insignificance of Statistical Significance Testing (англ.) // The Journal of Wildlife Management. — 1999. — Vol. 3, no. 63. — P. 763—772.

[8] Chris Woolston. Psychology journal bans P values (англ.) // Nature News. — 2015-03-05. — Vol. 519, iss. 7541. — P. 9–9. — DOI:10.1038/519009f.

[9] “Scientists Perturbed by Loss of Stat Tool to Sift Research Fudge from Fact”. Scientific American. April 16, 2015.

[Goodman1999-10] Goodman SN (1999). “Toward evidence-based medical statistics. 1: The P value fallacy”. Annals of Internal Medicine. 130 (12): 995—1004. DOI:10.7326/0003-4819-130-12-199906150-00008. PMID 10383371.

[asa2016-11] 1 2 3 4 Wasserstein, Ronald L.; Lazar, Nicole A. (2016). “The ASA's statement on p-values: context, process, and purpose”. The American Statistician. 70: 129—133. DOI:10.1080/00031305.2016.1154108.

[12] Colquhoun, David (2014). “An investigation of the false discovery rate and the misinterpretation of p-values”. Royal Society Open Science. 1: 140216. DOI:10.1098/rsos.140216.

[13] Lee, Dong Kyu (7 March 2017). “Alternatives to P value: confidence interval and effect size”. Korean Journal of Anesthesiology. 69 (6): 555—562. DOI:10.4097/kjae.2016.69.6.555. ISSN 2005-6419. PMC 5133225. PMID 27924194.

[14] Ranstam, J. (August 2012). “Why the P-value culture is bad and confidence intervals a better alternative”. Osteoarthritis and Cartilage. 20 (8): 805—808. DOI:10.1016/j.joca.2012.04.001. Проверено 7 March 2017.

[15] Perneger, Thomas V (12 May 2001). “Sifting the evidence: Likelihood ratios are alternatives to P values”. BMJ: British Medical Journal. 322 (7295): 1184. ISSN 0959-8138. PMC 1120301. PMID 11379590.

[16] Royall, Richard. The Likelihood Paradigm for Statistical Evidence // The Nature of Scientific Evidence : [англ.]. — P. 119–152. — DOI:10.7208/chicago/9780226789583.003.0005.

[17] Replacing p-values with Bayes-Factors: A Miracle Cure for the Replicability Crisis in Psychological Science (неопр.). Replicability-Index (30 April 2015). Проверено 7 марта 2017.

[18] Marden, John I. (December 2000). “Hypothesis Testing: From p Values to Bayes Factors”. Journal of the American Statistical Association. 95 (452): 1316. DOI:10.2307/2669779.

[19] Stern, Hal S. (16 February 2016). “A Test by Any Other Name: Values, Bayes Factors, and Statistical Inference”. Multivariate Behavioral Research. 51 (1): 23—29. DOI:10.1080/00273171.2015.1099032. PMC 4809350. PMID 26881954.

[20] Murtaugh, Paul A. (March 2014). “In defense of p-values”. Ecology. 95 (3): 611—617. DOI:10.1890/13-0590.1.

[21] Aschwanden, Christie Statisticians Found One Thing They Can Agree On: It’s Time To Stop Misusing P-Values (неопр.). FiveThirtyEight (Mar 7, 2016).

[22] Amrhein, Valentin; Korner-Nievergelt, Fränzi; Roth, Tobias (2017). “The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research”. PeerJ. 5: e3544. DOI:10.7717/peerj.3544.

[23] Amrhein, Valentin; Greenland, Sander (2017). “Remove, rather than redefine, statistical significance”. Nature Human Behaviour. 1: 0224. DOI:10.1038/s41562-017-0224-0.