Определения
Статистик Ларри Вассерман сказал: «Сложно дать чёткое определение непараметрической статистике».[1] Термин «непараметрическая статистика» может быть нечётко определён, среди прочих, следующими двумя способами.
- Первое значение непараметричности охватывает методы, которые не полагаются на данные, относящиеся к какому-либо конкретному распределению. Среди прочих, они включают в себя:
- Свободные от распределения методы, которые не полагаются на допущения о том, что выборка получена из определённых вероятностных распределений. Так, это является противоположностью параметрической статистике. Эти методы включают описательную статистику, статистические вывод, модели и проверку статистических гипотез.
- Непараметрическая статистика (в значении статистики над данными, которая определяется как функция над выборками, не зависисящая от параметра), интерпретация которой не зависит от совокупности, соответствующей каким-либо параметризованным распределениям. Порядковая статистика, основанная на рангах наблюдений, является одним из примеров такой статистики, и играет центральную роль во многих непараметрических подходах.
Следующие рассуждения взяты из Kendall's.[2]
Статистические гипотезы обращают внимание на поведение наблюдаемых случайных величин... Например, гипотеза (а) о том, что нормальное распределение имеет определенное матожидание и его дисперсия является статистической; гипотеза (б) - то, что матожидание задано, дисперсия не определена; гипотеза (в) - то, что распределение имеет нормальный вид, матожидание и дисперсия неопределены; наконец, гипотеза (г), два неопределенных непрерывных распределения совпадают.
Заметим, что в примерах (а) и (б) распределение, лежащее в основе наблюдений, было определено и представляло собой нормальное распределение, а гипотеза была полностью связана со значением одного или обоих ее параметров. Такая гипотеза, по понятным причинам, называется параметрической.
Гипотеза (в) имеет иной характер, так как в формулировке гипотезы не указаны значения параметров; такую гипотезу можно обоснованно назвать непараметрической. Гипотеза (г) также непараметрическая, но, помимо того, она не определяет даже тип распределения и может быть названа свободной от распределения. Несмотря на эти различия, статистическая литература обычно навешивает ярлык "непараметрический" к методам, которые мы только что назвали "свободными от распределения", тем самым ломая полезную классификацию.
- Второе значение непараметричности охватывает методы, которые не предполагают, что структура модели является фиксированной. Как правило, размер модели увеличивается с усложнением данных. В этих методах предполагается, что отдельные переменные принадлежат к параметрическим распределениям, а также делаются предположения о типах связей между переменными. Эти методы включают, среди прочего:
- непараметрическая регрессия представляет собой моделирование, структура отношений переменных которого рассматривается непараметрически, но при этом могут существовать параметрические предположения о распределении остатков модели.
- непараметрические иерархические модели Байеса, такие как модели, основанные на процессе Дирихле, которые позволяют количеству скрытых переменных расти по мере необходимости, чтобы соответствовать данным. Однако отдельные переменные могут подчиняться параметрическим распределениям и даже процесс, контролирующий скорость роста скрытых переменных, подчиняется параметрическому распределению.
Цели и применения
Непараметрические методы широко используются для изучения популяций, которые принимают ранжированный
порядок (например, обзоры фильмов, которые могут получать от одной до четырех звезд). Использование
непараметрических методов может быть необходимым, когда данные имеют ранжирование, но не имеют ясной
численной интерпретации, например, при оценке предпочтений. С точки зрения шкал, результатами работы непараметрических методов являются порядковые данные.
Поскольку непараметрические методы делают меньше предположений, сфера их применений гораздо шире, нежели у параметрических методов. В частности, они могут применяться в ситуациях, когда информации о рассматриваемом применении меньше. Кроме того, что они зависят от меньшего числа допущений, непараметрические методы являются более надежными.
Другой мотивацией использования непараметрических методов является простота. В некоторых случаях, даже когда использование параметрических методов оправдано, может быть проще использовать непараметрические методы. Из-за перечисленных выше причин, непараметрические методы рассматриваются некоторыми статистиками как оставляющие меньше возможностей для неправильного использования и недопониманий.
Более широкая применимость и повышенная надежность непараметрических методов обходятся дорого: в тех случаях, когда параметрический метод будет подходящим, непараметрические имеют меньшую статистическую мощность. Другими словами, для того чтобы сделать выводы с той же уверенностью, может потребоваться больший размер выборки.
Непараметрические модели
Непараметрические модели отличаются от параметрических моделей тем, что структура модели не задается а приори, а определяется данными. Термин непараметрический не означает полное отсутствие параметров. Просто их количество и характер гибки и не фиксированы заранее.
Методы
Непараметрические (или свободные от распределения) методы статистического вывода являются математическими процедурами для проверки статистических гипотез, которые, в отличие от параметрической статистики, не делают предположений о вероятностных распределениях оцениваемых переменных. Наиболее часто используемые методы включают
- Анализ сходства: проверяет статистическую значимость различия между группами состоящими выборок
- Критерий Андерсона-Дарлинга: проверяет принадлежность анализируемой выборки данному закону распределения
- Бутстрэп: позволяет просто и быстро оценивать разные статистики для сложных моделей
- Дисперсионный анализ Фридмана: применяется для исследования влияния разных значений фактора (градаций фактора) на одну и ту же выборку
- Оценка Каплана-Майера: оценивает функцию выживаемости по данным времени жизни
- Тау-коэффициент Кендалла: измеряет статистическую зависимость между двумя переменными
- W Кендалла: измеряет степень сходства между двумя ранжированиями и может быть использован для оценки значимости отношения между ними
- Двухвыборочный критерий Колмогорова—Смирнова: используется для проверки гипотезы о принадлежности двух независимых выборок одному закону распределения
- Дисперсионный анализ Краскела—Уоллиса: проверяет гипотезу о том, имеют ли сравниваемые выборки одно и то же распределение или же распределения с одной и той же медианой
- Критерий согласия Кёйпера: используется для проверки того, противоречит ли данное распределение или семейство распределений признакам выборки данных
- Логарифмический ранговый (логранговый) критерий: сравнение распределений выживаемости двух выборок
- U-критерий Манна — Уитни: используется для оценки различий между двумя независимыми выборками по уровню какого-либо признака, измеренного количественно
- Критерий хи-квадрата Макнемара: проверяет, значимо или нет различаются между собой несколько сравниваемых переменных, принимающих значения 0 / 1
- Медианный критерий: проверяет гипотезу о том, что распределения двух выборок имеют одинаковую форму и отличаются только сдвигом на константу
- [[Критерий перестановки Питмана (ресемплинг): проверка статистической значимости, которая дает точные P-значения, изучая все возможные перестановки меток
- Критерий Зигеля-Туки: проверка на различия в масштабе между двумя группами
- Критерий знаков: применяется в ситуациях, когда два измерения (например, при разных условиях) одних и тех же субъектов нужно проверить на наличие или отсутствие различия результатов
- Коэффициент ранговой корреляции Спирмена: используется для измерения нелинейной монотонной зависимости между переменными
- Критерий квадратов рангов: проверяет равенство дисперсий в двух или более выборках
- Критерий Туки-Дакворта: проверяет, был ли одна из двух выборок значительно больше другой
- Критерий серий Вальда—Вольфовица: проверяет, являются ли элементы последовательности взаимно независимыми / случайными
- Критерий Уилкоксона: используемый для проверки различий между двумя выборками парных измерений
Примечания
- ↑ Wasserman (2007), p.1
- ↑ Stuart A., Ord J.K, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model, sixth edition, §20.2–20.3 (Arnold).
- ↑ Conover, W.J. (1999), "Chapter 3.4: The Sign Test", Practical Nonparametric Statistics (Third ed.), Wiley, с. 157–176, ISBN 0-471-16068-7
Литература
- Bagdonavicius, V., Kruopis, J., Nikulin, M.S. (2011). "Non-parametric tests for complete data", ISTE & WILEY: London & Hoboken. .
- Corder, G. W. Nonparametric Statistics: A Step-by-Step Approach / G. W. Corder, Foreman. — Wiley, 2014. — ISBN 978-1118840313.
- Gibbons, Jean Dickinson; Chakraborti, Subhabrata (2003). Nonparametric Statistical Inference, 4th Ed. CRC Press. .
- Hettmansperger, T. P. Robust Nonparametric Statistical Methods / T. P. Hettmansperger, McKean. — First. — London : Edward Arnold, 1998. — Vol. 5. — ISBN 0-340-54937-8. also .
- Hollander M., Wolfe D.A., Chicken E. (2014). Nonparametric Statistical Methods, John Wiley & Sons.
- Sheskin, David J. (2003) Handbook of Parametric and Nonparametric Statistical Procedures. CRC Press. ISBN 1-58488-440-1
- Wasserman, Larry (2007). All of Nonparametric Statistics, Springer. .
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .