Критерий согласия Пирсона или критерий согласия (Хи-квадрат) — наиболее часто употребляемый критерий для проверки гипотезы о принадлежности наблюдаемой выборки объёмом некоторому теоретическому закону распределения . Свойства критерия были впервые исследованы Карлом Пирсоном в 1900 году[1].
Критерий может использоваться при проверке простых гипотез вида
,
где — известный вектор параметров теоретического закона, и при проверке сложных гипотез вида
,
когда оценка скалярного или векторного параметра распределения вычисляется по той же самой выборке.
Процедура проверки гипотез с использованием критериев типа предусматривает группирование наблюдений. Область определения случайной величины разбивают на непересекающихся интервалов граничными точками
,
где — нижняя грань области определения случайной величины; — верхняя грань.
В соответствии с заданным разбиением подсчитывают число выборочных значений, попавших в -й интервал, и вероятности попадания в интервал
,
соответствующие теоретическому закону с функцией распределения .
При этом
и .
При проверке простой гипотезы известны как вид закона , так и все его параметры (известен скалярный или векторный параметр ).
В основе статистик, используемых в критериях согласия типа , лежит измерение отклонений от .
Статистика критерия согласия Пирсона определяется соотношением
.
В случае проверки простой гипотезы в пределе при эта статистика подчиняется -распределению с степенями свободы, если верна проверяемая гипотеза . Плотность -распределения, которое является частным случаем гамма-распределения, описывается формулой
.
Проверяемая гипотеза отклоняется при больших значениях статистики, когда вычисленное по выборке значение статистики больше критического значения , или достигнутый уровень значимости (p-value)
меньше заданного уровня значимости (заданной вероятности ошибки 1-го рода) .
При проверке сложных гипотез, если параметры закона по этой же выборке оцениваются в результате минимизации статистики или по сгруппированной выборке методом максимального правдоподобия, то статистика при справедливости проверяемой гипотезы подчиняется -распределению с степенями свободы, где — количество оцененных по выборке параметров.
Если параметры оцениваются по исходной негруппированной выборке, то распределение статистики не будет являться -распределением[2]. Более того, распределения статистики при справедливости гипотезы будут зависеть от способа группирования, то есть от того, как область определения разбивается на интервалы[3]
При оценивании методом максимального правдоподобия параметров по негруппированной выборке можно воспользоваться модифицированными критериями типа [4][5][6][7].
При использовании критериев согласия, как правило, не задают конкурирующих гипотез: рассматривается принадлежность выборки конкретному закону. А в качестве конкурирующей гипотезы — принадлежность любому другому. Естественно, что способность критерия отличать закон, соответствующий , от других, близких к закону, соответствующему , и далёких от него, отличаются. Если задать конкурирующую гипотезу и соответствующий ей некоторый конкурирующий закон , то можно рассуждать уже об ошибках двух видов: не только об ошибке 1-го рода (отклонении проверяемой гипотезы при её справедливости) и вероятности этой ошибки , но и об ошибке 2-го рода (неотклонении при справедливости ) и вероятности этой ошибки ). Мощность критерия по отношению к конкурирующей гипотезе характеризуется величиной . Критерий тем лучше распознаёт пару конкурирующих гипотез и , чем выше его мощность.
Мощность критерия согласия Пирсона существенно зависит от способа группирования [8], [9] и от выбранного числа интервалов[9], [10].
При асимптотически оптимальном группировании, при котором максимизируются различные функционалы от информационной матрицы Фишера по группированным данным (минимизируются потери, связанные с группированием) критерий согласия Пирсона обладает максимальной мощностью относительно «(очень) близких» конкурирующих гипотез[11],[9],[10].
При проверке простых гипотез и использовании асимптотически оптимального группирования критерий согласия Пирсона имеет преимущество в мощности по сравнению с непараметрическими критериями согласия. При проверке сложных гипотез мощность непараметрических критериев возрастает и такого преимущества нет[12],[13]. Однако для любой пары конкурирующих гипотез (конкурирующих законов) за счет выбора числа интервалов и способа разбиения области определения случайной величины на интервалы можно максимизировать мощность критерия[14].
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .