WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Критерий согласия Пирсона или критерий согласия $\chi ^{2}$ (Хи-квадрат) — наиболее часто употребляемый критерий для проверки гипотезы о принадлежности наблюдаемой выборки $x_{1},x_{2},...,x_{n}$ объёмом $n$ некоторому теоретическому закону распределения $F(x,\theta )$ . Свойства критерия были впервые исследованы Карлом Пирсоном в 1900 году^[1].

Критерий может использоваться при проверке простых гипотез вида

$H_{0}:F_{n}(x)=F(x,\theta )$ ,

где $\theta$ — известный вектор параметров теоретического закона, и при проверке сложных гипотез вида

$H_{0}:F_{n}(x)\in \left\{F(x,\theta ),\theta \in \Theta \right\}$ ,

когда оценка ${\hat {\theta }}$ скалярного или векторного параметра распределения $F(x,\theta )$ вычисляется по той же самой выборке.

Статистика критерия

Процедура проверки гипотез с использованием критериев типа $\chi ^{2}$ предусматривает группирование наблюдений. Область определения случайной величины разбивают на $k$ непересекающихся интервалов граничными точками

$x_{(0)},x_{(1)},...,x_{(k-1)},x_{(k)}$ ,

где $x_{(0)}$ — нижняя грань области определения случайной величины; $x_{(k)}$ — верхняя грань.

В соответствии с заданным разбиением подсчитывают число $n_{i}$ выборочных значений, попавших в $i$ -й интервал, и вероятности попадания в интервал

$P_{i}(\theta )=F(x_{(i)},\theta )-F(x_{(i-1)},\theta )$ ,

соответствующие теоретическому закону с функцией распределения $F(x,\theta )$ .

При этом

$n=\sum _{i=1}^{k}n_{i}$ и $\sum _{i=1}^{k}P_{i}(\theta )=1$ .

При проверке простой гипотезы известны как вид закона $F(x,\theta )$ , так и все его параметры (известен скалярный или векторный параметр $\theta$ ).

В основе статистик, используемых в критериях согласия типа $\chi ^{2}$ , лежит измерение отклонений $n_{i}/n$ от $P_{i}(\theta )$ .

Статистика критерия согласия $\chi ^{2}$ Пирсона определяется соотношением

$X_{n}^{2}=n\sum _{i=1}^{k}{\frac {\left(n_{i}/n-P_{i}(\theta )\right)^{2}}{P_{i}(\theta )}}$ .

В случае проверки простой гипотезы в пределе при $n\to \infty$ эта статистика подчиняется $\chi _{r}^{2}$ -распределению с $r=k-1$ степенями свободы, если верна проверяемая гипотеза $H_{0}$ . Плотность $\chi _{r}^{2}$ -распределения, которое является частным случаем гамма-распределения, описывается формулой

$g(s)={\frac {1}{2^{r/2}\Gamma (r/2)}}s^{r/2-1}e^{-s/2}$ .

Проверяемая гипотеза $H_{0}$ отклоняется при больших значениях статистики, когда вычисленное по выборке значение статистики $X_{n}^{2*}$ больше критического значения $\chi _{r,\alpha }^{2}$ , или достигнутый уровень значимости (p-value)

$P\left(X_{n}^{2}>X_{n}^{2*}\right)={\frac {1}{2^{r/2}\Gamma (r/2)}}\int _{X_{n}^{2*}}^{\infty }s^{r/2-1}e^{-s/2}ds$

меньше заданного уровня значимости (заданной вероятности ошибки 1-го рода) $\alpha$ .

Проверка сложных гипотез

При проверке сложных гипотез, если параметры закона $F(x,\theta )$ по этой же выборке оцениваются в результате минимизации статистики $X_{n}^{2}$ или по сгруппированной выборке методом максимального правдоподобия, то статистика $X_{n}^{2}$ при справедливости проверяемой гипотезы подчиняется $\chi _{r}^{2}$ -распределению с $r=k-m-1$ степенями свободы, где $m$ — количество оцененных по выборке параметров.

Если параметры оцениваются по исходной негруппированной выборке, то распределение статистики не будет являться $\chi _{k-m-1}^{2}$ -распределением^[2]. Более того, распределения статистики при справедливости гипотезы $H_{0}$ будут зависеть от способа группирования, то есть от того, как область определения разбивается на интервалы^[3]

При оценивании методом максимального правдоподобия параметров по негруппированной выборке можно воспользоваться модифицированными критериями типа $\chi ^{2}$ ^[4]^[5]^[6]^[7].

О мощности критерия

При использовании критериев согласия, как правило, не задают конкурирующих гипотез: рассматривается принадлежность выборки конкретному закону. А в качестве конкурирующей гипотезы — принадлежность любому другому. Естественно, что способность критерия отличать закон, соответствующий $H_{0}$ , от других, близких к закону, соответствующему $H_{0}$ , и далёких от него, отличаются. Если задать конкурирующую гипотезу $H_{1}$ и соответствующий ей некоторый конкурирующий закон $F_{1}(x,\theta )$ , то можно рассуждать уже об ошибках двух видов: не только об ошибке 1-го рода (отклонении проверяемой гипотезы $H_{0}$ при её справедливости) и вероятности этой ошибки $\alpha$ , но и об ошибке 2-го рода (неотклонении $H_{0}$ при справедливости $H_{1}$ ) и вероятности этой ошибки $\beta$ ). Мощность критерия по отношению к конкурирующей гипотезе $H_{1}$ характеризуется величиной $1-\beta$ . Критерий тем лучше распознаёт пару конкурирующих гипотез $H_{0}$ и $H_{1}$ , чем выше его мощность.

Мощность критерия согласия $\chi ^{2}$ Пирсона существенно зависит от способа группирования ^[8], ^[9] и от выбранного числа интервалов^[9], ^[10].

При асимптотически оптимальном группировании, при котором максимизируются различные функционалы от информационной матрицы Фишера по группированным данным (минимизируются потери, связанные с группированием) критерий согласия $\chi ^{2}$ Пирсона обладает максимальной мощностью относительно «(очень) близких» конкурирующих гипотез^[11],^[9],^[10].

При проверке простых гипотез и использовании асимптотически оптимального группирования критерий согласия $\chi ^{2}$ Пирсона имеет преимущество в мощности по сравнению с непараметрическими критериями согласия. При проверке сложных гипотез мощность непараметрических критериев возрастает и такого преимущества нет^[12],^[13]. Однако для любой пары конкурирующих гипотез (конкурирующих законов) за счет выбора числа интервалов и способа разбиения области определения случайной величины на интервалы можно максимизировать мощность критерия^[14].

Примечания

↑ ‘’Pearson, Karl’’ (1900). On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine Series 5 50 (302): 157—175.
↑ Chernoff H., Lehmann E. L. The use of maximum likelihood estimates in χ2 test for goodness of fit. // The Annals of Mathematical Statistics. — 1954. — Vol. 25. — P. 579—586.
↑ Лемешко Б. Ю., Постовалов С. Н. О зависимости предельных распределений статистик X² Пирсона и отношения правдоподобия от способа группирования данных // Заводская лаборатория. 1998. Т. 64. — № 5. — С. 56-63.
↑ Никулин М. С. Критерий хи-квадрат для непрерывных распределений с параметрами сдвига и масштаба // Теория вероятностей и её применение. — 1973. — Т. XVIII, № 3. — С. 583—591.
↑ Никулин М. С. О критерии хи-квадрат для непрерывных распределе¬ний // Теория вероятностей и её применение. — 1973. — Т. XVIII. — № 3. — С. 675—676.
↑ Rao K. C., Robson D. S. A chi-squared statistic for goodness-of-fit tests within the exponential family // Commun. Statist. — 1974. — Vol. 3. — P. 1139—1153.
↑ Greenwood P. E., Nikulin M. S. A guide to chi-squared testing. — New York : John Wiley & Sons, 1996. — 280 p.
↑ Лемешко Б. Ю. Асимптотически оптимальное группирование наблюдений в критериях согласия // Заводская лаборатория, 1998. Т. 64. № 1. — С.56-64
1 2 3 Р 50.1.033-2001. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат. — М.: Изд-во стандартов. 2002. — 87 с.
1 2 Лемешко Б. Ю., Чимитова Е. В. О выборе числа интервалов в критериях согласия типа X² // Заводская лаборатория. Диагностика материалов. 2003. Т. 69. — № 1. — С. 61-67.
↑ Денисов В. И., Лемешко Б. Ю. Оптимальное группирование при обработке экспериментальных данных // Измерительные информационные системы. — Новосибирск, 1979. — С. 5-14.
↑ Лемешко Б. Ю., Лемешко С. Б., Постовалов С. Н. Сравнительный анализ мощности критериев согласия при близких конкурирующих гипотезах. I. Проверка простых гипотез // Сибирский журнал индустриальной математики. 2008. — Т.11. — № 2(34). — С.96-111.
↑ Лемешко Б. Ю., Лемешко С. Б., Постовалов С. Н. Сравнительный анализ мощности критериев согласия при близких альтернативах. II. Проверка сложных гипотез // Сибирский журнал индустриальной математики. 2008. — Т.11. — № 4(36). — С.78-93.
↑ Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход : монография / Б. Ю. Лемешко, С. Б. Лемешко, С. Н. Постовалов, Е. В. Чимитова. — Новосибирск : Изд-во НГТУ, 2011. — 888 с. (раздел 4.9)

Литература

Кендалл М., Стьюарт А. Статистические выводы и связи. — М.: Наука, 1973.

См. также

Ссылки

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[1] ‘’Pearson, Karl’’ (1900). On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine Series 5 50 (302): 157—175.

[2] Chernoff H., Lehmann E. L. The use of maximum likelihood estimates in χ2 test for goodness of fit. // The Annals of Mathematical Statistics. — 1954. — Vol. 25. — P. 579—586.

[3] Лемешко Б. Ю., Постовалов С. Н. О зависимости предельных распределений статистик X² Пирсона и отношения правдоподобия от способа группирования данных // Заводская лаборатория. 1998. Т. 64. — № 5. — С. 56-63.

[4] Никулин М. С. Критерий хи-квадрат для непрерывных распределений с параметрами сдвига и масштаба // Теория вероятностей и её применение. — 1973. — Т. XVIII, № 3. — С. 583—591.

[5] Никулин М. С. О критерии хи-квадрат для непрерывных распределе¬ний // Теория вероятностей и её применение. — 1973. — Т. XVIII. — № 3. — С. 675—676.

[6] Rao K. C., Robson D. S. A chi-squared statistic for goodness-of-fit tests within the exponential family // Commun. Statist. — 1974. — Vol. 3. — P. 1139—1153.

[7] Greenwood P. E., Nikulin M. S. A guide to chi-squared testing. — New York : John Wiley & Sons, 1996. — 280 p.

[8] Лемешко Б. Ю. Асимптотически оптимальное группирование наблюдений в критериях согласия // Заводская лаборатория, 1998. Т. 64. № 1. — С.56-64

[R50_1_033-9] 1 2 3 Р 50.1.033-2001. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат. — М.: Изд-во стандартов. 2002. — 87 с.

[Z_lab_8-10] 1 2 Лемешко Б. Ю., Чимитова Е. В. О выборе числа интервалов в критериях согласия типа X² // Заводская лаборатория. Диагностика материалов. 2003. Т. 69. — № 1. — С. 61-67.

[11] Денисов В. И., Лемешко Б. Ю. Оптимальное группирование при обработке экспериментальных данных // Измерительные информационные системы. — Новосибирск, 1979. — С. 5-14.

[12] Лемешко Б. Ю., Лемешко С. Б., Постовалов С. Н. Сравнительный анализ мощности критериев согласия при близких конкурирующих гипотезах. I. Проверка простых гипотез // Сибирский журнал индустриальной математики. 2008. — Т.11. — № 2(34). — С.96-111.

[13] Лемешко Б. Ю., Лемешко С. Б., Постовалов С. Н. Сравнительный анализ мощности критериев согласия при близких альтернативах. II. Проверка сложных гипотез // Сибирский журнал индустриальной математики. 2008. — Т.11. — № 4(36). — С.78-93.

[14] Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход : монография / Б. Ю. Лемешко, С. Б. Лемешко, С. Н. Постовалов, Е. В. Чимитова. — Новосибирск : Изд-во НГТУ, 2011. — 888 с. (раздел 4.9)