WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

t-критерий Стьюдента — общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках.

t-статистика строится обычно по следующему общему принципу: в числителе случайная величина с нулевым математическим ожиданием (при выполнении нулевой гипотезы), а в знаменателе — выборочное стандартное отклонение этой случайной величины, получаемое как квадратный корень из несмещённой оценки дисперсии.

История

Данный критерий был разработан Уильямом Госсетом для оценки качества пива в компании Гиннесс. В связи с обязательствами перед компанией по неразглашению коммерческой тайны (руководство Гиннесса считало таковой использование статистического аппарата в своей работе), статья Госсета вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).

Требования к данным

Для применения данного критерия необходимо, чтобы исходные данные имели нормальное распределение. В случае применения двухвыборочного критерия для независимых выборок также необходимо соблюдение условия равенства дисперсий. Существуют, однако, альтернативы критерию Стьюдента для ситуации с неравными дисперсиями.

Требование нормальности распределения данных является необходимым для точного $t$ -теста. Однако, даже при других распределениях данных возможно использование $t$ -статистики. Во многих случаях эта статистика асимптотически имеет стандартное нормальное распределение — $N(0,1)$ , поэтому можно использовать квантили этого распределения. Однако, часто даже в этом случае используют квантили не стандартного нормального распределения, а соответствующего распределения Стьюдента, как в точном $t$ -тесте. Асимптотически они эквивалентны, однако на малых выборках доверительные интервалы распределения Стьюдента шире и надежнее.

Одновыборочный t-критерий

Применяется для проверки нулевой гипотезы $H_{0}:E(X)=m$ о равенстве математического ожидания $E(X)$ некоторому известному значению $m$ .

Очевидно, при выполнении нулевой гипотезы $E({\overline {X}})=m$ . С учётом предполагаемой независимости наблюдений $V({\overline {X}})=\sigma ^{2}/n$ . Используя несмещенную оценку дисперсии $s_{X}^{2}=\sum _{t=1}^{n}(X_{t}-{\overline {X}})^{2}/(n-1)$ получаем следующую t-статистику:

$t={\frac {{\overline {X}}-m}{s_{X}/{\sqrt {n}}}}$

При нулевой гипотезе распределение этой статистики $t(n-1)$ . Следовательно, при превышении значения статистики по абсолютной величине критического значения данного распределения (при заданном уровне значимости) нулевая гипотеза отвергается.

Двухвыборочный t-критерий для независимых выборок

Пусть имеются две независимые выборки объемами $n_{1}~,~n_{2}$ нормально распределенных случайных величин $X_{1},~X_{2}$ . Необходимо проверить по выборочным данным нулевую гипотезу равенства математических ожиданий этих случайных величин $H_{0}:~M_{1}=M_{2}$ .

Рассмотрим разность выборочных средних $\Delta ={\overline {X}}_{1}-{\overline {X}}_{2}$ . Очевидно, если нулевая гипотеза выполнена $E(\Delta )=M_{1}-M_{2}=0$ . Дисперсия этой разности равна исходя из независимости выборок: $V(\Delta )={\frac {\sigma _{1}^{2}}{n_{1}}}+{\frac {\sigma _{2}^{2}}{n_{2}}}$ . Тогда используя несмещенную оценку дисперсии $s^{2}={\frac {\sum _{t=1}^{n}(X_{t}-{\overline {X}})^{2}}{n-1}}$ получаем несмещенную оценку дисперсии разности выборочных средних: $s_{\Delta }^{2}={\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}$ . Следовательно, t-статистика для проверки нулевой гипотезы равна

t={\frac {{\overline {X}}_{1}-{\overline {X}}_{2}}{\sqrt {{\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}}

Эта статистика при справедливости нулевой гипотезы имеет распределение $t(df)$ , где $df={\frac {(s_{1}^{2}/n_{1}+s_{2}^{2}/n_{2})^{2}}{(s_{1}^{2}/n_{1})^{2}/(n_{1}-1)+(s_{2}^{2}/n_{2})^{2}/(n_{2}-1)}}$

Случай одинаковой дисперсии

В случае, если дисперсии выборок предполагаются одинаковыми, то

V(\Delta )=\sigma ^{2}\left({\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}\right)

Тогда t-статистика равна:

t={\frac {{\overline {X}}_{1}-{\overline {X}}_{2}}{s_{X}{\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}}}~,~~s_{X}={\sqrt {\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}}}

Эта статистика имеет распределение $t(n_{1}+n_{2}-2)$

Двухвыборочный t-критерий для зависимых выборок

Для вычисления эмпирического значения $t$ -критерия в ситуации проверки гипотезы о различиях между двумя зависимыми выборками (например, двумя пробами одного и того же теста с временным интервалом) применяется следующая формула:

t={\frac {M_{d}}{s_{d}/{\sqrt {n}}}}

где $M_{d}$ — средняя разность значений, $s_{d}$ — стандартное отклонение разностей, а n — количество наблюдений

Эта статистика имеет распределение $t(n-1)$ .

Проверка линейного ограничения на параметры линейной регрессии

С помощью t-теста можно также проверить произвольное (одно) линейное ограничение на параметры линейной регрессии, оцененной обычным методом наименьших квадратов. Пусть необходимо проверить гипотезу $H_{0}:c^{T}b=a$ . Очевидно, при выполнении нулевой гипотезы $E(c^{T}{\hat {b}}-a)=c^{T}E({\hat {b}})-a=0$ . Здесь использовано свойство несмещенности МНК-оценок параметров модели $E({\hat {b}})=b$ . Кроме того, $V(c^{T}{\hat {b}}-a)=c^{T}V({\hat {b}})c=\sigma ^{2}c^{T}(X^{T}X)^{-1}c$ . Используя вместо неизвестной дисперсии её несмещенную оценку $s^{2}=ESS/(n-k)$ получаем следующую t-статистику:

t={\frac {c^{T}{\hat {b}}-a}{s{\sqrt {c^{T}(X^{T}X)^{-1}c}}}}

Эта статистика при выполнении нулевой гипотезы имеет распределение $t(n-k)$ , поэтому если значение статистики выше критического, то нулевая гипотеза о линейном ограничении отклоняется.

Проверка гипотез о коэффициенте линейной регрессии

Частным случаем линейного ограничения является проверка гипотезы о равенстве коэффициента $b_{j}$ регрессии некоторому значению $a$ . В этом случае соответствующая t-статистика равна:

t={\frac {{\hat {b}}_{j}-a}{s_{{\hat {b}}_{j}}}}

где $s_{{\hat {b}}_{j}}$ — стандартная ошибка оценки коэффициента — квадратный корень из соответствующего диагонального элемента ковариационной матрицы оценок коэффициентов.

При справедливости нулевой гипотезы распределение этой статистики — $t(n-k)$ . Если значение статистики по абсолютной величине выше критического значения, то отличие коэффициента от $a$ является статистически значимым (неслучайным), в противном случае — незначимым (случайным, то есть истинный коэффициент вероятно равен или очень близок к предполагаемому значению $a$ )

Замечание

Одновыборочный тест для математических ожиданий можно свести к проверке линейного ограничения на параметры линейной регрессии. В одновыборочном тесте это «регрессия» на константу. Поэтому $s^{2}$ регрессии и есть выборочная оценка дисперсии изучаемой случайной величины, матрица $X^{T}X$ равна $n$ , а оценка «коэффициента» модели равна выборочному среднему. Отсюда и получаем выражение для t-статистики, приведенное выше для общего случая.

Аналогично можно показать, что двухвыборочный тест при равенстве дисперсий выборок также сводится к проверке линейных ограничений. В двухвыборочном тесте это «регрессия» на константу и фиктивную переменную, идентифицирующую подвыборку в зависимости от значения (0 или 1): $y=a+bD$ . Гипотеза о равенстве математических ожиданий выборок может быть сформулирована как гипотеза о равенстве коэффициента b этой модели нулю. Можно показать, что соответствующая t-статистика для проверки этой гипотезы равна t-статистике, приведенной для двухвыборочного теста.

Также к проверке линейного ограничения можно свести и в случае разных дисперсий. В этом случае дисперсия ошибок модели принимает два значения. Исходя из этого можно также получить t-статистику, аналогичную приведенной для двухвыборочного теста.

Непараметрические аналоги

Аналогом двухвыборочного критерия для независимых выборок является U-критерий Манна — Уитни. Для ситуации с зависимыми выборками аналогами являются критерий знаков и T-критерий Вилкоксона

Литература

Student. The probable error of a mean. // Biometrika. 1908. № 6 (1). P. 1-25.

Ссылки

О критериях проверки гипотез об однородности средних на сайте Новосибирского государственного технического университета

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии