Распределение Стьюдента | |
---|---|
| |
| |
Обозначение | |
Параметры | — число степеней свободы |
Носитель | |
Плотность вероятности | |
Функция распределения | где — гипергеометрическая функция |
Математическое ожидание | , если |
Медиана | |
Мода | |
Дисперсия | , если |
Коэффициент асимметрии | , если |
Коэффициент эксцесса | , если |
Дифференциальная энтропия |
|
Производящая функция моментов | не определена |
Распределе́ние Стью́дента ( -распределение) в теории вероятностей — это однопараметрическое семейство абсолютно непрерывных распределений. Названо в честь Уильяма Сили Госсета, который первым опубликовал работы, посвящённые этому распределению, под псевдонимом «Стьюдент».
Распределение Стьюдента играет важную роль в некоторых широко используемых системах статистического анализа. Пример такой системы — t-критерий Стьюдента для оценки статистического значения разницы между двумя выборочными средними, построения доверительных интервалов разницы между двумя доверительными средними, а также в линейном регрессионном анализе. Распределение Стьюдента также появляется в байесовском анализе данных, распределённых по нормальному закону.
Распределение Стьюдента может быть использовано для оценки того, насколько вероятно, что истинное среднее находится в каком-либо заданном диапазоне.
График плотности распределения Стьюдента, как и нормального распределения, является симметричным и колоколообразным, но с более тяжелыми хвостами — из-за этого реализации случайной величины с распределением Стьюдента чаще сильно отличаются от математического ожидания.
Это важно для понимания статистического поведения определённых типов соотношений случайных величин, в которых отклонение в знаменателе увеличено и может производить отдалённые величины, когда знаменатель соотношения близок к нулю.
Распределение Стьюдента — частный случай обобщённого гиперболического распределения.
В статистике t-распределение было впервые получено как апостериорное распределение в 1876 году Фридрихом Гельмертом[1][2][3] и Якобом Люротом[en][4][5][6].
В англоязычной литературе распределение берёт название из статьи Уильяма Госсета в журнале Пирсона «Биометрика», опубликованной под псевдонимом «Стьюдент»[7][8].
Госсет работал в пивоварне Гиннесс в Дублине, Ирландия, и применял свои знания в области статистики как при варке пива, так и на полях — для выведения самого урожайного сорта ячменя. Исследования были обращены к нуждам пивоваренной компании и проводились на малом количестве наблюдений, что послужило толчком для развития методов, работающих на малых выборках.
Госсету пришлось скрывать свою личность при публикации из-за того, что ранее другой исследователь, работавший на Гиннесс, опубликовал в своих материалах сведения, составлявшие коммерческую тайну компании, после чего Гиннесс запретил своим работникам публикацию любых материалов, независимо от содержавшейся в них информации.
Статья Госсета описывает распределение как «распределение частоты стандартных отклонений выборки, извлеченных из генеральной совокупности». Оно стало известным благодаря работе Роналда Фишера, который называл распределение «распределением Стьюдента», а величину — величиной t[9].
Пусть — независимые стандартные нормальные случайные величины, такие что . Тогда распределение случайной величины , где
называется распределением Стьюдента с степенями свободы .
Это распределение абсолютно непрерывно с плотностью:
где — гамма-функция Эйлера. Таким образом:
и соответственно
Также плотность распределения Стьюдента можно выразить воспользовавшись бета-функцией Эйлера :
График функции плотности t-распределения симметричен, а его форма напоминает форму колокола, как у стандартного нормального распределения, но он ниже и шире.
Следующие графики отражают плотность t-распределения при увеличении числа степеней свободы. Можно наблюдать как по мере возрастания , кривая функции плотности все больше напоминает стандартное нормальное распределение.
Функция распределения может быть выражена через регуляризованную неполную бета-функцию . Для t > 0,
Для t < 0 значения получаются из симметрии.
Другая формула верна для [10]:
где 2F1 является частным случаем гипергеометрической функции.
Распределение Стьюдента с степенями свободы может быть определено как распределение случайной величины [10][11]
где
Пусть, , независимые случайные величины с нормальным распределением
– выборочное среднее, а
– несмещённая оценка дисперсии.
Покажем, что случайная величина
обладает хи-квадратным распределением с степенями свободы.[12]
,
нормально распределена , когда выборочное среднее имеет нормальное распределение . Более того, можно показать, что эти две случайные величины (нормально распределенная и хи-квадрат распределенная ) независимы.
Подставим получившиеся величину в
с отличием от в том, что стандартное отклонение σ заменено случайной величиной имеющей распределение Стьюдента. Заметим, что неизвестная дисперсия σ2 не появляется в , так как она была и в числителе, и в знаменателе. Госсет интуитивно получил плотность вероятности, установленную выше, где соответствует n–1; Фишер доказал это в 1925 году.[9]
В распределении тестовой статистики, , зависит от , но не от μ или σ2.
Распределение Стьюдента возникает в связи с распределением выборочной дисперсии. Пусть независимые случайные величины, такие что . Обозначим выборочное среднее этой выборки, а её выборочную дисперсию. Тогда
С этим фактом связано использование распределения Стьюдента в статистике для точечного оценивания, построения доверительных интервалов и тестирования гипотез, касающихся неизвестного среднего выборки из нормального распределения.
В байесовской статистике, нецентральное t-распределение встречается как маргинальное распределение коэффициента нормального распределения .
Зависимость неизвестной дисперсии выражается через:
где – это данные {xi}, а представляет собой любую другую информацию, которая могла быть использована для создания модели.
Когда данные неинформативны из теорема Байеса следует
нормальное распределение и масштабированное обратное хи-квадрат распределение, где
Маргинализованный интеграл в таком случае имеет вид
после замены , где ,
получим
и оценку
теперь стандартный Гамма интеграл, который оценивается константой
это нестандартизированное t-распределение.
С помощью замены, , получаем стандартизированное t-распределение.
Дифференцирование выше было представлено для случая неинформативной априорной вероятности для и ; но очевидно, что любая априорная вероятность, ведет к смешению нормального распределения и масштабированного обратного хи-квадрат распределение, что нецентральному t-распределению с масштабированием и смещением на , параметр масштабирования будет в находиться под влиянием априорной информации и данных, а не только данных, как в примере выше.
Распределение Стьюдента можно обобщить до семейства функций с тремя параметрами, включающими коэффициент сдвига и коэффициент масштаба , через отношение
или
где классическое распределение Стьюдента с степенями свободы.
Плотность нестандартизированного распределение Стьюдента, определяется следующим выражением[13]
Где, не соответствует стандартному нормальному распределению и задает масштаб
В байесовском выводе предельное распределение неизвестного среднего значения выше чем , и соответствует , где
Эквивалентно, распределение можно записать с помощью квадрат коэффициента масштабирования :
Свойства[13]:
для ,
для
Такое распределение является результатом комбинации распределения Гаусса (нормального распределения) со средним значением и неизвестной дисперсией, с обратным гамма-распределением, с дисперсией, имеющей параметры and .. Другими словами, предполагается, что случайная величина X обладает нормальным распределением с неизвестной дисперсией, распределенной как обратная гамма, а затем дисперсия исключается. Такое свойство полезно из-за того, что обратное гамма-распределение – это сопряженное априорное распределение дисперсии распределения Гаусса, именно поэтому нестандартизированное распределение Стьюдента естественным образом возникает во многих байесовских задачах.
Эквивалентно, это распределение является результатом комбинации распределения Гаусса с масштабированным обратным хи-квадрат распределением с параметрами and . Масштабированное обратное хи-квадрат распределение - точно то же самое распределение, что и обратное гамма-распределение, но с другой параметризацией, а именно .
Альтернативная параметризация на основании обратного параметра масштабирования λ[14] (аналогично тому, как мера точности обратна дисперсии), определенная отношением ,
тогда плотность определяется как
Свойства:
для ,
для
Это распределение является результатом комбинации распределения Гаусса со средним и неизвестной мерой точности (обратной дисперсии), с гамма-распределением с параметрами and . Другими словами, предполагается, что случайная величина X обладает нормальным распределением с неизвестной гамма-распределённой мерой точности.
Нецентральное распределение Стьюдента, это один способов обобщения стандартного распределения Стьюдента, включающий дополнительный коэффициент сдвига (параметр нецентральности) .
В нецентральное распределение Стьюдента медиана не совпадает с модой, т.е. оно не симметрично (в отличие от нестандартизированного).
Это распределение важно для изучения статистической мощности t-критерия Стьюдента.
Дискретное распределение Стьюдента имеет следующую функцию распределения с r пропорциональным:[15]
Где a, b, и k – параметры. Такое распределение возникает при работе с системами из дискретных распределений, таких как распределение Пирсона.[16]
Мы можем получить выборку с t-распределением, взяв отношение величин из нормального распределения и квадратный корень из распределения хи-квадрат.
где — независимые стандартные нормальные случайные величины, такие что
Если мы вместо нормального распределения, возьмём например, Ирвин-Холл, получится симметричное распределение с 4 параметрами, которое включает в себя нормальное, равномерное, треугольное, а также распределения Стьюдента и Коши; таким образом, это обобщение более гибкое, чем многие другие симметричные обобщения распределения Гаусса.
Некоторые статистические данные могут обладать распределением Стьюдента на выборках небольшого размера, поэтому распределение Стьюдента формирует основу критериев значимости. Например, тест ранговой корреляции Спирмена ρ, в нулевом случае (нулевая корреляция) хорошо аппроксимируется распределением Стьюдента при размере выборки больше 20.
Распределение Стьюдента может быть использовано для получения доверительного интервала для ненаблюдаемой выборки из нормального распределения с неизвестным средним и дисперсией.
Предположим, что число A выбрано так
Тогда T обладает t-распределением с n–1 степенями свободы. По симметрии, это равноценно утверждению, что А удовлетворяет
или , тогда
что эквивалентно
таким образом, интервал с доверительным пределом в точках , это 90% доверительный интервал для μ. Следовательно, если мы находим среднее множества наблюдений (нормально распределеных), мы можем использовать распределение Стьюдента, чтобы определить, включают ли доверительные пределы по этому среднему какое-либо теоретически предсказанное значение, например, значение, предсказанное нулевой гипотезой.
Такой подход применяется в t-критерии Стьюдента: если разница между средними значениями выборок из двух нормальных распределений сама может быть нормально распределена, распределение Стьюдента может быть использовано для исследования того, может ли эта разница равняться нулю.
Для нормально распределенных выборок односторонний (1−a) верхний предел доверия (UCL) среднего значения равен
.
Полученный в результате верхний предел доверия будет наибольшим средним значением для данного доверительного интервала и размера выборки. Другими словами, если среднее значение множества наблюдений, вероятность того, что среднее значение распределения уступает равна уровню значимости 1–a.
Распределение Стьюдента, особенно нецентральное, часто возникает в байесовской статистике как результат связи с нормальным распределением.
Действительно, если нам неизвестна дисперсия нормально распределенной случайной величины, но известно сопряженное априорное распределение, можно будет подобрать такое гамма-распредение, что полученные в результате величины будут обладать распределением Стьюдента.
Эквивалентные конструкции с теми же результатами включают сопряжённое масштабированное обратное хи-квадратное распределение. Если некорректное априорное распределение, пропорциональное , расположено над дисперсией, то также возникает распределение Стьюдента. Это происходит независимо от того, известно ли среднее нормально распределенной величины, распределённое с сопряжённым априорным распределением, или нет.
Распределение Стьюдента часто используется в качестве альтернативы нормальному распределению для модели данных.[18] Это происходит из-за того, что довольно часто настоящие данные имеют более тяжелые хвосты, чем позволяет нормальное распределение. Классический подход заключается в определении выбросов и их исключении (или понижении их веса). Однако не всегда легко определить выброс (особенно в задачах с большой размерностью), и распределение Стьюдента является естественным выбором, обеспечивающим параметрический подход к робастной статистике.
Ланж и другие исследовали использование распределения Стьюдента для робастного (устойчивого к нарушениям исходных предпосылок) моделирования данных. Байесовский расчет обнаруживается у Гельмана и др.
Количество степеней свободы контролирует эксцес распределения и коррелируется с параметром масштабирования.
Пусть, – интеграл функции плотности вероятности Стьюдента, – вероятность того, что значение t, меньше, чем значение, рассчитанное по данным наблюдений.
Функция может быть использована для тестировании того, является ли разница между средними значениями двух наборов данных взятых из одной совокупности, статистически значимой, это достигается путём вычисления соответствующего значения t и вероятности его возникновения.
Это используется например, в T-критерии Стьюдента. Для t-распределения с степенями свободы, - вероятность того, что t будет меньше наблюдаемого значения, если два средних значения были одинаковыми. Его можно легко вычислить из кумулятивной функции распределения распределения Стьюдента:
где Ix - регуляризированная неполная бета функция (a, b).
При статистической проверки гипотез эта функция используется для построения р-значения.
Есть разные подходы к получению случайных величин из распределения Стьюдента. Всё зависит от того, требуются независимые выборки, или они могут быть построены путём применения обратной функции распределения над выборкой с однородным распределением.
В случае с независимой выборкой легко применить расширение метода Бокса-Мюллера в его полярной (тригонометрической) форме[19]. Преимущество этого метода в том, что он одинаково относится ко всем положительным степеням свободы , в то время как многие другие методы не будут работать, если близка к нулю.[19]
Плотность распределения Стьюдента можно получить, решив следующее дифференциальное уравнение:
Многие учебники по статистике включают в себя таблицы распределения Стьюдента.
В наши дни лучший способ узнать полностью точное критическое значение t или кумулятивную вероятность — это использование статистической функции, встроенной в электронные таблицы (Office Excel, OpenOffice Calc и т.д.), или интерактивного веб-калькулятора. Нужные функции электронных таблиц — TDIST и TINV.
Таблица ниже включает в себя значения некоторых значений для распределений Стьюдента с v степенями свободы для ряда односторонних или двусторонних критических областей.
В качестве примера того, как читать эту таблицу, возьмём четвёртый ряд, который начинается с 4; это означает, что v, количество степеней свободы, равно 4 (и если мы работаем, как это показано выше, с n величин с фиксированной суммой, то n = 5). Возьмём пятое значение в колонке 95% для односторонних(90% для двусторонних). Значение это равно "2.132". Значит, вероятность, что T меньше 2.132 равна 95% или Pr(−∞ <T< 2.132) = 0.95; это также означает, что Pr(−2.132 <T< 2.132) = 0.9.
Это может быть вычислено по симметрии распределения,
получаем
Обратите внимание, что последний ряд также даёт критические точки: распределение Стьюдента с бесконечным количеством степеней – это нормальное распределение.
Первая колонка отображает число степеней свободы.
односторонний | 75% | 80% | 85% | 90% | 95% | 97.5% | 99% | 99.5% | 99.75% | 99.9% | 99.95% |
---|---|---|---|---|---|---|---|---|---|---|---|
двусторонний | 50% | 60% | 70% | 80% | 90% | 95% | 98% | 99% | 99.5% | 99.8% | 99.9% |
1 | 1.000 | 1.376 | 1.963 | 3.078 | 6.314 | 12.71 | 31.82 | 63.66 | 127.3 | 318.3 | 636.6 |
2 | 0.816 | 1.080 | 1.386 | 1.886 | 2.920 | 4.303 | 6.965 | 9.925 | 14.09 | 22.33 | 31.60 |
3 | 0.765 | 0.978 | 1.250 | 1.638 | 2.353 | 3.182 | 4.541 | 5.841 | 7.453 | 10.21 | 12.92 |
4 | 0.741 | 0.941 | 1.190 | 1.533 | 2.132 | 2.776 | 3.747 | 4.604 | 5.598 | 7.173 | 8.610 |
5 | 0.727 | 0.920 | 1.156 | 1.476 | 2.015 | 2.571 | 3.365 | 4.032 | 4.773 | 5.893 | 6.869 |
6 | 0.718 | 0.906 | 1.134 | 1.440 | 1.943 | 2.447 | 3.143 | 3.707 | 4.317 | 5.208 | 5.959 |
7 | 0.711 | 0.896 | 1.119 | 1.415 | 1.895 | 2.365 | 2.998 | 3.499 | 4.029 | 4.785 | 5.408 |
8 | 0.706 | 0.889 | 1.108 | 1.397 | 1.860 | 2.306 | 2.896 | 3.355 | 3.833 | 4.501 | 5.041 |
9 | 0.703 | 0.883 | 1.100 | 1.383 | 1.833 | 2.262 | 2.821 | 3.250 | 3.690 | 4.297 | 4.781 |
10 | 0.700 | 0.879 | 1.093 | 1.372 | 1.812 | 2.228 | 2.764 | 3.169 | 3.581 | 4.144 | 4.587 |
11 | 0.697 | 0.876 | 1.088 | 1.363 | 1.796 | 2.201 | 2.718 | 3.106 | 3.497 | 4.025 | 4.437 |
12 | 0.695 | 0.873 | 1.083 | 1.356 | 1.782 | 2.179 | 2.681 | 3.055 | 3.428 | 3.930 | 4.318 |
13 | 0.694 | 0.870 | 1.079 | 1.350 | 1.771 | 2.160 | 2.650 | 3.012 | 3.372 | 3.852 | 4.221 |
14 | 0.692 | 0.868 | 1.076 | 1.345 | 1.761 | 2.145 | 2.624 | 2.977 | 3.326 | 3.787 | 4.140 |
15 | 0.691 | 0.866 | 1.074 | 1.341 | 1.753 | 2.131 | 2.602 | 2.947 | 3.286 | 3.733 | 4.073 |
16 | 0.690 | 0.865 | 1.071 | 1.337 | 1.746 | 2.120 | 2.583 | 2.921 | 3.252 | 3.686 | 4.015 |
17 | 0.689 | 0.863 | 1.069 | 1.333 | 1.740 | 2.110 | 2.567 | 2.898 | 3.222 | 3.646 | 3.965 |
18 | 0.688 | 0.862 | 1.067 | 1.330 | 1.734 | 2.101 | 2.552 | 2.878 | 3.197 | 3.610 | 3.922 |
19 | 0.688 | 0.861 | 1.066 | 1.328 | 1.729 | 2.093 | 2.539 | 2.861 | 3.174 | 3.579 | 3.883 |
20 | 0.687 | 0.860 | 1.064 | 1.325 | 1.725 | 2.086 | 2.528 | 2.845 | 3.153 | 3.552 | 3.850 |
21 | 0.686 | 0.859 | 1.063 | 1.323 | 1.721 | 2.080 | 2.518 | 2.831 | 3.135 | 3.527 | 3.819 |
22 | 0.686 | 0.858 | 1.061 | 1.321 | 1.717 | 2.074 | 2.508 | 2.819 | 3.119 | 3.505 | 3.792 |
23 | 0.685 | 0.858 | 1.060 | 1.319 | 1.714 | 2.069 | 2.500 | 2.807 | 3.104 | 3.485 | 3.767 |
24 | 0.685 | 0.857 | 1.059 | 1.318 | 1.711 | 2.064 | 2.492 | 2.797 | 3.091 | 3.467 | 3.745 |
25 | 0.684 | 0.856 | 1.058 | 1.316 | 1.708 | 2.060 | 2.485 | 2.787 | 3.078 | 3.450 | 3.725 |
26 | 0.684 | 0.856 | 1.058 | 1.315 | 1.706 | 2.056 | 2.479 | 2.779 | 3.067 | 3.435 | 3.707 |
27 | 0.684 | 0.855 | 1.057 | 1.314 | 1.703 | 2.052 | 2.473 | 2.771 | 3.057 | 3.421 | 3.690 |
28 | 0.683 | 0.855 | 1.056 | 1.313 | 1.701 | 2.048 | 2.467 | 2.763 | 3.047 | 3.408 | 3.674 |
29 | 0.683 | 0.854 | 1.055 | 1.311 | 1.699 | 2.045 | 2.462 | 2.756 | 3.038 | 3.396 | 3.659 |
30 | 0.683 | 0.854 | 1.055 | 1.310 | 1.697 | 2.042 | 2.457 | 2.750 | 3.030 | 3.385 | 3.646 |
40 | 0.681 | 0.851 | 1.050 | 1.303 | 1.684 | 2.021 | 2.423 | 2.704 | 2.971 | 3.307 | 3.551 |
50 | 0.679 | 0.849 | 1.047 | 1.299 | 1.676 | 2.009 | 2.403 | 2.678 | 2.937 | 3.261 | 3.496 |
60 | 0.679 | 0.848 | 1.045 | 1.296 | 1.671 | 2.000 | 2.390 | 2.660 | 2.915 | 3.232 | 3.460 |
80 | 0.678 | 0.846 | 1.043 | 1.292 | 1.664 | 1.990 | 2.374 | 2.639 | 2.887 | 3.195 | 3.416 |
100 | 0.677 | 0.845 | 1.042 | 1.290 | 1.660 | 1.984 | 2.364 | 2.626 | 2.871 | 3.174 | 3.390 |
120 | 0.677 | 0.845 | 1.041 | 1.289 | 1.658 | 1.980 | 2.358 | 2.617 | 2.860 | 3.160 | 3.373 |
∞ | 0.674 | 0.842 | 1.036 | 1.282 | 1.645 | 1.960 | 2.326 | 2.576 | 2.807 | 3.090 | 3.291 |
Например, если нам дана выборка с выборочной дисперсией 2 и выборочным средним 10, взятая из выборочного набора 11 (10 степеней свободы), используя формулу
Мы можем определить с 90% уровнем доверия, что истинное среднее таково:
(то есть, в среднем, в 90% случаев верхний предел превышает истинное среднее)
и, всё также с 90% уверенностью, мы находим истинное среднее значение, превышающее
(В среднем, в 90% случаев нижний предел меньше истинного среднего)
Так что с 80% уверенностью (1-2*(1-90%) = 80%), мы находим истинное значение, лежащее в интервале
Другими словами, в 80% случаев истинное среднее ниже верхнего предела и выше нижнего предела.
Это не эквивалентно утверждению, что с 80% вероятностью истинное среднее лежит между определенной парой верхних и нижних пределов.
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .