WikiSort.ru - Не сортированное

Распределение Стьюдента
	Плотность вероятности
	Функция распределения
Обозначение
Параметры	— число степеней свободы
Носитель
Плотность вероятности
Функция распределения	где — гипергеометрическая функция
Математическое ожидание	, если
Медиана
Мода
Дисперсия	, если
Коэффициент асимметрии	, если
Коэффициент эксцесса	, если
Дифференциальная энтропия	,; : бета-функция;
Производящая функция моментов	не определена

ПОИСК ПО САЙТУ | о проекте

Распределе́ние Стью́дента ( $t$ -распределение) в теории вероятностей — это однопараметрическое семейство абсолютно непрерывных распределений. Названо в честь Уильяма Сили Госсета, который первым опубликовал работы, посвящённые этому распределению, под псевдонимом «Стьюдент».

Распределение Стьюдента играет важную роль в некоторых широко используемых системах статистического анализа. Пример такой системы — t-критерий Стьюдента для оценки статистического значения разницы между двумя выборочными средними, построения доверительных интервалов разницы между двумя доверительными средними, а также в линейном регрессионном анализе. Распределение Стьюдента также появляется в байесовском анализе данных, распределённых по нормальному закону.

Распределение Стьюдента может быть использовано для оценки того, насколько вероятно, что истинное среднее находится в каком-либо заданном диапазоне.

График плотности распределения Стьюдента, как и нормального распределения, является симметричным и колоколообразным, но с более тяжелыми хвостами — из-за этого реализации случайной величины с распределением Стьюдента чаще сильно отличаются от математического ожидания.

Это важно для понимания статистического поведения определённых типов соотношений случайных величин, в которых отклонение в знаменателе увеличено и может производить отдалённые величины, когда знаменатель соотношения близок к нулю.

Распределение Стьюдента — частный случай обобщённого гиперболического распределения.

История и этимология

В статистике t-распределение было впервые получено как апостериорное распределение в 1876 году Фридрихом Гельмертом^[1]^[2]^[3] и Якобом Люротом^[en]^[4]^[5]^[6].

В англоязычной литературе распределение берёт название из статьи Уильяма Госсета в журнале Пирсона «Биометрика», опубликованной под псевдонимом «Стьюдент»^[7]^[8].

Госсет работал в пивоварне Гиннесс в Дублине, Ирландия, и применял свои знания в области статистики как при варке пива, так и на полях — для выведения самого урожайного сорта ячменя. Исследования были обращены к нуждам пивоваренной компании и проводились на малом количестве наблюдений, что послужило толчком для развития методов, работающих на малых выборках.

Госсету пришлось скрывать свою личность при публикации из-за того, что ранее другой исследователь, работавший на Гиннесс, опубликовал в своих материалах сведения, составлявшие коммерческую тайну компании, после чего Гиннесс запретил своим работникам публикацию любых материалов, независимо от содержавшейся в них информации.

Статья Госсета описывает распределение как «распределение частоты стандартных отклонений выборки, извлеченных из генеральной совокупности». Оно стало известным благодаря работе Роналда Фишера, который называл распределение «распределением Стьюдента», а величину — величиной t^[9].

Определение

Пусть $Y_{0},Y_{1},\ldots ,Y_{n}$ — независимые стандартные нормальные случайные величины, такие что $Y_{i}\sim {\mathcal {N}}(0,1),\;i=0,\ldots ,n$ . Тогда распределение случайной величины $t$ , где

t={\frac {Y_{0}}{\sqrt {{\frac {1}{n}}\sum \limits _{i=1}^{n}Y_{i}^{2}}}},

называется распределением Стьюдента с $n$ степенями свободы $t\sim \mathrm {t} (n)$ .

Это распределение абсолютно непрерывно с плотностью:

f_{t}(y)={\frac {\Gamma \left({\frac {n+1}{2}}\right)}{{\sqrt {n\pi }}\,\Gamma \left({\frac {n}{2}}\right)}}\,\left(1+{\frac {y^{2}}{n}}\right)^{-{\frac {n+1}{2}}}

,

где $\Gamma$ — гамма-функция Эйлера. Таким образом:

{\frac {\Gamma ({\frac {n+1}{2}})}{{\sqrt {n\pi }}\,\Gamma ({\frac {n}{2}})}}={\frac {(n-1)(n-3)\cdots 5\cdot 3}{2{\sqrt {n}}(n-2)(n-4)\cdots 4\cdot 2\,}},

для чётных

n

и соответственно

{\frac {\Gamma ({\frac {n+1}{2}})}{{\sqrt {n\pi }}\,\Gamma ({\frac {n}{2}})}}={\frac {(n-1)(n-3)\cdots 4\cdot 2}{\pi {\sqrt {n}}(n-2)(n-4)\cdots 5\cdot 3\,}},

для нечётных

n

.

Также плотность распределения Стьюдента можно выразить воспользовавшись бета-функцией Эйлера $\mathrm {B}$ :

f_{t}(y)={\frac {1}{{\sqrt {n}}\,\mathrm {B} ({\frac {1}{2}},{\frac {n}{2}})}}\left(1+{\frac {y^{2}}{n}}\right)^{\!-{\frac {n+1}{2}}}

.

График функции плотности t-распределения симметричен, а его форма напоминает форму колокола, как у стандартного нормального распределения, но он ниже и шире.

Следующие графики отражают плотность t-распределения при увеличении числа $n$ степеней свободы. Можно наблюдать как по мере возрастания $n$ , кривая функции плотности все больше напоминает стандартное нормальное распределение.

Плотность t-распределения (красная линия) для 1, 2, 3, 5, 10 и 30 степеней свободы
в сравнении со стандартным нормальным распределением (синяя линия). Предыдущие графики показаны зеленым.
1 степень свободы	2 степени свободы	3 степени свободы
5 степеней свободы	10 степеней свободы	30 степеней свободы

Функция распределения

Функция распределения может быть выражена через регуляризованную неполную бета-функцию $I$ . Для t > 0,

F(t)=\int _{-\infty }^{t}f(u)\,du=1-{\tfrac {1}{2}}I_{x(t)}\left({\tfrac {n}{2}},{\tfrac {1}{2}}\right),

где

x(t)={\frac {n}{t^{2}+n}}.

^[10]

Для t < 0 значения получаются из симметрии.

Другая формула верна для $t^{2}<n$ ^[10]:

\int _{-\infty }^{t}f(u)\,du={\tfrac {1}{2}}+t{\frac {\Gamma \left({\tfrac {1}{2}}(n+1)\right)}{{\sqrt {\pi n}}\,\Gamma \left({\tfrac {n}{2}}\right)}}{}_{2}F_{1}\left({\tfrac {1}{2}},{\tfrac {1}{2}}(n+1);{\tfrac {3}{2}};-{\tfrac {t^{2}}{n}}\right)

,

где ₂F₁ является частным случаем гипергеометрической функции.

Частные случаи

Распределение Стьюдента с одной степенью свободы ( $n=1$ ) это стандартное распределение Коши.

Функция распределения:

F(t)={\tfrac {1}{2}}+{\tfrac {1}{\pi }}\arctan(t)

Функция плотности:

f(t)={\frac {1}{\pi (1+t^{2})}}

Распределение Стьюдента с двумя степенями свободы ( $n=2$ ):

Функция распределения:

F(t)={\tfrac {1}{2}}+{\frac {t}{2{\sqrt {2+t^{2}}}}}

Функция плотности:

f(t)={\frac {1}{\left(2+t^{2}\right)^{\frac {3}{2}}}}

;

Распределение Стьюдента с тремя степенями свободы ( $n=3$ ):

Функция плотности:

f(t)={\frac {6{\sqrt {3}}}{\pi \left(3+t^{2}\right)^{2}}}

Распределение Стьюдента с бесконечным числом степеней свободы ( $n=\infty$ ):

Функция плотности:

f(t)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {t^{2}}{2}}}

Свойства распределения Стьюдента

Распределения Стьюдента симметрично. В частности если $t\sim \mathrm {t} (n)$ , то $-t\sim \mathrm {t} (n)$ .
Существуют только моменты порядка $k<n$ , и не существуют моменты порядка $k\geq n$ . При этом все существующие моменты нечетного порядка равны нулю.

\mathbb {E} \left[t^{k}\right]=0

, если

k

нечётно;

\mathbb {E} \left[t^{k}\right]={\frac {1}{{\sqrt {\pi }}\Gamma \left({\frac {n}{2}}\right)}}\left[\Gamma \left({\frac {k+1}{2}}\right)\Gamma \left({\frac {n-k}{2}}\right)n^{\frac {k}{2}}\right]

, если

k

чётно. В частности,

Матожидание $\mathbb {E} [t]=0$ , если $n>1$ .
Дисперсия $\mathrm {D} [t]={n \over n-2}$ , если $n>2$ .

Характеристики

Распределение Стьюдента с $n$ степенями свободы может быть определено как распределение случайной величины $T$ ^[10]^[11]

$T={\frac {Z}{\sqrt {V/n}}}=Z{\sqrt {\frac {n}{V}}},$

где

Z – случайная величина с распределением ${\mathcal {N}}(0,1)$ ;
V – случайная величина с распределением хи-квадрат и $n$ степенями свободы;
Z иV независимы.

Пусть, $X_{1},\ldots ,X_{n}$ , независимые случайные величины с нормальным распределением ${\mathcal {N}}(\mu ,\sigma ^{2})$

${\overline {X}}_{n}={\frac {1}{n}}(X_{1}+\cdots +X_{n})$ – выборочное среднее, а

$S_{n}^{\;2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}_{n}\right)^{2}$ – несмещённая оценка дисперсии.

Покажем, что случайная величина

$V=(n-1){\frac {S_{n}^{2}}{\sigma ^{2}}}$

обладает хи-квадратным распределением с $k=n-1$ степенями свободы.^[12]

$Z=\left({\overline {X}}_{n}-\mu \right){\frac {\sqrt {n}}{\sigma }}$ ,

нормально распределена ${\mathcal {N}}(0,1)$ , когда выборочное среднее ${\overline {X}}_{n}$ имеет нормальное распределение ${\mathcal {N}}(\mu ,{\frac {\sigma ^{2}}{n}})$ . Более того, можно показать, что эти две случайные величины (нормально распределенная $Z$ и хи-квадрат распределенная $V$ ) независимы.

Подставим получившиеся величину в

$T\equiv {\frac {Z}{\sqrt {V/n}}}=\left({\overline {X}}_{n}-\mu \right){\frac {\sqrt {n}}{S_{n}}},$

с отличием от $Z$ в том, что стандартное отклонение σ заменено случайной величиной $S_{n}$ имеющей распределение Стьюдента. Заметим, что неизвестная дисперсия σ² не появляется в $T$ , так как она была и в числителе, и в знаменателе. Госсет интуитивно получил плотность вероятности, установленную выше, где $n$ соответствует n–1; Фишер доказал это в 1925 году.^[9]

В распределении тестовой статистики, $T$ , зависит от $n$ , но не от μ или σ².

Как проявляется t-распределение

Выборочная дисперсия

Распределение Стьюдента возникает в связи с распределением выборочной дисперсии. Пусть $X_{1},\ldots ,X_{n}$ независимые случайные величины, такие что $X_{i}\sim \mathrm {N} (\mu ,\sigma ^{2}),\;i=1,\ldots ,n$ . Обозначим ${\bar {X}}$ выборочное среднее этой выборки, а $S^{2}$ её выборочную дисперсию. Тогда

{\frac {{\bar {X}}-\mu }{S/{\sqrt {n}}}}\sim \mathrm {t} (n-1)

.

С этим фактом связано использование распределения Стьюдента в статистике для точечного оценивания, построения доверительных интервалов и тестирования гипотез, касающихся неизвестного среднего выборки из нормального распределения.

Байесовская статистика

В байесовской статистике, нецентральное t-распределение встречается как маргинальное распределение коэффициента $m$ нормального распределения ${\mathcal {N}}(m,\sigma ^{2})$ .

Зависимость неизвестной дисперсии выражается через:

{\begin{aligned}p(\mu \mid D,I)=&\int p(\mu ,\sigma ^{2}\mid D,I)\;d\sigma ^{2}=\int p(\mu \mid D,\sigma ^{2},I)\;p(\sigma ^{2}\mid D,I)\;d\sigma ^{2}\end{aligned}}

где $D$ – это данные {x_i}, а $I$ представляет собой любую другую информацию, которая могла быть использована для создания модели.

Когда данные неинформативны из теорема Байеса следует

{\begin{aligned}p(\mu \mid D,\sigma ^{2},I)\sim &N({\bar {x}},{\frac {\sigma ^{2}}{n}})\end{aligned}}

{\begin{aligned}p(\sigma ^{2}\mid D,I)\sim &\operatorname {Scale-inv-\chi ^{2}} (n,s^{2})\end{aligned}}

нормальное распределение и масштабированное обратное хи-квадрат распределение, где

s^{2}=\sum {\frac {(x_{i}-{\bar {x}})^{2}}{n-1}}

.

Маргинализованный интеграл в таком случае имеет вид

{\begin{aligned}p(\mu |D,I)&\propto \int _{0}^{\infty }{\frac {1}{\sqrt {\sigma ^{2}}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}n(\mu -{\bar {x}})^{2}\right)\;\cdot \;\sigma ^{-n-2}\exp(-ns^{2}/2\sigma ^{2})\;d\sigma ^{2}\\&\propto \int _{0}^{\infty }\sigma ^{-n-3}\exp \left(-{\frac {1}{2\sigma ^{2}}}\left(n(\mu -{\bar {x}})^{2}+ns^{2}\right)\right)\;d\sigma ^{2}\end{aligned}}

после замены $z=A/2\sigma ^{2}$ , где $A=n(\mu -{\bar {x}})^{2}+ns^{2}$ ,

получим $dz=-{\frac {A}{2\sigma ^{4}}}d\sigma ^{2}$

и оценку $p(\mu |D,I)\propto \;A^{-{\frac {n+1}{2}}}\int _{0}^{\infty }z^{(n-1)/2}\exp(-z)\,dz$

$\int _{0}^{\infty }z^{(n-1)/2}\exp(-z)\,dz$ теперь стандартный Гамма интеграл, который оценивается константой

${\begin{aligned}p(\mu \mid D,I)\propto &\;A^{-{\frac {n+1}{2}}}\propto &\left(1+{\frac {n(\mu -{\bar {x}})^{2}}{ns^{2}}}\right)^{-{\frac {n+1}{2}}}\end{aligned}}$

это нестандартизированное t-распределение.

С помощью замены, $t={\frac {\mu -{\bar {x}}}{s/{\sqrt {n}}}}$ , получаем стандартизированное t-распределение.

Дифференцирование выше было представлено для случая неинформативной априорной вероятности для $\scriptstyle {\mu }$ и $\scriptstyle {\sigma ^{2}}$ ; но очевидно, что любая априорная вероятность, ведет к смешению нормального распределения и масштабированного обратного хи-квадрат распределение, что нецентральному t-распределению с масштабированием и смещением на $\scriptstyle {P(\mu |D,I)}$ , параметр масштабирования $\scriptstyle {\frac {S^{2}}{n}}$ будет в находиться под влиянием априорной информации и данных, а не только данных, как в примере выше.

Обобщения распределения Стьюдента

Нестандартизированное распределение Стьюдента

Распределение Стьюдента можно обобщить до семейства функций с тремя параметрами, включающими коэффициент сдвига $\mu$ и коэффициент масштаба $\sigma$ , через отношение

X=\mu +\sigma T

или

T={\frac {X-\mu }{\sigma }}

,

где ${\frac {x-\mu }{\sigma }}$ классическое распределение Стьюдента с $n$ степенями свободы.

Плотность нестандартизированного распределение Стьюдента, определяется следующим выражением^[13]

p(x\mid n,\mu ,\sigma )={\frac {\Gamma ({\frac {n+1}{2}})}{\Gamma ({\frac {n}{2}}){\sqrt {\pi n}}\sigma }}\left(1+{\frac {1}{n}}\left({\frac {x-\mu }{\sigma }}\right)^{2}\right)^{-{\frac {n+1}{2}}}

Где, $\sigma$ не соответствует стандартному нормальному распределению и задает масштаб

В байесовском выводе предельное распределение неизвестного среднего значения $\mu$ выше чем $\sigma$ , и соответствует $\scriptstyle {s/{\sqrt {n}}}$ , где

s^{2}=\sum {\frac {(x_{i}-{\bar {x}})^{2}}{n-1}}.

Эквивалентно, распределение можно записать с помощью квадрат коэффициента масштабирования $\sigma ^{2}$ :

p(x\mid n,\mu ,\sigma ^{2})={\frac {\Gamma ({\frac {n+1}{2}})}{\Gamma ({\frac {n}{2}}){\sqrt {\pi n\sigma ^{2}}}}}\left(1+{\frac {1}{n}}{\frac {(x-\mu )^{2}}{\sigma ^{2}}}\right)^{-{\frac {n+1}{2}}}

.

Свойства^[13]:

$\operatorname {E} (X)=\mu$ для $n>1$ ,

${\text{var}}(X)=\sigma ^{2}{\frac {n}{n-2}}$ для $n>2$

${\text{mode}}(X)=\mu .$

Такое распределение является результатом комбинации распределения Гаусса (нормального распределения) со средним значением $\mu$ и неизвестной дисперсией, с обратным гамма-распределением, с дисперсией, имеющей параметры $a=n/2$ and $b=n\sigma ^{2}/2$ .. Другими словами, предполагается, что случайная величина X обладает нормальным распределением с неизвестной дисперсией, распределенной как обратная гамма, а затем дисперсия исключается. Такое свойство полезно из-за того, что обратное гамма-распределение – это сопряженное априорное распределение дисперсии распределения Гаусса, именно поэтому нестандартизированное распределение Стьюдента естественным образом возникает во многих байесовских задачах.

Эквивалентно, это распределение является результатом комбинации распределения Гаусса с масштабированным обратным хи-квадрат распределением с параметрами $n$ and $\sigma ^{2}$ . Масштабированное обратное хи-квадрат распределение - точно то же самое распределение, что и обратное гамма-распределение, но с другой параметризацией, а именно $n=2a,\sigma ^{2}=b/a$ .

Альтернативная параметризация на основании обратного параметра масштабирования λ^[14] (аналогично тому, как мера точности обратна дисперсии), определенная отношением $\lambda ={\frac {1}{\sigma ^{2}}}$ ,

тогда плотность определяется как

p(x|n,\mu ,\lambda )={\frac {\Gamma ({\frac {n+1}{2}})}{\Gamma ({\frac {n}{2}})}}\left({\frac {\lambda }{\pi n}}\right)^{\frac {1}{2}}\left(1+{\frac {\lambda (x-\mu )^{2}}{n}}\right)^{-{\frac {n+1}{2}}}.

Свойства:

$\operatorname {E} (X)=\mu$ для $n>1$ ,

${\text{var}}(X)={\frac {1}{\lambda }}{\frac {n}{n-2}}$ для $n>2$

${\text{mode}}(X)=\mu .$

Это распределение является результатом комбинации распределения Гаусса со средним $\mu$ и неизвестной мерой точности (обратной дисперсии), с гамма-распределением с параметрами $a=n/2$ and $b=n/(2\lambda )$ . Другими словами, предполагается, что случайная величина X обладает нормальным распределением с неизвестной гамма-распределённой мерой точности.

Нецентральное распределение Стьюдента

Нецентральное распределение Стьюдента, это один способов обобщения стандартного распределения Стьюдента, включающий дополнительный коэффициент сдвига (параметр нецентральности) $\mu$ .

$(Z+\mu ){\sqrt {\frac {n}{V}}}.$

В нецентральное распределение Стьюдента медиана не совпадает с модой, т.е. оно не симметрично (в отличие от нестандартизированного).

Это распределение важно для изучения статистической мощности t-критерия Стьюдента.

Дискретное распределение Стьюдента

Дискретное распределение Стьюдента имеет следующую функцию распределения с r пропорциональным:^[15]

\prod _{j=1}^{k}{\frac {1}{(r+j+a)^{2}+b^{2}}}\quad \quad r=\ldots ,-1,0,1,\ldots .

Где a, b, и k – параметры. Такое распределение возникает при работе с системами из дискретных распределений, таких как распределение Пирсона.^[16]

Связь с другими распределениями

Распределение Стьюдента является распределением Пирсона типа VII^[17].
Распределение Стьюдента с одной степенью свободы ( $n=1$ ) это стандартное распределение Коши: $\mathrm {t} (1)\equiv \mathrm {C} (0,1)$ .
Распределение Стьюдента сходится к стандартному нормальному при $n\to \infty$ . Пусть дана последовательность случайных величин $\{t_{n}\}_{n=1}^{\infty }$ , где $t_{n}\sim \mathrm {t} (n),\;n\in \mathbb {N}$ . Тогда: $t_{n}\to {\mathcal {N}}(0,1)$ по распределению при $n\to \infty$ .
Квадрат случайной величины, имеющей распределение Стьюдента, также имеет распределение Фишера. Пусть $t\sim \mathrm {t} (n)$ . Тогда: $t^{2}\sim \mathrm {F} (1,n)$ .

Обобщение распределения Гаусса

Мы можем получить выборку с t-распределением, взяв отношение величин из нормального распределения и квадратный корень из распределения хи-квадрат.

где $X_{0},X_{1},\ldots ,X_{n}$ — независимые стандартные нормальные случайные величины, такие что $X_{i}\sim {\mathcal {N}}(0,1),\;i=0,\ldots ,n$

$t={\frac {X_{0}}{\sqrt {{\frac {1}{n}}\sum \limits _{i=1}^{n}X_{i}^{2}}}}.$

Если мы вместо нормального распределения, возьмём например, Ирвин-Холл, получится симметричное распределение с 4 параметрами, которое включает в себя нормальное, равномерное, треугольное, а также распределения Стьюдента и Коши; таким образом, это обобщение более гибкое, чем многие другие симметричные обобщения распределения Гаусса.

Применение распределения Стьюдента

Проверка гипотезы

Некоторые статистические данные могут обладать распределением Стьюдента на выборках небольшого размера, поэтому распределение Стьюдента формирует основу критериев значимости. Например, тест ранговой корреляции Спирмена ρ, в нулевом случае (нулевая корреляция) хорошо аппроксимируется распределением Стьюдента при размере выборки больше 20.

Построение доверительного интервала

Распределение Стьюдента может быть использовано для получения доверительного интервала для ненаблюдаемой выборки из нормального распределения с неизвестным средним и дисперсией.

Предположим, что число A выбрано так

$\Pr(-A<T<A)=0.9,$

Тогда T обладает t-распределением с n–1 степенями свободы. По симметрии, это равноценно утверждению, что А удовлетворяет

$\Pr(T<A)=0.95,$ или $A=t_{(0.05,n-1)}$ , тогда

$\Pr \left(-A<{\frac {{\overline {X}}_{n}-\mu }{\frac {S_{n}}{\sqrt {n}}}}<A\right)=0.9,$

что эквивалентно

$\Pr \left({\overline {X}}_{n}-A{\frac {S_{n}}{\sqrt {n}}}<\mu <{\overline {X}}_{n}+A{\frac {S_{n}}{\sqrt {n}}}\right)=0.9.$

таким образом, интервал с доверительным пределом в точках ${\overline {X}}_{n}\pm A{\frac {S_{n}}{\sqrt {n}}}$ , это 90% доверительный интервал для μ. Следовательно, если мы находим среднее множества наблюдений (нормально распределеных), мы можем использовать распределение Стьюдента, чтобы определить, включают ли доверительные пределы по этому среднему какое-либо теоретически предсказанное значение, например, значение, предсказанное нулевой гипотезой.

Такой подход применяется в t-критерии Стьюдента: если разница между средними значениями выборок из двух нормальных распределений сама может быть нормально распределена, распределение Стьюдента может быть использовано для исследования того, может ли эта разница равняться нулю.

Для нормально распределенных выборок односторонний (1−a) верхний предел доверия (UCL) среднего значения равен

$\mathrm {UCL} _{1-a}={\overline {X}}_{n}+t_{a,n-1}{\frac {S_{n}}{\sqrt {n}}}$ .

Полученный в результате верхний предел доверия будет наибольшим средним значением для данного доверительного интервала и размера выборки. Другими словами, если ${\overline {X}}_{n}$ среднее значение множества наблюдений, вероятность того, что среднее значение распределения уступает $\mathrm {UCL} _{1-n}$ равна уровню значимости 1–a.

В байесовской статистике

Распределение Стьюдента, особенно нецентральное, часто возникает в байесовской статистике как результат связи с нормальным распределением.

Действительно, если нам неизвестна дисперсия нормально распределенной случайной величины, но известно сопряженное априорное распределение, можно будет подобрать такое гамма-распредение, что полученные в результате величины будут обладать распределением Стьюдента.

Эквивалентные конструкции с теми же результатами включают сопряжённое масштабированное обратное хи-квадратное распределение. Если некорректное априорное распределение, пропорциональное $\sigma ^{2}$ , расположено над дисперсией, то также возникает распределение Стьюдента. Это происходит независимо от того, известно ли среднее нормально распределенной величины, распределённое с сопряжённым априорным распределением, или нет.

Параметрическое моделирование, устойчивое к нарушениям исходных предпосылок

Распределение Стьюдента часто используется в качестве альтернативы нормальному распределению для модели данных.^[18] Это происходит из-за того, что довольно часто настоящие данные имеют более тяжелые хвосты, чем позволяет нормальное распределение. Классический подход заключается в определении выбросов и их исключении (или понижении их веса). Однако не всегда легко определить выброс (особенно в задачах с большой размерностью), и распределение Стьюдента является естественным выбором, обеспечивающим параметрический подход к робастной статистике.

Ланж и другие исследовали использование распределения Стьюдента для робастного (устойчивого к нарушениям исходных предпосылок) моделирования данных. Байесовский расчет обнаруживается у Гельмана и др.

Количество степеней свободы контролирует эксцес распределения и коррелируется с параметром масштабирования.

Некоторые другие свойства распределения Стьюдента

Пусть, $A(t|n)$ – интеграл функции плотности вероятности Стьюдента, $F(t)$ – вероятность того, что значение t, меньше, чем значение, рассчитанное по данным наблюдений.

Функция $A(t|n)$ может быть использована для тестировании того, является ли разница между средними значениями двух наборов данных взятых из одной совокупности, статистически значимой, это достигается путём вычисления соответствующего значения t и вероятности его возникновения.

Это используется например, в T-критерии Стьюдента. Для t-распределения с $n$ степенями свободы, $A(t|n)$ - вероятность того, что t будет меньше наблюдаемого значения, если два средних значения были одинаковыми. Его можно легко вычислить из кумулятивной функции распределения $F_{n}(t)$ распределения Стьюдента:

A(t|n)=F_{n}(t)-F_{n}(-t)=1-I_{\frac {n}{n+t^{2}}}\left({\frac {n}{2}},{\frac {1}{2}}\right),

где I_x - регуляризированная неполная бета функция (a, b).

При статистической проверки гипотез эта функция используется для построения р-значения.

Выборка по методу Монте Карло

Есть разные подходы к получению случайных величин из распределения Стьюдента. Всё зависит от того, требуются независимые выборки, или они могут быть построены путём применения обратной функции распределения над выборкой с однородным распределением.

В случае с независимой выборкой легко применить расширение метода Бокса-Мюллера в его полярной (тригонометрической) форме^[19]. Преимущество этого метода в том, что он одинаково относится ко всем положительным степеням свободы $n$ , в то время как многие другие методы не будут работать, если $n$ близка к нулю.^[19]

Плотность распределения Стьюдента через решение дифференциального уравнения

Плотность распределения Стьюдента можно получить, решив следующее дифференциальное уравнение:

$\left\{{\begin{array}{l}\left(n+x^{2}\right)f'(x)+(n+1)xf(x)=0,\\f(1)={\frac {n^{n/2}(n+1)^{-{\frac {n}{2}}-{\frac {1}{2}}}}{B\left({\frac {n}{2}},{\frac {1}{2}}\right)}}\end{array}}\right\}$

Процентили

Таблицы значений

Многие учебники по статистике включают в себя таблицы распределения Стьюдента.

В наши дни лучший способ узнать полностью точное критическое значение t или кумулятивную вероятность — это использование статистической функции, встроенной в электронные таблицы (Office Excel, OpenOffice Calc и т.д.), или интерактивного веб-калькулятора. Нужные функции электронных таблиц — TDIST и TINV.

Таблица ниже включает в себя значения некоторых значений для распределений Стьюдента с v степенями свободы для ряда односторонних или двусторонних критических областей.

В качестве примера того, как читать эту таблицу, возьмём четвёртый ряд, который начинается с 4; это означает, что v, количество степеней свободы, равно 4 (и если мы работаем, как это показано выше, с n величин с фиксированной суммой, то n = 5). Возьмём пятое значение в колонке 95% для односторонних(90% для двусторонних). Значение это равно "2.132". Значит, вероятность, что T меньше 2.132 равна 95% или Pr(−∞ <T< 2.132) = 0.95; это также означает, что Pr(−2.132 <T< 2.132) = 0.9.

Это может быть вычислено по симметрии распределения,

Pr(T < −2.132) = 1 − Pr(T > −2.132) = 1 − 0.95 = 0.05,

получаем

Pr(−2.132 < T < 2.132) = 1 − 2(0.05) = 0.9.

Обратите внимание, что последний ряд также даёт критические точки: распределение Стьюдента с бесконечным количеством степеней – это нормальное распределение.

Первая колонка отображает число степеней свободы.

односторонний	75%	80%	85%	90%	95%	97.5%	99%	99.5%	99.75%	99.9%	99.95%
двусторонний	50%	60%	70%	80%	90%	95%	98%	99%	99.5%	99.8%	99.9%
1	1.000	1.376	1.963	3.078	6.314	12.71	31.82	63.66	127.3	318.3	636.6
2	0.816	1.080	1.386	1.886	2.920	4.303	6.965	9.925	14.09	22.33	31.60
3	0.765	0.978	1.250	1.638	2.353	3.182	4.541	5.841	7.453	10.21	12.92
4	0.741	0.941	1.190	1.533	2.132	2.776	3.747	4.604	5.598	7.173	8.610
5	0.727	0.920	1.156	1.476	2.015	2.571	3.365	4.032	4.773	5.893	6.869
6	0.718	0.906	1.134	1.440	1.943	2.447	3.143	3.707	4.317	5.208	5.959
7	0.711	0.896	1.119	1.415	1.895	2.365	2.998	3.499	4.029	4.785	5.408
8	0.706	0.889	1.108	1.397	1.860	2.306	2.896	3.355	3.833	4.501	5.041
9	0.703	0.883	1.100	1.383	1.833	2.262	2.821	3.250	3.690	4.297	4.781
10	0.700	0.879	1.093	1.372	1.812	2.228	2.764	3.169	3.581	4.144	4.587
11	0.697	0.876	1.088	1.363	1.796	2.201	2.718	3.106	3.497	4.025	4.437
12	0.695	0.873	1.083	1.356	1.782	2.179	2.681	3.055	3.428	3.930	4.318
13	0.694	0.870	1.079	1.350	1.771	2.160	2.650	3.012	3.372	3.852	4.221
14	0.692	0.868	1.076	1.345	1.761	2.145	2.624	2.977	3.326	3.787	4.140
15	0.691	0.866	1.074	1.341	1.753	2.131	2.602	2.947	3.286	3.733	4.073
16	0.690	0.865	1.071	1.337	1.746	2.120	2.583	2.921	3.252	3.686	4.015
17	0.689	0.863	1.069	1.333	1.740	2.110	2.567	2.898	3.222	3.646	3.965
18	0.688	0.862	1.067	1.330	1.734	2.101	2.552	2.878	3.197	3.610	3.922
19	0.688	0.861	1.066	1.328	1.729	2.093	2.539	2.861	3.174	3.579	3.883
20	0.687	0.860	1.064	1.325	1.725	2.086	2.528	2.845	3.153	3.552	3.850
21	0.686	0.859	1.063	1.323	1.721	2.080	2.518	2.831	3.135	3.527	3.819
22	0.686	0.858	1.061	1.321	1.717	2.074	2.508	2.819	3.119	3.505	3.792
23	0.685	0.858	1.060	1.319	1.714	2.069	2.500	2.807	3.104	3.485	3.767
24	0.685	0.857	1.059	1.318	1.711	2.064	2.492	2.797	3.091	3.467	3.745
25	0.684	0.856	1.058	1.316	1.708	2.060	2.485	2.787	3.078	3.450	3.725
26	0.684	0.856	1.058	1.315	1.706	2.056	2.479	2.779	3.067	3.435	3.707
27	0.684	0.855	1.057	1.314	1.703	2.052	2.473	2.771	3.057	3.421	3.690
28	0.683	0.855	1.056	1.313	1.701	2.048	2.467	2.763	3.047	3.408	3.674
29	0.683	0.854	1.055	1.311	1.699	2.045	2.462	2.756	3.038	3.396	3.659
30	0.683	0.854	1.055	1.310	1.697	2.042	2.457	2.750	3.030	3.385	3.646
40	0.681	0.851	1.050	1.303	1.684	2.021	2.423	2.704	2.971	3.307	3.551
50	0.679	0.849	1.047	1.299	1.676	2.009	2.403	2.678	2.937	3.261	3.496
60	0.679	0.848	1.045	1.296	1.671	2.000	2.390	2.660	2.915	3.232	3.460
80	0.678	0.846	1.043	1.292	1.664	1.990	2.374	2.639	2.887	3.195	3.416
100	0.677	0.845	1.042	1.290	1.660	1.984	2.364	2.626	2.871	3.174	3.390
120	0.677	0.845	1.041	1.289	1.658	1.980	2.358	2.617	2.860	3.160	3.373
∞	0.674	0.842	1.036	1.282	1.645	1.960	2.326	2.576	2.807	3.090	3.291

Например, если нам дана выборка с выборочной дисперсией 2 и выборочным средним 10, взятая из выборочного набора 11 (10 степеней свободы), используя формулу

${\overline {X}}_{n}\pm A{\frac {S_{n}}{\sqrt {n}}}.$

Мы можем определить с 90% уровнем доверия, что истинное среднее таково:

$10+1.37218{\frac {\sqrt {2}}{\sqrt {11}}}=10.58510,$

(то есть, в среднем, в 90% случаев верхний предел превышает истинное среднее)

и, всё также с 90% уверенностью, мы находим истинное среднее значение, превышающее

$10-1.37218{\frac {\sqrt {2}}{\sqrt {11}}}=9.41490.$

(В среднем, в 90% случаев нижний предел меньше истинного среднего)

Так что с 80% уверенностью (1-2*(1-90%) = 80%), мы находим истинное значение, лежащее в интервале

$\left(10-1.37218{\frac {\sqrt {2}}{\sqrt {11}}},10+1.37218{\frac {\sqrt {2}}{\sqrt {11}}}\right)=\left(9.41490,10.58510\right).$

Другими словами, в 80% случаев истинное среднее ниже верхнего предела и выше нижнего предела.

Это не эквивалентно утверждению, что с 80% вероятностью истинное среднее лежит между определенной парой верхних и нижних пределов.

Примечания

↑ Helmert, F. R. (1875). "Über die Bestimmung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler". Z. Math. Phys., 20, 300–3.
↑ Helmert, F. R. (1876a). "Über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und uber einige damit in Zusammenhang stehende Fragen". Z. Math. Phys., 21, 192–218.
↑ Helmert, F. R. (1876b). "Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers directer Beobachtungen gleicher Genauigkeit", Astron. Nachr., 88, 113–32.
↑ Lüroth, J (1876). “Vergleichung von zwei Werten des wahrscheinlichen Fehlers”. Astron. Nachr. 87 (14): 209—20. Bibcode:1876AN.....87..209L. DOI:10.1002/asna.18760871402.
↑ Pfanzagl, J.; Sheynin, O. (1996). “A forerunner of the t-distribution (Studies in the history of probability and statistics XLIV)”. Biometrika. 83 (4): 891—898. DOI:10.1093/biomet/83.4.891. MR 1766040.
↑ Sheynin, O. (1995). “Helmert's work in the theory of errors”. Arch. Hist. Exact Sci. 49: 73—104. DOI:10.1007/BF00374700.
↑ “Student” [William Sealy Gosset] (March 1908). “The probable error of a mean” (PDF). Biometrika. 6 (1): 1—25. DOI:10.1093/biomet/6.1.1.
↑ “Student” (William Sealy Gosset), original Biometrika paper as a scan
1 2 Рональд Фишер. Applications of “Student’s” distribution (англ.) // metron. — 1925. — Vol. 5. — P. 90–104. Архивировано 5 марта 2016 года.
1 2 3 Johnson, N.L., Kotz, S., Balakrishnan, N. глава 28 // Continuous Univariate Distributions, Volume 2, 2nd Edition.. — 1995. — ISBN 0-471-58494-0.
↑ Hogg & Craig (1978, Sections 4.4 and 4.8.)
↑ W. G. Cochran. The distribution of quadratic forms in a normal system, with applications to the analysis of covariance // Mathematical Proceedings of the Cambridge Philosophical Society. — 1934-04-01. — Т. 30, вып. 02. — С. 178–191. — ISSN 1469-8064. — DOI:10.1017/S0305004100016595.
1 2 Simon Jackman. Bayesian Analysis for the Social Sciences. — Wiley. — 2009. — С. 507.
↑ Bishop C.M. Pattern recognition and machine learning. — Springer. — 2006.
↑ Ord, J.K. (1972) Families of Frequency Distributions, Griffin. ISBN 0-85264-137-0 (Table 5.1)
↑ Ord, J.K. (1972) Families of Frequency Distributions, Griffin. ISBN 0-85264-137-0 (Chapter 5)
↑ Королюк, 1985, с. 134.
↑ Kenneth L. Lange, Roderick J. A. Little, Jeremy M. G. Taylor. Robust Statistical Modeling Using the t Distribution // Journal of the American Statistical Association. — 1989-12-01. — Т. 84, вып. 408. — С. 881–896. — ISSN 0162-1459. — DOI:10.1080/01621459.1989.10478852.
1 2 Ralph W. Bailey. Polar Generation of Random Variates with the t-Distribution // Mathematics of Computation. — 1994-01-01. — Т. 62, вып. 206. — С. 779–781. — DOI:10.2307/2153537.

Литература

Королюк В.С., Портенко Н.И.,Скороход А.В., Турбин А.Ф. Справочник по теории вероятностей и математической статистике. — М.: Наука, 1985. — 640 с.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2026
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[HFR1-1] Helmert, F. R. (1875). "Über die Bestimmung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler". Z. Math. Phys., 20, 300–3.

[HFR2-2] Helmert, F. R. (1876a). "Über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und uber einige damit in Zusammenhang stehende Fragen". Z. Math. Phys., 21, 192–218.

[HFR3-3] Helmert, F. R. (1876b). "Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers directer Beobachtungen gleicher Genauigkeit", Astron. Nachr., 88, 113–32.

[L1876-4] Lüroth, J (1876). “Vergleichung von zwei Werten des wahrscheinlichen Fehlers”. Astron. Nachr. 87 (14): 209—20. Bibcode:1876AN.....87..209L. DOI:10.1002/asna.18760871402.

[5] Pfanzagl, J.; Sheynin, O. (1996). “A forerunner of the t-distribution (Studies in the history of probability and statistics XLIV)”. Biometrika. 83 (4): 891—898. DOI:10.1093/biomet/83.4.891. MR 1766040.

[6] Sheynin, O. (1995). “Helmert's work in the theory of errors”. Arch. Hist. Exact Sci. 49: 73—104. DOI:10.1007/BF00374700.

[7] “Student” [William Sealy Gosset] (March 1908). “The probable error of a mean” (PDF). Biometrika. 6 (1): 1—25. DOI:10.1093/biomet/6.1.1.

[8] “Student” (William Sealy Gosset), original Biometrika paper as a scan

[:0-9] 1 2 Рональд Фишер. Applications of “Student’s” distribution (англ.) // metron. — 1925. — Vol. 5. — P. 90–104. Архивировано 5 марта 2016 года.

[:1-10] 1 2 3 Johnson, N.L., Kotz, S., Balakrishnan, N. глава 28 // Continuous Univariate Distributions, Volume 2, 2nd Edition.. — 1995. — ISBN 0-471-58494-0.

[11] Hogg & Craig (1978, Sections 4.4 and 4.8.)

[12] W. G. Cochran. The distribution of quadratic forms in a normal system, with applications to the analysis of covariance // Mathematical Proceedings of the Cambridge Philosophical Society. — 1934-04-01. — Т. 30, вып. 02. — С. 178–191. — ISSN 1469-8064. — DOI:10.1017/S0305004100016595.

[:2-13] 1 2 Simon Jackman. Bayesian Analysis for the Social Sciences. — Wiley. — 2009. — С. 507.

[14] Bishop C.M. Pattern recognition and machine learning. — Springer. — 2006.

[15] Ord, J.K. (1972) Families of Frequency Distributions, Griffin. ISBN 0-85264-137-0 (Table 5.1)

[16] Ord, J.K. (1972) Families of Frequency Distributions, Griffin. ISBN 0-85264-137-0 (Chapter 5)

[_5872716a89a83133-17] Королюк, 1985, с. 134.

[18] Kenneth L. Lange, Roderick J. A. Little, Jeremy M. G. Taylor. Robust Statistical Modeling Using the t Distribution // Journal of the American Statistical Association. — 1989-12-01. — Т. 84, вып. 408. — С. 881–896. — ISSN 0162-1459. — DOI:10.1080/01621459.1989.10478852.

[autogenerated1-19] 1 2 Ralph W. Bailey. Polar Generation of Random Variates with the t-Distribution // Mathematics of Computation. — 1994-01-01. — Т. 62, вып. 206. — С. 779–781. — DOI:10.2307/2153537.

Вероятностные распределения
Дискретные	Бернулли Биномиальное Геометрическое Гипергеометрическое Логарифмическое Отрицательное биномиальное Пуассона Дискретное равномерное Мультиномиальное
Абсолютно непрерывные	Бета Вейбулла Гамма- Гиперэкспоненциальное Гомпертца Колмогорова Коши Лапласа Логнормальное Нормальное (Гаусса) Логистическое Накагами Парето Пирсона Полукруговое Непрерывное равномерное Райса Рэлея Стьюдента Трейси — Видома Фишера Хи-квадрат Экспоненциальное Variance-gamma Многомерное нормальное Копула