WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Гистогра́мма в математической статистике — это функция, приближающая плотность вероятности некоторого распределения, построенная на основе выборки из него.

Графическое описание

Графически гистограмма строится следующим образом. Сначала множество значений, которое может принимать элемент выборки, разбивается на несколько интервалов (bins). Чаще всего эти интервалы берут одинаковыми, но это не является строгим требованием. Эти интервалы откладываются на горизонтальной оси, затем над каждым рисуется прямоугольник. Если все интервалы были одинаковыми, то высота каждого прямоугольника пропорциональна числу элементов выборки, попадающих в соответствующий интервал. Если интервалы разные, то высота прямоугольника выбирается таким образом, чтобы его площадь была пропорциональна числу элементов выборки, которые попали в этот интервал.

Определение

Пусть  — выборка из некоторого распределения. Определим разбиение числовой прямой . Пусть

— число элементов выборки, попавших в -й интервал. Тогда кусочно-постоянная функция , имеющая вид:

, — называется нормализованной гистограммой.

Замечание

Нормализованная гистограмма является плотностью вероятности. В частности:

  • .
  • .

Гистограмма абсолютно непрерывного распределения

Пусть распределение случайных величин абсолютно непрерывно и задаётся плотностью вероятности . Тогда

по вероятности при .

Замечание

Таким образом площадь фигуры под нормализованной гистограммой, ограниченной интервалом , приближается к вероятности принятия значений внутри этого интервала любой из случайных величин . Однако, нормализованная гистограмма не сходится поточечно к теоретической плотности распределения этих случайных величин.

Использование

Гистограммы применяются в основном для визуализации данных на начальном этапе статистической обработки.

Построение гистограмм используется для получения эмпирической оценки плотности распределения случайной величины. Для построения гистограммы наблюдаемый диапазон изменения случайной величины разбивается на несколько интервалов и подсчитывается доля от всех измерений, попавшая в каждый из интервалов. Величина каждой доли, отнесенная к величине интервала, принимается в качестве оценки значения плотности распределения на соответствующем интервале.

Существенным для построения гистограммы является выбор оптимального разбиения, поскольку при увеличении интервалов снижается детализация оценки плотности распределения, а при уменьшении падает точность её значения. Для выбора оптимального количества интервалов часто применяется правило Стёрджеса

,

где  — общее число наблюдений величины,  — логарифм по основанию 2,  — обозначает целую часть числа .

Также часто встречается правило, оценивающее оптимальное количество интервалов как квадратный корень из общего числа измерений:

См. также

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .




Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии