Гистогра́мма в математической статистике — это функция, приближающая плотность вероятности некоторого распределения, построенная на основе выборки из него.
Графически гистограмма строится следующим образом. Сначала множество значений, которое может принимать элемент выборки, разбивается на несколько интервалов (bins). Чаще всего эти интервалы берут одинаковыми, но это не является строгим требованием. Эти интервалы откладываются на горизонтальной оси, затем над каждым рисуется прямоугольник. Если все интервалы были одинаковыми, то высота каждого прямоугольника пропорциональна числу элементов выборки, попадающих в соответствующий интервал. Если интервалы разные, то высота прямоугольника выбирается таким образом, чтобы его площадь была пропорциональна числу элементов выборки, которые попали в этот интервал.
Пусть — выборка из некоторого распределения. Определим разбиение числовой прямой . Пусть
— число элементов выборки, попавших в -й интервал. Тогда кусочно-постоянная функция , имеющая вид:
Нормализованная гистограмма является плотностью вероятности. В частности:
Пусть распределение случайных величин абсолютно непрерывно и задаётся плотностью вероятности . Тогда
Таким образом площадь фигуры под нормализованной гистограммой, ограниченной интервалом , приближается к вероятности принятия значений внутри этого интервала любой из случайных величин . Однако, нормализованная гистограмма не сходится поточечно к теоретической плотности распределения этих случайных величин.
Гистограммы применяются в основном для визуализации данных на начальном этапе статистической обработки.
Построение гистограмм используется для получения эмпирической оценки плотности распределения случайной величины. Для построения гистограммы наблюдаемый диапазон изменения случайной величины разбивается на несколько интервалов и подсчитывается доля от всех измерений, попавшая в каждый из интервалов. Величина каждой доли, отнесенная к величине интервала, принимается в качестве оценки значения плотности распределения на соответствующем интервале.
Существенным для построения гистограммы является выбор оптимального разбиения, поскольку при увеличении интервалов снижается детализация оценки плотности распределения, а при уменьшении падает точность её значения. Для выбора оптимального количества интервалов часто применяется правило Стёрджеса
где — общее число наблюдений величины, — логарифм по основанию 2, — обозначает целую часть числа .
Также часто встречается правило, оценивающее оптимальное количество интервалов как квадратный корень из общего числа измерений:
В этой статье не хватает ссылок на источники информации. |
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .