WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Расстояние (расхождение, дивергенция) Ку́льбака — Ле́йблера (англ. Kullback–Leibler divergence), РКЛ, информационное расхождение, различающая информация, информационный выигрыш, относительная энтропия (англ. relative entropy)^[1] — неотрицательнозначный функционал, являющийся несимметричной мерой удалённости друг от друга двух вероятностных распределений^[2], определённых на общем пространстве элементарных событий. Часто применяется в теории информации и математической статистике.

Расхождение Кульбака — Лейблера распределения $Q$ относительно $P$ (или, условно говоря, «расстояние от $P$ до $Q$ ») обозначается $D_{\mathrm {KL} }(P\|Q)$ . Первый аргумент функционала (распределение $P$ ) обычно интерпретируется как истинное или постулируемое априори распределение, второй (распределение $Q$ ) — как предполагаемое (проверяемое). Распределение $Q$ часто служит приближением распределения $P$ . Значение функционала можно понимать как количество неучтённой информации распределения $P$ , если $Q$ было использовано для приближения $P$ . Данная мера расстояния в теории информации также интерпретируется как величина потерь информации при замене истинного распределения $P$ на распределение $Q$ .

В общем случае, если $\mu$ — любая мера на $X$ , для которой существуют абсолютно непрерывные относительно $\mu$ функции $p={\frac {{\rm {d}}P}{{\rm {d}}\mu }}$ и $q={\frac {{\rm {d}}Q}{{\rm {d}}\mu }}$ , тогда расхождение Кульбака — Лейблера распределения $Q$ относительно $P$ определяется как

D_{\mathrm {KL} }(P\|Q)=\int _{X}p\,\log {\frac {p}{q}}\,{\rm {d}}\mu

.

Основание логарифма в этой формуле существенной роли не играет. Его выбор позволяет зафиксировать конкретный вид функционала из семейства эквивалентных функционалов и равносилен выбору единицы измерения расхождения Кульбака — Лейблера (подобно ситуации с вычислением энтропии), поэтому возможно применение логарифма с любым основанием, большим единицы. Другими словами, функционал определён с точностью до положительного постоянного сомножителя. Наиболее употребительными являются натуральный логарифм (по соображениям удобства), а также двоичный логарифм — для измерения расхождения в битах (обычно используется в теории информации). Расхождение Кульбака — Лейблера является безразмерной величиной независимо от размерности исходных случайных величин.

Хотя расстояние Кульбака — Лейблера (РКЛ) часто рассматривается как способ измерения расстояния между вероятностными распределениями, данный функционал не является метрикой в пространстве распределений, поскольку не удовлетворяет неравенству треугольника и не удовлетворяет аксиоме симметричности: $D_{\mathrm {KL} }(P\|Q)\neq D_{\mathrm {KL} }(Q||P)$ . Тем не менее, его инфинитезимальная форма, особенно его Гессиан, дает метрический тензор, который известен как информационная метрика Фишера.

Расстояние Кульбака — Лейблера — это частный случай более общего класса расхождений, которые называются f-расхождения, а также частный случай класса расхождений Брегмана. РКЛ — это единственное расхождение вероятностей, которое принадлежит и тому, и другому классу.

РКЛ изначально было представлено Соломоном Кульбаком и Ричардом Лейблером в 1951 как направленное расхождение между двумя распределениями. Это обсуждается в тексте Кульбака «Информационная теория и статистика».^[1]

Расстояние Кульбака — Лейблера $D_{\mathrm {KL} }(P\|Q)$ иногда также интерпретируют как информационный выигрыш, достигнутый, если $P$ использовано вместо $Q$ . Иногда для РКЛ используют название (правда, вносящее путаницу) относительная энтропия $P$ относительно $Q$ , обозначается $H(P|Q)$ .

Существуют различные соглашения относительно того, как читать обозначение $D_{\mathrm {KL} }(P\|Q)$ . Часто его называют просто расхождением между $P$ и $Q$ , однако это не позволяет передать фундаментальную асимметрию в соотношении. Иногда это может быть описано как расхождение $P$ из (относительно) $Q$ (чаще в контексте относительной энтропии или информационного выигрыша). В этой статье мы используем обозначение $D_{\mathrm {KL} }(P\|Q)$ , которое читается как расхождение $Q$ относительно $P$ (или, условно говоря, «расстояние из $P$ в $Q$ »). Такое соглашение представляется более удачным, так как именно $P$ считается истинным распределением (исходной точкой для отсчёта расстояния) и математическое ожидание берётся относительно него, а $Q$ — отличное от него распределение, например, аппроксимация $P$ .

Частные определения и определения через производную Радона—Никодима

Для дискретных вероятностных распределений $P$ и $Q$ с числом элементарных событий $n$ расхождение Кульбака — Лейблера распределения $Q$ относительно распределения $P$ (или «расстояние от $P$ до $Q$ ») определяется^[3] как:

D_{KL}(P||Q)=\sum \limits _{i=1}^{n}p_{i}\log {\frac {p_{i}}{q_{i}}}

.

Другими словами, это математическое ожидание логарифмической разности между вероятностями $p$ и $q$ , где математическое ожидание берётся по распределению $P$ . РКЛ определено, только если $q_{i}=0\Rightarrow p_{i}=0$ , для всех $i=1,...,n$ (абсолютная непрерывность). Всякий раз, когда $p_{i}=0$ , вклад $i$ -го члена интерпретируется как ноль, потому что $\lim _{x\to 0}x\log(x)=0$ .

Для $k$ -мерных абсолютно непрерывных распределений $P$ и $Q$ расстояние Кульбака — Лейблера задаётся выражением^[4]

D_{\mathrm {KL} }(P\|Q)=\int _{X}\,p(x)\log {\frac {p(x)}{q(x)}}\,{\rm {d}}x

,

где $p(x)$ и $q(x)$ — функции плотности распределений $P$ и $Q$ соответственно, определённые на интервале $X\subseteq R^{k}$ .

В более общем смысле, если $P$ и $Q$ — вероятностные меры на множестве $X$ , и $P$ абсолютно непрерывна относительно $Q$ , тогда РКЛ от $P$ до $Q$ определено как:

D_{\mathrm {KL} }(P\|Q)=\int _{X}\log {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}P

,

где ${\frac {{\rm {d}}P}{{\rm {d}}Q}}$ — это производная Радона—Никодима $P$ относительно $Q$ , и при условии, что выражение справа существует. Эквивалентно это может быть записано как

D_{\mathrm {KL} }(P\|Q)=\int _{X}\log \!\left({\frac {{\rm {d}}P}{{\rm {d}}Q}}\right){\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}Q

,

что напоминает выражение для дифференциальной энтропии, взятой со знаком минус (впрочем, сходство здесь лишь формальное).

Следует заметить, что использование производной Радона — Никодима служит формальным средством записи данных выражений, однако не раскрывает их содержательный смысл.

Функционал дивергенции Кульбака — Лейблера является безразмерным, однако его значения могут иметь различные единицы измерения. Так, если логарифмы в этих формулах берутся по основанию 2, то дивергенция (она же — информация, с точки зрения теории информации) измеряется в битах; если по основанию e (с натуральным основанием), то дивергенция (информация) измеряется в натах. Большинство формул, содержащих РКЛ, сохраняют смысл независимо от основания логарифма.

Характеризация

Артур Хобсон доказал, что расстояние Кульбака — Лейблера — это единственная мера разницы между вероятностными распределениями, которая удовлетворяют некоторым желательным свойствам, являющимся каноническими расширениями для появляющихся в часто используемых характеризациях энтропии.^[5] Следовательно, взаимная информация — это единственная мера взаимной зависимости, которая подчиняется некоторым связанным условиям, так как она может быть определена в терминах РКЛ.

Существует также Байесовская характеризация расстояния Кульбака — Лейблера.^[6]

Мотивировка

В теории информации теорема Крафта — Макмиллана устанавливает, что любую непосредственно декодируемую схему кодирования для кодировки сообщения для идентификации одного значения $x_{i}\subset X$ , можно рассматривать как представление неявного распределения вероятностей $q(x_{i})=2^{-I_{i}}$ над $X$ , где $I_{i}$ — длина кода для $x_{i}$ в битах. Поэтому, РКЛ может быть интерпретировано, как ожидаемая дополнительная длина сообщения с нулевой отметки, которая должна быть передана, если код, который является оптимальным для данного (неправильного) распределения Q, используется, по сравнению с использованием кода на основе истинного распределения P.

${\textstyle {\begin{matrix}D_{\mathrm {KL} }(P\|Q)=-\sum _{x}p(x)\log q(x)+\sum _{x}p(x)\log p(x)=H(P,Q)-H(P)\,\!\end{matrix}}}$ , где $H(P,Q)$ — перекрестная энтропия P и Q, $H(P)$ — энтропия P.

Отметим также, что существует связь между РКЛ и «функцией скорости» в теории больших отклонений.^[7]^[8]

Свойства

Расстояние Кульбака — Лейблера всегда неотрицательно, $D_{\mathrm {KL} }(P\|Q)\geq 0,$ это результат, который известен как неравенство Гиббса, $D_{KL}(P||Q)=0\iff P=Q$ почти всюду. Энтропия H(P), таким образом, задаёт минимальное значение перекрестной энтропии H(P,Q), ожидаемое число дополнительных битов, требуемых когда используется код, основанный на Q, а не на P. Поэтому РКЛ представляет собой ожидаемое число дополнительных битов, которые должны быть переданы, чтобы определить значение $x\subset X$ , если используется код, соответствующий распределению вероятностей Q, а не «истинному» распределения P.
Расстояние Кульбака — Лейблера не симметрично: $D_{\mathrm {KL} }(P\|Q)\neq D_{\mathrm {KL} }(Q||P)$ .

Расстояние Кульбака — Лейблера остается строго определенным для непрерывных распределений, и кроме того инвариантно относительно замены переменных. Например, если сделана замена переменной x на переменную y(x), тогда, так как $P(x)dx=P(y)dy$ и $Q(x)dx=Q(y)$ , РКЛ может переписано:

${\textstyle D_{\mathrm {KL} }(P\|Q)=\int _{x_{a}}^{x_{b}}P(x)\log \left({\frac {P(x)}{Q(x)}}\right)\,dx=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P(y)dy/dx}{Q(y)dy/dx}}\right)\,dy=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P(y)}{Q(y)}}\right)\,dy}$ ,

где $y_{a}=y(x_{a})$ и $y_{b}=y(x_{b})$ . Несмотря на предположение, что преобразование было непрерывным, это не необходимо в данном случае. Это также показывает, что РКЛ задаёт величину согласованную с размерностью, так как если x — размерная переменная, то P(x) и Q(x) также имеют размерность, так как $P(x)dx$ является безрамерной величиной. Тем не менее, выражение под логарифмом остаётся безразмерным, как и должно. Поэтому расстояние Кульбака — Лейблера можно рассматривать, в некотором смысле, как более фундаментальную величину, чем некоторые другие свойства в теории информации^[9] (такие как собственная информация или энтропия Шеннона), которые могут стать неопределёнными или отрицательными для недискретных вероятностей.

РКЛ аддитивна для независимых распределений во многом таким же образом, как энтропия Шеннона. Если $P_{1},P_{2}$ являются независимыми распределениями с совместным распределением $P(x,y)=P_{1}(x)P_{2}(y)$ и, аналогично, $Q(x,y)=Q_{1}(x)Q_{2}(y)$ , то $D_{\mathrm {KL} }(P\|Q)=D_{\mathrm {KL} }(P_{1}\|Q_{1})+D_{\mathrm {KL} }(P_{2}\|Q_{2}).$

Расстояние Кульбака — Лейблера для многомерного нормального распределения

Допустим, что мы имеем два многомерных нормальных распределения, со средними $\mu _{0},\mu _{1}$ и с (обратимыми) матрицами ковариаций $\Sigma _{0},\Sigma _{1}$ . Если два распределения имеют одинаковую размерность k, то РКЛ между распределениями следующее^[10]:

$D_{\text{KL}}({\mathcal {N}}_{0}\|{\mathcal {N}}_{1})={1 \over 2}\left(\mathrm {tr} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)+\left(\mu _{1}-\mu _{0}\right)^{\top }\Sigma _{1}^{-1}(\mu _{1}-\mu _{0})-k+\ln \left({\det \Sigma _{1} \over \det \Sigma _{0}}\right)\right).$

Логарифм в последнем члене должен быть взят по основанию e, так как все члены, кроме последнего, являются натуральными логарифмами выражений, которые являются либо любыми множителями функции плотности, либо, в противном случае, возникают естественным образом. Поэтому уравнение дает результат, измеряемый в натах. Целиком разделив это выражение на log_e2, получим распределение в битах.

Отношение к метрикам

Можно было бы назвать РКЛ «метрикой» в пространстве вероятностных распределений, но это было бы некорректно, так как оно не симметрично $D_{\mathrm {KL} }(P\|Q)\neq D_{\mathrm {KL} }(Q||P)$ , и не удовлетворяет неравенству треугольника. Все-таки, будучи предварительной метрикой, она порождает топологию в пространстве вероятностных распределений. Более конкретно, если $\{P_{1},P_{2},\cdots \}$ - это последовательность распределений такая, что $\lim _{n\rightarrow \infty }D_{\mathrm {KL} }(P_{n}\|Q)=0$ , тогда говорят, что $P_{n}{\xrightarrow {D}}Q$ . Из неравенства Пинкера следует, что — $P_{n}{\xrightarrow {\mathrm {D} }}P\Rightarrow P_{n}{\xrightarrow {\mathrm {TV} }}P$ , где последнее нужно для для сходимости по вариации.

Согласно Альфреду Реньи (1970, 1961).^[11]^[12]

Информационная метрика Фишера

Однако, расстояние Кульбака — Лейблера и напрямую связано с метрикой, а именно с информационной метрикой Фишера. Предположим, что у нас имеются вероятностные распределения P и Q, они оба параметризованы одинаковым (возможно многомерным) параметром $\theta$ . Рассмотрим теперь два близких значения $P=P(\theta )$ и $Q=P(\theta _{0})$ , таких что параметр $\theta$ отличается только на небольшое число от параметра $\theta _{0}$ . А именно, разлагая в ряд Тейлора вплоть до первого порядка, имеем (используя соглашение Эйнштейна)

$P(\theta )=P(\theta _{0})+\Delta \theta ^{j}P_{j}(\theta _{0})+\cdots$ ,

где $\Delta \theta ^{j}=(\theta -\theta _{0})^{j}$ — малое изменение $\theta$ в j-м направлении, а $P_{j}(\theta _{0})={\frac {\partial P}{\partial \theta ^{j}}}(\theta _{0})$ соответствующая скорость изменения распределения вероятностей. Так как РКЛ имеет абсолютный минимум, равный 0, при P=Q, то есть $\theta =\theta _{0}$ то РКЛ имеет второй порядок малости по параметрам $\Delta \theta ^{j}$ . Более формально, как и для любого минимума, первая производная расхождения обращается в ноль $\left.{\frac {\partial }{\partial \theta ^{j}}}\right|_{\theta =\theta _{0}}D_{KL}(P(\theta )\|P(\theta _{0}))=0,$

и разложение Тейлора начинается со второго порядка малости

$D_{\mathrm {KL} }(P(\theta )\|P(\theta _{0}))={\frac {1}{2}}\Delta \theta ^{j}\Delta \theta ^{k}g_{jk}(\theta _{0})+\cdots$ ,

где Гессиан $g_{jk}(\theta )$ должен быть неотрицательным. Если позволить $\theta _{0}$ изменяться (и опуская подиндекс 0), то Гессиан $g_{jk}(\theta )$ определяет (возможно, вырожденную) метрику Римана в пространстве параметра $\theta$ , называемую информационной метрикой Фишера.

Отношение к другим величинам информационной теории

Многие другие величины информационной теории могут быть интерпретированы как применение расстояния Кульбака — Лейблера к частным случаям.

Собственная информация $D_{\mathrm {KL} }(\delta _{im}\|\{p_{i}\})$ является РКЛ вероятностного распределения P(i) из символа Кронекера, представляющего определённость в том, что i=m — то есть число дополнительных бит, которые должны быть переданы для определения i, если только вероятностное распределение P(i) доступно для получателя, не факт, что i=m.

Взаимная информация -

${\begin{aligned}I(X;Y)&=D_{\mathrm {KL} }(P(X,Y)\|P(X)P(Y))\\&=\operatorname {E} _{X}\{D_{\mathrm {KL} }(P(Y|X)\|P(Y))\}\\&=\operatorname {E} _{Y}\{D_{\mathrm {KL} }(P(X|Y)\|P(X))\}\end{aligned}}$

является РКЛ произведения P(X)P(Y) двух маргинальных вероятностных распределений из совместного вероятностного распределения P(X,Y) — то есть ожидаемое число дополнительных битов, которые должны быть посланы, чтобы определить X и Y, если они закодированы, используя только их маргинальное распределение вместо совместного распределения. Эквивалентно, если совместная вероятность P(X,Y) известна, это ожидаемое число дополнительных битов, которые должны быть в среднем отправлены для определения Y, если значение X уже не известны получателю.

Энтропия Шеннона -

${\begin{aligned}H(X)&=\mathrm {(i)} \,\operatorname {E} _{x}\{I(x)\}\\&=\mathrm {(ii)} \log N-D_{\mathrm {KL} }(P(X)\|P_{U}(X))\end{aligned}}$

это число битов, которые должны быть переданы для идентификации X из N одинаково вероятных исходов, это меньше, чем РКЛ равномерного распределения P_u(X) из истинного распределения P(X) — то есть меньше ожидаемого числа сохраненных битов, которые должны быть отправлены, если значение X закодировано согласно с равномерным распределением P_u(X), а не истинным распределение P(X).

Условная энтропия -

${\begin{aligned}H(X)&=\mathrm {(i)} \,\operatorname {E} _{x}\{I(x)\}\\&=\mathrm {(ii)} \log N-D_{\mathrm {KL} }(P(X)\|P_{U}(X))\end{aligned}}$

это число битов, которые должны быть переданы для идентификации X из N одинаково вероятных исходов, это меньше, чем РКЛ произведения распределений $P_{U}(X)$ из истинного совместного распределения P(X,Y) — то есть меньше ожидаемого числа сохраненных битов, которые должны быть отправлены, если значение X закодировано согласно с равномерным распределением $P_{U}(X)$ , а не с условным распределением P(X | Y) данных X и Y.

Перекрестная энтропия между двумя вероятностными распределениями измеряет среднее число битов, необходимых для определения события из множества возможных, если использована схема кодирования, основанная на данном распределении вероятности Q, а не «истинного» распределения P. Перекрестная энтропия для двух распределений P и Q над тем же вероятностным пространством определяется так: $H(p,q)=\operatorname {E} _{p}[-\log q]=H(p)+D_{\mathrm {KL} }(p\|q).$

Расстояние Кульбака — Лейблера и Байесовская модификация

В Байесовской статистике Расстояние Кульбака — Лейблера может быть использовано как мера информационного выигрыша при переходе от априорного к апостериорному вероятностному распределению. Если обнаружен некоторый новый факт Y=y, оно может быть использовано для модификации (априорного) распределения вероятностей $p(x|I)$ для $X$ в новое (апостериорное) распределение вероятностей $p(x|y,I)$ используя Теорему Байеса:

p(x\mid y,I)={\frac {p(y\mid x,I)p(x\mid I)}{p(y\mid I)}}.

Это распределение имеет новую энтропию

H{\big (}p(\cdot \mid y,I){\big )}=-\sum _{x}p(x\mid y,I)\log p(x\mid y,I),

которая может быть меньше или больше, чем изначальная энтропия $H{\big (}p(\cdot \mid I){\big )}$ . Однако, с точки зрения нового распределения вероятностей можно оценить, что использование исходного кода, основанного на $p(x|I)$ вместо нового кода, основанного на $p(x|y,I)$ , добавило бы ожидаемое число битов — $D_{\mathrm {KL} }{\big (}p(\cdot \mid y,I)\mid p(\cdot \mid I){\big )}=\sum _{x}p(x\mid y,I)\log {\frac {p(x\mid y,I)}{p(x\mid I)}}$ к длине сообщения. Это, таким образом, представляет собой количество полезной информации, или информационного выигрыша, касательно $X$ , которое было получено при обнаружении, что Y=y.

Если впоследствии приходит еще один фрагмент данных, $Y_{2}=y_{2}$ , то вероятностное распределение для x может быть обновлено далее, чтобы дать новое лучшее предположение $p(x|y_{1},y_{2},I)$ . Если исследовать заново информационный выигрыш для использования $p(x|y_{1},I)$ , а не $p(x|I)$ , оказывается, что это может быть больше или меньше, чем предполагалось ранее: $\sum _{x}p(x\mid y_{1},y_{2},I)\log {\frac {p(x\mid y_{1},y_{2},I)}{p(x\mid I)}}$ , может быть $\leq$ или $>$ , чем $\displaystyle \sum _{x}p(x\mid y_{1},I)\log {\frac {p(x\mid y_{1},I)}{p(x\mid I)}}$ , и поэтому общий информационный выигрыш не выполняет неравенство треугольника:

$D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},y_{2},I){\big \|}p(\cdot \mid I){\big )}$ , может быть больше, меньше или равно $D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},y_{2},I){\big \|}p(\cdot |y_{1},I){\big )}+D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},I){\big \|}p(x\mid I){\big )}.$

Все, что можно сказать, что в среднем, беря среднее, используя $p(y_{2}|y_{1},x,I)$ , обе стороны будут давать среднее значение.

Экспериментальная модель Байеса

Широко распространённая цель в экспериментальной модели Байеса — максимизировать ожидаемое РКЛ между априорным и апостериорным распределениями.^[13] Когда апостериорное приближено к Гауссовому распределению, модель, максимизирующая ожидаемое РКЛ, называется Байеса d-оптимальное.

Различающая информация

Расстояние Кульбака — Лейблера $D_{\mathrm {KL} }(p(x|H_{1})||p(x|H_{0}))$ может также быть интерпретировано как ожидаемая различающая информация для $H_{1}$ над $H_{0}$ : средняя информация на одну выборку для различия в пользу гипотезы $H_{1}$ , против гипотезы $H_{0}$ , когда гипотеза $H_{1}$ верна^[14]. Еще одно имя для этой величины, данное Ирвингом Джоном Гудом, это ожидаемая масса доказательства для $H_{1}$ над $H_{0}$ , ожидаемая из каждой выборки.

Ожидаемая масса доказательства для $H_{1}$ над $H_{0}$ это не то же что информационный выигрыш, ожидаемый, например, для вероятностного распределения p(H) гипотезы, $D_{\mathrm {KL} }(p(x|H_{1})\|p(x|H_{0}))\neq IG=D_{\mathrm {KL} }(p(H|x)\|p(H|I)).$ .

Любая из двух величин может быть использована как функция полезности в Байесовской экспериментальной форме, для выбора оптимального следующего вопроса для исследования, но вообще они приведут скорее к разным экспериментальным стратегиям.

В шкале энтропии информационного выигрыша очень маленькая разница между почти уверенностью и полной уверенностью — кодирование с почти полной уверенностью вряд ли потребует больше битов, чем кодирование с полной уверенностью. С другой стороны, в logit шкале подразумевается вес доказательств, и разница между двумя огромна, едва ли не бесконечна. Это может отражать разницу между почти уверенностью (на вероятностном уровне), скажем, в том, что Гипотеза Римана верна, и с полной уверенностью, что она верна, потому что имеется математическое доказательство. Две разные шкалы функции потерь для неопределенности обе являются полезными, согласно с тем, насколько хорошо каждая отражает конкретные обстоятельства рассматриваемой проблемы в задаче.

Принцип минимальной различающей информации

Идея РКЛ как различающей информации привела Кульбака к предположению Принципа Минимальной различающей информации (англ. Minimum Discrimination Information, MDI): учитывая новые факты, новое распределение $f$ следует выбрать, из тех, которые трудно отличить от первоначального распределения $f_{0}$ ; потому что новые данные производят так мало информационного выигрыша $D_{KL}(f||f_{0})$ как только возможно.

Например, если мы имеем априорное распределение p(x, a) над x и a, и потом изучим истинное распределение a и u(a). РКЛ между новым совместным распределением для x и a, q(x|a) u(a), и прежнего априорного распределения было бы: $D_{\mathrm {KL} }(q(x|a)u(a)\|p(x,a))=\operatorname {E} _{u(a)}\{D_{\mathrm {KL} }(q(x|a)\|p(x|a))\}+D_{\mathrm {KL} }(u(a)\|p(a)),$

то есть сумма РКЛ p(a) априорного распределения для a из обновленного распределения u(a), плюс ожидаемое значение (используемое вероятностное распределение u(a)) РКЛ априорного условного распределения p(x|a) из нового распределения p(x|a). (Заметьте что часто позднее ожидаемое значение называется условное РКЛ (или условная относительная энтропия) и обозначается $D_{KL}(q(x|a)||p(x|a))$ ^[15]. Это минимизирует, если q(x|a) = p(x|a) над общим содержанием u(a). И мы замечаем что этот результат объединяет теорему Байеса, если новое распределение u(a) это по факту функция, уверенно представляющая, что a имеет одно частное значение.

Минимальная различающая информация может быть рассмотрена как расширение Принципа безразличия Лапласа (другое его название — принцип недостаточного основания) и Принципа максимума энтропии Джейнса. В частности, это естественное расширение принципа максимума энтропии из дискретного до непрерывного распределения, для которого энтропия Шеннона прекращается, чтобы быть очень удобной (см. дифференциальная энтропия), но РКЛ продолжает быть столь же актуальной.

В инженерной литературе, MDI иногда называется принципом минимума перекрестной энтропии. Минимизация РКЛ m из p в отношении m эквивалентна минимизации перекрестной энтропии p и m, так $H(p,m)=H(p)+D_{\mathrm {KL} }(p\|m),$ который подходит, если попытаться выбрать точное приближенное значение до p.

Пример использования

Пусть по выборке $x_{1},x_{2},...,x_{n}$ из распределения некоторой случайной величины требуется восстановить плотность её распределения, заданную в виде параметрического семейства $f(x,\theta )$ , где $x\in X\subseteq R$ — аргумент функции, $\theta$ — неизвестный параметр. Оценка параметра $\theta$ может быть найдена как решение задачи минимизации расстояния Кульбака — Лейблера между плотностью $f(x,\theta )$ и эмпирической плотностью распределения, считающейся «истинной»,

{\hat {f}}(x)={\frac {1}{n}}\sum \limits _{i=1}^{n}\mathbf {\delta } (x-x_{i})

,

где $\delta$ — функция Дирака:

{\hat {\theta }}=\operatorname {arg} {\underset {\theta }{\operatorname {min} }}D_{KL}({\hat {f}}(x),f(x,\theta ))=\operatorname {arg} {\underset {\theta }{\operatorname {max} }}\int \limits _{X}^{}{\hat {f}}(x)\ln f(x,\theta )\,dx=\operatorname {arg} {\underset {\theta }{\operatorname {max} }}\sum \limits _{i=1}^{n}\mathbf {\ln } f(x_{i},\theta )

.

Нетрудно видеть, что решение этой задачи приводит к оценке максимального правдоподобия для параметра $\theta$ . В случае если фактическая плотность распределения случайной величины не принадлежит семейству $f(x,\theta )$ , найденная оценка ${\hat {\theta }}$ параметра $\theta$ называется квазиправдоподобной и обеспечивает наилучшую аппроксимацию фактического распределения, представленного выборкой, среди распределений с плотностями $f(x,\theta )$ с точки зрения расстояния Кульбака — Лейблера.

Примечания

1 2 Kullback S. Information Theory and Statistics. — John Wiley & Sons, 1959.
↑ Kullback S., Leibler R.A. On information and sufficiency // The Annals of Mathematical Statistics. 1951. V.22. № 1. P. 79-86.
↑ MacKay, David J.C. Information Theory, Inference, and Learning Algorithms. — First ed.. — Cambridge University Press, 2003. — С. p. 34.
↑ Bishop C. Pattern Recognition and Machine Learning. — 2006. — С. p. 55.
↑ Hobson, Arthur. Concepts in statistical mechanics.. — Gordon and Breach. — New York, 1971. — ISBN 0677032404.
↑ Baez, John; Fritz, Tobias. Theory and Application of Categories 29. — С. "A Bayesian characterization of relative entropy", p. 421–456..
↑ И.Н. Санов. О вероятности больших отклонений случайных величин. — 1957. — С. 11—44.
↑ Novak S.Y. Extreme Value Methods with Applications to Finance ch. 14.5. — Chapman & Hall. — 2011. — ISBN 978-1-4398-3574-6.
↑ Relative Entropy (неопр.). videolectures.net. Проверено 14 июня 2016.
↑ Duchi J. "Derivations for Linear Algebra and Optimization". — С. 13.
↑ Rényi A. Probability Theory. — 1970. — ISBN 0-486-45867-9..
↑ Rényi, A. "On measures of entropy and information". — 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960, 1961. — С. 547–561.
↑ Chaloner, K.; Verdinelli, I. "Bayesian experimental design: a review". — Statistical Science 10, 1995. — 273–304 с.
↑ Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). "Section 14.7.2. Kullback–Leibler Distance". Numerical Recipes: The Art of Scientific Computing (3rd ed.). Cambridge University Press. ISBN 978-0-521-88068-8. .
↑ Thomas M. Cover, Joy A. Thomas. Elements of Information Theory. — John Wiley & Sons. — 1991. — С. p.22.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2026
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[:0-1] 1 2 Kullback S. Information Theory and Statistics. — John Wiley & Sons, 1959.

[2] Kullback S., Leibler R.A. On information and sufficiency // The Annals of Mathematical Statistics. 1951. V.22. № 1. P. 79-86.

[3] MacKay, David J.C. Information Theory, Inference, and Learning Algorithms. — First ed.. — Cambridge University Press, 2003. — С. p. 34.

[4] Bishop C. Pattern Recognition and Machine Learning. — 2006. — С. p. 55.

[5] Hobson, Arthur. Concepts in statistical mechanics.. — Gordon and Breach. — New York, 1971. — ISBN 0677032404.

[6] Baez, John; Fritz, Tobias. Theory and Application of Categories 29. — С. "A Bayesian characterization of relative entropy", p. 421–456..

[7] И.Н. Санов. О вероятности больших отклонений случайных величин. — 1957. — С. 11—44.

[8] Novak S.Y. Extreme Value Methods with Applications to Finance ch. 14.5. — Chapman & Hall. — 2011. — ISBN 978-1-4398-3574-6.

[9] Relative Entropy (неопр.). videolectures.net. Проверено 14 июня 2016.

[10] Duchi J. "Derivations for Linear Algebra and Optimization". — С. 13.

[11] Rényi A. Probability Theory. — 1970. — ISBN 0-486-45867-9..

[12] Rényi, A. "On measures of entropy and information". — 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960, 1961. — С. 547–561.

[13] Chaloner, K.; Verdinelli, I. "Bayesian experimental design: a review". — Statistical Science 10, 1995. — 273–304 с.

[14] Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). "Section 14.7.2. Kullback–Leibler Distance". Numerical Recipes: The Art of Scientific Computing (3rd ed.). Cambridge University Press. ISBN 978-0-521-88068-8. .

[15] Thomas M. Cover, Joy A. Thomas. Elements of Information Theory. — John Wiley & Sons. — 1991. — С. p.22.