WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Байесовское программирование — это формальная система и методология определения вероятностных моделей и решения задач, когда не вся необходимая информация является доступной.

Эдвин Томпсон Джейнс предложил рассматривать вероятность как альтернативу и расширение логики для рациональных рассуждений с неполной и неопределенной информацией. В своей основополагающей книге «Теория вероятности: логика науки»^[1] он развил эту теорию и предложил то, что он назвал «роботом», который был не физическим устройством, а машиной вывода, автоматизирующей вероятностные рассуждения — что-то вроде Пролога для теории вероятности вместо логики. Байесовское программирование^[2] является формальной и конкретной реализацией этого «робота».

Байесовское программирование также можно рассматривать как формальную алгебраическую систему для задания графических моделей, таких как, например, байесовские сети, динамические байесовские сети^[en], фильтры Калмана или скрытые марковские модели. Действительно, байесовское программирование обобщает байесовские сети и имеет выразительную мощность эквивалентную фактор-графам^[en].

Формальная система

Байесовская программа является средством задания семейства распределений вероятности.

Ниже представлены составляющие элементы байесовской программы:

{\text{Program}}{\begin{cases}{\text{Description}}{\begin{cases}{\text{Specification}}(\pi ){\begin{cases}{\text{Variables}}\\{\text{Decomposition}}\\{\text{Forms}}\\\end{cases}}\\{\text{Identification (based on }}\delta )\end{cases}}\\{\text{Question}}\end{cases}}

Программа строится из описания (англ. description) и вопроса (англ. question).
Описание строится с помощью какого-либо определения ( $\pi$ , англ. specification), заданного программистом, и идентификации (англ. identification) или процесса обучения для параметров, не полностью описанных в определении, с применением набора данных ( $\delta$ ).
Определение строится из набора значимых переменных (англ. variables), декомпозиции (англ. decomposition) и набора форм (англ. forms).
Формы являются или параметрическими формами, или вопросами к другим байесовским программам.
Вопрос задает распределение вероятности, которое необходимо вычислить.

Описание

Описание задает эффективный метод вычисления совместного распределения вероятности^[en] набора переменных $\left\{X_{1},X_{2},\cdots ,X_{N}\right\}$ для заданного набора экспериментальных данных $\delta$ и некоторого определения $\pi$ . Это совместное распределение обозначается как $P\left(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}\mid \delta \wedge \pi \right)$ .

Чтобы задать предварительное знание $\pi$ , программист должен выполнить следующее:

Определить набор значимых переменных $\left\{X_{1},X_{2},\cdots ,X_{N}\right\}$ , на которых задано совместное распределение вероятности.
Разложить совместное распределение (разбить его на подходящие независимые или условные вероятности).
Определить формы каждого из этих распределений (например, для каждой переменной выбрать одно из перечня распределений вероятности^[en]).

Декомпозиция

Пусть множество $\left\{X_{1},X_{2},\ldots ,X_{N}\right\}$ содержит $K$ подмножеств, переменные $K$ определены как $L_{1},\cdots ,L_{K}$ , каждая из которых соответствует одному из этих подмножеств. Каждая переменная $L_{k}$ получается как конъюнкция переменных $\left\{X_{k_{1}},X_{k_{2}},\cdots \right\}$ , относящихся к $k$ -тому подмножеству. Рекурсивное применение теоремы Байеса приводит к

{\begin{aligned}&P\left(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}\mid \delta \wedge \pi \right)\\={}&P\left(L_{1}\wedge \cdots \wedge L_{K}\mid \delta \wedge \pi \right)\\={}&P\left(L_{1}\mid \delta \wedge \pi \right)\times P\left(L_{2}\mid L_{1}\wedge \delta \wedge \pi \right)\times \cdots \times P\left(L_{K}\mid L_{K-1}\wedge \cdots \wedge L_{1}\wedge \delta \wedge \pi \right)\end{aligned}}

Применение гипотезы условной независимости позволяют проделать дальнейшие упрощения. Гипотеза условной независимости для переменной $L_{k}$ определяется выбором некоторой переменной $X_{n}$ среди переменных, присутствующих в конъюнкции $L_{k-1}\wedge \cdots \wedge L_{2}\wedge L_{1}$ . Обозначая через $R_{k}$ конъюнкцию выбранных переменных и принимая

P\left(L_{k}\mid L_{k-1}\wedge \cdots \wedge L_{1}\wedge \delta \wedge \pi \right)=P\left(L_{k}\mid R_{k}\wedge \delta \wedge \pi \right)

Получаем

{\begin{aligned}&P\left(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}\mid \delta \wedge \pi \right)\\={}&P\left(L_{1}\mid \delta \wedge \pi \right)\times P\left(L_{2}\mid R_{2}\wedge \delta \wedge \pi \right)\times \cdots \times P\left(L_{K}\mid R_{K}\wedge \delta \wedge \pi \right)\end{aligned}}

Такое упрощение совместного распределения в виде произведения более простых распределений называется декомпозицией, выведенной с помощью цепного правила^[en].

Это обеспечивает, чтобы каждая переменная появлялась слева от черточки условности не менее одного раза, что является необходимым и достаточным условием написания математически верных выкладок^{[источник не указан 1061 день]}.

Формы

Каждое распределение $P\left(L_{k}\mid R_{k}\wedge \delta \wedge \pi \right)$ , встречающееся в произведении, далее связывается или с параметрической формой (то есть функцией $f_{\mu }\left(L_{k}\right)$ ), или с вопросом к другой байсовской программе $P\left(L_{k}\mid R_{k}\wedge \delta \wedge \pi \right)=P\left(L\mid R\wedge {\widehat {\delta }}\wedge {\widehat {\pi }}\right)$ .

Когда это форма $f_{\mu }\left(L_{k}\right)$ , в общем случае $\mu$ является вектором параметров, которые могут зависеть или от $R_{k}$ , или $\delta$ , или от обоих. Когда некоторые из этих параметров вычисляются с применением набора данных $\delta$ , происходит обучение.

Важная особенность байесовского программирования — это способность использовать вопросы к другим байесовским программам как составляющую определения новой байесовской программы. $P\left(L_{k}\mid R_{k}\wedge \delta \wedge \pi \right)$ получается выводом, произведенным другой байесовской программой, заданной определением ${\widehat {\pi }}$ и данными ${\widehat {\delta }}$ . Это похоже на вызов подпрограммы в классическом программировании, и предоставляет простой способ построения иерархических моделей.

Вопрос

Пусть дано описание (то есть $P\left(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}\mid \delta \wedge \pi \right)$ ), вопрос получается разбиением $\left\{X_{1},X_{2},\cdots ,X_{N}\right\}$ на три множества: исследуемые (англ. searched) переменные, известные (англ. known) переменные и свободные (англ. free) переменные.

Три переменные $Searched$ , $Known$ и $Free$ определяются как конъюнкция переменных, принадлежащих к этим множествам.

Вопрос определяется как набор распределений

P\left(Searched\mid {\text{Known}}\wedge \delta \wedge \pi \right)

составленный из «конкретизированных вопросов» как кардинал $Known$ , где каждый конкретизированный вопрос является распределением

P\left({\text{Searched}}\mid {\text{Known}}\wedge \delta \wedge \pi \right)

Вывод

Для заданного совместного распределения $P\left(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}\mid \delta \wedge \pi \right)$ всегда возможно вычислить любой вопрос, применяя следующий общий вывод:

{\begin{aligned}&P\left({\text{Searched}}\mid {\text{Known}}\wedge \delta \wedge \pi \right)\\={}&\sum _{\text{Free}}\left[P\left({\text{Searched}}\wedge {\text{Free}}\mid {\text{Known}}\wedge \delta \wedge \pi \right)\right]\\={}&{\frac {\displaystyle \sum _{\text{Free}}\left[P\left({\text{Searched}}\wedge {\text{Free}}\wedge {\text{Known}}\mid \delta \wedge \pi \right)\right]}{\displaystyle P\left({\text{Known}}\mid \delta \wedge \pi \right)}}\\={}&{\frac {\displaystyle \sum _{\text{Free}}\left[P\left({\text{Searched}}\wedge {\text{Free}}\wedge {\text{Known}}\mid \delta \wedge \pi \right)\right]}{\displaystyle \sum _{{\text{Free}}\wedge {\text{Searched}}}\left[P\left({\text{Searched}}\wedge {\text{Free}}\wedge {\text{Known}}\mid \delta \wedge \pi \right)\right]}}\\={}&{\frac {1}{Z}}\times \sum _{\text{Free}}\left[P\left({\text{Searched}}\wedge {\text{Free}}\wedge {\text{Known}}\mid \delta \wedge \pi \right)\right]\end{aligned}}

где первое равенство следует из правила обособления (англ. marginalization rule), второе вытекает из теоремы Байеса, а третье соответствует второму применению обособления. Знаменатель оказывается нормирующим членом (англ. normalization term), и его можно заменить постоянной $Z$ .

Теоретически это позволяет решать любые задачи байесовского вывода. Однако на практике почти во всех случаях затраты на исчерпывающее и точное вычисление $P\left({\text{Searched}}\mid {\text{Known}}\wedge \delta \wedge \pi \right)$ оказываются слишком большими.

Заменяя совместное распределение его декомпозицией, получаем

{\begin{aligned}&P\left({\text{Searched}}\mid {\text{Known}}\wedge \delta \wedge \pi \right)\\={}&{\frac {1}{Z}}\sum _{\text{Free}}\left[\prod _{k=1}^{K}\left[P\left(L_{i}\mid K_{i}\wedge \pi \right)\right]\right]\end{aligned}}

которое обычно является выражением, значительно более простым для вычисления, поскольку размерность задачи значительно снижена разложением на произведение распределений меньшей размерности.

Пример

Байесовское обнаружение спама

Целью байесовской фильтрации спама является устранение мусорных электронных писем.

Формулировка этой задачи достаточно простая. Электронные письма должны классифицироваться по одной из двух категорий: не-спам и спам. Единственной доступной информацией для классификации электронных писем является их содержание: набор слов. Использование слов без принятия во внимания их порядка в предложении часто называют моделью мешка слов^[en].

Кроме того, классификатор должен быть способным адаптироваться к своему пользователю и учиться из опыта. Начиная со стандартной начальной настройки, классификатор должен изменять свои внутренние параметры, если пользователь не соглашается с его решением. Он, следовательно, будет адаптироваться к пользовательским критериям различия между не-спамом и спамом. Он будет улучшать собственные результаты, сталкиваясь со все большим количеством классифицированных электронных писем.

Переменные

Следующие переменные необходимы для написания этой программы:

$Spam$ : двоичная переменная, ложь, если электронное письмо не является спамом, и истина в противном случае.
$W_{0},W_{1},\ldots ,W_{N-1}$ : $N$ двоичных переменных. $W_{n}$ является истиной, если $n$ -ое слово словаря присутствует в тексте.

Эти $N+1$ двоичных переменных суммируют всю информацию об электронной почте.