Конфигурация модели
Рассмотрим стандартную задачу линейной регрессии, в которой для
мы указываем среднее условного распределения величины
для заданного вектора
предсказаний
:
где
является
вектором, а
являются независимыми и одинаково распределёнными нормально случайными величинами:
Это соответствует следующей функции правдоподобия:
Решение обычного метода наименьших квадратов[en] является оценкой вектора коэффициентов с помощью псевдоинверсной матрицы Мура — Пенроуза[en]:
где
является
матрицей плана[en], каждая строка которой является вектором предсказаний
, а
является вектор-столбцом r
.
Это является частотным[en] подходом, и предполагается, что существует достаточно измерений для того, чтобы сказать что-то осмысленное о
. В байесовском подходе данные сопровождаются дополнительной информацией в виде априорного распределения вероятности. Априорные убеждения о параметрах комбинируются с функцией правдоподобия данных согласно теореме Байеса для получения апостериорной уверенности о параметрах
и
. Априорные данные могут принимать различные формы в зависимости от области применения и информации, которая доступна a priori.
Регрессия с сопряжёнными распределениями
Сопряжённое априорное распределение
Для любого априорного распределения, может не существовать аналитического решения для апостерионого распределения. В этом разделе мы рассмотрим так называемое сопряжённое априорное распределение, для которого апостерионое распределение можно вывести аналитически.
Априорное распределение
является сопряжённым функции правдоподобия, если оно имеет ту же функциональную форму с учётом
и
. Поскольку логарифмическое правдоподобие квадратично от
, его перепишем так, что правдоподобие становится нормальным от
. Запишем
Правдоподобие теперь переписывается как
где
и
,
где
является числом коэффициентов регрессии.
Это указывает на вид априорного распределения:
где
является обратным гамма-распределением[en]
В обозначениях, введённых в статье Обратное гамма-распределение[en], это плотность распределения
с
и
, где
и
являются априорными значениями
и
соответственно. Эквивалентно, эту плотность можно описать как масштабированное обратное распределение хи-квадрат[en]
Далее, условная априорная плотность
является нормальным распределением,
В обозначениях нормального распределения условное априорное распределение равно
Апостерионое распределение
При указанном априорным распределении апостериорное распределение можно выразить как
После некоторых преобразований[1] апостериорная вероятность может быть переписана так, что апостериорное среднее
вектора параметров
может быть выражено в терминах оценки по методу наименьших квадратов
и априорного среднего
, где поддержка априорной вероятности выражается матрицей априорной точности
Для подтверждения, что
в действительности является апостериорным средним, квадратичные члены в экспоненте можно преобразовать к квадратичной форме[en] от
[2].
Теперь апостериорное распределение можно выразить как нормальное распределение, умноженное на обратное гамма-распределение[en]:
Поэтому апостериорное распределение можно параметризовать следующим образом.
где два множителя соответствуют плотностям распределений
и
с параметрами, задаваемыми выражениями
Это можно интерпретировать как байесовское обучение, в котором параметры обновляются согласно следующим равенствам.
Обоснованность модели
Обоснованность модели
— это вероятность данных для данной модели
. Она известна также как предельное правдоподобие и как априорная предсказательная плотность. Здесь модель определяется функцией правдоподобия
и априорным распределением параметров, то есть,
. Обоснованность модели фиксируется одним числом, показывающим, насколько хорошо такая модель объясняет наблюдения. Обоснованность модели байесовской линейной регрессии, представленная в этом разделе, может быть использована для сравнения конкурирующих линейных моделей путём байесовского сравнения моделей. Эти модели могут отличаться числом и значениями предсказывающих переменных, как и их априорными значениями в параметрах модели. Сложность модели принимается во внимание обоснованностью модели, поскольку она исключает параметры путём интегрирования
по всем возможным значениям
и
.
Этот интеграл можно вычислить аналитически и решение задаётся следующим равенством[3]
Здесь
означает гамма-функцию. Поскольку мы выбрали сопряжённое априорное распределение, предельное правдоподобие может быть легко вычислено путём решения следующего равенства для произвольных значений
и
.
Заметим, что это равенство является ни чем иным, как переформулировкой теоремы Байеса. Подстановка формулы для априорной вероятности, правдоподобия и апостериорной вероятности и упрощения получающегося выражения приводит к аналитическому выражению, приведённому выше.