WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Коэффициент Байеса — это байесовская альтернатива проверке статистических гипотез[1][2]. Байесовское сравнение моделей — это метод выбора моделей на основе коэффициентов Байеса. Обсуждаемые модели являются статистическими моделями[3]. Целью коэффициента Байеса является количественное выражение поддержки модели по сравнению с другой моделью, независимо от того, верны модели или нет[4]. Техническое определение понятия «поддержка» в контексте байесовского вывода дано ниже.

Определение

Коэффициент Байеса является отношением вероятностей правдоподобия двух гипотез, обычно нулевой гипотезы и альтернативной 2012.

Апостериорная вероятность модели M, задаваемой данными D, определяется теоремой Байеса:

Ключевой зависящий от данных член является правдоподобием модели M с учётом данных D и он представляет вероятность того, что некоторые данные получены в предположении принятия модели M. Правильное вычисление этого члена является ключом байесовского сравнение моделей.

Если дана задача выбора модели, в которой мы должны выбрать между двумя моделями на основе наблюдаемых данных D, правдоподобие двух различных моделей M1 и M2, параметризованных векторами параметров и , определяется коэффициентом Байеса K, определяемым как

Если две модели априори одинаково вероятны, так что , коэффициент Байеса равен отношению апостериорных вероятностей M1 и M2. Если вместо интеграла коэффициента Байеса используется правдоподобие, соответствующее максимальной оценке правдоподобия параметра для каждой статистической модели, то тест становится классическим тестом отношения правдоподобия. В отличие от теста отношения правдоподобия, эта байесовская модель сравнения не зависит от одного набора параметров, так как она интегрирует по всем параметрам в каждой модели. Однако, преимущество использования коэффициентов Байеса заключается в том, что они автоматически и вполне естественно включают штраф за включение слишком много от структуры модели [5]. Это ограждает от переобучения. Для моделей, в которых явная версия правдоподобия недоступна или её вычисление слишком затратно, могут быть использованы приближенные байесовские вычисления[en] для выбора модели в байесовской концепции[6], с предупреждением, что приближённая байесовская оценка коэффициентов Байеса часто смещена[7].

Другие подходы:

Интерпретация

Значение of K > 1 означает, что гипотеза M1 сильнее поддерживается данными, чем гипотеза M2. Заметим, что классическая проверка статистических гипотез принимает по умолчанию одну гипотезу (или модель) («Нулевая гипотеза»), и рассматривает только свидетельства против её. Гарольд Джеффрис приводит таблицу для интерпретации K[8]:

KdHartбитовВесомость доказательств
< 1000Отрицательная (поддерживает M2)
100 to 101/20 to 50 to 1,6Едва заслуживает внимания
101/2 to 1015 to 101,6 to 3,3Значительная
101 to 103/210 to 153,3 to 5,0Сильная
103/2 to 10215 to 205,0 to 6,6Очень сильная
> 102> 20> 6,6Убедительная

Второй столбец даёт соответствующие веса поддержки в единицах децихартли[en] (известных также как децибаны[en]), биты добавлены в третьем столбце для ясности. Согласно Ирвингу Джону Гуду изменение веса с 1 децибана или 1/3 бита настолько мелко, насколько люди могут осознать разницу в степени доверия гипотезе в повседневном использовании[9].

Альтернативную широко цитируемую таблицу предожили Касс и Рафтери (1995)[5]:

2 ln KKВесомость доказательств
от 0 до 2от 1 до 3Достойна лишь голого упоминания
от 2 до 6от 3 до 20Положительная
от 6 до 10от 20 до 150Сильная
> 10> 150Очень сильная

Использование коэффициентов Байеса или классической проверки статистических гипотез происходит в контексте вывода, а не принятия решений в условиях неопределённости. То есть, мы только хотим найти, какая гипотеза верна, а не принимаем действительное решение на основе этой информации. Частотная статистика делает строгое различие между этими двумя подходами, поскольку классические методы проверки гипотез не когерентны в байесовском смысле. Байесовские процедуры, включая коэффициенты Байеса, когерентны, так что нет необходимости делать это различие. Вывод тогда просто рассматривается как частный случай принятия решения в условиях неопределённости, в котором конечным действием является возврат значения. Для принятия решений статистики, использующие байесовский подход, могут использовать коэффициент Байеса вместе с априорным распределением и функцией потерь. В контексте вывода функция потерь примет вид правила подсчёта результата[en]. Использование логарифмического правила подсчёта[en], например, приводит к ожидаемой полезности, принимающей форму расхождение Кульбака — Лейблера.

Пример

Предположим, что у нас есть случайная величина, которая принимает значение либо успех, либо неудача. Мы хотим сравнить модель M1 где вероятность успеха равна q=½, и другую модель M2, в которой значение q неизвестно, и мы принимаем априорное распреление для q как однородное распределение на [0,1]. Мы делаем 200 испытаний и получаем 115 успехов и 85 неудач. Правдоподобность может быть вычислена согласно биномиального распределения:

Тогда мы имеем

но

Отношение равно тогда 1,197..., которое «едва заслуживает внимание», даже если оно склоняется слегка в сторону M1.

Проверка статистических гипотез на основе частотного вывода[en] M1 (рассматривается здесь как нулевая гипотеза) даст совершенно другой результат. Такая проверка утверждает, что гипотеза M1 должна быть отброшена на уровне значимости 5%, поскольку вероятность получения 115 или более успехов из выборки в 200 элементов при q=½ равна 0,0200, а двухсторонний критерий[en] получения экстремума в 115 или более даёт 0,0400. Заметим, что 115 отличается от 100 вдвое по сравнению с среднеквадратичным отклонением. Таким образом, в то время как проверка статистической гипотезы на основе частотного вывода даёт статистическую значимость на уровне 5%, коэффициент Байеса вряд ли примет это как экстремальный результат. Заметим, однако, что неоднородное априорное распределение (например, отражающее, что вы ожидаете число успешных и неуспешных исходов одного порядка) может привести к коэффициенту Байеса, который больше согласуется с проверкой на основе частотного вывода.

Классический тест отношения правдоподобия мог бы найти оценку максимального правдоподобия для q, а именно, 115200=0,575, откуда

(вместо усреднения по всем возможным q). Это даёт отношение правдоподобия 0,1045 и указывает на M2.

M2 является более сложной моделью, чем M1 поскольку она имеет свободный параметр, который позволяет моделировать данные более тесно. Способность коэффициентов Байеса принимать это во внимание является причиной, почему байесовский вывод выдвигается как теоретическое обоснование и обобщение бритвы Оккама, в котором уменьшаются ошибки первого рода [10].

С другой стороны, современный метод относительного правдоподобия принимает во внимание число свободных параметров моделей в отличие от классического отношения правдоподобия. Метод относительного правдоподобия можно применить следующим образом. Модель M1 имеет 0 параметров, а потому её значение информационного критерия Акаике (AIC) равно . Модель M2 имеет 1 параметр, а потому её значение AIC равно . Следовательно, M1 примерно в более вероятно, чем M2, минимизирует потерю информации. Таким образом, M2 слегка предпочтительнее, но M1 отбрасывать нельзя.

Приложение

  • Коэффициент Байеса был применён для упорядочения динамической экспрессии генов вместо q-значения[11].

См. также

Статистические показатели

Примечания

Литература

Good I.J. Studies in the History of Probability and Statistics. XXXVII A. M. Turing's statistical work in World War II // Biometrika. — 1979. Т. 66, вып. 2. DOI:10.1093/biomet/66.2.393.

  • Hajiramezanali E., Dadaneh S. Z., Figueiredo P. d., Sze S., Zhou Z., Qian X. Differential Expression Analysis of Dynamical Sequencing Count Data with a Gamma Markov Chain. — 2018.
  • Phillip Good, James Hardin. Common errors in statistics (and how to avoid them). — 4th. — Hoboken, New Jersey: John Wiley & Sons, Inc., 2012. ISBN 978-1118294390.
  • Bernardo J., Smith A. F. M. Bayesian Theory. — John Wiley, 1994. ISBN 0-471-92416-4.
  • Denison D. G. T., Holmes C. C., Mallick B. K., Smith A. F. M. Bayesian Methods for Nonlinear Classification and Regression. — John Wiley, 2002. ISBN 0-471-49036-9.
  • Richard O. Duda, Peter E. Hart, David G. Stork. Section 9.6.5 // Pattern classification. — 2nd. — Wiley, 2000. — С. 487–489. ISBN 0-471-05669-3.
  • Gelman A., Carlin J., Stern H., Rubin D. Bayesian Data Analysis. — London: Chapman & Hall, 1995. ISBN 0-412-03991-5.
  • Jaynes E. T. chapter 24: MODEL COMPARISON AND ROBUSTNESS // Probability Theory: the logic of science. — 1994.
  • Lee P. M. Bayesian Statistics: an introduction. — Wiley, 2012. ISBN 9781118332573.
  • Robert Winkler. Introduction to Bayesian Inference and Decision. — 2nd. — Probabilistic, 2003. ISBN 0-9647938-4-9.

Ссылка

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .




Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии