Выбор модели — это задача выбора статистической модели из набора моделей-кандидатов по имеющимся данным. В простейшем случае рассматривается существующий набор данных. Однако задача может вовлекать планирование экспериментов, так что сбор данных связан с задачей выбора модели. Если заданы кандидаты в модели с одинаковой силой предсказания или объяснения, наиболее простая модель скорее всего будет лучшим выбором (бритва Оккама).
Кониси и Китагава[1] утверждают: «Большинство задач при статистическом выводе можно считать задачами, связанными со статистическим моделированием». Вместе с тем, Кокс[2] сказал: «Каким образом осуществлена трансляция от предметной задачи к статистической модели является наиболее критической частью анализа».
Выбор модели может также относиться к задаче выбора нескольких представляющих моделей из большого набора вычислительных моделей с целью принятия решения или оптимизации в условиях неопределённости.
Введение
Цикл научных наблюдений.
В наиболее простых формах выбор модели является одной из фундаментальных задач научного поиска. Определение принципа, который объясняет ряд наблюдений, часто связан напрямую с математической моделью предсказания этих наблюдений. Например, когда Галилей осуществлял свои эксперименты с наклонной плоскостью, он демонстрировал, что движение шара идёт по параболе, предсказанной в его модели.
При бесконечном числе возможных механизмов и процессов, которые могут дать данные, как можно даже подступить к выбору лучшей модели? Математический подход обычно принимает решение среди набора кандидатов в модели. Этот набор должен быть выбран исследователем. Часто используются простые модели, такие как многочлены, по меньшей мере в начале. Бёрнем и Андерсен[3] подчёркивают в своей книге важность выбора моделей на основе научных принципов, таких как понимание феноменологических процессов или механизмов (например, химических реакций) для данных.
Когда множество кандидатов в модели выбрано, статистический анализ позволяет выбрать лучшую из этих моделей. Что означает слово лучшая, вопрос дискуссионный. Техника выбора хорошей модели будет балансировать между степенью согласия[en] и простотой. Более сложные модели способны лучше адаптироваться к данным (например, многочлен пятой степени может в точности представлять шесть точек), однако дополнительные параметры могут не представлять ничего полезного (возможно, эти шесть точек на самом деле случайным образом распределены вдоль прямой). Степень согласия обычно определяется с помощью отношения правдоподобия или приближения к нему, что приводит к критерию хи-квадрат. Сложность в общем случае измеряется подсчётом числа параметров модели.
Техники выбора модели можно считать оценками некоторых физических величин, таких как вероятность того, что модель даст имеющиеся данные. Смещение и дисперсия являются важными показателями качества предсказателя. Часто рассматривается также показатель эффективности.
Стандартным примером выбора модели служит подбор кривой, где, по заданному набору точек и другим сведениям общего характера (например, когда точки являются результатом выборки независимых случайных величин), мы должны выбрать кривую, которая описывает функцию, генерирующую точки.
Если заранее ограничиваться рассмотрением только моделей авторегрессии (AR), то есть полагать, что процесс Xt следует модели AR(k) с неизвестным истинным порядком k, то для определения k в таких ситуациях долгое время использовался[4]
Информационный критерий Акаике (AIC), мера степени согласия статистической модели. Впоследствии было выяснено, что оценка Акаике несостоятельна и асимптотически переоценивает (завышает) истинное значение k0 с ненулевой вероятностью[4].
Более предпочтительным является часто используемый в настоящее время[4]
Информационный критерий Хеннана – Куинна[en], обладающий более быстрой сходимостью к истинному значению k0 при . Однако при небольших значениях T этот критерий недооценивает порядок авторегрессии.
Тест отношения правдоподобия, статистический тест, используемый для проверки ограничений на параметры статистических моделей, оцененных на основе выборочных данных.
Статистика Cp Мэллоуса[en]. Считается, что для хорошей модели эта статистика должна принимать значения, близкие к числу параметров модели (включая свободный член)[5].
Ступенчатая регрессия[en]. Цель пошаговой регрессии состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной.
Mallows C. L.Some Comments on CP// Technometrics.— 1973.— Т. 15, вып. 4.— DOI:10.2307/1267380.
Aho K., Derryberry D., Peterson T.Model selection for ecologists: the worldviews of AIC and BIC// Ecology.— 2014.— Т. 95.— С. 631–636.— DOI:10.1890/13-1452.1.
Burnham K.P., Anderson D.R.Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach.— 2nd.— Springer-Verlag, 2002.— ISBN 0-387-95364-7. [книга цитируется более 38000 раз на Google Scholar]
Claeskens G., Hjort N.L.Model Selection and Model Averaging.— Cambridge University Press, 2008.— (CAMBRIDGE SERIES IN STATISTICAL AND PROBABILISTIC MATHEMATICS).— ISBN 978-0-521-85225-8.
Principles of Statistical Inference.— Cambridge University Press, 2006.— ISBN 0-511-34858-4.
Leeb H., Pötscher B. M.Model selection//Handbook of Financial Time Series/Torben G. Andersen, Richard A. Davis, Jens-Peter Kreiß, Thomas Mikosch.— Springer, 2009.— С.889–925.— ISBN 978-3-540-71296-1.— DOI:10.1007/978-3-540-71297-8_39.
Lukacs P. M., Thompson W. L., Kendall W. L., Gould W. R., Doherty P. F. Jr., Burnham K. P., Anderson D. R.Concerns regarding a call for pluralism of information theory and hypothesis testing// Journal of Applied Ecology.— 2007.— Т. 44, вып. 2.— С. 456–460.— DOI:10.1111/j.1365-2664.2006.01267.x.
Allan D. R. McQuarrie, Chih-Ling Tsai.Regression and Time Series Model Selection.— Singapore: World Scientific, 1998.— ISBN 981-02-3242-X.
Massart P.Concentration Inequalities and Model Selection/Editor: Jean Picard.— Springer, 2007.— Т.1896.— (Lecture Notes in Mathematics).— ISBN 3-540-48497-3.
Massart P.A non-asymptotic walk in probability and statistics//Past, Present, and Future of Statistical Science.— Chapman & Hall, 2014.— С.309—321.
Wit E., McCullagh P.The extendibility of statistical models//Algebraic Methods in Statistics and Probability/M. A. G. Viana, D. St. P. Richards.— 2001.— С.327—340.
Anna Wójtowicz, Tomasz Bigaj.Justification, confirmation, and the problem of mutually exclusive hypotheses//Uncovering Facts and Values/Adrian Kuźniar, Joanna Odrowąż-Sypniewska.— Brill Publishers, 2016.— С.122–143.— DOI:10.1163/9789004312654_009.
Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.
2019-2025 WikiSort.ru - проект по пересортировке и дополнению контента Википедии