Минимизация эмпирического риска (МЭР, англ. Empirical risk minimization, ERM) — это принцип статистической теории обучения, который определяет семейство алгоритмов обучения и который задаёт теоретические границы производительности.
Рассмотрим следующую ситуацию, которая является основной установкой многих задач обучения с учителем. Мы имеем два пространства объектов и и хотели бы обучить функцию (часто называемую гипотезой), которая сопоставляет объект объекту . Чтобы это сделать, мы имеем в распоряжении тренировочный набор из экземпляров , где является входом, а является соответствующим ответом, который мы хотим получить от .
Чтобы изложить более формально, предположим, что существует совместное распределение над и , и что тренировочный набор состоит из экземпляров , выбранных из независимых случайно распределённых величин из . Заметим, что предположение совместного распределения позволяет моделировать неопределённость в предсказании (например, из-за шума в данных), поскольку не является детерминированной функцией от , а скорее случайной величиной с условным распределением для фиксированного .
Предположим также, что нам дана неотрицательная вещественнозначная функция потерь , которая измеряет, насколько отличается предсказание гипотезы от истинного выхода Риск[en], ассоциированный с гипотезой , определяется тогда как математическое ожидание функции потерь:
Часто в качестве функции потерь в теории используется 0-1 функция потерь: , где означает индикатор.
Высшей целью алгоритма обучения является поиск гипотезы в фиксированном классе функций , для которых риск минимален:
В общем случае риск не может быть вычислен, поскольку распределение неизвестно для обучающего алгоритма (эта ситуация называется агностическим обучением). Однако мы можем вычислить приближение, называемое эмпирическим риском, путём усреднения функции потерь на тренировочном множестве:
Принцип минимизации эмпирического риска (МЭР) [1] утверждает, что алгоритм обучения должен выбирать гипотезу , которая минимизирует риск:
Тогда алгоритм обучения, определённый принципом МЭР состоит в решении вышеуказанной задачи оптимизаци.
Известно, что минимизация эмпирического риска для задачи классификации с 0-1 функцией потерь является NP-трудной даже для такого относительно простого класса функций задач, как линейные классификаторы[2]. Хотя она может быть эффективно решена, когда минимальный эмпирический риск равен нулю, то есть данные линейно сепараблеьны.
На практике алгоритмы обучения машин справляются с этим либо путём выпуклой аппроксимации до 0-1 функции потерь (подобно кусочно-линейной функции потерь[en] для метода опорных элементов), которую проще оптимизировать, либо выдвижением предположения о распределении (а тогда обучающий алгоритм перестаёт быть агностическим).
Для улучшения этой статьи желательно: |
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .