WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

BrownBoost — алгоритм бустинга, который показал свою эффективность на зашумленных наборах данных. Как и все алгоритмы бустинга, BrownBoost используется в сочетании с другими алгоритмами машинного обучения. Алгоритм BrownBoost был предложен Йоавом Фройндом (en:Yoav Freund)^[1].

Мотивировка

Алгоритм AdaBoost показал свою эффективность на множестве наборов данных. Тем не менее, можно показать, что AdaBoost не эффективен на зашумленных наборах данных^[2]. Это следствие того, что AdaBoost фокусируется на элементах обучающей выборки, которые многократно ошибочно классифицированы. В отличие от него, BrownBoost просто «сдаётся» на таких элементах. В основе BrownBoost лежит предположение, что зашумленные элементы будут многократно ошибочно классифицированы базовыми классификаторами, а незашумленные элементы будут достаточно часто корректно классифицированы. Это позволит откинуть зашумленные элементы, а незашумленные элементы внесут свой вклад в итоговый классификатор. Таким образом итоговый классификатор будет обучаться на незашумленных элементах обучающей выборки, поэтому его обобщающая способность может быть лучше, чем у AdaBoost при обучении на обучающей выборке с шумом.

Описание алгоритма

BrownBoost использует невыпуклую функцию потерь, поэтому он не попадает в семейство алгоритмов AnyBoost. Невпуклая оптимизация позволяет избежать переобучения на зашумленных наборах данных. В отличие от алгоритмов бустинга (таких как AdaBoost и LogitBoost), которые минимизируют выпуклую функцию потерь, BrownBoost решает систему из 2 уравнений с двумя неизвестными, используя стандартные численные методы.

Единственный параметр алгоритма BrownBoost это $c$ — «время», которое алгоритм работает. Каждому слабому классификатору даётся время $t$ , которое напрямую связано с весом классификатора.

Большое значение $c$ означает, что BrownBoost будет считать данные менее зашумленными и отбросит меньше элементов обучающей выборки. Соответственно, малое значение $c$ означает, что BrownBoost будет считать данные более зашумленными и отбросит больше элементов обучающей выборки. На каждом шаге алгоритм выбирает базовый классификатор немного лучше, чем просто случайным образом. Вес этого классификатора $\alpha$ и количество прошедшего в течение итерации времени $t$ задаются решением системы 2 нелинейных уравнений (1. нескоррелированность базового классификатора и весов элементов обучающей выборки; 2. неизменность потенциала) с 2 неизвестными. Эта система может быть решена методом дихотомии, как реализовано в пакете JBoost, или методом Ньютона, как в оригинальной статье автора. После решения уравнений веса элементов обучающей выборки $r_{i}(x_{j})$ и количество оставшегося времени пересчитывается. Эта процедура повторяется, пока не кончится всё время.

Начальный потенциал определяется как ${\frac {1}{m}}\sum _{j=1}^{m}1-{\mbox{erf}}({\sqrt {c}})=1-{\mbox{erf}}({\sqrt {c}})$ . Так как каждый шаг алгоритма не меняет потенциал, то верно равенство ${\frac {1}{m}}\sum _{j=1}^{m}1-{\mbox{erf}}(r_{i}(x_{j})/{\sqrt {c}})=1-{\mbox{erf}}({\sqrt {c}})$ . Поэтому конечная ошибка вероятно близка к $1-{\mbox{erf}}({\sqrt {c}})$ . Тем не менее, конечная функция потенциала не является бинарной функцией потерь.

Чтобы конечная функция потерь была в точности $1-{\mbox{erf}}({\sqrt {c}})$ , дисперсия должна линейно убывать по времени, чтобы сформировать бинарную функцию потерь после окончания итераций бустинга. Этот момент еще не описан в литературе и отсутствует в определении алгоритма ниже.

Конечный классификатор является линейной комбинацией базовых классификаторов, и его качество может быть оценено так же как в большинстве других алгоритмов бустинга.

Алгоритм

Вход:

$m$ обучающая выборка $(x_{1},y_{1}),\ldots ,(x_{m},y_{m})$ где $x_{j}\in X,\,y_{j}\in Y=\{-1,+1\}$
параметр $c$

Инициализация:

$s=c$ . Значение $s$ это количество оставшегося времени работы алгоритма.
$r_{i}(x_{j})=0$ $\forall j$ . Значения $r_{i}(x_{j})$ это веса на итерации $i$ для элемента обучающей выборки $x_{j}$ .

Пока $s>0$ :

Установить вес каждого элемента обучающей выборки: $W_{i}(x_{j})=e^{-{\frac {(r_{i}(x_{j})+s)^{2}}{c}}}$ , здесь $r_{i}(x_{j})$ вес элемента $x_{j}$
Найти базовый классификатор $h_{i}:X\to \{-1,+1\}$ такой что $\sum _{j}W_{i}(x_{j})h_{i}(x_{j})y_{j}>0$
Найти значения $\alpha ,t$ удовлетворяющие уравнению:
$\sum _{j}h_{i}(x_{j})y_{j}e^{-{\frac {(r_{i}(x_{j})+\alpha h_{i}(x_{j})y_{j}+s-t)^{2}}{c}}}=0$ .
(Заметим что это схоже условию $E_{W_{i+1}}[h_{i}(x_{j})y_{j}]=0$ ^[3].) В этом пункте мы численно находим $W_{i+1}=\exp({\frac {\ldots }{\ldots }})$ such that $E_{W_{i+1}}[h_{i}(x_{j})y_{j}]=0$ .)
Это изменение должно соответствовать ограничению
$\sum \left(\Phi \left(r_{i}(x_{j})+\alpha h(x_{j})y_{j}+s-t\right)-\Phi \left(r_{i}(x_{j})+s\right)\right)=0$ ,
здесь $\Phi (z)=1-{\mbox{erf}}(z/{\sqrt {c}})$ потери потенциала для точки с весом $r_{i}(x_{j})$
Обновить веса для каждого элемента обучающей выборки: $r_{i+1}(x_{j})=r_{i}(x_{j})+\alpha h(x_{j})y_{j}$
Обновить оставшееся время: $s=s-t$

Выход: $H(x)={\textrm {sign}}\left(\sum _{i}\alpha _{i}h_{i}(x)\right)$

Эмпирические результаты

В предварительных экспериментах BrownBoost имеет меньшую ошибку обобщающей способности по сравнению с AdaBoost и имеет схожие результаты с LogitBoost.^[4] Реализацию BrownBoos можно найти в open source пакете JBoost.

Примечания

↑ Yoav Freund. An adaptive version of the boost by majority algorithm. Machine Learning, 43(3):293—318, June 2001.
↑ Dietterich, T. G., (2000). An experimental comparison of three methods for constructing ensembles of decision trees: Bagging, boosting, and randomization. Machine Learning, 40 (2) 139—158.
↑ Robert Schapire and Yoram Singer. Improved Boosting Using Confidence-rated Predictions. Journal of Machine Learning, Vol 37(3), pages 297—336. 1999
↑ Ross A. McDonald, David J. Hand, Idris A. Eckley. An Empirical Comparison of Three Boosting Algorithms on Real Data Sets with Artificial Class Noise. Multiple Classifier Systems, In Series Lecture Notes in Computer Science, pages 35-44, 2003.

См. также

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[Freund01-1] Yoav Freund. An adaptive version of the boost by majority algorithm. Machine Learning, 43(3):293—318, June 2001.

[Dietterich00-2] Dietterich, T. G., (2000). An experimental comparison of three methods for constructing ensembles of decision trees: Bagging, boosting, and randomization. Machine Learning, 40 (2) 139—158.

[Schapire99-3] Robert Schapire and Yoram Singer. Improved Boosting Using Confidence-rated Predictions. Journal of Machine Learning, Vol 37(3), pages 297—336. 1999

[McDonald03-4] Ross A. McDonald, David J. Hand, Idris A. Eckley. An Empirical Comparison of Three Boosting Algorithms on Real Data Sets with Artificial Class Noise. Multiple Classifier Systems, In Series Lecture Notes in Computer Science, pages 35-44, 2003.