WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Бустинг (или усиление) — это композиционный^[en] метаалгоритм обучения машин. Применяется, главным образом, для уменьшения смещения, а также дисперсии^[1] в обучении с учителем. Так же семейство алгоритмов обучения машин, преобразующих слабые обучающие алгоритмы к сильным^[2]. Бустинг основан на вопросе, заданном Кернсом и Вэлиантом (1988, 1989)^[3]^[4]: «Может ли набор слабых обучающих алгоритмов создать сильный обучающий алгоритм?». Слабый обучающий алгоритм определяется как классификатор, который слабо коррелирует с правильной классификацией (может пометить примеры лучше, чем случайное угадывание). В отличие от слабого алгоритма, сильный обучающий алгоритм является классификатором, хорошо коррелирующим с верной классификацией.

Положительный ответ Роберта Шапире в статье 1990^[5] на вопрос Кернса и Вэлианта имел большие последствия в обучении машин и статистике, что привело главным образом к созданию алгоритмов бустинга^[6].

Впервые появившись, гипотеза о бустинге относилась к процессу настройки алгоритма слабого обучения для получения строгого обучения. «Неформально, спрашивается, вытекает ли из существования эффективного алгоритма обучения, выходом которого служит гипотеза, эффективность которой лишь слегка лучше случайного гадания (т.е. слабое обучение), существование эффективного алгоритма, который даёт гипотезу произвольной точности (т.е. сильное обучение)^[3]. Алгоритмы, которые получают быстро такую гипотезу, становятся известны просто как «бустинг». Алгоритм «arcing» Фройнда и Шапире (Adaptive Resampling and Combining)^[7], как общая техника, является более-менее синонимом бустингу^[8]

Алгоритмы бустинга

В то время как бустинг алгоритмически не ограничен, большинство алгоритмов бустинга состоит из итеративного обучения слабых классификаторов с целью сборки их в сильный классификатор. Когда они добавляются, им обычно приписываются некоторым образом веса, которые, обычно, связаны с точностью обучения. После того, как слабый классификатор добавлен, веса пересчитываются, что известно как «пересчёт весовых коэффициентов»^[en]. Неверно классифицированные входные данные получают больший вес, а правильно классифицированные экземпляры теряют вес^{[nb 1]}. Тем самым последующее слабое обучение фокусируется больше на примерах, где предыдущие слабые обучения дали ошибочную классификацию.

Есть много алгоритмов бустинга. Исходные алгоритмы, предложенные Робертом Шапире (рекурсивное доминирование, англ. recursive majority gate formulation) ^[5] и Йоавом Фройндом (бустинг по доминированию)^[9], не были адаптивными^[en] и не могли дать полного преимущества слабых обучений. Шапире и Фройнд затем разработали AdaBoost (Adaptive Boosting) – адаптивный алгоритм бустинга, который выиграл престижную премию Гёделя.

Только алгоритмы, для которых можно доказать, что они являются алгоритмами бустинга в формулировке приближённо правильного обучения^[en], могут быть точно названы алгоритмами бустинга. Другие алгоритмы, близкие по духу алгоритмам бустинга, иногда называются «алгоритмами максимального использования» (англ. leveraging algorythms), хотя они иногда также неверно называются алгоритмами бустинга^[9].

Основное расхождение между многими алгоритмами бустинга заключается в методах определения весовых коэффициентов^[en] точек тренировочных данных^[en] и гипотез. Алгоритм AdaBoost очень популярен и исторически наиболее знаменателен, так как он был первым алгоритмом, который смог адаптироваться к слабому обучению. Алгоритм часто используется как базовое введение в алгоритмы бустинга в курсах обучения машин в университетах^[10]. Есть много недавно разработанных алгоритмов, таких как LPBoost^[en], TotalBoost, BrownBoost, xgboost^[en], MadaBoost, LogitBoost^[en] и др.. Многие алгоритмы бустинга попадают в модель AnyBoost^[9], это показывает, что бустинг осуществляет градиентный спуск в пространстве функций^[en] используя выпуклую функцию потерь^[en].

Классификация признаков в компьютерном зрении

Если даны изображения, содержащие различные известные в мире объекты, классификатор может быть обучен на основе них для автоматической классификации объектов в будущих неизвестных изображениях. Простые классификаторы, построенные на основе некоторых признаков изображения объекта, обычно оказываются малоэффективными в классификации. Использование методов бустинга для классификации объектов — это путь объединения слабых классификаторов специальным образом для улучшения общей возможности классификации.

Задача классификации объектов

Классификация признаков^[en] является типичной задачей компьютерного зрения, где определяется, содержит ли изображение некоторую категорию объектов или нет. Идея тесно связана с распознаванием, идентификацией и обнаружением. Классификация по обнаружению объекта обычно содержит выделение признаков, обучение классификатора и применение классификатора к новым данным. Есть много способов представления категории объектов, например по анализу формы^[en], с помощью модели «мешок слов»^[en], с помощью локальных описателей, таких как SIFT^[en], и так далее. Примерами классификаторов с учителем служат наивные байесовские классификаторы, методы опорных векторов, смесь гауссиан^[en] и нейронные сети. Однако исследования показали, что категории объектов и их положение в изображениях могут быть обнаружены также с помощью обучения без учителя^[11].

Статус кво для классификации объектов

Распознавание категорий объектов в изображениях является сложной задачей в компьютерном зрении, особенно если число категорий велико. Это является следствием высокой внутренней изменчивости классов и необходимости обобщения различных понятий внутри класса. Объекты в одной категории могут выглядеть совершенно различными. Даже один и тот же предмет может выглядеть непохожим с различных точек обзора, при другом мастшабе^[en] или освещении^[en]. Шум заднего плана и частичные наложения также добавляют сложности в распознавание^[12]. Люди способны распознавать тысячи типов объектов, в то время как большинство существующих систем распознавания объектов тренируются для распознавания лишь нескольких, например человеческих лиц, автомобилей, простых объектов и т.д.^[13]. Исследования по увеличению числа категорий и возможности добавления новых категорий ведутся активно и, хотя общая проблема пока не решена, разработаны детекторы большого числа категорий (до сотен и тысяч ^[14]). Достигается это, в частности, с помощью совместного использования признаков^[en] и бустинга.

Бустинг для двоичной классификации

Пакет AdaBoost может быть использован для распознавания лиц как пример двоичной классификации. Две категории — это лица и фон. Общий алгоритм выглядит следующим образом:

Формируем большой набор признаков
Инициализируем веса для тренировочного набора изображений
Делаем T прогонов
1. Нормализуем веса
2. Для доступных признаков из набора тренируем классификатор, используя один из признаков и вычисляем ошибку тренировки
3. Выбираем классификатор с наименьшей ошибкой
4. Обновляем веса тренировочных изображений: увеличиваем, если классифицировано неверно, и уменьшаем, если верно
Формируем окончательный сильный классификатор как линейная комбинация T классификаторов (коэффициент больше, если ошибка тренировки меньше)

После бустинга классификатор, построенный из 200 признаков, может достигать 95 % успешных распознаний при $10^{-5}$ ошибок положительного распознавания^[15].

Другое приложение бустинга для двоичной классификации — система, которая распознаёт пешеходов с помощью паттернов движения и внешности^[16]. В этой работе впервые комбинируется информация о движении и внешность как признаки для обнаружения движущегося человека. В работе предпринимается подход, похожий на модель обнаружения объектов Виолы — Джонса.

Бустинг мультиклассовой классификации

По сравнению с двоичной классификацией, мультиклассовая классификация^[en] разыскивает общие признаки, которые могут использоваться совместно категориями в одно и то же время. Они оказываются более общими наподобие признака «граница». Во время обучения классификаторы для каждой категории могут быть тренированы совместно. По сравнению с раздельной тренировкой такая тренировка обладает лучшей обобщаемостью, требует меньше тренировочных данных и нужно меньше признаков для достижения необходимого результата.

Основная работа алгоритма похожа на двоичный случай. Разница заключается в том, что мера совместной ошибки тренировки может быть определено заранее. Во время каждой итерации алгоритм выбирает классификатор одного признака (признаки, которые могут быть совместно классифицированы, поощряются). Это может быть сделано путём преобразования мультиклассовой классификации в двоичную (набор категорий / остальные категории) ^[17] или путём введения штрафа от категорий, которые не имеют признаков, распознаваемых классификатором^[18].

В статье «Sharing visual features for multiclass and multiview object detection» (Совместное использование визуальных признаков для мультиклассового обнаружения объектов в нескольких проекциях), А. Торральба с соавторами использовали GentleBoost для бустинга и показали, что, если тренировочные данные ограничены, обучение с помощью совместно используемых признаков делает работу много лучше, чем без совместного использования. Также для заданного уровня производительности общее число признаков, требующихся (а потому и время работы классификатора) для обнаружения совместного использования признаков, растёт примерно логарифмически от числа классов, т.е. медленнее, чем линейно^[en], что наблюдается в случае отсутствия совместного использования. Похожие результаты показаны в статье «Инкременальное обучение обнаружения объектов, используя алфавит визуальных образов», впрочем, для бустинга авторы использовали AdaBoost.

Выпуклые и невыпуклые алгоритмы бустинга

Алгоритмы бустинга могут основываться на выпуклых^[en] или невыпуклых алгоритмах оптимизации. Выпуклые алгоритмы, такие как AdaBoost и LogitBoost^[en], могут «потерпеть крушение» из-за случайного шума, так как не могут обучить базовым и поддающимся научению комбинациям слабых гипотез^[19]^[20]. На это ограничение указали Лонг и Серведо в 2008. Однако в 2009 несколько авторов продемонстрировали, что алгоритмы бустинга, основанные на невыпуклой оптимизации, такие как BrownBoost, могут быть обучены из данных с шумами и лежащий в основе классификатор Лонг–Серведио для набора данных может быть обучен.

Реализация

Scikit-learn^[en], библиотека машинного обучения с открытым кодом для языка Python
Orange^[en], a свободно распространяемый программный комплекс для анализа данных, модуль Orange.ensemble
Weka — это набор средств для машинного обучения, содержащий ряд реализаций алгоритмов бустинга, таких как AdaBoost и LogitBoost
Пакет GBM (Generalized Boosted Regression Models = Обобщённые Модели Бустинга Регрессии) на языке R реализует расширение алгоритма Фройнда и Шапире AdaBoost и градиентного бустинга Фридмана.
jboost; AdaBoost, LogitBoost, RobustBoost, Boostexter и чередующиеся решающие деревья^[en]
Пакет adabag на языке R: Применяет мультиклассовые алгоритмы AdaBoost.M1, AdaBoost-SAMME и Bagging
Пакет xgboost на языке R: Реализация градиентного бустинга для линейных основанных на деревьях моделей.

Примечания

↑ . Некоторые основанные на бустинге алгоритмы классификации на самом деле уменьшают веса повторно неверно классифицированных экземпляпров. Например, бустинг по доминированию (англ. boost by majority) и BrownBoost

↑ Breiman, 1996.
↑ Zhi-Hua, 2012, с. 23.
1 2 Kearns, 1988.
↑ Kearns, Valiant, 1989, с. 433–444.
1 2 Schapire, 1990, с. 197–227.
↑ Breiman, 1998, с. 801–849.
↑ Freund, Schapire, 1997, с. 119-139.
↑ Лео Брайман (Breiman 1998) пишет: «Понятие слабого обучения ввели Кернс и Валиант (Kearns, Valiant, 1988, Kearns, Valiant, 1989), которые поставили вопрос, эквивалентны ли слабое и сильное обучение. Вопрос был назван задачей бустинга, поскольку решение должно усилить слабую точность слабого обучения до высокой точности сильного обучения. Шапире (1990) доказал, что бустинг возможен. Алгоритм бустинга является методом, который берёт слабый метод обучения и преобразует его в сильный метод. Фройнд и Шапире (1997) доказали, что алгоритм, подобный arc-fs, является бустингом.»
1 2 3 Mason, Baxter, Bartlett, Frean, 2000, с. 512-518.
↑ Emer, Eric Boosting (AdaBoost algorithm) (неопр.). MIT.
↑ Sivic, Russell, Efros, Zisserman, Freeman, 2005, с. 370-377.
↑ Opelt, Pinz, Fussenegger, Auer, 2006, с. 416-431.
↑ Marszalek, Schmid, 2007.
↑ Large Scale Visual Recognition Challenge (неопр.) (December 2017).
↑ Viola, Jones, 2001.
↑ Viola, Jones, Snow, 2003.
↑ Torralba, Murphy, Freeman, 2007, с. 854-869.
↑ Opelt, Pinz, Zisserma, 2006, с. 3-10.
↑ Long, Servedio, 2008, с. 608-615.
↑ Long, Servedio, 2010, с. 287–304.

Литература

Leo Breiman. BIAS, VARIANCE, AND ARCING CLASSIFIERS // TECHNICAL REPORT. — 1996. Выдержка:«Arcing [Boosting] is more successful than bagging in variance reduction»
Zhou Zhi-Hua. Ensemble Methods: Foundations and Algorithms. — 2012. — ISBN 978-1439830031. Выдержка:«The term boosting refers to a family of algorithms that are able to convert weak learners to strong learners»
Michael Kearns. Thoughts on Hypothesis Boosting. — 1988. — (Unpublished manuscript (Machine Learning class project)).
Leo Breiman. Arcing Classifier (with Discussion and a Rejoinder by the Author) // Annals of Statistics. — 1998. — Т. 26, № 3. — С. 801-849:.
Michael Kearns, Leslie Valiant. Crytographic limitations on learning Boolean formulae and finite automata // Symposium on Theory of computing. — ACM, 1989. — Т. 21. — DOI:10.1145/73007.73049.
Michael Kearns, Leslie Valiant. Learning Boolean Formulae or Finite Automata is as Hard as Factoring. Technical Report TR-14-88. — 1988.
- Статья была позднее перепечатана в журнале «Journal of the Association for Computing Machinery», 41(1):67–95, January 1994
Robert E. Schapire. The Strength of Weak Learnability // Machine Learning. — Boston, MA: Kluwer Academic Publishers, 1990. — Т. 5, вып. 2. — DOI:10.1007/bf00116037.
Leo Breiman. Arcing classifier (with discussion and a rejoinder by the author) // Ann. Stat.. — 1998. — Т. 26, вып. 3. — DOI:10.1214/aos/1024691079. Выдержка: «Schapire (1990) proved that boosting is possible» (Page 823)
Yoav Freund, Robert E. Schapire. A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting. — 1997. — Т. 55, вып. 1.
Andreas Opelt, Axel Pinz, Michael Fussenegger, Peter Auer. Generic Object Recognition with Boosting // IEEE Trans Pattern Anal Mach Intell. — 2006. — Т. 28. — С. 416-31. — ISSN 0162-8828.
Marszalek M., Schmid C. Semantic Hierarchies for Visual Object Recognition. — 2007.
Viola P., Jones M., Snow D. Detecting Pedestrians Using Patterns of Motion and Appearance // ICCV. — 2003.
Torralba A., Murphy K. P., Freeman W. T. Sharing visual features for multiclass and multiview object detection // IEEE Transactions on PAMI. — 2007. — Т. 29, вып. 5. — DOI:10.1109/TPAMI.2007.1055.
Andreas Opelt, Axel Pinz, Andrew Zisserma. Incremental learning of object detectors using a visual shape alphabet // CVPR. — 2006. — С. 3-10.
Long P., Servedio R. Random classification noise defeats all convex potential boosters // 25th International Conference on Machine Learning (ICML). — 2008. — С. 608-615.
Philip M. Long, Rocco A. Servedio. Random classification noise defeats all convex potential boosters // Machine Learning. — Springer US, 2010. — Март (т. 78, вып. 3). — С. 287–304. — DOI:10.1007/s10994-009-5165-z.
Llew Mason, Jonathan Baxter, Peter Bartlett, Marcus Frean. Boosting Algorithms as Gradient Descent // Advances in Neural Information Processing Systems / S. A. Solla, T. K. Leen, K.-R. Muller. — MIT Press, 2000. — Т. 12.
Josef Sivic, Bryan C. Russell, Alexei A. Efros, Andrew Zisserman, William T. Freeman. Discovering objects and their location in images // ICCV 2005. Tenth IEEE International Conference on Computer Vision. — IEEE, 2005. — Т. 1.
Paul Viola, Michael Jeffrey Jones. Robust Real-time Object Detection // International Journal of Computer Vision. — 2001. — Т. 57, вып. 2.

Литература для дальнейшего чтения

Yoav Freund and Robert E. Schapire (1997); A Decision-Theoretic Generalization of On-line Learning and an Application to Boosting, Journal of Computer and System Sciences, 55(1):119-139
Robert E. Schapire and Yoram Singer (1999); Improved Boosting Algorithms Using Confidence-Rated Predictors, Machine Learning, 37(3):297-336

Ссылки

Robert E. Schapire (2003); The Boosting Approach to Machine Learning: An Overview, MSRI (Mathematical Sciences Research Institute) Workshop on Nonlinear Estimation and Classification
Zhou Zhi-Hua (2014) Boosting 25 years, CCL 2014 Keynote.
Zhihua Zhou. On the margin explanation of boosting algorithm. // Proceedings of the 21st Annual Conference on Learning Theory (COLT'08). — 2008. — С. 479–490.
Zhihua Zhou. On the doubt about margin explanation of boosting. // Artificial Intelligence. — 2013. — Т. 203. — С. 1–18. — DOI:10.1016/j.artint.2013.07.002. — arXiv:1009.3613.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2026
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[9] . Некоторые основанные на бустинге алгоритмы классификации на самом деле уменьшают веса повторно неверно классифицированных экземпляпров. Например, бустинг по доминированию (англ. boost by majority) и BrownBoost

[_f414edd63ac7c2ee-1] Breiman, 1996.

[_4be97415bab790eb-2] Zhi-Hua, 2012, с. 23.

[_ec01e06736d97577-3] 1 2 Kearns, 1988.

[_d5a47fc0ef9867e4-4] Kearns, Valiant, 1989, с. 433–444.

[_f79a06ed82a55228-5] 1 2 Schapire, 1990, с. 197–227.

[_e38de82ace1c77bb-6] Breiman, 1998, с. 801–849.

[_33fcee198919c2dd-7] Freund, Schapire, 1997, с. 119-139.

[8] Лео Брайман (Breiman 1998) пишет: «Понятие слабого обучения ввели Кернс и Валиант (Kearns, Valiant, 1988, Kearns, Valiant, 1989), которые поставили вопрос, эквивалентны ли слабое и сильное обучение. Вопрос был назван задачей бустинга, поскольку решение должно усилить слабую точность слабого обучения до высокой точности сильного обучения. Шапире (1990) доказал, что бустинг возможен. Алгоритм бустинга является методом, который берёт слабый метод обучения и преобразует его в сильный метод. Фройнд и Шапире (1997) доказали, что алгоритм, подобный arc-fs, является бустингом.»

[_d4c88b72e16bb2b8-10] 1 2 3 Mason, Baxter, Bartlett, Frean, 2000, с. 512-518.

[11] Emer, Eric Boosting (AdaBoost algorithm) (неопр.). MIT.

[_c0982b8dab4124f5-12] Sivic, Russell, Efros, Zisserman, Freeman, 2005, с. 370-377.

[_a6082d21472d92e5-13] Opelt, Pinz, Fussenegger, Auer, 2006, с. 416-431.

[_cc77840e8c56928e-14] Marszalek, Schmid, 2007.

[15] Large Scale Visual Recognition Challenge (неопр.) (December 2017).

[_175c8926f48454fe-16] Viola, Jones, 2001.

[_f202be28c5112b4b-17] Viola, Jones, Snow, 2003.

[_c26e4e13dd23dbdd-18] Torralba, Murphy, Freeman, 2007, с. 854-869.

[_817d18a4bceec9eb-19] Opelt, Pinz, Zisserma, 2006, с. 3-10.

[_4f3f9bd83b41f4b5-20] Long, Servedio, 2008, с. 608-615.

[_4e90c2896dae3ef4-21] Long, Servedio, 2010, с. 287–304.