WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Двоичная, бинарная или дихотомическая классификация — это задача классификации элементов заданного множества в две группы (предсказание, какой из групп принадлежит каждый элемент множества) на основе правила классификации^[en]. Контекст, в котором требуется решение, имеет ли объект некоторое качественное свойство^[en], некоторые специфичные характеристики или некоторую типичную двоичную классификацию, включает:

Лабораторная диагностика для определения, болеет ли пациент определённой болезнью – классификационным свойством является наличие болезни.
«Прошёл/не прошёл» метод тестирования^[en] или технического контроля на заводах, т.е. решение, выполнены или нет спецификации – классификация проходит/не проходит^[en].
Информационный поиск, а именно, решение, должна или нет страница или статья попасть в результирующий набор^[en] поиска – свойством классификации является значимость статьи или полезность для пользователя.

Двоичная классификация является дихотомизацией, применённой для практических нужд и во многих практических задачах двоичной классификации две группы не симметричны – вместо общей точности интересуются относительными пропорциями типов ошибок. Например, в лабораторных тестах, ложно положительный результат^[en] (выявление болезни, которой на самом деле нет) считается различимым от ложно отрицательного (невыявление болезни, которой на самом деле пациент болеет).

Статистическая двоичная классификация

Статистическая классификация — это задача, изучаемая в обучении машин. Это вид обучения с учителем, метода обучения машин, когда категории предопределены и используются для выбора категории для нового вероятностного наблюдения. Если имеется всего две категории, задача известна как статистическая двоичная классификация.

Некоторые методы, обычно используемые для двоичной классификации:

Каждый классификатор ведёт себя наилучшим образом только в выбранной области, основываясь на числе наблюдений, размерности вектора признаков, шуме в данных и многих других факторах. Например, классификаторы на основе случайных лесов работают лучше, чем на основе метода опорных векторов для трёхмерных облаков точек^[1]^[2].

Оценка двоичной классификация

Левая и правая половина содержат экземпляры, которые удовлетворяют или не удовлетворяют условию. Овал содержит экземпляры, которые классифицируются (предсказаны) как положительные (удовлетворяют условию). Зелёная и красная часть содержат экземпляры, которые правильно или ошибочно классифицированы.
Результаты:
TP=True Positive (правильно положительный);
TN=True Negative (правильно отрицательный);
FP=False Positive (ложно положительный, ошибка типа I);
FN=False Negative (ложно отрицательный, ошибка типа II);
TPR=True Positive Rate (доля правильно положительных);
FPR=False Positive Rate (доля ложно положительных);
PPV=Positive Predictive Value (прогностическая ценность положительного результата);
NPV=Negative Predictive Value (прогностическая ценность ложного результата).

Существует много метрик, которые можно использовать для измерения производительности классификатора или предсказателя. Различные поля имеют различные преимущества для конкретных метрик ввиду различных целей. Например, в медицине часто используются чувствительность и специфичность, в то время как при извлечении информации предпочитают точность и отзыв^[en]. Важным отличием в метриках заключается в том, является ли она независимой от распространённости (как часто каждая категория встречается в популяции) или зависимой и оба типа полезны, но они имеют очень отличающиеся свойствам.

Если дана классификация множества данных, существует четыре базовые комбинации действительной категории и назначенной категории:

правильно назначенные положительные классификации^[en] TP
правильно назначенные отрицательные классификации^[en] TN
ложно назначенные положительные классификации^[en] FP
ложно назначенные отрицательные классификации^[en] FN

Они могут быть расположены в $2\times 2$ таблице сопряжённости со столбцами, соответствующими действительным значениям – условно положительные (англ. condition positive, CP) или условно отрицательные (англ. condition negative, CN), и строками, соответствующими значениям классификации – результат теста положительный или отрицательный. Существует восемь базовых отношений, которые могут быть вычислены из таблицы, которые распадаются на четыре дополняющие друг друга пары (сумма каждой пары равна 1). Они получаются путём деления каждого из четырёх чисел на сумму по строке или по столбцу, что даёт восемь чисел, о которых можно говорить как о «строке долей верноположительных» или «столбце долей ложноотрицательных», хотя существуют общеупотребимые термины. Существует также две пары отношений столбцов и две пары отношений строк, и можно получить четыре из них путём выбора одного отношения из каждой пары, остальные четыре числа являются их дополнениями.

Столбец долей содержит отношение верноположительных (англ. True Positive Rate, TPR, называемое также чувствительностью или отзывом^[en], дополнение — доля ложно отрицательных результатов^[en], англ. False Negative Rate, FNR) и долю верноотрицательных результатов (англ. True Negative Rate, TNR, называемую также специфичностью, (англ. Specificity, SPC, дополнение — доля ложно положительных^[en], англ. False Positive Rate, FPR). Они пропорциональны популяции с условием (соответственно, без условия) для которой тест верен (или тест ложен) и они не зависят от распространённости.

Строка долей является прогностической ценностью положительного результата^[en] (англ. Positive Predictive Value, PPV, называемой также точностью, дополнение — доля ложных отклонений^[en], англ. False Discovery Rate, FDR) и прогностической ценностью отрицательного результата^[en] (англ. Negative Predictive Value, NPV, дополнение — доля ложных пропусков, англ. False Omission Rate, FOR). Они пропорциональны популяции с заданным верным результатом теста (или ложным результатом) и они зависят от распространённости.

В лабораторных тестах основные используемые отношения — столбец истинных долей – доля верноположительных и доля верноотрицательных результатов – где они известны как чувствительность и специфичность. При извлечении информации главными отношениями являются доля верноположительных (строка и столбец) – прогностическая ценность отрицательного результата и доля верноположительных – где они известны как точность и отзыв^[en].

Можно взять отношения дополняющих пар отношений, что даёт четыре отношения правдоподобия^[en] (два значения столбца долей, два значения строки долей). Это, в первую очередь, делается для отношений столбцов, что даёт отношения правдоподобия в лабораторных тестах^[en]. Взяв отношение в одной из этих групп, получим конечное отношение шансов диагностического теста^[en] (англ. Diagnostic Odds Ratio, DOR). Это значение можно определить и прямо, как $(TP\times TN)/(FP\times FN)=(TP/FN)/(FP/TN)$ . Это имеет полезную интерпретацию как отношение шансов и не зависит от распространённости.

Существует несколько других метрик, наиболее простая из которых точность или доля правильных (англ. Fraction Correct, FC), которая измеряет долю всех случаев, которые были правильно классифицированы. Дополнение до 1 этого значения — доля неправильных (англ. Fraction Incorrect, FiC). F-мера^[en] комбинирует точность и отзыв в одном числе посредством выбора веса, в самом простом случае равному весу как в сбалансированной F-мере (F1 мера^[en]). Некоторые метрики приходят из коэффициентов регрессии — маркированности и информативности^[en] и их среднего геометрического, коэффициента корреляции Мэтьюса^[en]. Другие метрики включают J статистику Юдена^[en], коэффициент неопределённости^[en], коэффициент Фи и каппу Коэна.

Преобразование непрерывных значений к бинарным

Тесты, результат которых являются непрерывными значениями, такие как большинство значений анализа крови^[en], могут быть искусственно сделаны двоичными путём определения отсекающего начения^[en], с назначением результатов теста как положительный или отрицательный в зависимости от того, результирующее значение выше или ниже, чем отсекающее значение.

Однако такое преобразование приводит к потере информации, поскольку результат двоичной классификации не говорит как много выше или ниже значения отсечения. В результате, при преобразовании непрерывного значения, которое близко к отсекающему значению, получающаяся в результате положительная^[en] или отрицательная прогностическая ценность^[en] в общем случае выше, чем прогностическая ценность^[en] полученная непосредственно из непрерывного значения. В таких результат теста положительный или отрицательный случаях даёт неприемлемо высокую определённость, в то время как значение, фактически, находится в области неопределённости. Например, при концентрации hCG^[en] в моче как непрерывного значения, тест мочи на беременность, который измеряет 52 мМЕ/мл hCG может показывать «положительный результат» с границей отсечения 50 мМЕ/мл, но, фактически, с интервалом неопределённости, который может быть различим только при знании исходного непрерывного значения. С другой стороны, результат теста, очень далёкий от границы отсечения, обычно имеет положительную или отрицательную прогностическую ценность, меньшую прогностической ценности, полученной от непрерывного значения. Например, значение hCG теста мочи 200000 мМЕ/мл сообщает об очень высокой степени беременности, но преобразование к двоичным результатам показывает тест как «положительный» при значении 52 мМЕ/мл.

См. также

Правило классификации^[en]
Теория обнаружения сигнала
Ядерный метод
Мультиклассовая классификация^[en]
Мультизначная классификация^[en]
Одноклассовая классификация^[en]
Заблуждение прокурора^[en]
ROC-кривая
Пороговая фильтрация^[en]
Коэффициент неопределённости^[en], называемый также адекватностью
Qualitative property

Примечания

Литература

Richard Zhang, Avideh Zakhor. Automatic Identification of Window Regions on Indoor Point Clouds Using LiDAR and Cameras // VIP Lab Publications. — 2014.
Y. Lu, C. Rasmussen. Simplified markov random fields for efficient semantic labeling of 3D point clouds // IROS. — 2012.

Литература

Nello Cristianini, John Shawe-Taylor. An Introduction to Support Vector Machines and other kernel-based learning methods. — Cambridge University Press, 2000. — ISBN 0-521-78019-5.'
John Shawe-Taylor, Nello Cristianini. Kernel Methods for Pattern Analysis. — Cambridge University Press, 2004. — ISBN 0-521-81397-2.
Bernhard Scholkopf, A. J. Smola. Learning with Kernels. — Massachusetts: MIT Press, Cambridge, 2002. — ISBN 0-262-19475-9.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2026
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[_477be7fcf1028d9f-1] Zhang, Zakhor, 2014.

[_fca028504caab988-2] Lu, Rasmussen, 2012.