В обучении машин и распознавании образов признак — это индивидуальное измеримое свойство или характеристика наблюдаемого явления[1]. Выбор информативных, отличительных и независимых признаков является критическим шагом для эффективных алгоритмов в распознавании образов, классификации и регрессии. Признаки обычно являются числовыми, но структурные признаки, такие как строки и графы, используются в синтаксическом распознавании образов[en]. Понятие «признака» связано с объясняющими переменными, используемыми в статистических техниках, таких как линейная регрессия.
Множество числовых признаков удобно описать вектором признаков. Пример достижения классификации по двум признакам из вектора признаков (связанных с перцептроном) состоит из вычисления скалярного произведения вектора признаков и вектора весов, сравнения результата с пороговым значением и решения, к какому классу принадлежит объект на основе этого сравнения.
Алгоритмы классификации, опирающиеся на вектора признаков, включают классификацию ближайших соседей, нейронные сети и статистические техники, такие как байесовский подход.
В распознавании знаков признаки могут включать гистограммы, включающие число чёрных точек вдоль горизонтальных и вертикальных направлений, число внутренних пустот, выделение штрихов и многие другие.
В распознавании речи признаки для распознавания фонем могут включать коэффициент шума, длину звуков, относительную громкость, соответствие фильтрам и многое другое.
В алгоритмах выделения спама признаки могут включать присутствие или отсутствие некоторых заголовков email, структуру email, язык, частоту определённых терминов, грамматическую правильность текста.
В компьютерном зрении существует большое число возможных признаков[en], таких как рёбра и объекты.
В распознавании образов и обучении машин вектор признаков является n-мерным вектором числовых признаков, который представляет некоторый объект. Многие алгоритмы в обучении машин требуют численное представление объектов, поскольку такие представления способствуют обработке и статистическому анализу. При работе с изображениями признак может соответствовать растровым точкам (пикселям) изображения, в то время как признаки для текста могут соответствовать частоте использования терминов в тексте. Вектора признаков эквивалентны векторам объясняющих переменных, используемых в статистических процедурах, таких как линейная регрессия. Вектора признаков часто комбинируются с весами, используя скалярное произведение для построения функции линейного предиктора[en], которая используется для определения оценки для предсказания.
Векторное пространство, ассоциированное с этими векторами, часто называется пространством признаков. Для сокращения размерности пространства признаков может быть использовано несколько методов снижения размерности.
Признаки более высокого уровня можно получить из уже известных признаков и они могут быть добавлены к вектору признаков. Например, для изучения болезней полезен признак «возраст», который можно определить как возраст = «год смерти» минус «год рождения». Об этом процессе говорят как о построении признака[2][3]. Построение признака — это приложение множества операторов построения к множеству существующих признаков, приводящее к построению новых признаков. Примеры таких операторов построения включают проверку на равенство {=, ≠}, арифметические операторы {+,−,×, /}, операторы для массивов {max(S), min(S), average(S)}, а также другие более сложные операторы, например, count(S,C)[4], который подсчитывает число признаков в векторе признаков S, удовлетворяющих некоторому условию C, или, например, расстояния до другого класса распознавания, обобщённого некоторым устройством. Построение признака считается мощным средством для как увеличения точности, так и улучшения понимания структуры, особенно в задачах высокой размерности[5]. Приложения включают изучение болезней и распознавание эмоций[en] при разговоре[6].
Начальное множество сырых признаков может быть избыточным и слишком большим для обработки. Таким образом, предварительный шаг во многих приложениях обучения машин и распознавания образов состоит из отбора подмножества признаков или построения нового сокращённого множества признаков для обеспечения обучения улучшения общности и интерпретируемости.
Выделение или отбор признаков является комбинаций искусства и науки. Системы, позволяющие сделать это, известны как системы конструирования признаков. Для выделения и отбора признаков требуется проведение экспериментов со многими возможностями, а также нужно уметь комбинировать автоматизированные техники с интуицией и обладать знаниями узкого специалиста[en] в этой области. Автоматизация этого процесса называется обучением признакам, где машина не только использует признаки для собственного обучения, но и обучается новым признакам.
Для улучшения этой статьи желательно: |
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .