Признаковое описание объекта (англ. feature vector) — это вектор, который составлен из значений, соответствующих некоторому набору признаков для данного объекта. Значения признаков могут быть различного, не обязательно числового, типа. Является одним из самых распространённых в машинном обучении способов ввода данных.
Обозначим через X множество объектов, ситуаций, прецедентов некоторой предметной области. Например, в задачах машинного обучения, встречающихся в медицине, прецедентами могут являться пациенты, в сфере кредитования при проведении кредитного скоринга — заёмщики, в задаче фильтрации спама — отдельные сообщения.
Признак (англ. feature) — результат измерения некоторой характеристики объекта, то есть отображение:
где — множество допустимых значений признака.
Значениями признаков могут быть тексты, графы, оцифрованные изображения, числовые последовательности, записи базы данных и т. п. В зависимости от множества признаки делятся на следующие типы:
Часто встречаются прикладные задачи с разнотипными признаками, для решения которых подходят далеко не все методы.
Если заданы признаки , то вектор называется признаковым описанием объекта .
В машинном обучении признаковые описания допустимо отождествлять с самими объектами, то есть: . При этом множество называют признаковым пространством.
Матрицей объектов-признаков (матрица информации, матрица исходных данных) называется совокупность признаковых описаний объектов обучающей выборки длины , записанная в виде матрицы размера ( строк, столбцов). Столбцы этой матрицы соответствуют признакам , а каждая строка является признаковым описаниям одного обучающего объекта. Такой вид представления является принятым в задачах классификации и регрессионного анализа, и большое число методов обучения подразумевает такое представление данных.
Встречающиеся на практике задачи могут не содержать удобных для математической обработки данных. Например, в задаче фильтрации спама объекты — сообщения — представлены текстами произвольной длины, могут содержать вложения различных форматов, и т. п. Для приведения данных к стандартному виду применяется процедура — извлечение признаков (англ. feature extraction) из данных или генерация признаков (англ. feature generation). Таким образом, в качестве признака можно брать и любое отображение из множества в множество значений, удобное для обработки. Ничто не мешает в качестве такого отображения можно взять и некоторый алгоритм классификации (или регрессии), что позволяет получать сложные композиции алгоритмов.
Для улучшения этой статьи желательно: |
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .