Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения.
Методы сбора данных часто плохо контролируются, что приводит к недопустимым значениям (таким как, доход: −100), невозможным комбинациям данных (таким как, пол: Мужской, Беременность: Да), отсутствующим значениям и прочее. При анализе данных, не защищённом от такого рода проблем, можно придти к неверным выводам. Таким образом, представление данных и их качество[en] являются первостепенной заботой перед осуществлением анализа [1]. Часто предварительная обработка данных является наиболее важной фазой проекта обучения машины, особенно в вычислительной биологии[2].
Если есть много лишней информации или зашумлённых и недостоверных данных, то извлечение знаний во время тренировки становится затруднительным. Шаг подготовки и фильтрации данных может занять существенное время. Предварительная подготовка данных включает
и т.д.
Результатом предварительной обработки данных является конечный тренировочный набор[en].
Ниже приведено краткое описание методов, применяемых на шаге предварительной обработки данных
Для улучшения этой статьи желательно: |
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .