WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения.

Необходимость

Методы сбора данных часто плохо контролируются, что приводит к недопустимым значениям (таким как, доход: −100), невозможным комбинациям данных (таким как, пол: Мужской, Беременность: Да), отсутствующим значениям и прочее. При анализе данных, не защищённом от такого рода проблем, можно придти к неверным выводам. Таким образом, представление данных и их качество^[en] являются первостепенной заботой перед осуществлением анализа ^[1]. Часто предварительная обработка данных является наиболее важной фазой проекта обучения машины, особенно в вычислительной биологии^[2].

Если есть много лишней информации или зашумлённых и недостоверных данных, то извлечение знаний во время тренировки становится затруднительным. Шаг подготовки и фильтрации данных может занять существенное время. Предварительная подготовка данных включает

и т.д.

Результатом предварительной обработки данных является конечный тренировочный набор^[en].

Методы

Ниже приведено краткое описание методов, применяемых на шаге предварительной обработки данных

Очистка данных является процессом обнаружения и исправления или удаления ошибочных записей данных^[3]
Нормализация данных используется для стандартизации диапазона значений независимых переменных или признаков данных (сведение к интервалам [0, 1] или [-1, +1])
Преобразование данных^[en] является процессом приведения данных в формат, который ожидают люди
Выделение признаков является процессом преобразования входных данных в набор признаков, которые могут хорошо представлять входные данные
Уплотнение данных^[en] является преобразованием числовых данных в исправленный, упорядоченный и упрощённый вид, что приводит к уменьшению количества или размерности данных.

См. также

Очистка данных
Редактирование данных^[en]
Уплотнение данных^[en]
Первичная обработка данных^[en]

Примечания

Литература

Dorian Pyle. Data Preparation for Data Mining. — Los Altos, California: Morgan Kaufmann Publishers, 1999.
Wu S. A review on coarse warranty data and analysis // Reliability Engineering and System. — 2013. — Вып. 114. — DOI:10.1016/j.ress.2012.12.021.
Chicco D. Ten quick tips for machine learning in computational biology // BioData Mining. — 2017. — Декабрь (т. 10, вып. 35). — DOI:10.1186/s13040-017-0155-3. — PMID 29234465.

Ссылки

Online Data Processing Compendium

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2026
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[_cd6ee3e7999fa44d-1] Pyle, 1999.

[_09ce8e3dfbb24e1c-2] Chicco, 2017, с. 1-17.

[_e7dc7e7b4972153b-3] Wu, 2013.