WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения.

Необходимость

Методы сбора данных часто плохо контролируются, что приводит к недопустимым значениям (таким как, доход: −100), невозможным комбинациям данных (таким как, пол: Мужской, Беременность: Да), отсутствующим значениям и прочее. При анализе данных, не защищённом от такого рода проблем, можно придти к неверным выводам. Таким образом, представление данных и их качество[en] являются первостепенной заботой перед осуществлением анализа [1]. Часто предварительная обработка данных является наиболее важной фазой проекта обучения машины, особенно в вычислительной биологии[2].

Если есть много лишней информации или зашумлённых и недостоверных данных, то извлечение знаний во время тренировки становится затруднительным. Шаг подготовки и фильтрации данных может занять существенное время. Предварительная подготовка данных включает

и т.д.

Результатом предварительной обработки данных является конечный тренировочный набор[en].

Методы

Ниже приведено краткое описание методов, применяемых на шаге предварительной обработки данных

  • Очистка данных является процессом обнаружения и исправления или удаления ошибочных записей данных[3]
  • Нормализация данных используется для стандартизации диапазона значений независимых переменных или признаков данных (сведение к интервалам [0, 1] или [-1, +1])
  • Преобразование данных[en] является процессом приведения данных в формат, который ожидают люди
  • Выделение признаков является процессом преобразования входных данных в набор признаков, которые могут хорошо представлять входные данные
  • Уплотнение данных[en] является преобразованием числовых данных в исправленный, упорядоченный и упрощённый вид, что приводит к уменьшению количества или размерности данных.

См. также

Примечания

Литература

  • Dorian Pyle. Data Preparation for Data Mining. Los Altos, California: Morgan Kaufmann Publishers, 1999.
  • Wu S. A review on coarse warranty data and analysis // Reliability Engineering and System. — 2013. Вып. 114. DOI:10.1016/j.ress.2012.12.021.
  • Chicco D. Ten quick tips for machine learning in computational biology // BioData Mining. — 2017. — Декабрь (т. 10, вып. 35). DOI:10.1186/s13040-017-0155-3. PMID 29234465.

Ссылки

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .




Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2024
WikiSort.ru - проект по пересортировке и дополнению контента Википедии