Извлечение данных - это действие или процесс извлечения данных из (обычно неструктурированных или плохо структурированных) источников данных для дальнейшего обработка данных или хранилище данных (перенос данных ). Таким образом, за импортом в промежуточную систему извлечения обычно следует преобразование данных и, возможно, добавление метаданных перед экспортом на другой этап. в рабочем процессе данных .
Обычно термин «извлечение данных» применяется, когда (экспериментальные ) данные сначала импортируются в компьютер из первичных источников, таких как измерение или записывающие устройства. Сегодняшние электронные устройства обычно имеют электрический разъем (например, USB ), через который «необработанные данные » могут передаваться потоком в персональный компьютер.
Типичные неструктурированные данные Источники включают веб-страницы, электронные письма, документы, PDF-файлы, отсканированный текст, отчеты мэйнфрейма, файлы спула, объявления и т. д., которые в дальнейшем используются для продаж или маркетинга приводит. Извлечение данных из этих неструктурированных источников превратилось в серьезную техническую задачу, поскольку, поскольку исторически извлечение данных приходилось иметь дело с изменениями в физических аппаратных форматах, большая часть текущего извлечения данных связана с извлечением данных из этих неструктурированных источников данных и из различных форматов программного обеспечения.. Этот растущий процесс извлечения данных из Интернета упоминается как «извлечение данных из Интернета» или «извлечение данных из Интернета ».
Добавление структуры к неструктурированным данным принимает несколько форм