Извлечение данных

редактировать

Извлечение данных - это действие или процесс извлечения данных из (обычно неструктурированных или плохо структурированных) источников данных для дальнейшего обработка данных или хранилище данных (перенос данных ). Таким образом, за импортом в промежуточную систему извлечения обычно следует преобразование данных и, возможно, добавление метаданных перед экспортом на другой этап. в рабочем процессе данных .

Обычно термин «извлечение данных» применяется, когда (экспериментальные ) данные сначала импортируются в компьютер из первичных источников, таких как измерение или записывающие устройства. Сегодняшние электронные устройства обычно имеют электрический разъем (например, USB ), через который «необработанные данные » могут передаваться потоком в персональный компьютер.

Содержание

  • 1 Источники данных
  • 2 Наложение структуры
  • 3 См. Также
  • 4 Ссылки

Источники данных

Типичные неструктурированные данные Источники включают веб-страницы, электронные письма, документы, PDF-файлы, отсканированный текст, отчеты мэйнфрейма, файлы спула, объявления и т. д., которые в дальнейшем используются для продаж или маркетинга приводит. Извлечение данных из этих неструктурированных источников превратилось в серьезную техническую задачу, поскольку, поскольку исторически извлечение данных приходилось иметь дело с изменениями в физических аппаратных форматах, большая часть текущего извлечения данных связана с извлечением данных из этих неструктурированных источников данных и из различных форматов программного обеспечения.. Этот растущий процесс извлечения данных из Интернета упоминается как «извлечение данных из Интернета» или «извлечение данных из Интернета ».

Наложение структуры

Добавление структуры к неструктурированным данным принимает несколько форм

  • Использование текста сопоставления с образцом, например, регулярных выражений для определения небольших или крупных структур, например записи в отчете и связанные с ними данные из верхних и нижних колонтитулов;
  • Использование табличного подхода для определения общих разделов в ограниченном домене, например в резюме, отправленном по электронной почте, с указанием навыков, предыдущего опыта работы, квалификации и т. д. с использованием стандартного набора часто используемых заголовков (они будут отличаться от языка к языку), например Образование можно найти в разделе «Образование / Квалификация / Курсы»;
  • Использование текстовой аналитики, чтобы попытаться понять текст и связать его с другой информацией

См. Также

Ссылки

Последняя правка сделана 2021-05-17 14:10:08
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте