Интеграция веб-данных

редактировать

Интеграция веб-данных (WDI) - это процесс агрегирования и управления данными с разных веб-сайтов в единый однородный рабочий процесс. Этот процесс включает доступ к данным, преобразование, отображение, контроль качества и объединение данных. Данные, получаемые и структурированные с веб-сайтов, обозначаются как «». WDI - это расширение и специализация интеграции данных, которая рассматривает Интернет как совокупность разнородных баз данных.

Методы интеграции данных в контексте Интернета формируют основу для предприятий, использующих данные, доступные на постоянно растущем числе общедоступных веб-сайтов. Корпоративные расходы в этой области составили около 2,5 млрд долларов США в 2017 году, и ожидается, что к 2020 году рынок достигнет почти 7 млрд долларов США.

Содержание
  • 1 Источники
  • 2 Доступ к данным и преобразование
  • 3 Качество данных
  • 4 Приложения
  • 5 Ссылки
Источники

Интеграция веб-данных расширяет и специализирует интеграцию данных, чтобы рассматривать Интернет как набор представлений баз данных, доступных через веб-протоколы, включая, но не ограничиваясь:

  • каталогами открытых данных
  • каталогами государственных данных
  • веб-приложениями и сайтами
  • семантическая сеть (SPARQL)
  • HTML-встроенные структурированные данные
  • HTML-таблицы данных
  • Электронные таблицы
  • PDF-файлы
  • Онлайн-энциклопедии
Данные доступ и преобразование

У WDI есть технические проблемы, отличные от интеграции данных из-за доступа к данным и преобразования, необходимых для источников, часто являющихся неструктурированными или полуструктурированными данными без стандартный механизм запросов.

Data qu ality

Понимание качества и правдивости данных даже более важно в WDI, чем в интеграции данных, поскольку данные, как правило, менее косвенно доверены и имеют более низкое качество, чем данные, собранные из надежного источника. Предпринимаются попытки автоматизировать рейтинг доверия для веб-данных.

Качество данных при интеграции данных обычно может наблюдаться после доступа к данным и их преобразования, но качество WDI может потребоваться контролировать по мере сбора данных из-за время и стоимость повторного сбора данных.

Приложения

WDI применяется во многих областях, включая биоинформатику, поисковые системы, сравнение цен и криминалистический анализ данных поиска, бизнес-аналитику, здравоохранение, фармацевтику и разработку продуктов.

Большинство систем сравнения цен и систем рекомендаций используют данные, созданные пользователями, для создания рекомендаций для своих пользователей. Точно так же системы здравоохранения используют результаты конкурсов, проводимых на таких сайтах, как Kaggle, для проверки точности данных и создания продуктов, ориентированных на пользователя. Фактически, по оценкам IBM, некачественный WDI ежегодно приносит компаниям более 3 триллионов долларов дохода.

Ссылки
Последняя правка сделана 2021-06-20 10:29:23
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте