Интеграция веб-данных (WDI) - это процесс агрегирования и управления данными с разных веб-сайтов в единый однородный рабочий процесс. Этот процесс включает доступ к данным, преобразование, отображение, контроль качества и объединение данных. Данные, получаемые и структурированные с веб-сайтов, обозначаются как «». WDI - это расширение и специализация интеграции данных, которая рассматривает Интернет как совокупность разнородных баз данных.
Методы интеграции данных в контексте Интернета формируют основу для предприятий, использующих данные, доступные на постоянно растущем числе общедоступных веб-сайтов. Корпоративные расходы в этой области составили около 2,5 млрд долларов США в 2017 году, и ожидается, что к 2020 году рынок достигнет почти 7 млрд долларов США.
Интеграция веб-данных расширяет и специализирует интеграцию данных, чтобы рассматривать Интернет как набор представлений баз данных, доступных через веб-протоколы, включая, но не ограничиваясь:
У WDI есть технические проблемы, отличные от интеграции данных из-за доступа к данным и преобразования, необходимых для источников, часто являющихся неструктурированными или полуструктурированными данными без стандартный механизм запросов.
Понимание качества и правдивости данных даже более важно в WDI, чем в интеграции данных, поскольку данные, как правило, менее косвенно доверены и имеют более низкое качество, чем данные, собранные из надежного источника. Предпринимаются попытки автоматизировать рейтинг доверия для веб-данных.
Качество данных при интеграции данных обычно может наблюдаться после доступа к данным и их преобразования, но качество WDI может потребоваться контролировать по мере сбора данных из-за время и стоимость повторного сбора данных.
WDI применяется во многих областях, включая биоинформатику, поисковые системы, сравнение цен и криминалистический анализ данных поиска, бизнес-аналитику, здравоохранение, фармацевтику и разработку продуктов.
Большинство систем сравнения цен и систем рекомендаций используют данные, созданные пользователями, для создания рекомендаций для своих пользователей. Точно так же системы здравоохранения используют результаты конкурсов, проводимых на таких сайтах, как Kaggle, для проверки точности данных и создания продуктов, ориентированных на пользователя. Фактически, по оценкам IBM, некачественный WDI ежегодно приносит компаниям более 3 триллионов долларов дохода.