Данные curation - это организация и интеграция данных, собранных из различных источников. Он включает аннотацию, публикацию и представление данных, так что ценность данных сохраняется с течением времени, а данные остаются доступными для повторного использования и сохранения. Курирование данных включает в себя «все процессы, необходимые для принципиальных и управляемых данных, создания, обслуживания и управления, вместе с возможностью повышения ценности данных». В науке курирование данных может указывать на процесс извлечения важной информации из научных текстов, таких как исследовательские статьи экспертов, для преобразования в электронный формат, такой как запись в биологическую базу данных.
. В эпоху больших данных обработка данных стала более заметной, особенно для программного обеспечения, обрабатывающего большие объемы и сложные системы данных. Этот термин также используется в исторических случаях и в гуманитарных науках, где увеличение количества культурных и научных данных из проектов цифровых гуманитарных наук требует опыта и аналитических практик курирования данных. В широком смысле курирование означает ряд действий и процессов, выполняемых для создания, управления, поддержки и проверки компонента. В частности, курирование данных - это попытка определить, какую информацию стоит сохранять и как долго.
Пользователь , а не сама база данных, как правило, инициирует курирование данных и поддерживает метаданные. По данным Высшей школы библиотек и информатики Университета Иллинойса, «курирование данных - это активное и постоянное управление данными на протяжении всего их жизненного цикла, представляющее интерес и полезность для науки, науки и образования; курирование деятельность позволяет обнаруживать и извлекать данные, поддерживать качество, повышать ценность и обеспечивать возможность повторного использования с течением времени ». Рабочий процесс курирования данных отличается от управления качеством данных, защиты данных, управления жизненным циклом и перемещения данных..
Данные переписи доступны в виде таблиц. форма перфокарты с начала 20-го века и является электронной с 1960-х годов. Межуниверситетский консорциум политических и социальных исследований (ICPSR) отмечает 1962 год как дату своего первого архива данных обследования.
Подробная информация о библиотеках данных появилась в выпуске 1982 года журнала журнал Иллинойса, Библиотечные тенденции. Историческую справку о движении архивов данных см. В статье «Потребности в социальной научной информации для числовых данных: эволюция инфраструктуры международных архивов данных». Точный процесс курирования, осуществляемый в любой организации, зависит от объема данных, количества шума, содержащегося в данных, и от того, что ожидаемое будущее использование данных означает для их распространения.
Кризис в космических данных привел к 1999 г. создание модели открытой архивной информационной системы (OAIS) под руководством Консультативного комитета по системам космической информации (CCSDS), который был сформирован в 1982 году.
Термин «курирование данных» иногда используется в контексте биологических баз данных, где конкретная биологическая информация сначала получается из ряда исследовательских статей, а затем сохраняется в базе данных определенной категории. Например, информацию об антидепрессантах можно получить из различных источников, и после проверки того, доступны ли они в виде базы данных, они сохраняются в категории антидепрессивных препаратов базы данных. Предприятия также используют курирование данных в своих операционных и стратегических процессах для обеспечения качества и точности данных.
Проект «Пакеты информации для распространения» (DIPS) для повторного использования информации (DIPIR) изучает данные исследований, подготовленные и используемые учеными-социологами, археологами и зоологами. Целевая аудитория - исследователи, которые используют вторичные данные, и кураторы цифровых данных, менеджеры цифровых репозиториев, персонал центров обработки данных и другие лица, которые собирают, управляют и хранят цифровую информацию.
Protein Data Bank была основана в 1971 году в Брукхейвенской национальной лаборатории и превратилась в глобальный проект. База данных трехмерных структурных данных белков и других крупных биологических молекул, PDB содержит более 120 000 структур, все стандартизированные, проверенные на основании экспериментальных данных и аннотированные.
FlyBase, основной репозиторий генетических и молекулярных данных для семейства насекомых Drosophilidae, восходит к 1992 году. FlyBase аннотирует весь геном Drosophila melanogaster.
Консорциум лингвистических данных - это хранилище лингвистических данных, начиная с 1992 года.
Sloan Digital Sky Survey начал съемку ночного неба в 2000 году.. Компьютерный ученый Джим Грей, работая над архитектурой данных SDSS, отстаивал идею курирования данных в науках.
DataNet была исследовательской программой Управления Национального научного фонда США. киберинфраструктуры, финансируя проекты управления данными в науке. DataONE (Сеть наблюдения за данными для Земли) - один из проектов, финансируемых через DataNet, который помогает сообществу ученых-экологов сохранять и обмениваться данными.