Обработка данных

редактировать

Данные curation - это организация и интеграция данных, собранных из различных источников. Он включает аннотацию, публикацию и представление данных, так что ценность данных сохраняется с течением времени, а данные остаются доступными для повторного использования и сохранения. Курирование данных включает в себя «все процессы, необходимые для принципиальных и управляемых данных, создания, обслуживания и управления, вместе с возможностью повышения ценности данных». В науке курирование данных может указывать на процесс извлечения важной информации из научных текстов, таких как исследовательские статьи экспертов, для преобразования в электронный формат, такой как запись в биологическую базу данных.

. В эпоху больших данных обработка данных стала более заметной, особенно для программного обеспечения, обрабатывающего большие объемы и сложные системы данных. Этот термин также используется в исторических случаях и в гуманитарных науках, где увеличение количества культурных и научных данных из проектов цифровых гуманитарных наук требует опыта и аналитических практик курирования данных. В широком смысле курирование означает ряд действий и процессов, выполняемых для создания, управления, поддержки и проверки компонента. В частности, курирование данных - это попытка определить, какую информацию стоит сохранять и как долго.

Содержание
  • 1 История и практика
  • 2 Проекты и исследования
  • 3 См. Также
  • 4 Ссылки
  • 5 Внешние ссылки
История и практика

Пользователь , а не сама база данных, как правило, инициирует курирование данных и поддерживает метаданные. По данным Высшей школы библиотек и информатики Университета Иллинойса, «курирование данных - это активное и постоянное управление данными на протяжении всего их жизненного цикла, представляющее интерес и полезность для науки, науки и образования; курирование деятельность позволяет обнаруживать и извлекать данные, поддерживать качество, повышать ценность и обеспечивать возможность повторного использования с течением времени ». Рабочий процесс курирования данных отличается от управления качеством данных, защиты данных, управления жизненным циклом и перемещения данных..

Данные переписи доступны в виде таблиц. форма перфокарты с начала 20-го века и является электронной с 1960-х годов. Межуниверситетский консорциум политических и социальных исследований (ICPSR) отмечает 1962 год как дату своего первого архива данных обследования.

Подробная информация о библиотеках данных появилась в выпуске 1982 года журнала журнал Иллинойса, Библиотечные тенденции. Историческую справку о движении архивов данных см. В статье «Потребности в социальной научной информации для числовых данных: эволюция инфраструктуры международных архивов данных». Точный процесс курирования, осуществляемый в любой организации, зависит от объема данных, количества шума, содержащегося в данных, и от того, что ожидаемое будущее использование данных означает для их распространения.

Кризис в космических данных привел к 1999 г. создание модели открытой архивной информационной системы (OAIS) под руководством Консультативного комитета по системам космической информации (CCSDS), который был сформирован в 1982 году.

Термин «курирование данных» иногда используется в контексте биологических баз данных, где конкретная биологическая информация сначала получается из ряда исследовательских статей, а затем сохраняется в базе данных определенной категории. Например, информацию об антидепрессантах можно получить из различных источников, и после проверки того, доступны ли они в виде базы данных, они сохраняются в категории антидепрессивных препаратов базы данных. Предприятия также используют курирование данных в своих операционных и стратегических процессах для обеспечения качества и точности данных.

Проекты и исследования

Проект «Пакеты информации для распространения» (DIPS) для повторного использования информации (DIPIR) изучает данные исследований, подготовленные и используемые учеными-социологами, археологами и зоологами. Целевая аудитория - исследователи, которые используют вторичные данные, и кураторы цифровых данных, менеджеры цифровых репозиториев, персонал центров обработки данных и другие лица, которые собирают, управляют и хранят цифровую информацию.

Protein Data Bank была основана в 1971 году в Брукхейвенской национальной лаборатории и превратилась в глобальный проект. База данных трехмерных структурных данных белков и других крупных биологических молекул, PDB содержит более 120 000 структур, все стандартизированные, проверенные на основании экспериментальных данных и аннотированные.

FlyBase, основной репозиторий генетических и молекулярных данных для семейства насекомых Drosophilidae, восходит к 1992 году. FlyBase аннотирует весь геном Drosophila melanogaster.

Консорциум лингвистических данных - это хранилище лингвистических данных, начиная с 1992 года.

Sloan Digital Sky Survey начал съемку ночного неба в 2000 году.. Компьютерный ученый Джим Грей, работая над архитектурой данных SDSS, отстаивал идею курирования данных в науках.

DataNet была исследовательской программой Управления Национального научного фонда США. киберинфраструктуры, финансируя проекты управления данными в науке. DataONE (Сеть наблюдения за данными для Земли) - один из проектов, финансируемых через DataNet, который помогает сообществу ученых-экологов сохранять и обмениваться данными.

См. Также
  • Литературный портал
Ссылки
Внешние ссылки
  • Сбор экологических и экологических данных: DataONE
  • Инструменты и услуги для управления данными, охватывающие несколько научных дисциплин: DataConservancy
Последняя правка сделана 2021-05-17 14:09:49
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте