Открытые данные

редактировать
Практика публичного и многоразового обмена данными

Открытая карта данных Связанное облако открытых данных в августе 2014 г. Очистить маркировка условий лицензирования является ключевым компонентом открытых данных, и для этой цели используются значки, подобные изображенному здесь.

Открытые данные - это идея о том, что некоторые данные должны быть бесплатно доступны для всех и переиздавать по своему желанию, без ограничений со стороны авторских прав, патентов или других механизмов контроля. Цели движения данных с открытым исходным кодом аналогичны целям других движений за «открытый (исходный)», таких как программное обеспечение с открытым исходным кодом, аппаратное обеспечение, открытый контент, открытое образование, открытые образовательные ресурсы, открытое правительство, открытое знание, открытый доступ, открытая наука и открытая сеть. Парадоксально, но рост движения за открытые данные сопровождается ростом прав интеллектуальной собственности. Философия открытых данных давно сложилась (например, в мертоновской традиции науки ), но сам термин «открытые данные» появился недавно, набирая популярность с появлением Интернета и в мире. Wide Web и, особенно, с запуском правительственных инициатив в области открытых данных, таких как Data.gov, Data.gov.uk и Data.gov.in.

Открытые данные также могут быть связанными данными ; когда это так, это связанные открытые данные . Одной из наиболее важных форм открытых данных являются открытые правительственные данные (OGD), которые представляют собой форму открытых данных, создаваемых правящими правительственными учреждениями. Важность открытых правительственных данных объясняется тем, что они являются частью повседневной жизни граждан, вплоть до самых рутинных / рутинных задач, которые, казалось бы, далеки от правительства.

Содержание

  • 1 Обзор
  • 2 Основные источники
    • 2.1 В науке
    • 2.2 В правительстве
    • 2.3 В некоммерческих организациях
  • 3 Аргументы за и против
  • 4 Отношение к другие открытые мероприятия
  • 5 Обязанности спонсоров
  • 6 Неоткрытые данные
  • 7 См. также
  • 8 Ссылки
  • 9 Внешние ссылки

Обзор

Концепция открытых данных не ново, но формализованное определение относительно ново. Концептуально открытые данные как явление означают, что правительственные данные должны быть доступны любому, кто имеет возможность распространения в любой форме без каких-либо ограничений авторских прав. Еще одно определение - это открытое определение, которое можно резюмировать следующим образом: «Часть данных открыта, если кто-либо может свободно использовать, повторно использовать и распространять ее - при условии, самое большее, при условии, что требуется атрибут и / или поделиться -вроде. " Другие определения, в том числе «Открытые данные - это данные, к которым любой может получить доступ, использовать или поделиться » института Института открытых данных, имеют доступную краткую версию определения, но относятся к формальным определение.

Открытые данные могут включать нетекстовые материалы, такие как карты, геномы, коннектомы, химические соединения, математические и научные формулы, медицинские данные и практика, бионаука и биоразнообразие. Проблемы часто возникают из-за того, что они имеют коммерческую ценность или могут быть объединены в ценные произведения. Доступ к данным или их повторное использование контролируется организациями, как государственными, так и частными. Контроль может осуществляться посредством ограничений доступа, лицензий, авторских прав, патентов и платы за доступ или повторное использование. Сторонники открытых данных утверждают, что эти ограничения противоречат общему благу и что эти данные должны быть доступны без ограничений или платы. Кроме того, важно, чтобы данные можно было повторно использовать без дополнительного разрешения, хотя типы повторного использования (например, создание производных работ) могут контролироваться лицензией.

Типичное описание потребности в открытых данных:

Многочисленные ученые указали на иронию, что именно в тот исторический момент, когда у нас есть технологии, позволяющие обеспечить доступность научных данных во всем мире и распределенный процесс научных данных, расширяя сотрудничество и ускоряя темпы и глубину открытий... мы заняты блокировкой этих данных и предотвращением использования соответствующих передовых технологий знаний.

— Джон Уилбэнкс, вице-президент по науке, Creative Commons

Создатели данных часто не задумываются необходимость указать условия владения, лицензирования и повторного использования; вместо этого предполагая, что непринятие авторских прав помещает данные в общественное достояние. Например, многие ученые не считают, что опубликованные данные, полученные в результате их работы, являются их собственностью, и рассматривают акт публикации в журнале как неявное раскрытие данных в общем сообществе. Однако отсутствие лицензии затрудняет определение статуса набора данных и может ограничивать использование данных, предлагаемых в духе «Открытости». Из-за этой неопределенности государственные или частные организации также могут агрегировать указанные данные, защищать их авторским правом и затем перепродавать.

Проблема местных знаний (IK) представляет собой серьезную проблему с точки зрения сбора, хранения и распространения. Многие общества в странах третьего мира испытывают недостаток в технических процессах управления IK.

В своей презентации на конференции XML 2005 Коннолли привел эти две цитаты относительно открытых данных:

  • «Я хочу вернуть свои данные». (Джон Босак, около 1997 г.)
  • «Я давно считал, что клиенты любого приложения владеют данными, которые они в него вводят». (Эта цитата относится к собственным данным Вина о частоте пульса.)

Основные источники

The State of Open Data, книга 2019 года из African Minds

Открытые данные могут поступать из любого источника. В этом разделе перечислены некоторые из полей, которые публикуют (или, по крайней мере, обсуждают публикацию) большого количества открытых данных.

В науке

Концепция открытого доступа к научным данным была институционально утверждена с формированием системы Мирового центра данных в рамках подготовки к Международный геофизический год 1957–1958 гг. Международный совет научных союзов (ныне Международный совет по науке ) курирует несколько мировых центров данных с мандатом минимизировать риск потери данных и максимизировать доступ к данным.

Пока открыт -движение научных данных задолго до Интернета, доступность быстрых и повсеместных сетей значительно изменила контекст открытых научных данных, поскольку публикация или получение данных стали намного дешевле и требуют много времени.

Проект «Геном человека» был крупной инициативой, которая продемонстрировала силу открытых данных. Он был основан на так называемых Бермудских принципах, в которых говорится, что: «Вся информация о геномных последовательностях человека... должна быть в свободном доступе и находиться в открытом доступе, чтобы способствовать исследованиям и разработкам и максимизировать их пользу. к обществу ». Более свежие инициативы, такие как Консорциум структурной геномики, продемонстрировали, что подход открытых данных также может быть продуктивно использован в контексте промышленных НИОКР.

В 2004 году министры науки всех стран Организация экономического сотрудничества и развития (ОЭСР), в которую входят наиболее развитые страны мира, подписала декларацию, в которой, по сути, говорится, что все архивные данные, финансируемые государством, должны быть общедоступными. После запроса и интенсивного В ходе обсуждения с организациями, производящими данные в государствах-членах, ОЭСР опубликовала в 2007 году Принципы и рекомендации ОЭСР по доступу к данным исследований за счет государственного финансирования в качестве рекомендации мягкого права.

Пример s открытых данных в науке:

  • The Dataverse Network Project - программное обеспечение архивного репозитория, способствующее обмену данными, постоянному цитированию данных и воспроизводимым исследованиям
  • data.uni-muenster. de - Открытые данные о научных артефактах из Университета Мюнстера, Германия. Запущен в 2011 году.
  • connectedscience.org/data - Открытые научные наборы данных, закодированные как Linked Data. Запущен в 2011 году.
  • systemanaturae.org - Открытые научные наборы данных о дикой природе, классифицированные по видам животных. Запущен в 2015 году.

В правительстве

Существует ряд различных аргументов в пользу открытых данных правительства. Например, некоторые защитники утверждают, что предоставление общественности информации о правительстве в виде машиночитаемых открытых данных может способствовать прозрачности, подотчетности и участию общественности. «Открытые данные могут стать мощным фактором общественной подотчетности - они могут упростить анализ, обработку и объединение существующей информации, чем когда-либо прежде, что позволяет выйти на новый уровень общественного контроля». Правительства, которые позволяют публично просматривать данные, могут помочь гражданам взаимодействовать с государственными секторами и «повысить ценность этих данных».

Некоторые утверждают, что раскрытие официальной информации может поддерживать технологические инновации и экономический рост, позволяя третьим сторонам разрабатывать новые виды цифровых приложений и услуг.

Правительства нескольких стран создали веб-сайты для распространения части собираемых данных. Это концепция совместного проекта в муниципальном правительстве по созданию и организации культуры открытых данных или открытых государственных данных.

Кроме того, органы государственного управления других уровней создали веб-сайты с открытыми данными. Открытые данные в Канаде занимаются многими государственными учреждениями. Data.gov перечисляет сайты в общей сложности 40 штатов США и 46 городов и округов США с веб-сайтами для предоставления открытых данных; например штат Мэриленд, штат Калифорния, США и Нью-Йорк.

На международном уровне у Организации Объединенных Наций есть веб-сайт с открытыми данными, на котором публикуются статистические данные от государств-членов и агентств ООН, а Всемирный банк опубликовал ряд статистических данных, касающихся развивающихся стран. Европейская комиссия создала два портала для Европейского Союза : Портал открытых данных ЕС, который предоставляет доступ к открытым данным из институтов, агентств и других органов ЕС. и портал PublicData, который предоставляет наборы данных от местных, региональных и национальных государственных органов по всей Европе.

В октябре 2015 года Партнерство открытого правительства запустило Международную хартию открытых данных, набор принципов и передовых методов публикации государственных открытых данных, официально принятых правительствами семнадцати стран, штатов и городов во время Глобального саммита OGP в Мексике.

в некоммерческих организациях

Многие некоммерческие организации предлагают более или менее открытый доступ к своим данным, если это не ущемляет права на конфиденциальность их пользователей, членов или третьих лиц. По сравнению с коммерческими корпорациями они не стремятся монетизировать свои данные. OpenNWT запустил веб-сайт, предлагающий открытые данные о выборах. CIAT предлагает открытые данные всем, кто желает проводить анализ больших данных, чтобы повысить эффективность международных сельскохозяйственных исследований. DBLP, который принадлежит некоммерческой организации Dagstuhl, предлагает свою базу данных научных публикаций по информатике в виде открытых данных. Некоммерческие службы обмена гостеприимством предлагают надежным группам ученых доступ к их анонимным данным для публикации идей на благо человечества. Прежде чем стать коммерческой корпорацией в 2011 году, Couchsurfing предлагал 4 исследовательским группам доступ к своим данным социальных сетей. В 2015 году некоммерческие службы обмена гостеприимством Bewelcome и Warm Showers предоставили свои данные для публичного исследования.

Аргументы за и против

Дебаты по открытым данным все еще развивается. Лучшие открытые правительственные приложения стремятся расширить возможности граждан, помочь малому бизнесу или создать ценность каким-либо другим позитивным, конструктивным образом. Открытие правительственных данных - это только путь на пути к совершенствованию образования, совершенствованию управления и созданию инструментов для решения других реальных мировых проблем. Хотя многие аргументы приводятся категорично, следующее обсуждение аргументов за и против открытых данных подчеркивает, что эти аргументы часто сильно зависят от типа данных и их потенциального использования.

Аргументы, сделанные от имени открытых данных, включают следующее:

  • «Данные принадлежат человеческой расе ». Типичными примерами являются геномы, данные об организмах, медицина, данные об окружающей среде в соответствии с Орхусской конвенцией
  • Государственные деньги были использованы для финансирования работы, и поэтому должны быть общедоступными.
  • Он был создан государственным учреждением или в государственном учреждении (это распространено в национальных лабораториях США и государственных учреждениях)
  • Факты не могут быть защищены законом об авторском праве.
  • Спонсоры исследования не имеют полной ценности, если результирующие данные не находятся в свободном доступе.
  • Ограничения на повторное использование данных создают антикоммоны.
  • Данные необходимы для беспрепятственного процесса выполнения общественной деятельности человека и являются важным фактором социально-экономического развития (здравоохранение, образование, экономическая производительность и т. д.).
  • В научных исследованиях скорость открытия ускоряется за счет лучшего доступа к данным.
  • Открытие данных помогает бороться с "гниением данных" и обеспечивает сохранение данных научных исследований с течением времени.
  • Стати открытые данные помогают повысить уровень грамотности. Преподаватели могут использовать соответствующие локальные наборы данных для обучения своих студентов статистическим концепциям.

Обычно считается, что фактические данные не могут быть защищены авторским правом. Однако издатели часто добавляют заявления об авторских правах (часто запрещающие повторное использование) к научным данным, сопровождающим публикации. Может быть неясно, являются ли фактические данные, включенные в полный текст, частью авторского права.

Хотя абстрагирование фактов человеком из бумажных публикаций обычно считается законным, часто подразумевается ограничение на извлечение информации роботами.

В отличие от открытого доступа, когда группы издателей высказывают свои опасения, открытые данные обычно оспариваются отдельными учреждениями. Их аргументы меньше обсуждаются в публичных дискуссиях, и в настоящее время меньше цитат, на которые можно положиться.

Аргументы против предоставления всех данных в качестве открытых данных включают следующее:

  • Государственное финансирование не может использоваться для дублирования или оспаривания деятельности частного сектора (например, PubChem ).
  • Правительства должны нести ответственность за эффективное использование денег налогоплательщика: если государственные средства используются для агрегирования данных и если данные принесут коммерческую (частную) выгоду лишь небольшому количеству пользователей, пользователи должны возместить правительствам расходы на предоставление данных
  • Открытые данные могут привести к использованию и быстрой публикации результатов, основанных на данных, относящихся к развивающимся странам, богатыми и хорошо оснащенными исследовательскими институтами без какого-либо дальнейшего участия и / или выгоды для местных сообществ (исследование с вертолета ); аналогично исторически сложившемуся открытому доступу к тропическим лесам, который привел к конфискации («глобальное разграбление») генетических ресурсов растений из развивающихся стран.
  • Доход, полученный от публикации данных может использоваться для покрытия затрат на создание и / или распространение данных, чтобы распространение могло продолжаться бесконечно.
  • Доход, полученный от публикации данных, позволяет некоммерческим организациям финансировать другие виды деятельности (например, публикация научного общества поддерживает общество).
  • Правительство дает определенным организациям право на возмещение затрат (NIST в США, Ordnance Survey в Великобритании).
  • Из соображений конфиденциальности может потребоваться, чтобы доступ к данным был ограничен конкретными пользователями или частями данных.
  • Сбор, «очистка», управление и распространение данных обычно требует затрат труда и / или затрат -интенсивные процессы - тот, кто предоставляет эти услуги, должен получать справедливое вознаграждение за предоставление этих услуг.
  • Спонсоры не получают полной ценности, если их данные не используются надлежащим образом - иногда это требует усилий по управлению качеством, распространению и брендингу, которые могут быть лучше всего достигается за счет взимания платы с пользователей.
  • Часто целевые конечные пользователи не могут использовать данные без дополнительной обработки (анализ, приложения и т. д.) - если у кого-то есть доступ к данным, ни у кого не может быть стимула инвестировать в обработка, необходимая для использования данных (типичные примеры включают биологические, медицинские и экологические данные).
  • Нет контроля за вторичным использованием (агрегацией) открытых данных.

Связь с другими открытыми видами деятельности

Цели движения за открытые данные аналогичны таковым из других "открытых" движений.

  • Открытый доступ занимается предоставлением научных публикаций в свободный доступ в Интернете. В некоторых случаях эти статьи также включают открытые наборы данных.
  • Открытое содержание связано с предоставлением свободного доступа к ресурсам, предназначенным для человеческой аудитории (например, проза, фотографии или видео).
  • Открытые знания. Open Knowledge International выступает за открытость по ряду вопросов, включая, помимо прочего, проблемы открытых данных. Он охватывает (а) научный, исторический, географический или иной (б) контент, такой как музыка, фильмы, книги (в) правительственная и другая административная информация. Открытые данные включены в область определения открытых знаний, которая упоминается в Science Commons 'Протокол для реализации данных открытого доступа.
  • Открытый блокнот относится к применению Открытого Концепция данных в максимально возможной степени научного процесса, включая неудавшиеся эксперименты и необработанные экспериментальные данные.
  • Программное обеспечение с открытым исходным кодом связано с лицензиями с открытым исходным кодом, в соответствии с которыми компьютерные программы могут быть распространяется и обычно не имеет отношения к данным.
  • Открытые образовательные ресурсы - это свободно доступные документы и носители с открытой лицензией, которые полезны для преподавания, обучения и оценки, а также для исследовательских целей.
  • Открытое исследование / открытая наука / данные открытой науки (связанная открытая наука) означает подход к открытию и объединению научных активов, таких как данные, методы и инструменты, с связанными данными методы, позволяющие проводить прозрачные, воспроизводимые и трансдисциплинарные исследования rch.

Обязанности спонсоров

Несколько финансовых органов, которые требуют открытого доступа, также требуют открытых данных. Канадский институт исследований в области здравоохранения (CIHR) (CIHR) дает хорошее выражение требований (местами усечено):

  • о немедленном внесении биоинформатических, атомных и молекулярных координатных данных, экспериментальных данных в соответствующую общедоступную базу данных после публикации результатов исследования.
  • сохранять исходные наборы данных в течение как минимум пяти лет после предоставления гранта. Это относится ко всем данным, независимо от того, опубликованы они или нет.

Другие органы, активно содействующие хранению данных, а также полный текст, включают Wellcome Trust. В академическом документе, опубликованном в 2013 году, высказывалось мнение, что Horizon 2020 (механизм финансирования науки ЕС) должен требовать, чтобы финансируемые проекты передавали свои базы данных в качестве «результатов» в конце проекта, чтобы они могли быть проверяется на пригодность для использования третьими сторонами, а затем передается.

Неоткрытые данные

Несколько механизмов ограничивают доступ к данным или их повторное использование (и несколько причин для этого приведены выше). К ним относятся:

  • предоставление данных за плату.
  • сбор данных в базах данных или на веб-сайтах, к которым могут иметь доступ только зарегистрированные члены или клиенты.
  • использование проприетарного или закрытая технология или шифрование, которые создают барьер для доступа.
  • авторское право запрещает (или скрывает) повторное использование данных, включая использование требований «нет производных ».
  • патент, запрещающий повторное использование данных (например, были запатентованы трехмерные координаты некоторых экспериментальных белковых структур).
  • ограничение доступа роботов к веб-сайтам, с предпочтением определенным поисковым системам.
  • агрегирование фактических данных в «базы данных», на которые могут распространяться «права на базы данных » или «» (например, Директива о правовой защите баз данных ).
  • ограниченный по времени доступ к ресурсы, такие как электронные журналы (которые в традиционной печати были доступны покупателю на неопределенный срок).
  • «веб-препятствия» или предоставление единичных данных по ints в отличие от табличных запросов или массовых загрузок наборов данных.
  • политического, коммерческого или юридического давления на деятельность организаций, предоставляющих открытые данные (например, Американское химическое общество лоббировало в Конгрессе США ограничение финансирования Национальных институтов здравоохранения для его данных Open PubChem.

См. также

Ссылки

Внешние ссылки

Последняя правка сделана 2021-06-01 12:48:12
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте