Веб-архивирование

редактировать
Процесс сохранения данных, осуществляемый путем сбора и сохранения веб-контента

Веб-архивирование - это процесс сбора частей World Wide Web для обеспечения сохранения информации в архив для будущих исследователей, историков и общественности. Веб-архивисты обычно используют поисковые роботы для автоматического захвата из-за огромного размера и количества информации в сети. Самая крупная организация веб-архивирования, основанная на подходе массового сканирования, - это Wayback Machine, которая стремится поддерживать архив всей сети.

Растущая часть человеческой культуры, созданная и записанная в Интернете, неизбежно приводит к тому, что все больше и больше библиотек и архивов будут вынуждены сталкиваться с проблемами веб-архивирования. Национальные библиотеки, национальные архивы и различные консорциумы организаций также участвуют в архивировании важного в культурном отношении веб-контента.

Коммерческое программное обеспечение и услуги веб-архивирования также доступны организациям, которым необходимо архивировать свой собственный веб-контент для корпоративного наследия, нормативных или юридических целей.

Содержание

  • 1 История и развитие
  • 2 Сбор данных в Интернете
  • 3 Методы сбора
    • 3.1 Удаленный сбор данных
    • 3.2 Архивирование базы данных
    • 3.3 Транзакционное архивирование
  • 4 Трудности и ограничения
    • 4.1 Сканеры
    • 4.2 Общие ограничения
  • 5 Законы
  • 6 См. Также
  • 7 Ссылки
    • 7.1 Цитаты
    • 7.2 Общая библиография
  • 8 Внешние ссылки

История и развитие

Хотя курирование и организация Интернета преобладали с середины до конца 1990-х годов, одним из первых крупномасштабных проектов веб-архивирования был Интернет-архив, некоммерческая организация. организация, созданная Брюстером Кале в 1996 году. Интернет-архив выпустил свою собственную поисковую систему для просмотра заархивированного веб-контента, Wayback Machine, в 2001 году. По состоянию на 2018 год Интернет-архив был домом до 40 петабайт данных. Интернет-архив также разработал множество собственных инструментов для сбора и хранения данных, в том числе Petabox для эффективного и безопасного хранения больших объемов данных и Hertrix, веб-сканер, разработанный совместно с национальными библиотеками Скандинавии. Другие проекты, запущенные примерно в то же время, включали австралийский Pandora и веб-архивы Тасмании и шведскую Kulturarw3.

С 2001 по 2010 год Международный семинар по веб-архивированию (IWAW) предоставлял платформу для обмена опытом и обменяться идеями. Международный консорциум сохранения в Интернете (IIPC), основанный в 2003 году, способствовал международному сотрудничеству в разработке стандартов и инструментов с открытым исходным кодом для создания веб-архивов.

Ныне несуществующий Internet Memory Foundation была основана в 2004 году и основана Европейской Комиссией с целью архивирования Интернета в Европе. В рамках этого проекта было разработано и выпущено множество инструментов с открытым исходным кодом, таких как «захват мультимедийных данных, анализ временной когерентности, оценка спама и обнаружение эволюции терминологии». Данные фонда сейчас хранятся в Интернет-архиве, но в настоящее время не являются общедоступными.

Несмотря на отсутствие централизованной ответственности за их сохранение, веб-контент быстро становится официальным документом. Например, в 2017 году Министерство юстиции США подтвердило, что правительство рассматривает твиты президента как официальные заявления.

Сбор данных в Интернете

Архивисты веб-архивов обычно архивируют различные типы веб-контента, включая HTML веб-страниц, таблиц стилей, JavaScript, изображений и видео. Они также архивируют метаданные о собранных ресурсах, такие как время доступа, тип MIME и длина содержимого. Эти метаданные полезны для установления аутентичности и происхождения архивной коллекции.

Методы сбора

Удаленный сбор данных

Наиболее распространенный метод веб-архивирования использует веб-сканеры для автоматизации процесса сбора веб-страниц. Поисковые роботы обычно обращаются к веб-страницам таким же образом, как пользователи с браузером видят сеть, и поэтому предоставляют сравнительно простой метод удаленного сбора веб-контента. Примеры веб-сканеров, используемых для веб-архивирования, включают:

Существуют различные бесплатные службы, которые можно использовать для архивирования веб-ресурсов "по запросу" с использованием методов веб-сканирования. Эти услуги включают Wayback Machine и WebCite.

Архивирование баз данных

Архивирование баз данных относится к методам архивирования основного содержимого веб-сайтов, управляемых базами данных. Обычно требуется извлечение содержимого базы данных в стандартную схему, часто с использованием XML. После сохранения в этом стандартном формате заархивированное содержимое нескольких баз данных можно сделать доступным с помощью единой системы доступа. Примером такого подхода являются инструменты DeepArc и Xinq, разработанные Национальной библиотекой Франции и Национальной библиотекой Австралии соответственно. DeepArc позволяет отображать структуру реляционной базы данных в схему XML и экспортировать содержимое в XML-документ. Затем Xinq позволяет доставлять этот контент онлайн. Хотя исходный макет и поведение веб-сайта не могут быть точно сохранены, Xinq позволяет воспроизвести базовые функции запросов и извлечения.

Архивирование транзакций

Архивирование транзакций - это управляемый событиями подход, который собирает фактические транзакции, которые происходят между веб-сервером и веб-браузером. Он в основном используется как средство сохранения доказательств содержания, которое фактически просматривалось на определенном веб-сайте в заданную дату. Это может быть особенно важно для организаций, которым необходимо соблюдать законодательные или нормативные требования в отношении раскрытия и хранения информации.

Система архивирования транзакций обычно работает, перехватывая каждый HTTP запрос и ответ от веб-сервера, фильтруя каждый ответ для исключения дублированного контента и постоянно сохраняя ответы в виде битовых потоков.

Трудности и ограничения

Сканеры

Веб-архивы, которые полагаются на сканирование в качестве основного средства сбора данных в Интернете, подвержены влиянию трудностей, связанных с сканированием веб-страниц:

  • протокол исключения роботов может требовать от сканеров запретить доступ к частям веб-сайта. Некоторые веб-архивисты могут игнорировать запрос и сканировать эти части в любом случае.
  • Большие части веб-сайта могут быть скрыты в Deep Web. Например, страница результатов за веб-формой может находиться в глубокой сети, если сканеры не могут перейти по ссылке на страницу результатов.
  • Ловушки поискового робота (например, календари) могут привести к тому, что поисковый робот загрузит бесконечное количество страниц, поэтому поисковые роботы обычно настроены на ограничение количества просматриваемых динамических страниц.
  • Большинство инструментов архивирования не захватывают страницу как есть. Замечено, что рекламные баннеры и изображения часто упускаются из виду при архивировании.

Однако важно отметить, что веб-архив в собственном формате, т. Е. Полностью просматриваемый веб-архив с рабочими ссылками, мультимедиа и т. Д., Является всего лишь действительно возможно с использованием гусеничной технологии.

Сеть настолько велика, что сканирование значительной ее части требует большого количества технических ресурсов. Сеть меняется так быстро, что части веб-сайта могут измениться еще до того, как поисковый робот завершит сканирование.

Общие ограничения

Некоторые веб-серверы сконфигурированы так, чтобы возвращать разные страницы на запросы веб-архиватора, чем в ответ на обычные запросы браузера. Обычно это делается для того, чтобы обмануть поисковые системы, заставляя их направлять больше пользовательского трафика на веб-сайт, и часто делается, чтобы избежать ответственности или предоставить расширенный контент только тем браузерам, которые могут его отображать.

Веб-архивисты должны не только решать технические проблемы веб-архивирования, они также должны бороться с законами об интеллектуальной собственности. Питер Лайман заявляет, что «хотя Интернет обычно считается ресурсом общественного достояния, он защищен авторским правом ; таким образом, архивисты не имеют законного права копировать Интернет». Однако национальные библиотеки в некоторых странах имеют законное право копировать части Интернета под расширением обязательного экземпляра.

Некоторые частные некоммерческие веб-архивы, которые становятся общедоступными, например WebCite, Internet Archive или Internet Memory Foundation позволяют владельцам содержимого скрывать или удалять заархивированное содержимое, к которому они не хотят, чтобы публика имела доступ. Другие веб-архивы доступны только из определенных мест или имеют регулируемое использование. WebCite ссылается на недавний иск против кэширования Google, который Google выиграл.

законы

В 2017 году Financial Industry Regulatory Authority, Inc. (FINRA), финансовая регулирующая организация США, выпустила уведомление, в котором говорится, что все компании, занимающиеся цифровой связью, обязаны вести учет. Сюда входят данные веб-сайтов, сообщения в социальных сетях и сообщения. Некоторые законы об авторском праве могут препятствовать архивированию через Интернет. Например, академическое архивирование с помощью Sci-Hub выходит за рамки современного закона об авторском праве. Сайт обеспечивает постоянный доступ к академическим работам, включая те, которые не имеют лицензии открытого доступа, и тем самым способствует архивированию научных исследований, которые в противном случае могут быть потеряны.

См. Также

Ссылки

Цитаты

Общие библиография

Внешние ссылки

Последняя правка сделана 2021-06-20 10:28:57
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте