Австралийский веб-архив

редактировать

Австралийский веб-архив (AWA ) - это общедоступная онлайн-база данных архивных австралийских веб-сайтов, размещенная Национальной библиотекой Австралии (NLA) на ее платформе Trove, базе данных онлайн-библиотеки. агрегатор. Он включает собственный архив PANDORA NLA, веб-архив правительства Австралии (AGWA) и домен Национальной библиотеки Австралии ".au" . коллекции. Доступ осуществляется через единый интерфейс в Trove, который является общедоступным. Австралийский веб-архив был создан в марте 2019 года и является одним из крупнейших веб-архивов в мире. Его цель - предоставить ресурс для историков и исследователей сейчас и в будущем.

Содержание
  • 1 История трех компонентов
    • 1.1 AGWA
    • 1.2 Объединение
  • 2 Описание AWA
  • 3 веб-сайты Азиатско-Тихоокеанского региона
  • 4 См. Также
  • 5 Ссылки
  • 6 Внешние ссылки
История трех компонентов

Служба PANDORA начала архивирование веб-сайтов в октябре 1996 года.

В 2005 году NLA начало архивировать ежегодные снимки всего австралийского веб-домена (URL-адреса с суффиксом. ".Au"), собранные с помощью больших сборов сканирования.. Позже самые ранние веб-сайты из веб-домена.au, относящиеся к 1996 году, были получены из Интернет-архива. В 2019 году этот контент впервые стал общедоступным через Trove.

Инфраструктура PANDORA, которая хорошо работает для выборочного мелкомасштабного архивирования, не адаптируется к крупномасштабному «массовому сбору» веб-контента, поэтому новый технический Необходимо было разработать систему веб-архивирования, которая интегрировала бы доставку заархивированных веб-сайтов в живой интерфейс веб-сайта, беспрепятственно доставляя заархивированные веб-сайты пользователю, что технически сложно достичь.

AGWA

Австралия Правительственные веб-сайты являются записями Содружества и, следовательно, являются публикациями, которые должны управляться в соответствии с Законом об архивах 1983 года.

Веб-архив правительства Австралии (AGWA) состоит из массового архивирования правительства Содружества сайты. NLA начало регулярный сбор данных с веб-сайтов в июне 2011 года после того, как значительное препятствие было преодолено с помощью административного соглашения, заключенного в мае 2010 года, позволяющего NLA собирать, сохранять и делать доступными правительственные веб-сайты без необходимости запрашивать предварительное разрешение для каждого веб-сайта или документа., как и раньше. Служба использует веб-сканер Heritrix для сбора, файлы WARC для хранения и Open Wayback для доставки службы. Правительство публикует огромное количество материалов, но необходимо преодолеть множество трудностей, пытаясь сохранить контент, например, его внезапное исчезновение. В марте 2014 года AGWA стал общедоступным.

AGWA соответствует требованиям к сохранению и хранению материалов для веб-сайтов, «хранимых в качестве национальных архивов» (RNA) в соответствии с Законом об архивах; однако видео и файлы документов (например, PDF или документы Word ) не всегда захватываются, поэтому ими нужно управлять отдельно.

По состоянию на На начало 2015 года AGWA включает контент, с 2005 года насчитывалось около 144 миллионов файлов, занимающих 15 терабайт. Он включал только веб-сайты правительства Содружества, которые были собраны путем массового сбора почти 1000 URL-адресов семян. График сбора урожая еще не установлен, но в настоящее время сбор урожая проводится примерно три раза в год.

Объединение

В 2017 году архивы AGWA и PANDORA были объединены с другой сетью архивные коллекции, чтобы сформировать коллекцию веб-архивов Trove. После доработки и создания веб-архива Австралии, правительственные веб-сайты, заархивированные через AGWA и теперь включенные в AWA, по-прежнему можно искать отдельно с помощью опции «Расширенный поиск».

Описание AWA

Интернет-архив описывается NLA как «набор моментальных снимков веб-сайтов, снятых, пока они доступны в сети, а затем сохраняются в статической копии». Коллекция, заархивированная в AWA, «имеет отношение к культурной, социальной, политической, исследовательской и коммерческой жизни и деятельности Австралии и австралийцев». Он собирает веб-материалы как с помощью запланированного архивирования выбранных веб-сайтов и публикаций, так и с помощью некоторого специального сбора, связанного со значительными событиями.

По состоянию на март 2019 года, когда он начался, AWA уже содержал 600 терабайт данных, 9 миллиардов записей. Он содержит больше функций, чем Wayback Machine, размещенный в Интернет-архиве, что позволяет полнотекстовый поиск с использованием встроенной поисковой системы -дом. Разработчики также разработали методы фильтрации нежелательного «шума». Данные остаются на серверах библиотеки, хотя в будущем планируется переход в облако по мере роста контента. Удобство использования широким кругом пользователей и, в частности, функция поиска были главными приоритетами во время разработки.

Архив является полностью доступным для поиска на основе комбинации методов, используемых разработчиками. Каждая команда создала уникальный и сложный алгоритм поиска, адаптировав версию алгоритма ранжирования страниц Google (основанную на частоте кликов на странице), модифицированную таким образом, чтобы приводить к лучшим, высоким -качественные ресурсы. Другие технологии включают байесовский фильтр (фактически фильтр спама ), классификатор Not Safe For Work из Yahoo и машинное обучение.

Существует опция «Ограничить веб-домен gov.au» перед поиском, и правительственные веб-сайты, заархивированные через AGWA, по-прежнему можно искать отдельно с помощью опции «Расширенный поиск». Другие параметры расширенного поиска - это ограничение по временному интервалу для моментальных снимков, домену и типу файла.

Поскольку многие из более ранних веб-сайтов 1990-х годов теперь потеряны, в основном из-за частой смены веб-платформ, австралийский Интернет Архив - это важная инициатива, которая поможет сохранить текущие и будущие веб-страницы, особенно австралийский контент. Материалы будут по-прежнему добавляться в Архив, а другие онлайн-материалы, собранные в соответствии с Законом о национальной библиотеке 1960 г., положениями об обязательном экземпляре Закона об авторском праве 1968 и политика выбора цифровых коллекций.

веб-сайты Азиатско-Тихоокеанского региона

Веб-сайты в Азиатско-Тихоокеанском регионе не включены в AWA, но NLA сотрудничает с Интернет-архивом для сбора и сохранения «избранных веб-сайтов Азиатско-Тихоокеанского региона, связанных с конкретными событиями или социально-политическими группами».

См. также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-06-12 18:35:13
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте