Web ARChive

редактировать
Web ARChive
Расширение имени файла . warc
Тип интернет-носителя application / warc
Расширенный отARC
Стандарт ISO 28500: 2017
Открытый формат ?Да
Веб-сайтiipc.github.io / warc-спецификаций / спецификаций / warc-format / warc-1.1/

Web ARChive (WARC) формат архива определяет метод объединения нескольких цифровых ресурсов в совокупный архивный файл вместе со связанной информацией. Формат WARC - это версия формата файлов ARC Internet Archive, который традиционно использовался для хранения «веб-обходов » в виде последовательностей блоков контента, собранных из мира. Широкая паутина. Формат WARC обобщает старый формат, чтобы лучше поддерживать потребности архивных организаций в сборе, доступе и обмене. Помимо записанного в настоящее время основного содержимого, ревизия включает связанный вторичный контент, такой как назначенные метаданные, сокращенные события обнаружения дубликатов и более поздние преобразования. Формат WARC основан на потоках HTTP / 1.0 с аналогичным заголовком и использованием CRLF в качестве разделителей, что делает его очень удобным для реализации поискового робота.

WARC теперь признан большинством систем национальных библиотек в качестве стандарта для веб-архивирования.

Программное обеспечение
Ссылки
Внешние ссылки
Последняя правка сделана 2021-06-20 10:27:56
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте