Снимок экрана консоли администратора Heritrix. | |
Стабильный выпуск | 3.4.0 / 3 августа 2020 г. (2020-08-03) |
---|---|
Репозиторий | |
Написано на | Java |
Операционная система | Linux / Unix-подобная / Windows (не поддерживается) |
Тип | Веб-сканер |
Лицензия | Лицензия Apache |
Веб-сайт | github.com / internetarchive / heritrix3 / wiki |
Heritrix - это веб-сканер, разработанный для веб-архивирования. Его написал Интернет-архив. Он доступен по лицензии бесплатного программного обеспечения и написан на Java. Основной интерфейс доступен с помощью веб-браузера, и есть инструмент командной строки, который можно дополнительно использовать для инициирования сканирования.
Heritrix был разработан совместно Интернет-архивом и северными национальными библиотеками на основе спецификаций, написанных в начале 2003 года. Первый официальный релиз был в январе 2004 года, и он постоянно улучшался сотрудниками Интернет-архива и другими заинтересованными сторонами. стороны.
Heritrix не был основным поисковым роботом, который использовался для сканирования содержания веб-коллекции Интернет-архива в течение многих лет. Наибольший вклад в сборник по состоянию на 2011 г. внес Alexa Internet. Alexa сканирует Интернет в своих целях, используя поискового робота ia_archiver. Затем Алекса передает материалы в Интернет-архив. Интернет-архив сам выполнял свое собственное сканирование с помощью Heritrix, но только в меньшем масштабе.
Начиная с 2008 года, Интернет-архив начал улучшать производительность для своего собственного широкомасштабного сканирования, и теперь действительно собирает большую часть его содержимое.
Ряд организаций и национальных библиотек используют Heritrix, среди них:
Старые версии Heritrix по умолчанию сохраняют сканируемые веб-ресурсы в файле Arc. Этот формат файла полностью не связан с ARC (формат файла). Этот формат используется Интернет-архивом с 1996 года для хранения своих веб-архивов. В последнее время он сохраняет по умолчанию в формате файла WARC , который похож на ARC, но более точно определен и более гибкий. Heritrix также может быть настроен для хранения файлов в формате каталогов, аналогичном поисковому роботу Wget, который использует URL-адрес для имени каталога и имени файла каждого ресурса.
Файл Arc хранит несколько заархивированных ресурсов в одном файле, чтобы избежать управления большим количеством небольших файлов. Файл состоит из последовательности URL-записей, каждая из которых имеет заголовок, содержащий метаданные о том, как был запрошен ресурс, за которым следует HTTP-заголовок и ответ. Размер файлов Arc составляет от 100 до 600 МБ.
Пример:
filedesc: //IA-2006062.arc 0.0.0.0 20060622190110 text / plain 76 1 1 InternetArchive URL IP-адрес Дата архивации Тип содержимого Длина архива http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text / html 187 HTTP / 1.1 200 OK Дата: Чт, 22 июня 2006 г. 19:01:15 GMT Сервер: Apache Последнее изменение: Сб, 10 июня 2006 г. 22:33:11 GMT Content-Length: 30 Content-Type: text / html Hello World !!!
Heritrix включает инструмент командной строки под названием arcreader, который можно использовать для извлечения содержимого файла Arc. Следующая команда отображает все URL-адреса и метаданные, хранящиеся в данном файле Arc (в формате CDX ):
arcreader IA-2006062.arc
Следующая команда извлекает привет.html из приведенного выше примера при условии, что запись начинается со смещения 140:
arcreader -o 140 -f dump IA-2006062.arc
Другие инструменты:
Heritrix поставляется с несколькими инструментами командной строки:
Дополнительные инструменты доступны как часть проекта warctools Internet Archive.
На данный момент В статье используется контент из «Re: Control over the Internet Archive», помимо «Disallow /»? », который лицензирован таким образом, чтобы разрешить повторное использование в соответствии с непортированной лицензией Creative Commons Attribution-ShareAlike 3.0, но не в соответствии с GFDL. Все соответствующие условия должны быть соблюдены.
Инструменты из Интернет-архива:
Ссылки на связанные инструменты: