Heritrix

редактировать
Heritrix
Heritrix logo.png
Снимок экрана консоли администратора Heritrix. Снимок экрана консоли администратора Heritrix.
Стабильный выпуск 3.4.0 / 3 августа 2020 г. (2020-08-03)
Репозиторий Измените это на Wikidata
Написано наJava
Операционная система Linux / Unix-подобная / Windows (не поддерживается)
Тип Веб-сканер
Лицензия Лицензия Apache
Веб-сайтgithub.com / internetarchive / heritrix3 / wiki

Heritrix - это веб-сканер, разработанный для веб-архивирования. Его написал Интернет-архив. Он доступен по лицензии бесплатного программного обеспечения и написан на Java. Основной интерфейс доступен с помощью веб-браузера, и есть инструмент командной строки, который можно дополнительно использовать для инициирования сканирования.

Heritrix был разработан совместно Интернет-архивом и северными национальными библиотеками на основе спецификаций, написанных в начале 2003 года. Первый официальный релиз был в январе 2004 года, и он постоянно улучшался сотрудниками Интернет-архива и другими заинтересованными сторонами. стороны.

Heritrix не был основным поисковым роботом, который использовался для сканирования содержания веб-коллекции Интернет-архива в течение многих лет. Наибольший вклад в сборник по состоянию на 2011 г. внес Alexa Internet. Alexa сканирует Интернет в своих целях, используя поискового робота ia_archiver. Затем Алекса передает материалы в Интернет-архив. Интернет-архив сам выполнял свое собственное сканирование с помощью Heritrix, но только в меньшем масштабе.

Начиная с 2008 года, Интернет-архив начал улучшать производительность для своего собственного широкомасштабного сканирования, и теперь действительно собирает большую часть его содержимое.

Содержание

  • 1 Проекты с использованием Heritrix
  • 2 Файлы Arc
    • 2.1 Инструменты для обработки файлов Arc
  • 3 Инструменты командной строки
  • 4 См. также
  • 5 Ссылки
  • 6 Внешние ссылки

Проекты, использующие Heritrix

Ряд организаций и национальных библиотек используют Heritrix, среди них:

Файлы Arc

Старые версии Heritrix по умолчанию сохраняют сканируемые веб-ресурсы в файле Arc. Этот формат файла полностью не связан с ARC (формат файла). Этот формат используется Интернет-архивом с 1996 года для хранения своих веб-архивов. В последнее время он сохраняет по умолчанию в формате файла WARC , который похож на ARC, но более точно определен и более гибкий. Heritrix также может быть настроен для хранения файлов в формате каталогов, аналогичном поисковому роботу Wget, который использует URL-адрес для имени каталога и имени файла каждого ресурса.

Файл Arc хранит несколько заархивированных ресурсов в одном файле, чтобы избежать управления большим количеством небольших файлов. Файл состоит из последовательности URL-записей, каждая из которых имеет заголовок, содержащий метаданные о том, как был запрошен ресурс, за которым следует HTTP-заголовок и ответ. Размер файлов Arc составляет от 100 до 600 МБ.

Пример:

filedesc: //IA-2006062.arc 0.0.0.0 20060622190110 text / plain 76 1 1 InternetArchive URL IP-адрес Дата архивации Тип содержимого Длина архива http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text / html 187 HTTP / 1.1 200 OK Дата: Чт, 22 июня 2006 г. 19:01:15 GMT Сервер: Apache Последнее изменение: Сб, 10 июня 2006 г. 22:33:11 GMT Content-Length: 30 Content-Type: text / html Hello World !!!

Инструменты для обработки файлов Arc

Heritrix включает инструмент командной строки под названием arcreader, который можно использовать для извлечения содержимого файла Arc. Следующая команда отображает все URL-адреса и метаданные, хранящиеся в данном файле Arc (в формате CDX ):

arcreader IA-2006062.arc

Следующая команда извлекает привет.html из приведенного выше примера при условии, что запись начинается со смещения 140:

arcreader -o 140 -f dump IA-2006062.arc

Другие инструменты:

Инструменты командной строки

Heritrix поставляется с несколькими инструментами командной строки:

  • htmlextractor - отображает ссылки, которые Heritrix извлекает для заданного URL-адреса
  • hoppath.pl - воссоздает путь перехода (путь ссылок) к указанному URL из завершенного сканирования
  • manifest_bundle.pl - объединяет все ресурсы, на которые ссылается файл манифеста сканирования, в несжатый или сжатый tar-шар
  • cmdline-jmxclient - включает управление Heritrix
  • arcreader из командной строки - извлекает содержимое файлов ARC (см. Выше)

Дополнительные инструменты доступны как часть проекта warctools Internet Archive.

См. Также

  • Портал бесплатного программного обеспечения с открытым исходным кодом

Ссылки

На данный момент В статье используется контент из «Re: Control over the Internet Archive», помимо «Disallow /»? », который лицензирован таким образом, чтобы разрешить повторное использование в соответствии с непортированной лицензией Creative Commons Attribution-ShareAlike 3.0, но не в соответствии с GFDL. Все соответствующие условия должны быть соблюдены.

  1. ^ Крис (6 сентября 2011 г.). "Re: Контроль над Интернет-архивом, кроме" Disallow / "?". Обмен стеками профессиональных веб-мастеров. Stack Exchange, Inc. Получено 7 января 2013 г.
  2. ^«Wayback Machine: теперь с 240 000 000 000 URL-адресов - Интернет-архивные блоги». blog.archive.org. Проверено 11 сентября 2017 г.
  3. ^«О программе - веб-архивирование (Библиотека Конгресса)». www.loc.gov. Проверено 29.10.2017.
  4. ^"Technische aspecten bij webarchivering - Koninklijke Bibliotheek". www.kb.nl. Проверено 11 сентября 2017 г.
  5. ^"warctools". 25 августа 2017 г. Получено 11 сентября 2017 г. - через GitHub.

Внешние ссылки

Инструменты из Интернет-архива:

Ссылки на связанные инструменты:

Последняя правка сделана 2021-05-23 10:04:31
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте