Apache Nutch

редактировать

Apache Nutch

Снимок экрана

Поиск в веб-интерфейсе Nutch

Автор (ы)

Дуг Каттинг, Майк Кафарелла

Разработчик (и)

Apache Software Foundation

Стабильный выпуск

1.x	1.17 / 2 июля 2020 г.; 3 месяца назад (2020-07-02)
2.x	2.4 / 2 октября 2019 г.; 12 месяцев назад (2019-10-02)

Написано на

Веб-сайт

Apache Nutch - это высоко расширяемый и масштабируемый открытый исходный код поисковый робот программный проект.

Содержание

1 Возможности
2 История
- 2.1 История выпусков
3 Масштабируемость
4 Связанные проекты
5 Поисковые системы, созданные с помощью Nutch
6 См. Также
7 Ссылки
8 Библиография
9 Внешние ссылки

Возможности

Nutch полностью написан на языке программирования Java, но данные записываются в независимых от языка форматах. Он имеет модульную архитектуру, позволяющую разработчикам создавать плагины для анализа типов мультимедиа, извлечения данных, запросов и кластеризации.

Сборщик («робот» или «веб-сканер ») был написан с нуля специально для этого проекта.

История

Nutch возник у Дуга Каттинга, создателя Lucene и Hadoop, и Майка Кафареллы.

В июне 2003 года была разработана успешная демонстрационная система объемом 100 миллионов страниц. Чтобы удовлетворить потребности в обработке данных на нескольких машинах для задач сканирования и индексирования, в проекте Nutch также реализовано средство MapReduce и распределенная файловая система. Эти два объекта были выделены в отдельный подпроект под названием Hadoop.

. В январе 2005 года Nutch присоединилась к Apache Incubator, из которого в июне 2005 года он стал подпроектом Lucene. в том же году. С апреля 2010 года Nutch считается независимым проектом верхнего уровня Apache Software Foundation.

. В феврале 2014 года проект Common Crawl принял Nutch для открытого крупномасштабного веб-сканирования..

Хотя когда-то целью проекта Nutch было выпустить глобальную крупномасштабную поисковую систему в Интернете, теперь это не так.

История выпусков

1.x Branch	2.x Branch	Дата выпуска	Описание
1.1		06.06.2010	Этот выпуск включает несколько основных обновлений существующие библиотеки (Hadoop, Solr, Tika и др.), от которых зависит Nutch. Также были включены различные исправления ошибок и ускорения (например, для Fetcher2).
1.2		24.10.2010	Этот выпуск включает несколько улучшений (добавление parse-html в качестве выбираемого анализатора снова, настраиваемая индексация для каждого поля), новые функции (включая добавление информации о времени в все классы инструментов и реализация тайм-аутов парсера) и исправления ошибок (исправление NPE в распределенном поиске, исправление проблем с форматированием XML для полей документа).
1.3		07.06.2011	В этот выпуск включены несколько улучшений (улучшенная поддержка синтаксического анализа RSS, более тесная интеграция с Apache Tika, поддержка внешнего синтаксического анализа, улучшенная идентификация языка и на порядок меньший размер исходного кода. tarball - всего около 2 МБ).
1.4		26.11.2011	Этот выпуск включает в себя несколько улучшений, в том числе разрешение парсерам объявлять поддержку нескольких типов MIME, настраиваемую глубину очереди сборщика, улучшения скорости сборщика, более тесную интеграцию с Tika и поддержку HTTP-аутентификация в индексировании Solr.
1.5		07.06.2012	Этот выпуск включает в себя несколько улучшений, включая обновления нескольких основных компонентов, включая Tika 1.1 и Hadoop 1.0.0, улучшения в элементах LinkRank и WebGraph, а также ряд новые плагины, охватывающие черный список, фильтрацию и анализ, и это лишь некоторые из них.
	2.0	07.07.2012	Этот выпуск предлагает пользователям выпуск, ориентированный на крупномасштабное сканирование, которое основано на абстракции хранилища (через Apache Gora) для хранилищ больших данных, таких как Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase, HDFS, хранилище данных в памяти и различные популярные хранилища SQL.
1.5.1		10.07.2012	Этот выпуск является отладочным выпуском популярной основной версии Nutch 1.5.X, которая получила широкое распространение в сообществе.
	2.1	05.10.2012	Этот выпуск продолжает предоставлять пользователям Nutch упрощенный дистрибутив Nutch, основанный на драйвере разработки 2.x, популярность которого в сообществе растет. Помимо исправления ~ 20 ошибок, этот выпуск также предлагает улучшенные свойства для лучшей конфигурации Solr, обновления до различных зависимостей Gora и возможность создания индексов в эластичном поиске.
1.6		06.12.2012	Этот выпуск включает более 20 исправлений ошибок, такие же улучшения, а также новые функции, включая новый HostNormalizer, возможность динамически устанавливать fetchInterval с помощью MIME- Типовые и функциональные улучшения API индексатора, включая нормализацию URL-адресов и удаление документов noIndex для роботов. Другие заметные улучшения включают обновление ключевых зависимостей до Tika 1.2 и Automaton 1.11-8.
	2.2	08.06.2013	Этот выпуск включает более 30 исправлений ошибок и более 25 улучшений, представляющих третий выпуск все более популярной серии 2.x Nutch. В этот выпуск включен Crawler-Commons, который Nutch теперь использует для улучшенного анализа robots.txt, обновления библиотек до Apache Hadoop 1.1.1, Apache Gora 0.3, Apache Tika 1.2 и Automaton 1.11-8.
1.7		24.06.2013	Этот выпуск включает более 20 исправлений ошибок, а также множество улучшений; наиболее заметно с новой подключаемой архитектурой индексирования, которая в настоящее время поддерживает Apache Solr и Elastic Search. В отличие от недавнего выпуска Nutch 2.2, анализ файла Robots.txt теперь делегирован Crawler-Commons. Ключевые обновления библиотеки были сделаны до Apache Hadoop 1.2.0 и Apache Tika 1.3.
	2.2.1	02.07.2013	В этот выпуск включены обновления библиотеки до Apache Hadoop 1.2.0 и Apache Tika 1.3, в основном это исправление ошибки для NUTCH-1591 - Неправильное преобразование ByteBuffer в String.
1.8		17.03.2014	Хотя этот выпуск включает обновления библиотеки до Crawler Commons 0.3 и Apache Tika 1.5, он также содержит более 30 исправлений ошибок и 18 улучшений.
	2.3	2015-01-22	Релиз Nutch 2.3 теперь поставляется в комплекте с автономным веб-приложением на основе Apache Wicket. Бэкэнд SQL для Gora устарел.
1.10		2015-05-06	Этот выпуск включает обновления библиотеки до Tika 1.6, а также содержит более 46 исправлений ошибок, а также 37 улучшений и 12 новых
1.11		07.12.2015	Этот выпуск включает обновления библиотеки до Hadoop 2.X, Tika 1.11, также содержит более 32 исправлений ошибок, а также 35 улучшений и 14 новых функций.
	2.3.1	21.01.2016	Этот выпуск с исправлением ошибок содержит около 40 исправленных проблем.
1,12		18.06.2016
1,13		02.04.2017
1,14		23.12.2017
1,15		09.08.2018
1.16		2019-10-11
	2.4	2019-10-11	Ожидается, что это будет последний выпуск в серии 2.X.
1.17		2020-07-02

Масштабируемость

IBM Research изучила производительность Nutch / Lucene в рамках своего проекта коммерческого масштабирования (CSO). Их выводы заключались в том, что горизонтально масштабируемая система, такая как Nutch / Lucene, могла достичь уровня производительности на кластере блейд-серверов, который был недостижим на любом масштабируемом компьютере, таком как POWER5.

Набор данных ClueWeb09 (используемый, например, в TREC ) был собран с помощью Nutch со средней скоростью 755,31 документа в секунду.

Связанные проекты

Hadoop - инфраструктура Java, поддерживающая распределенные приложения, работающие в больших кластерах.

Поисковые системы, построенные с помощью Nutch

Common Crawl - общедоступное сканирование в Интернете, начатое с использованием Nutch в 2014 году.
Creative Commons Поиск - реализация Nutch, использовавшаяся в период 2004–2006 гг.
– Открытые образовательные ресурсы прототип поиска, разработанный Creative Commons
Krugle использует Nutch для сканирования веб-страниц в поисках кода, архивы и технически интересный контент.
mozDex (неактивный)
Wikia Search - запущен в 2008 г., закрыт в 2009 г.

См. также

Порт свободного программного обеспечения с открытым исходным кодом al

Ссылки

Библиография

Внешние ссылки

Официальный сайт