. | |||||
Снимок экрана Поиск в веб-интерфейсе Nutch | |||||
Автор (ы) | Дуг Каттинг, Майк Кафарелла | ||||
---|---|---|---|---|---|
Разработчик (и) | Apache Software Foundation | ||||
Стабильный выпуск |
| ||||
Репозиторий | Nutch Repository | ||||
Написано на | Java | ||||
Операционная система | Кросс-платформенная | ||||
Тип | Веб-сканер | ||||
Лицензия | Лицензия Apache 2.0 | ||||
Веб-сайт | nutch.apache.org |
Apache Nutch - это высоко расширяемый и масштабируемый открытый исходный код поисковый робот программный проект.
Nutch полностью написан на языке программирования Java, но данные записываются в независимых от языка форматах. Он имеет модульную архитектуру, позволяющую разработчикам создавать плагины для анализа типов мультимедиа, извлечения данных, запросов и кластеризации.
Сборщик («робот» или «веб-сканер ») был написан с нуля специально для этого проекта.
Nutch возник у Дуга Каттинга, создателя Lucene и Hadoop, и Майка Кафареллы.
В июне 2003 года была разработана успешная демонстрационная система объемом 100 миллионов страниц. Чтобы удовлетворить потребности в обработке данных на нескольких машинах для задач сканирования и индексирования, в проекте Nutch также реализовано средство MapReduce и распределенная файловая система. Эти два объекта были выделены в отдельный подпроект под названием Hadoop.
. В январе 2005 года Nutch присоединилась к Apache Incubator, из которого в июне 2005 года он стал подпроектом Lucene. в том же году. С апреля 2010 года Nutch считается независимым проектом верхнего уровня Apache Software Foundation.
. В феврале 2014 года проект Common Crawl принял Nutch для открытого крупномасштабного веб-сканирования..
Хотя когда-то целью проекта Nutch было выпустить глобальную крупномасштабную поисковую систему в Интернете, теперь это не так.
1.x Branch | 2.x Branch | Дата выпуска | Описание |
---|---|---|---|
1.1 | 06.06.2010 | Этот выпуск включает несколько основных обновлений существующие библиотеки (Hadoop, Solr, Tika и др.), от которых зависит Nutch. Также были включены различные исправления ошибок и ускорения (например, для Fetcher2). | |
1.2 | 24.10.2010 | Этот выпуск включает несколько улучшений (добавление parse-html в качестве выбираемого анализатора снова, настраиваемая индексация для каждого поля), новые функции (включая добавление информации о времени в все классы инструментов и реализация тайм-аутов парсера) и исправления ошибок (исправление NPE в распределенном поиске, исправление проблем с форматированием XML для полей документа). | |
1.3 | 07.06.2011 | В этот выпуск включены несколько улучшений (улучшенная поддержка синтаксического анализа RSS, более тесная интеграция с Apache Tika, поддержка внешнего синтаксического анализа, улучшенная идентификация языка и на порядок меньший размер исходного кода. tarball - всего около 2 МБ). | |
1.4 | 26.11.2011 | Этот выпуск включает в себя несколько улучшений, в том числе разрешение парсерам объявлять поддержку нескольких типов MIME, настраиваемую глубину очереди сборщика, улучшения скорости сборщика, более тесную интеграцию с Tika и поддержку HTTP-аутентификация в индексировании Solr. | |
1.5 | 07.06.2012 | Этот выпуск включает в себя несколько улучшений, включая обновления нескольких основных компонентов, включая Tika 1.1 и Hadoop 1.0.0, улучшения в элементах LinkRank и WebGraph, а также ряд новые плагины, охватывающие черный список, фильтрацию и анализ, и это лишь некоторые из них. | |
2.0 | 07.07.2012 | Этот выпуск предлагает пользователям выпуск, ориентированный на крупномасштабное сканирование, которое основано на абстракции хранилища (через Apache Gora) для хранилищ больших данных, таких как Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase, HDFS, хранилище данных в памяти и различные популярные хранилища SQL. | |
1.5.1 | 10.07.2012 | Этот выпуск является отладочным выпуском популярной основной версии Nutch 1.5.X, которая получила широкое распространение в сообществе. | |
2.1 | 05.10.2012 | Этот выпуск продолжает предоставлять пользователям Nutch упрощенный дистрибутив Nutch, основанный на драйвере разработки 2.x, популярность которого в сообществе растет. Помимо исправления ~ 20 ошибок, этот выпуск также предлагает улучшенные свойства для лучшей конфигурации Solr, обновления до различных зависимостей Gora и возможность создания индексов в эластичном поиске. | |
1.6 | 06.12.2012 | Этот выпуск включает более 20 исправлений ошибок, такие же улучшения, а также новые функции, включая новый HostNormalizer, возможность динамически устанавливать fetchInterval с помощью MIME- Типовые и функциональные улучшения API индексатора, включая нормализацию URL-адресов и удаление документов noIndex для роботов. Другие заметные улучшения включают обновление ключевых зависимостей до Tika 1.2 и Automaton 1.11-8. | |
2.2 | 08.06.2013 | Этот выпуск включает более 30 исправлений ошибок и более 25 улучшений, представляющих третий выпуск все более популярной серии 2.x Nutch. В этот выпуск включен Crawler-Commons, который Nutch теперь использует для улучшенного анализа robots.txt, обновления библиотек до Apache Hadoop 1.1.1, Apache Gora 0.3, Apache Tika 1.2 и Automaton 1.11-8. | |
1.7 | 24.06.2013 | Этот выпуск включает более 20 исправлений ошибок, а также множество улучшений; наиболее заметно с новой подключаемой архитектурой индексирования, которая в настоящее время поддерживает Apache Solr и Elastic Search. В отличие от недавнего выпуска Nutch 2.2, анализ файла Robots.txt теперь делегирован Crawler-Commons. Ключевые обновления библиотеки были сделаны до Apache Hadoop 1.2.0 и Apache Tika 1.3. | |
2.2.1 | 02.07.2013 | В этот выпуск включены обновления библиотеки до Apache Hadoop 1.2.0 и Apache Tika 1.3, в основном это исправление ошибки для NUTCH-1591 - Неправильное преобразование ByteBuffer в String. | |
1.8 | 17.03.2014 | Хотя этот выпуск включает обновления библиотеки до Crawler Commons 0.3 и Apache Tika 1.5, он также содержит более 30 исправлений ошибок и 18 улучшений. | |
2.3 | 2015-01-22 | Релиз Nutch 2.3 теперь поставляется в комплекте с автономным веб-приложением на основе Apache Wicket. Бэкэнд SQL для Gora устарел. | |
1.10 | 2015-05-06 | Этот выпуск включает обновления библиотеки до Tika 1.6, а также содержит более 46 исправлений ошибок, а также 37 улучшений и 12 новых | |
1.11 | 07.12.2015 | Этот выпуск включает обновления библиотеки до Hadoop 2.X, Tika 1.11, также содержит более 32 исправлений ошибок, а также 35 улучшений и 14 новых функций. | |
2.3.1 | 21.01.2016 | Этот выпуск с исправлением ошибок содержит около 40 исправленных проблем. | |
1,12 | 18.06.2016 | ||
1,13 | 02.04.2017 | ||
1,14 | 23.12.2017 | ||
1,15 | 09.08.2018 | ||
1.16 | 2019-10-11 | ||
2.4 | 2019-10-11 | Ожидается, что это будет последний выпуск в серии 2.X. | |
1.17 | 2020-07-02 |
IBM Research изучила производительность Nutch / Lucene в рамках своего проекта коммерческого масштабирования (CSO). Их выводы заключались в том, что горизонтально масштабируемая система, такая как Nutch / Lucene, могла достичь уровня производительности на кластере блейд-серверов, который был недостижим на любом масштабируемом компьютере, таком как POWER5.
Набор данных ClueWeb09 (используемый, например, в TREC ) был собран с помощью Nutch со средней скоростью 755,31 документа в секунду.