Lemur Project - результат сотрудничества Центра интеллектуального поиска информации при Университете Массачусетса в Амхерсте и Language Технологический институт в Университете Карнеги-Меллона. Проект Lemur разрабатывает поисковые системы, панели инструментов браузера, инструменты анализа текста и ресурсы данных, которые поддерживают исследования и разработку программного обеспечения для поиска информации и анализа текста. Этот проект наиболее известен своими поисковыми системами Indri и Galago, наборами данных ClueWeb09 и ClueWeb12, а также библиотекой обучения ранжированию RankLib. Программное обеспечение и наборы данных широко используются в научных и исследовательских приложениях, а также в некоторых коммерческих приложениях.
Философия разработки программного обеспечения Lemur Project делает упор на передовую точность, гибкость и эффективность. Например, поисковая машина Indri обеспечивает точный поиск больших текстовых коллекций «из коробки», а данные хранятся в доступном виде для поддержки разработки новых стратегий поиска. Программное обеспечение Lemur Project распространяется по лицензиям с открытым исходным кодом, которые обеспечивают гибкость для ученых и разработчиков программного обеспечения.
Языками программирования, используемыми для создания Lemur, являются C, C ++ и Java, и он поставляется вместе с исходными файлами и инструкциями по сборке. Предоставленный исходный код может быть изменен с целью разработки новых библиотек. Он совместим с различными операционными системами, включая Linux и Windows.
Lemur поддерживает следующие функции:
Проект Lemur содержит следующие компоненты:
Обновления компонентов проекта Lemur производится дважды в год, в июне и декабре. Последняя версия поисковой системы Indri - 5.17. Последняя версия поисковой системы Galago - это версия 3.18. Последняя версия библиотеки ранжирования RankLib - 2.14. Последняя версия приложения интеллектуального анализа данных Sifaka - 1.8.
Поисковая машина Indri является одним из компонентов, разработанных Lemur Project. Это открытый исходный код. Язык запросов, используемый в Indri, позволяет исследователям индексировать данные или структурировать документы с помощью простых инструкций командной строки. Indri предлагает гибкость с точки зрения адаптации к различным текущим приложениям. Он также может быть распределен по кластеру узлов для обеспечения высокой производительности. Поисковая система Indri может обрабатывать большие коллекции данных и понимать различные форматы данных, такие как HTML и XML.
. Indri API поддерживает различные языки программирования и сценариев, такие как C ++, Java, C# и PHP.
.