Lemur Project

редактировать

Lemur Project - результат сотрудничества Центра интеллектуального поиска информации при Университете Массачусетса в Амхерсте и Language Технологический институт в Университете Карнеги-Меллона. Проект Lemur разрабатывает поисковые системы, панели инструментов браузера, инструменты анализа текста и ресурсы данных, которые поддерживают исследования и разработку программного обеспечения для поиска информации и анализа текста. Этот проект наиболее известен своими поисковыми системами Indri и Galago, наборами данных ClueWeb09 и ClueWeb12, а также библиотекой обучения ранжированию RankLib. Программное обеспечение и наборы данных широко используются в научных и исследовательских приложениях, а также в некоторых коммерческих приложениях.

Философия разработки программного обеспечения Lemur Project делает упор на передовую точность, гибкость и эффективность. Например, поисковая машина Indri обеспечивает точный поиск больших текстовых коллекций «из коробки», а данные хранятся в доступном виде для поддержки разработки новых стратегий поиска. Программное обеспечение Lemur Project распространяется по лицензиям с открытым исходным кодом, которые обеспечивают гибкость для ученых и разработчиков программного обеспечения.

Языками программирования, используемыми для создания Lemur, являются C, C ++ и Java, и он поставляется вместе с исходными файлами и инструкциями по сборке. Предоставленный исходный код может быть изменен с целью разработки новых библиотек. Он совместим с различными операционными системами, включая Linux и Windows.

Содержание
  • 1 Возможности
  • 2 Компоненты
  • 3 Последняя версия
  • 4 Поисковая система Indri
    • 4.1 Возможности поисковой системы Indri
  • 5 См. Также
  • 6 Внешние ссылки
Возможности

Lemur поддерживает следующие функции:

Компоненты

Проект Lemur содержит следующие компоненты:

  • поисковая система Indri на C ++
  • Исследовательская структура поисковой системы Galago на Java
  • Обучение работе с RankLib -rank library
  • Приложение интеллектуального анализа данных Sifaka
  • Наборы данных ClueWeb09 и ClueWeb12
  • Панель инструментов журнала запросов
Последняя версия

Обновления компонентов проекта Lemur производится дважды в год, в июне и декабре. Последняя версия поисковой системы Indri - 5.17. Последняя версия поисковой системы Galago - это версия 3.18. Последняя версия библиотеки ранжирования RankLib - 2.14. Последняя версия приложения интеллектуального анализа данных Sifaka - 1.8.

Поисковая машина Indri

Поисковая машина Indri является одним из компонентов, разработанных Lemur Project. Это открытый исходный код. Язык запросов, используемый в Indri, позволяет исследователям индексировать данные или структурировать документы с помощью простых инструкций командной строки. Indri предлагает гибкость с точки зрения адаптации к различным текущим приложениям. Он также может быть распределен по кластеру узлов для обеспечения высокой производительности. Поисковая система Indri может обрабатывать большие коллекции данных и понимать различные форматы данных, такие как HTML и XML.

. Indri API поддерживает различные языки программирования и сценариев, такие как C ++, Java, C# и PHP.

Возможности поисковой системы Indri

  • Может использовать несколько представлений документов
  • Явное взвешивание терминов
  • Надежный язык запросов
  • Формально обоснованный
  • Высокоэффективный
  • Может быть эффективно реализован
См. также
Внешние ссылки

.

Последняя правка сделана 2021-05-26 06:04:53
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте