Поиск предприятия - это практика создания контента из нескольких источников корпоративного типа, таких как базы данных и интрасети, доступные для поиска определенной аудитории.
«Корпоративный поиск» используется для описания программного обеспечения поисковой информации внутри предприятия (хотя функция поиска и ее результаты могут быть общедоступными). Корпоративный поиск можно сравнить с веб-поиском, который применяет технологию поиска к документам в открытой сети, и настольным поиском. arch, который применяет технологию поиска к контенту на одном компьютере.
Поисковые системы предприятия индексируют данные и документы из различных источников, таких как: файловые системы, интрасети, системы управления документами, электронная почта и базы данных. Многие поисковые системы предприятия объединяют структурированные и неструктурированные данные в свои коллекции. Поисковые системы предприятия также используют средства управления доступом для обеспечения соблюдения политики безопасности для своих пользователей.
Поиск предприятия можно рассматривать как разновидность вертикального поиска предприятия.
В поисковой системе предприятия контент проходит различные фазы от исходного репозитория до результатов поиска:
Осведомленность о содержании (или «коллекция контента») обычно является моделью выталкивания или вытягивания. В модели push исходная система интегрирована с поисковой системой таким образом, что она подключается к ней и подталкивает новый контент непосредственно к ее API. Эта модель используется, когда важна индексация в реальном времени. В модели извлечения программное обеспечение собирает контент из источников с помощью соединителя, такого как веб-сканер или соединитель базы данных. Соединитель обычно опрашивает источник с определенными интервалами для поиска нового, обновленного или удаленного контента.
Контент из разных источников может иметь много разных форматов или типов документов, например XML, HTML, форматы документов Office или простой текст. На этапе обработки содержимого входящие документы преобразуются в обычный текст с помощью фильтров документов. Также часто бывает необходимо нормализовать контент различными способами, чтобы улучшить отзыв или точность. Они могут включать выделение корней, лемматизацию, расширение синонима, извлечение сущности, тегирование части речи.
Как часть обработки и анализа, токенизация применяется для разделения контента на токены, которые являются базовой единицей сопоставления. Также принято нормализовать токены к нижнему регистру, чтобы обеспечить поиск без учета регистра, а также нормализовать акценты для лучшего отзыва.
Полученный текст сохраняется в индексе, который оптимизирован для быстрого поиска без сохранения полного текста документа. Индекс может содержать словарь всех уникальных слов в корпусе, а также информацию о ранжировании и частоте терминов.
Используя веб-страницу, пользователь выдает запрос в систему. Запрос состоит из любых вводимых пользователем терминов, а также из действий навигации, таких как фасет и информация о разбиении на страницы.
Обработанный запрос затем сравнивается с сохраненным индексом, и поисковая система возвращает результаты (или «совпадения»), ссылающиеся на исходные документы, которые совпадают. Некоторые системы могут представить документ в том виде, в котором он был проиндексирован.
Помимо различий в типах индексируемых материалов, поисковые системы предприятия также обычно включают функции, не связанные с основными поисковыми системами в Интернете. К ним относятся:
Факторы, определяющие релевантность результаты поиска в контексте предприятия частично совпадают с теми, которые применяются к веб-поиску, но отличаются от них. Как правило, поисковые системы предприятия не могут воспользоваться преимуществами богатой структуры ссылок , которая присутствует в гипертексте в Интернете, однако новое поколение поисковых систем предприятия, основанное на восходящей Web 2.0 обеспечивает как дополнительный подход, так и гиперссылки внутри предприятия. Такие алгоритмы, как PageRank, используют структуру гиперссылок для присвоения полномочий документам, а затем используют этот авторитет в качестве фактора релевантности, не зависящего от запроса. Напротив, предприятиям обычно приходится использовать другие независимые от запроса факторы, такие как новизна или популярность документа, наряду с зависимыми от запроса факторами, традиционно связанными с алгоритмами поиска информации. Кроме того, широкие функциональные возможности пользовательских интерфейсов поисковой системы предприятия, такие как кластеризация и фасетирование, уменьшают зависимость от ранжирования как средства направления внимания пользователя.
Безопасность и ограниченный доступ к документам - важный аспект поисковой системы предприятия. Существует два основных подхода к применению ограниченного доступа: раннее связывание и позднее связывание.
Разрешения анализируются и назначаются документам на этапе запроса. Механизм запросов создает набор документов, и перед возвратом его пользователю этот набор фильтруется на основе прав доступа пользователя. Это дорогостоящий процесс, но точный (зависит от прав пользователя на момент запроса).
Права доступа анализируются и назначаются документам на этапе индексации. Это гораздо более эффективно, чем позднее связывание, но может быть неточным (пользователю могут быть предоставлены или отозваны разрешения в период между индексированием и запросом).
Релевантность приложения поиска можно определить с помощью следующих параметров проверки релевантности, таких как