Поиск предприятия

редактировать

Поиск предприятия - это практика создания контента из нескольких источников корпоративного типа, таких как базы данных и интрасети, доступные для поиска определенной аудитории.

«Корпоративный поиск» используется для описания программного обеспечения поисковой информации внутри предприятия (хотя функция поиска и ее результаты могут быть общедоступными). Корпоративный поиск можно сравнить с веб-поиском, который применяет технологию поиска к документам в открытой сети, и настольным поиском. arch, который применяет технологию поиска к контенту на одном компьютере.

Поисковые системы предприятия индексируют данные и документы из различных источников, таких как: файловые системы, интрасети, системы управления документами, электронная почта и базы данных. Многие поисковые системы предприятия объединяют структурированные и неструктурированные данные в свои коллекции. Поисковые системы предприятия также используют средства управления доступом для обеспечения соблюдения политики безопасности для своих пользователей.

Поиск предприятия можно рассматривать как разновидность вертикального поиска предприятия.

Содержание

1 Компоненты поисковой системы предприятия
- 1.1 Осведомленность о содержании
- 1.2 Обработка и анализ содержания
- 1.3 Индексирование
- 1.4 Обработка запросов
- 1.5 Соответствие
2 Отличия от веб-поиск
3 Факторы релевантности
4 Контроль доступа: раннее связывание против позднего связывания
- 4.1 Позднее связывание
- 4.2 Раннее связывание
5 Параметры проверки релевантности поиска
6 См. также
7 Ссылки

Компоненты поисковой системы предприятия

В поисковой системе предприятия контент проходит различные фазы от исходного репозитория до результатов поиска:

Осведомленность о содержании

Осведомленность о содержании (или «коллекция контента») обычно является моделью выталкивания или вытягивания. В модели push исходная система интегрирована с поисковой системой таким образом, что она подключается к ней и подталкивает новый контент непосредственно к ее API. Эта модель используется, когда важна индексация в реальном времени. В модели извлечения программное обеспечение собирает контент из источников с помощью соединителя, такого как веб-сканер или соединитель базы данных. Соединитель обычно опрашивает источник с определенными интервалами для поиска нового, обновленного или удаленного контента.

Обработка и анализ контента

Контент из разных источников может иметь много разных форматов или типов документов, например XML, HTML, форматы документов Office или простой текст. На этапе обработки содержимого входящие документы преобразуются в обычный текст с помощью фильтров документов. Также часто бывает необходимо нормализовать контент различными способами, чтобы улучшить отзыв или точность. Они могут включать выделение корней, лемматизацию, расширение синонима, извлечение сущности, тегирование части речи.

Как часть обработки и анализа, токенизация применяется для разделения контента на токены, которые являются базовой единицей сопоставления. Также принято нормализовать токены к нижнему регистру, чтобы обеспечить поиск без учета регистра, а также нормализовать акценты для лучшего отзыва.

Индексирование

Полученный текст сохраняется в индексе, который оптимизирован для быстрого поиска без сохранения полного текста документа. Индекс может содержать словарь всех уникальных слов в корпусе, а также информацию о ранжировании и частоте терминов.

Обработка запросов

Используя веб-страницу, пользователь выдает запрос в систему. Запрос состоит из любых вводимых пользователем терминов, а также из действий навигации, таких как фасет и информация о разбиении на страницы.

Соответствие

Обработанный запрос затем сравнивается с сохраненным индексом, и поисковая система возвращает результаты (или «совпадения»), ссылающиеся на исходные документы, которые совпадают. Некоторые системы могут представить документ в том виде, в котором он был проиндексирован.

Отличия от веб-поиска

Помимо различий в типах индексируемых материалов, поисковые системы предприятия также обычно включают функции, не связанные с основными поисковыми системами в Интернете. К ним относятся:

адаптеры для индексирования контента из различных репозиториев, таких как базы данных и системы управления контентом.
Федеративный поиск, который состоит из

преобразования запроса и транслировать его в группу разрозненных баз данных или внешних источников контента с соответствующим синтаксисом,
объединяя результаты, собранные из баз данных,
представляя их в кратком и унифицированном формате с минимальным дублированием, и
предоставление средств, выполняемых либо автоматически, либо пользователем портала, для сортировки объединенного набора результатов.

Корпоративные закладки, совместные системы тегов для сбора знаний о структурированных и полуструктурированные данные предприятия.
Извлечение сущностей, которое стремится найти и классифицировать элементы в тексте по предопределенным категориям, таким как имена людей, организаций, местоположений, выражения времени, количества, денежных значений, процентов и т. д..
Фасетный поиск, метод доступа к набор информации, представленный с использованием фасетной классификации, позволяющей пользователям исследовать, фильтруя доступную информацию.
Управление доступом, обычно в форме списка управления доступом ( ACL) часто требуется для ограничения доступа к документам на основе идентификаторов отдельных пользователей. Существует много типов механизмов управления доступом для различных источников контента, что делает эту задачу сложной для комплексного решения в поисковой среде предприятия (см. Ниже).
Текстовая кластеризация, которая группирует несколько сотен первых результатов поиска по темам, которые вычисляются «на лету» из описаний результатов поиска, обычно заголовков, отрывков (сниппетов) и метаданных. Этот метод позволяет пользователям перемещаться по контенту по теме, а не по метаданным, используемым при фасетировании. Кластеризация компенсирует проблему несовместимости метаданных в нескольких корпоративных репозиториях, что снижает полезность фасетирования.
Пользовательские интерфейсы, которые в веб-поиске намеренно упрощены, чтобы не отвлекать пользователя от нажатия на объявления, который приносит доход. Хотя бизнес-модель поисковой системы предприятия может включать показ рекламы, на практике этого не делается. Чтобы повысить продуктивность конечных пользователей, поставщики предприятий постоянно экспериментируют с расширенными функциональными возможностями пользовательского интерфейса, которые занимают значительное пространство на экране, что было бы проблематично для веб-поиска.

Факторы релевантности

Факторы, определяющие релевантность результаты поиска в контексте предприятия частично совпадают с теми, которые применяются к веб-поиску, но отличаются от них. Как правило, поисковые системы предприятия не могут воспользоваться преимуществами богатой структуры ссылок , которая присутствует в гипертексте в Интернете, однако новое поколение поисковых систем предприятия, основанное на восходящей Web 2.0 обеспечивает как дополнительный подход, так и гиперссылки внутри предприятия. Такие алгоритмы, как PageRank, используют структуру гиперссылок для присвоения полномочий документам, а затем используют этот авторитет в качестве фактора релевантности, не зависящего от запроса. Напротив, предприятиям обычно приходится использовать другие независимые от запроса факторы, такие как новизна или популярность документа, наряду с зависимыми от запроса факторами, традиционно связанными с алгоритмами поиска информации. Кроме того, широкие функциональные возможности пользовательских интерфейсов поисковой системы предприятия, такие как кластеризация и фасетирование, уменьшают зависимость от ранжирования как средства направления внимания пользователя.

Контроль доступа: раннее связывание и позднее связывание

Безопасность и ограниченный доступ к документам - важный аспект поисковой системы предприятия. Существует два основных подхода к применению ограниченного доступа: раннее связывание и позднее связывание.

Позднее связывание

Разрешения анализируются и назначаются документам на этапе запроса. Механизм запросов создает набор документов, и перед возвратом его пользователю этот набор фильтруется на основе прав доступа пользователя. Это дорогостоящий процесс, но точный (зависит от прав пользователя на момент запроса).

Раннее связывание

Права доступа анализируются и назначаются документам на этапе индексации. Это гораздо более эффективно, чем позднее связывание, но может быть неточным (пользователю могут быть предоставлены или отозваны разрешения в период между индексированием и запросом).

Параметры тестирования релевантности поиска

Релевантность приложения поиска можно определить с помощью следующих параметров проверки релевантности, таких как

Фокус-группы
Протокол оценки ссылок (на основе оценок релевантности результатов согласованные запросы, выполняемые в отношении общих корпусов документов)
Эмпирическое тестирование
A / B-тестирование
Анализ журнала на рабочем сайте Beta
Онлайн-рейтинги