Таксономия для поисковых систем относится к методам классификации, которые повышают релевантность в вертикальном поиске. Таксономии сущностей - это древовидные структуры, узлы которых помечены сущностями, которые могут встретиться в поисковом запросе. При поиске эти деревья используются для сопоставления ключевых слов из поискового запроса ключевым словам из ответов (или фрагментов).
Таксономии, тезаурусы и иерархии понятий являются ключевыми компонентами для многих приложений поиска информации, обработки естественного языка и управление знаниями. Построение, настройка и управление таксономиями и онтологиями обходятся дорого, так как требуется много ручных операций. В ряде исследований предлагалось автоматическое построение таксономий на основе лингвистических ресурсов и / или статистического машинного обучения. Ряд инструментов , использующих стандарт SKOS (в том числе Unilexicon, PoolParty и редактор Lexaurus, и многие другие), также доступны для оптимизации работы с таксономиями.
Веб-майнинг - один из подходов к построению таксономии поисковых систем. Процесс построения таксономии начинается с исходных сущностей и добывает доступные исходные домены для новых сущностей, связанных с этими исходными сущностями. Процесс формирует новые сущности, применяя машинное обучение к текущим результатам веб-поиска для существующих сущностей, чтобы определить общие черты между ними. Эти выражения общности затем формируют параметры существующих сущностей и превращаются в новые сущности на следующей итерации обучения.