Классификация документов или документ категоризация является проблемой в библиотеке, информатике и информатика. Задача состоит в том, чтобы назначить документ одному или нескольким классам или категориям. Это может быть сделано «вручную» (или «интеллектуально») или алгоритмически. Интеллектуальная классификация документов в основном относится к области библиотековедения, а алгоритмическая классификация документов - в области информатики и информатики. Однако проблемы частично совпадают, и поэтому проводятся междисциплинарные исследования классификации документов.
Классифицируемыми документами могут быть тексты, изображения, музыка и т. Д. Каждый вид документов имеет свои особые проблемы классификации. Если не указано иное, подразумевается классификация текста.
Документы можно классифицировать по тематике или по другим атрибутам (например, тип документа, автор, год печати и т. Д.). В остальной части статьи рассматривается только предметная классификация. Существует две основных философии предметной классификации документов: подход, основанный на содержании и подход, основанный на запросах.
Классификация на основе содержимого - это классификация, в которой вес, присвоенный определенным темам в документе, определяет класс, к которому относится документ. Например, обычным правилом классификации в библиотеках является то, что по крайней мере 20% содержания книги должно относиться к тому классу, к которому книга отнесена. При автоматической классификации это может быть количество раз, когда данное слово встречается в документе.
Ориентированная на запрос классификация (или -индексирование) - это классификация, в которой ожидаемый запрос от пользователей влияет на то, как классифицируются документы. Классификатор спрашивает себя: «По каким дескрипторам следует искать эту сущность?» и «продумайте все возможные вопросы и решите, для каких из них актуальна данная сущность» (Soergel, 1985, стр. 230).
Классификация, ориентированная на запросы, может быть классификацией, нацеленной на конкретную аудиторию или группу пользователей. Например, библиотека или база данных для феминистских исследований может классифицировать / индексировать документы иначе, чем историческая библиотека. Однако, вероятно, лучше понимать классификацию, ориентированную на запросы, как классификацию, основанную на политике: классификация выполняется в соответствии с некоторыми идеалами и отражает цель библиотеки или базы данных, выполняющей классификацию. Таким образом, это не обязательно разновидность классификации или индексации, основанной на исследованиях пользователей. Только в случае применения эмпирических данных об использовании или пользователях классификацию, ориентированную на запросы, следует рассматривать как подход, основанный на пользователях.
Иногда проводится различие между присвоением документов классам («классификация») и присвоением предметов документам («предметное индексирование "), но, как утверждал Фредерик Уилфрид Ланкастер, это различие бесплодно. «Эти терминологические различия, - пишет он, - совершенно бессмысленны и только вызывают путаницу» (Lancaster, 2003, стр. 21). Мнение о том, что это различие чисто поверхностное, также подтверждается тем фактом, что система классификации может быть преобразован в тезаурус и наоборот (см. Aitchison, 1986, 2004; Broughton, 2008; Riesthuis Bliedung, 1991). Таким образом, действие маркировки документа (например, присвоение термина из контролируемый словарь для документа) одновременно с тем, чтобы отнести этот документ к классу документов, проиндексированных этим термином (все документы, проиндексированные или классифицированные как X, принадлежат к одному классу документов)., пометка документа - это то же самое, что отнесение его к классу документов, проиндексированных под этой меткой.
Задачи автоматической классификации документов можно разделить на три вида: контролируемая классификация документов, где какой-либо внешний механизм (например, Huma n обратная связь) предоставляет информацию о правильной классификации документов, неконтролируемой классификации документов (также известной как кластеризация документов ), где классификация должна выполняться полностью без ссылки на внешнюю информацию, и полууправляемая классификация документов, где части документов маркируются внешним механизмом. Доступно несколько программных продуктов с различными моделями лицензий.
Методы автоматической классификации документов включают:
Методы классификации были применены к