Классификация документов

редактировать

Классификация документов или документ категоризация является проблемой в библиотеке, информатике и информатика. Задача состоит в том, чтобы назначить документ одному или нескольким классам или категориям. Это может быть сделано «вручную» (или «интеллектуально») или алгоритмически. Интеллектуальная классификация документов в основном относится к области библиотековедения, а алгоритмическая классификация документов - в области информатики и информатики. Однако проблемы частично совпадают, и поэтому проводятся междисциплинарные исследования классификации документов.

Классифицируемыми документами могут быть тексты, изображения, музыка и т. Д. Каждый вид документов имеет свои особые проблемы классификации. Если не указано иное, подразумевается классификация текста.

Документы можно классифицировать по тематике или по другим атрибутам (например, тип документа, автор, год печати и т. Д.). В остальной части статьи рассматривается только предметная классификация. Существует две основных философии предметной классификации документов: подход, основанный на содержании и подход, основанный на запросах.

Содержание
  • 1 Классификация «на основе содержимого» и «на основе запроса»
  • 2 Классификация и индексирование
  • 3 Автоматическая классификация документов (ADC)
    • 3.1 Методы
  • 4 Приложения
  • 5 См. Также
  • 6 Дополнительная литература
  • 7 Ссылки
  • 8 Внешние ссылки
Классификация «на основе содержимого» и «на основе запроса»

Классификация на основе содержимого - это классификация, в которой вес, присвоенный определенным темам в документе, определяет класс, к которому относится документ. Например, обычным правилом классификации в библиотеках является то, что по крайней мере 20% содержания книги должно относиться к тому классу, к которому книга отнесена. При автоматической классификации это может быть количество раз, когда данное слово встречается в документе.

Ориентированная на запрос классификация (или -индексирование) - это классификация, в которой ожидаемый запрос от пользователей влияет на то, как классифицируются документы. Классификатор спрашивает себя: «По каким дескрипторам следует искать эту сущность?» и «продумайте все возможные вопросы и решите, для каких из них актуальна данная сущность» (Soergel, 1985, стр. 230).

Классификация, ориентированная на запросы, может быть классификацией, нацеленной на конкретную аудиторию или группу пользователей. Например, библиотека или база данных для феминистских исследований может классифицировать / индексировать документы иначе, чем историческая библиотека. Однако, вероятно, лучше понимать классификацию, ориентированную на запросы, как классификацию, основанную на политике: классификация выполняется в соответствии с некоторыми идеалами и отражает цель библиотеки или базы данных, выполняющей классификацию. Таким образом, это не обязательно разновидность классификации или индексации, основанной на исследованиях пользователей. Только в случае применения эмпирических данных об использовании или пользователях классификацию, ориентированную на запросы, следует рассматривать как подход, основанный на пользователях.

Классификация и индексирование

Иногда проводится различие между присвоением документов классам («классификация») и присвоением предметов документам («предметное индексирование "), но, как утверждал Фредерик Уилфрид Ланкастер, это различие бесплодно. «Эти терминологические различия, - пишет он, - совершенно бессмысленны и только вызывают путаницу» (Lancaster, 2003, стр. 21). Мнение о том, что это различие чисто поверхностное, также подтверждается тем фактом, что система классификации может быть преобразован в тезаурус и наоборот (см. Aitchison, 1986, 2004; Broughton, 2008; Riesthuis Bliedung, 1991). Таким образом, действие маркировки документа (например, присвоение термина из контролируемый словарь для документа) одновременно с тем, чтобы отнести этот документ к классу документов, проиндексированных этим термином (все документы, проиндексированные или классифицированные как X, принадлежат к одному классу документов)., пометка документа - это то же самое, что отнесение его к классу документов, проиндексированных под этой меткой.

Автоматическая классификация документов (ADC)

Задачи автоматической классификации документов можно разделить на три вида: контролируемая классификация документов, где какой-либо внешний механизм (например, Huma n обратная связь) предоставляет информацию о правильной классификации документов, неконтролируемой классификации документов (также известной как кластеризация документов ), где классификация должна выполняться полностью без ссылки на внешнюю информацию, и полууправляемая классификация документов, где части документов маркируются внешним механизмом. Доступно несколько программных продуктов с различными моделями лицензий.

Методы

Методы автоматической классификации документов включают:

Приложения

Методы классификации были применены к

  • фильтрации спама, процессу, который пытается распознать спам в электронной почте сообщения из законных писем
  • электронная почта маршрутизация, отправка электронного письма, отправленного на общий адрес на конкретный адрес или почтовый ящик, в зависимости от темы
  • идентификация языка, автоматическое определение локальной сети вид текста
  • жанровая классификация, автоматическое определение жанра текста
  • оценка читабельности, автоматическое определение степени читабельности текста, либо для поиска подходящих материалов для разных возрастных групп, либо для читателя типов или как часть более крупной системы упрощения текста
  • анализ тональности, определение отношения говорящего или писателя к какой-либо теме или общей контекстной полярности документа.
  • классификация, связанная со здоровьем, с использованием социальных сетей в надзоре за общественным здоровьем
  • сортировка статей, выбор статей, имеющих отношение к ручному подбору литературы, например, как это делается в качестве первого шага для создания вручную отобранных баз данных аннотаций в биологии.
См. также
Дополнительная литература
Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-17 10:54:44
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте