Кластеризация документов

редактировать

Кластеризация документов (или кластеризация текста ) - это приложение кластерного анализа к текстовым документам. Он имеет приложения для автоматической организации документов, извлечения темы и быстрого извлечения информации или фильтрации.

Содержание

1 Обзор
2 Кластеризация в поисковых системах
3 Процедуры
4 Кластеризация v. Классификация
5 См. Также
6 Ссылки
7 Библиография

Обзор

Кластеризация документов включает использование дескрипторов и извлечение дескрипторов. Дескрипторы - это наборы слов, которые описывают содержимое внутри кластера. Кластеризация документов обычно считается централизованным процессом. Примеры кластеризации документов включают кластеризацию веб-документов для пользователей поиска.

Применение кластеризации документов можно разделить на два типа: онлайн и офлайн. Онлайн-приложения обычно ограничены проблемами эффективности по сравнению с офлайн-приложениями. Кластеризация текста может использоваться для различных задач, таких как группировка похожих документов (новости, твиты и т. Д.) И анализ отзывов клиентов / сотрудников, обнаружение значимых неявных тем во всех документах.

В общем, есть два общих алгоритма. Первый - это иерархический алгоритм, который включает одиночную ссылку, полную связь, среднее значение по группе и метод Уорда. Путем агрегирования или разделения документы могут быть сгруппированы в иерархическую структуру, удобную для просмотра. Однако такой алгоритм обычно страдает проблемами эффективности. Другой алгоритм разработан с использованием алгоритма K-средних и его вариантов. Как правило, иерархические алгоритмы предоставляют более подробную информацию для подробного анализа, тогда как алгоритмы, основанные на вариантах алгоритма K-средних, более эффективны и предоставляют достаточную информацию для большинства целей.

Эти алгоритмы могут далее классифицируются как алгоритмы жесткой или мягкой кластеризации. Жесткая кластеризация вычисляет жесткое назначение - каждый документ является членом ровно одного кластера. Назначение алгоритмов мягкой кластеризации является мягким - назначение документа - это распределение по всем кластерам. При мягком назначении документ имеет дробное членство в нескольких кластерах. Методы уменьшения размерности можно рассматривать как подтип мягкой кластеризации; для документов к ним относятся скрытое семантическое индексирование (декомпозиция усеченного единственного числа на гистограммах терминов) и тематические модели.

Другие алгоритмы включают кластеризацию на основе графов, онтологию поддерживает кластеризацию и кластеризацию с учетом порядка.

Учитывая кластеризацию, может быть полезно автоматически получать понятные человеку метки для кластеров. Для этого существуют различные методы.

Кластеризация в поисковых системах

A поисковая система в Интернете часто возвращает тысячи страниц в ответ на широкий запрос, что затрудняет просмотр пользователями или поиск соответствующей информации. Методы кластеризации можно использовать для автоматической группировки полученных документов в список значимых категорий.

Процедуры

На практике кластеризация документов часто включает следующие шаги:

1. Токенизация

Токенизация - это процесс разбора текстовых данных на более мелкие единицы (токены), такие как слова и фразы. Обычно используемые методы токенизации включают модель пакета слов и модель N-грамма.

2. Стемминг и лемматизация

Различные токены могут нести схожую информацию (например, токенизация и токенизация). И мы можем избежать повторного вычисления аналогичной информации, приведя все токены к их базовой форме, используя различные словари определения корней и лемматизации.

3. Удаление стоп-слов и знаков препинания

Некоторые токены менее важны, чем другие. Например, такие общие слова, как «the», могут быть не очень полезны для выявления основных характеристик текста. Поэтому обычно перед дальнейшим анализом рекомендуется удалить стоп-слова и знаки препинания.

4. Вычисление частот терминов или tf-idf

После предварительной обработки текстовых данных мы можем приступить к созданию признаков. Для кластеризации документов одним из наиболее распространенных способов создания функций для документа является вычисление частотности терминов всех его токенов. Хотя эти частоты и не идеальны, они обычно могут дать некоторые подсказки о теме документа. И иногда также полезно взвешивать термины частот по обратным частотам документа. См. tf-idf для подробного обсуждения.

5. Кластеризация

Затем мы можем кластеризовать различные документы на основе созданных нами функций. См. Раздел алгоритмов в кластерный анализ для получения информации о различных типах методов кластеризации.

6. Оценка и визуализация

Наконец, модели кластеризации могут быть оценены с помощью различных показателей. Иногда полезно визуализировать результаты, нанося кластеры в низко (двумерное) пространство. См. многомерное масштабирование как возможный подход.

Кластеризация v. Классификация

Алгоритмы кластеризации в вычислительном текстовом анализе группируют документы в группировку набора текста, который называется подмножествами или кластерами, где целью алгоритма является создание внутренне согласованных кластеров, отличных от друг друга. С другой стороны, классификация - это форма контролируемого обучения, при которой характеристики документов используются для прогнозирования «типа» документов.

См. Также

Ссылки

Библиография

Кристофер Д. Маннинг, Прабхакар Рагхаван и Хинрих Шютце. Плоская кластеризация в Введение в поиск информации. Cambridge University Press. 2008
Николас О. Эндрюс и Эдвард А. Фокс, Последние изменения в кластеризации документов, 16 октября 2007 г. [1]
Клаудио Карпинето, Станислав Осинский, Джованни Романо, Давид Вайс. Обзор механизмов веб-кластеризации. ACM Computing Surveys, том 41, выпуск 3 (июль 2009 г.), статья № 17, ISSN 0360-0300
Вуи Ли Чанг, Кай Мэн Тай и Чи Пенг Лим, Новая развивающаяся древовидная модель с локальным переобучением для кластеризации и визуализации документов, Письма нейронной обработки, DOI: 10.1007 / s11063-017-9597-3. https://link.springer.com/article/10.1007/s11063-017-9597-3