Матрица терминов документа

редактировать

A матрица термин-документ или матрица-документ - это математическая матрица, которая описывает частоту встречаемости терминов в наборе документы. В матрице документ-термин строки соответствуют документам в коллекции, а столбцы - терминам. Существуют различные схемы определения значения, которое должна принимать каждая запись в матрице. Одна из таких схем - tf-idf. Они полезны в области обработки естественного языка.

Содержание

1 Общая концепция
2 Выбор терминов
3 Приложения
- 3.1 Улучшение результатов поиска
- 3.2 Поиск тем
4 См. Также
- 4.1 Реализации

Общая концепция

При создании базы данных терминов, которые появляются в наборе документов, матрица документ-термин содержит строки, соответствующие документам, и столбцы, соответствующие условиям. Например, если у одного есть следующие два (коротких) документа:

D1 = «Мне нравятся базы данных»
D2 = «Я ненавижу базы данных»,

, тогда матрица документ-термин будет:

	I	вроде	ненавижу	базы данных
D1	1	1	0	1
D2	1	0	1	1

, которые показывают, какие документы содержат какие термины и сколько раз они появляются.

Обратите внимание, что можно использовать более сложные веса; одним типичным примером, среди прочего, может быть tf-idf.

Выбор терминов

Точка зрения на матрицу состоит в том, что каждая строка представляет документ. В векторной семантической модели , которая обычно используется для вычисления матрицы документ-термин, цель состоит в том, чтобы представить тему документа с помощью частоты семантически значимых терминов. Термины являются смысловыми единицами документов. Для индоевропейских языков часто предполагается, что существительные, глаголы и прилагательные являются более значимыми категориями, и что слова из этих категорий должны сохраняться как термины. Добавление сопоставления в качестве терминов улучшает качество векторов, особенно при вычислении сходства между документами.

Приложения

Улучшение результатов поиска

Скрытый семантический анализ (LSA, выполнение разложения по единственному значению в матрице документа-термина) может улучшить результаты поиска путем устранения неоднозначности многозначных слов и поиска синонимов запроса. Однако поиск в многомерном непрерывном пространстве намного медленнее, чем поиск в стандартной структуре данных trie поисковых систем.

Поиск тем

Многомерный анализ матрицы документ-термин может выявить темы / темы корпуса. В частности, можно использовать скрытый семантический анализ и кластеризацию данных, а в последнее время можно использовать вероятностный скрытый семантический анализ и неотрицательную матричную факторизацию. было установлено, что он хорошо справляется с этой задачей.

См. Также

Модель набора слов

Реализации

Gensim : Фреймворк Python с открытым исходным кодом для моделирования векторного пространства. Содержит алгоритмы с эффективным использованием памяти для построения матриц терминов-документов из текста плюс общие преобразования (tf-idf, LSA, LDA ).