Матрица терминов документа

редактировать

A матрица термин-документ или матрица-документ - это математическая матрица, которая описывает частоту встречаемости терминов в наборе документы. В матрице документ-термин строки соответствуют документам в коллекции, а столбцы - терминам. Существуют различные схемы определения значения, которое должна принимать каждая запись в матрице. Одна из таких схем - tf-idf. Они полезны в области обработки естественного языка.

Содержание
  • 1 Общая концепция
  • 2 Выбор терминов
  • 3 Приложения
    • 3.1 Улучшение результатов поиска
    • 3.2 Поиск тем
  • 4 См. Также
    • 4.1 Реализации
Общая концепция

При создании базы данных терминов, которые появляются в наборе документов, матрица документ-термин содержит строки, соответствующие документам, и столбцы, соответствующие условиям. Например, если у одного есть следующие два (коротких) документа:

  • D1 = «Мне нравятся базы данных»
  • D2 = «Я ненавижу базы данных»,

, тогда матрица документ-термин будет:

Iвродененавижубазы данных
D11101
D21011

, которые показывают, какие документы содержат какие термины и сколько раз они появляются.

Обратите внимание, что можно использовать более сложные веса; одним типичным примером, среди прочего, может быть tf-idf.

Выбор терминов

Точка зрения на матрицу состоит в том, что каждая строка представляет документ. В векторной семантической модели , которая обычно используется для вычисления матрицы документ-термин, цель состоит в том, чтобы представить тему документа с помощью частоты семантически значимых терминов. Термины являются смысловыми единицами документов. Для индоевропейских языков часто предполагается, что существительные, глаголы и прилагательные являются более значимыми категориями, и что слова из этих категорий должны сохраняться как термины. Добавление сопоставления в качестве терминов улучшает качество векторов, особенно при вычислении сходства между документами.

Приложения

Улучшение результатов поиска

Скрытый семантический анализ (LSA, выполнение разложения по единственному значению в матрице документа-термина) может улучшить результаты поиска путем устранения неоднозначности многозначных слов и поиска синонимов запроса. Однако поиск в многомерном непрерывном пространстве намного медленнее, чем поиск в стандартной структуре данных trie поисковых систем.

Поиск тем

Многомерный анализ матрицы документ-термин может выявить темы / темы корпуса. В частности, можно использовать скрытый семантический анализ и кластеризацию данных, а в последнее время можно использовать вероятностный скрытый семантический анализ и неотрицательную матричную факторизацию. было установлено, что он хорошо справляется с этой задачей.

См. Также

Реализации

  • Gensim : Фреймворк Python с открытым исходным кодом для моделирования векторного пространства. Содержит алгоритмы с эффективным использованием памяти для построения матриц терминов-документов из текста плюс общие преобразования (tf-idf, LSA, LDA ).

.

Последняя правка сделана 2021-05-17 10:54:30
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте