A матрица термин-документ или матрица-документ - это математическая матрица, которая описывает частоту встречаемости терминов в наборе документы. В матрице документ-термин строки соответствуют документам в коллекции, а столбцы - терминам. Существуют различные схемы определения значения, которое должна принимать каждая запись в матрице. Одна из таких схем - tf-idf. Они полезны в области обработки естественного языка.
При создании базы данных терминов, которые появляются в наборе документов, матрица документ-термин содержит строки, соответствующие документам, и столбцы, соответствующие условиям. Например, если у одного есть следующие два (коротких) документа:
, тогда матрица документ-термин будет:
I | вроде | ненавижу | базы данных | |
---|---|---|---|---|
D1 | 1 | 1 | 0 | 1 |
D2 | 1 | 0 | 1 | 1 |
, которые показывают, какие документы содержат какие термины и сколько раз они появляются.
Обратите внимание, что можно использовать более сложные веса; одним типичным примером, среди прочего, может быть tf-idf.
Точка зрения на матрицу состоит в том, что каждая строка представляет документ. В векторной семантической модели , которая обычно используется для вычисления матрицы документ-термин, цель состоит в том, чтобы представить тему документа с помощью частоты семантически значимых терминов. Термины являются смысловыми единицами документов. Для индоевропейских языков часто предполагается, что существительные, глаголы и прилагательные являются более значимыми категориями, и что слова из этих категорий должны сохраняться как термины. Добавление сопоставления в качестве терминов улучшает качество векторов, особенно при вычислении сходства между документами.
Скрытый семантический анализ (LSA, выполнение разложения по единственному значению в матрице документа-термина) может улучшить результаты поиска путем устранения неоднозначности многозначных слов и поиска синонимов запроса. Однако поиск в многомерном непрерывном пространстве намного медленнее, чем поиск в стандартной структуре данных trie поисковых систем.
Многомерный анализ матрицы документ-термин может выявить темы / темы корпуса. В частности, можно использовать скрытый семантический анализ и кластеризацию данных, а в последнее время можно использовать вероятностный скрытый семантический анализ и неотрицательную матричную факторизацию. было установлено, что он хорошо справляется с этой задачей.
.