Тематическая модель

редактировать

В машинном обучении и обработке естественного языка, тематическая модель - это тип статистической модели для обнаружения абстрактных «тем», которые встречаются в коллекции документов. Тематическое моделирование - это часто используемый инструмент интеллектуального анализа текста для обнаружения скрытых семантических структур в теле текста. Интуитивно, учитывая, что документ посвящен определенной теме, можно было бы ожидать, что определенные слова будут появляться в документе более или менее часто: «собака» и «кость» будут чаще встречаться в документах о собаках, «кошке» и «мяу». будет фигурировать в документах о кошках, причем «то» и «есть» будут фигурировать в обоих примерно одинаково. Документ обычно затрагивает несколько тем в разных пропорциях; таким образом, в документе, который на 10% посвящен кошкам и 90% - собакам, вероятно, будет примерно в 9 раз больше слов о собаках, чем слов о кошках. «Темы», созданные методами тематического моделирования, представляют собой группы похожих слов. Тематическая модель отражает эту интуицию в математической структуре, которая позволяет исследовать набор документов и на основе статистики слов в каждом обнаруживать, какими могут быть темы и каков баланс тем в каждом документе.

Тематические модели также называются вероятностными тематическими моделями, которые относятся к статистическим алгоритмам для обнаружения скрытых семантических структур обширного тела текста. В век информации количество письменных материалов, с которыми мы сталкиваемся каждый день, просто выходит за рамки наших возможностей обработки. Тематические модели могут помочь организовать и предложить нам понимание больших коллекций неструктурированных текстов. Изначально разработанные как инструмент интеллектуального анализа текста, тематические модели использовались для обнаружения инструктивных структур в данных, таких как генетическая информация, изображения и сети. У них также есть приложения в других областях, таких как биоинформатика и компьютерное зрение.

Содержание
  • 1 История
  • 2 Тематические модели для контекстной информации
  • 3 Алгоритмы
  • 4 Тема модели вне текстов
  • 5 См. также
  • 6 Ссылки
  • 7 Дополнительная литература
  • 8 Внешние ссылки
История

Ранняя тематическая модель была описана Пападимитриу, Рагхаваном, Тамаки и Вемпалой в 1998 году. Еще один метод, называемый вероятностный латентно-семантический анализ (PLSA), был создан Томасом Хофманном в 1999 году. Скрытое распределение Дирихле (LDA), возможно, самая распространенная тематическая модель в настоящее время использование, является обобщением PLSA. Разработанный Дэвидом Блей, Эндрю Нг и Майклом И. Джорданом в 2002 году, LDA вводит редкие предварительные распределения Дирихле вместо темы документа и распределение тематических слов, кодирующее интуицию, что документы охватывают небольшое количество тем и что в темах часто используется небольшое количество слов. Другие тематические модели, как правило, являются расширениями LDA, например Распределение патинко, которое улучшает LDA путем моделирования корреляций между темами в дополнение к корреляциям слов, которые составляют темы. Иерархический анализ скрытого дерева (HLTA ) является альтернативой LDA, который моделирует совместное появление слов с помощью дерева скрытых переменных, а состояния скрытых переменных, которые соответствуют мягким кластерам документов, интерпретируются как темы.

Анимация процесса определения темы в матрице документ-слово. Каждый столбец соответствует документу, каждая строка - слову. Ячейка хранит частоту слова в документе, темные ячейки указывают на высокую частоту слова. Тематические модели группируют как документы, в которых используются похожие слова, так и слова, встречающиеся в аналогичном наборе документов. Результирующие шаблоны называются «темами».
Тематические модели для контекстной информации

Подходы для временной информации включают определение Блоком и Ньюманом временной динамики тем в Pennsylvania Gazette в течение 1728 г. –1800. Griffiths Steyvers использовали тематическое моделирование в рефератах из журнала PNAS для определения тем, популярность которых росла или падала с 1991 по 2001 год, тогда как Ламба и Мадхусушан использовали тематическое моделирование в полнотекстовых исследовательских статьях, взятых из журнала DJLIT с 1981 года. –2018. В области библиотечного дела и информатики Ламба и Мадхусудхан применили тематическое моделирование к различным индийским ресурсам, таким как журнальные статьи и электронные тезисы и ресурсы (ETD). Нельсон анализировал изменение тем с течением времени в Richmond Times-Dispatch, чтобы понять социальные и политические изменения и преемственность в Ричмонде во время Гражданской войны в США. Янг, Торгет и Михалча применили методы тематического моделирования к газетам 1829–2008 годов. Mimno использовал тематическое моделирование с 24 журналами по классической филологии и археологии за 150 лет, чтобы посмотреть, как темы в журналах меняются с течением времени и как журналы становятся более разными или похожими с течением времени.

Инь и др. представила тематическую модель для географически распределенных документов, в которой положения документов объясняются скрытыми областями, которые обнаруживаются во время вывода.

Чанг и Блей включили сетевую информацию между связанными документами в реляционную тематическую модель, чтобы смоделировать связи между веб-сайтами.

Модель автор-тема Розен-Цви и др. моделирует темы, связанные с авторами документов, чтобы улучшить определение тем для документов с информацией об авторстве.

HLTA был применен к коллекции недавних исследовательских работ, опубликованных на крупных площадках по искусственному интеллекту и машинному обучению. Полученная модель называется Дерево ИИ. Полученные темы используются для индексации статей на aipano.cse.ust.hk, чтобы помочь исследователям отслеживать тенденции исследований и определять статьи для чтения, а также помогать организаторам конференций и редакторам журналов определить рецензентов для представлений.

Алгоритмы

На практике исследователи пытаются подогнать соответствующие параметры модели к корпусу данных, используя одну из нескольких эвристик для максимального правдоподобия. Недавний обзор Blei описывает этот набор алгоритмов. Несколько групп исследователей, начиная с Papadimitriou et al. пытались разработать алгоритмы с вероятными гарантиями. Предполагая, что данные действительно были сгенерированы рассматриваемой моделью, они пытаются разработать алгоритмы, которые, вероятно, найдут модель, которая использовалась для создания данных. Используемые здесь методы включают разложение по сингулярным числам (SVD) и метод моментов. В 2012 году был представлен алгоритм, основанный на факторизации неотрицательной матрицы (NMF), который также обобщается на тематические модели с корреляциями между темами.

В 2018 году появился новый подход к тематическим моделям, который был на основе Стохастической блочной модели

Тематические модели вне текста

Тематические модели используются и в других контекстах. Например, появилось использование тематических моделей в исследованиях биологии и биоинформатики. В последнее время для извлечения информации из набора данных геномных образцов рака используются тематические модели. В этом случае темы - это скрытые биологические переменные, которые необходимо сделать вывод.

См. Также
Ссылки
Дополнительная литература
Внешние ссылки
Последняя правка сделана 2021-06-11 07:22:36
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте