Словесная индукция

редактировать

В компьютерной лингвистике, Словесная индукция (WSI) или различение - это открытая проблема обработки естественного языка, которая касается автоматической идентификации смыслов слова слова (т.е. значения ). Учитывая, что результатом индукции смысла слова является набор смыслов для целевого слова (перечень смыслов), эта задача строго связана с задачей устранения неоднозначности словесного смысла (WSD), которая опирается на заранее определенный перечень чувств и направлен на устранение неоднозначности слов в контексте.

Содержание

1 Подходы и методы
- 1.1 Кластеризация контекста
- 1.2 Кластеризация слов
- 1.3 Графы совместной встречаемости
2 Приложения
3 Программное обеспечение
4 См. Также
5 Ссылки

Подходы и методы

Результатом алгоритма индукции смысла слова является кластеризация контекстов, в которых встречается целевое слово, или кластеризация слов, связанных с целевым словом. В литературе были предложены три основных метода:

Кластеризация контекста
Кластеризация слов
Графы совместной встречаемости

Кластеризация контекста

Основная гипотеза этого подхода состоит в том, что слова семантически похожи, если они появляются в аналогичных документах, в аналогичных контекстных окнах или в аналогичных синтаксических контекстах. Каждое вхождение целевого слова в корпусе представлено как вектор контекста . Эти векторы контекста могут быть либо векторами первого порядка, которые непосредственно представляют текущий контекст, либо векторами второго порядка, то есть контексты целевого слова похожи, если их слова имеют тенденцию встречаться вместе. Затем векторы группируются в группы, каждая из которых определяет смысл целевого слова. Хорошо известным подходом к контекстной кластеризации является алгоритм распознавания контекстных групп, основанный на методах вычисления больших матриц.

Кластеризация слов

Кластеризация слов - это другой подход к наведению смысла слов. Он состоит из слов, которые схожи по семантике и поэтому могут иметь определенное значение. Алгоритм Лина представляет собой прототипический пример кластеризации слов, который основан на статистике синтаксических зависимостей, которые встречаются в корпусе для создания наборов слов для каждого обнаруженного смысла целевого слова. Кластеризация по комитетам (CBC) также использует синтаксические контексты, но использует матрицу сходства для кодирования сходства между словами и полагается на понятие комитетов для вывода различных значений интересующего слова. Эти подходы трудно получить в большом масштабе для многих предметных областей и языков.

Графы совместной встречаемости

Основная гипотеза графов совместной встречаемости предполагает, что семантика слова может быть представлена с помощью графа совместной встречаемости графа, чья вершины - это совпадения, а ребра - отношения совместной встречаемости. Эти подходы связаны с методами кластеризации слов, в которых совпадение слов может быть получено на основе грамматических или коллокационных отношений. HyperLex - это успешные подходы графического алгоритма, основанные на идентификации узлов в графах совместного появления, которые должны справляться с необходимостью настройки большого количества параметров. Для решения этой проблемы было предложено несколько алгоритмов на основе графов, которые основаны на простых графических шаблонах, а именно кластеризация кривизны, квадраты, треугольники и ромбы (SquaT ++) и сбалансированная кластеризация максимального связующего дерева (B-MST). Шаблоны нацелены на идентификацию значений с использованием локальных структурных свойств графа совместной встречаемости. Рандомизированный алгоритм, который разбивает вершины графа путем итеративной передачи основного сообщения (то есть смысла слова) в соседние вершины, называется Chinese Whispers. Было показано, что применение подходов к графам совместной встречаемости позволяет достичь высочайшего уровня производительности в стандартных задачах оценки.

Приложения

Было показано, что индукция смысла слов способствует поиску информации в Интернете, когда используются весьма неоднозначные запросы.
Простые алгоритмы индукции смысла слов повышают кластеризацию результатов поиска в Интернете значительно и улучшить диверсификацию результатов поиска, возвращаемых такими поисковыми системами, как Yahoo!
Словесная индукция была применена для обогащения лексических ресурсов, таких как WordNet.

Программное обеспечение

SenseClusters - это свободно доступный программный пакет с открытым исходным кодом, который выполняет как кластеризацию контекста, так и кластеризацию слов.

См. Также

Ссылки