алгоритм Яровского

редактировать

Метод в компьютерной лингвистике

В компьютерной лингвистике алгоритм Яровского - это обучение без учителя алгоритм для устранения неоднозначности слов, который использует свойства «один смысл на словосочетание » и «один смысл на дискурс» человеческих языков. для устранения неоднозначности. По наблюдениям, слова имеют тенденцию проявлять только один смысл в большинстве данных дискурса и в данном словосочетании.

Приложение

Алгоритм начинается с большого непомеченного корпуса, в котором он определяет примеры данного многозначного слова и сохраняет все соответствующие предложения в виде строк. Например, Яровский использует слово «растение» в своей статье 1995 года, чтобы продемонстрировать алгоритм. Если предполагается, что существует два возможных смысла слова, следующим шагом будет определение небольшого количества начальных словосочетаний, представляющих каждое значение, присвоение каждому значению метки (то есть смысл A и B), а затем присвоение соответствующей метки для все обучающие примеры, содержащие начальные словосочетания. В этом случае слова «жизнь» и «производство» выбраны в качестве начальных словосочетаний для смыслов A и B соответственно. Остаточные примеры (85–98% по Яровскому) остаются непомеченными.

Алгоритм сначала должен выбрать репрезентативные начальные словосочетания, которые будут точно и продуктивно различать смыслы A и B. Это можно сделать, выбрав исходные слова из словарной статьи словаря для этого смысла. Словосочетания, как правило, имеют более сильный эффект, если они находятся рядом с целевым словом, эффект ослабевает с расстоянием. В соответствии с критериями, приведенными в Yarowsky (1993), будут выбраны исходные слова, которые появляются в наиболее надежных коллокационных отношениях с целевым словом. Эффект намного сильнее для слов в отношениях предикат -аргумент, чем для произвольных ассоциаций на том же расстоянии от целевого слова, и намного сильнее для словосочетаний со словами содержания, чем с функциональными словами. При этом словосочетание может иметь несколько коллокационных отношений с целевым словом во всем корпусе. Это может дать этому слову другой рейтинг или даже другую классификацию. В качестве альтернативы, это можно сделать, указав одно определяющее словосочетание для каждого класса и используя для начальных значений только те контексты, которые содержат одно из этих определяющих слов. Общедоступная база данных WordNet может использоваться как автоматический источник таких определяющих терминов. Кроме того, слова, которые встречаются рядом с целевым словом с большой частотой, могут быть выбраны как репрезентативные исходные словосочетания. Этот подход не является полностью автоматическим, человек-судья должен решить, какое слово будет выбрано для каждого значения целевого слова, выходные данные будут надежными индикаторами чувств.

A список решений алгоритм затем используется для идентификации других надежных сочетаний. Этот обучающий алгоритм вычисляет вероятность Pr (Sense | Collocation), а список решений ранжируется по логарифмическому отношению правдоподобия:

log ⁡ (Pr (Sense A | Collocation i) Pr (Sense B | Collocation i)) { \ displaystyle \ log \ left ({\ frac {\ Pr ({\ text {Sense}} _ {A} | {\ text {Collocation}} _ {i})} {\ Pr ({\ text {Sense}} _ {B} | {\ text {Collocation}} _ {i})}} \ right)}

{\ displaystyle \ log \ left ({\ frac {\ Pr ({\ text {Sense}} _ {A} | {\ text {Collocation}} _ {i})} {\ Pr ({\ text {Sense}} _ {B} | {\ text {Collocation}} _ {i})}} \ right)}

A Затем будет использоваться алгоритм сглаживания, чтобы избежать 0 значений. Алгоритм списка решений решает многие проблемы в большом наборе не независимых источников свидетельств, используя только наиболее надежные свидетельства, а не весь набор совпадающих словосочетаний.

Новый результирующий классификатор будет применен ко всему набору выборки. Добавьте те примеры в остатке, которые помечены как A или B с вероятностью выше разумного порога, к начальным наборам. Алгоритм списка решений и вышеуказанный этап добавления применяются итеративно. По мере добавления новых изученных словосочетаний к начальным наборам смысловой набор A или смысловой B будет расти, а исходный остаток будет уменьшаться. Однако эти сочетания остаются в начальных наборах только в том случае, если их вероятность классификации остается выше порога, в противном случае они возвращаются в остаток для последующей классификации. В конце каждой итерации можно использовать свойство «одно чувство на дискурс», чтобы помочь предотвратить изначально ошибочно помеченные словосочетания и, следовательно, улучшить чистоту начальных наборов.

Во избежание того, чтобы сильные словосочетания становились индикаторами для неправильного класса, порог включения класса должен быть изменен случайным образом. Для этой же цели после промежуточной сходимости алгоритму также потребуется увеличить ширину контекстного окна.

Алгоритм будет продолжать повторяться до тех пор, пока не будут найдены более надежные сочетания. Свойство «Один смысл на дискурс» можно использовать здесь для исправления ошибок. Для целевого слова с бинарным смысловым разделением, если вхождения в большинстве смыслов А превышают второстепенные значения В на определенный порог, меньшинство будут переименованы как А. Согласно Яровски, для того, чтобы любое значение было четко определено.

Когда алгоритм сходится к стабильному остаточному набору, получается список окончательных решений целевого слова. Наиболее надежные словосочетания находятся в верхней части нового списка вместо исходных исходных слов. Затем исходный непомеченный корпус помечается метками смысла и вероятностями. Список окончательных решений теперь может быть применен к новым данным, совместное размещение с наивысшим рангом в списке используется для классификации новых данных. Например, если наиболее ранговое словосочетание целевого слова в новом наборе данных имеет смысл A, то целевое слово классифицируется как значение A.

См. Также

Литература

Яровски, Д. "Неконтролируемое устранение неоднозначности слов, конкурирующее с контролируемыми методами". Труды 33-го ежегодного собрания Ассоциации компьютерной лингвистики. Cambridge, MA, pp. 189–196, 1995.