Словесная неоднозначность

редактировать

Определение смысла слова, которое используется

В компьютерная лингвистика, определение смысловой неоднозначности (WSD ) - это открытая проблема, связанная с определением смысла из слова используется в предложении . Решение этой проблемы влияет на другие виды компьютерного письма, такие как дискурс, повышенная релевантность поисковых систем, разрешение анафоры, согласованность, и вывод.

человеческий мозг довольно хорошо разбирается в словесной неоднозначности. Этот естественный язык сформирован способом, который требует от него очень многого, и является отражением этой неврологической реальности. Другими словами, человеческий язык развивался таким образом, чтобы отражать (а также помогать формировать) врожденные способности, используемые нейронными сетями мозга. В компьютерных науках и информационные технологии, которые позволяют выполнять долгосрочным вызовом способности компьютеров выполнять обработка естественного языка и машинное обучение.

Было исследовано набор разнообразных методов, методов на основе словаря, использующих, закодированных в лексических ресурсах, до контролируемых методов машинного обучения, в которых классификатор обучается для каждого отдельного слова на корпусе примеров с ручной смысловой аннотацией, полностью неконтролируемым методам, которые группируют вхождения слов, тем самым вызывающим смысловое восприятие слов. Среди них подходы к обучению с учителем были наиболее успешными алгоритмами на сегодняшний день.

Точность текущих алгоритмов сложно констатировать без основок. На английском языке точность на уровне грубого помола (гомограф ) некоторых обычно превышает 90%, а методы на определенных омографах достигают более 96%. Что касается более тонких различий чувств, максимальная точность от 59,1% до 69,0% была зафиксирована в оценочных упражнениях (SemEval-2007, Senseval-2), где базовая точность простейшего возможного алгоритма выбора всегда наиболее частого смысла составила 51,4%. и 57% соответственно.

Содержание

1 О компании
2 История
3 Трудности
- 3.1 Различия между словарями
- 3.2 Тегирование части речи
- 3.3 Расхождения между судьями
- 3.4 Прагматика
- 3.5 Инвентаризация чувствительности и алгоритмов задач от задач
- 3.6 Дискретность смыслов
4 Подходы и методы
- 4.1 Методы, основанные на словарях и знаниях
- 4.2 Контролируемые методы
- 4.3 Полу-контролируемые методы
- 4.4 Неконтролируемые методы
- 4.5 Другие подходы
- 4.6 Другие языки
- 4.7 Местные препятствия и сводка
5 Внешние источники знаний
6 Оценка
- 6.1 Варианты разработки задачи
7 Программное обеспечение
8 См.
9 Примечания
10 Процитированные работы
11 Внешние ссылки и рекомендуемая литература

О

Устранение неоднозначности требует двух строгих входов: словарь для определения смыслов, которые должны быть устранены, и корпус данных языка для устранения неоднозначностей (в некоторых методах также требуется обучающий корпус языковых примеров). Задача WSD имеет два варианта: «» и «» задача. Первый включает неоднозначности в сопоставлении небольшой выборки целевых слов, которые были ранее выбраны, в то время как во втором фрагменте фрагмента текста должны быть устранены. Согласно одному и тому же целевому слову, каждый раз, когда им нужно сделать оценки для каждого в каждом раз, когда им нужно сделать оценку тегов, а не один раз для блока экземпляры для одного и того же целевого слова.

Чтобы прояснить, как все это работает, рассмотрим три примера различных смыслов, которые существуют для (письменного) слова «bass »:

тип рыбы
низкочастотные тона
тип инструмента

и предложения:

Я ловил морского окуня.
Басовая линия песни слишком слабая.

Для людей, которые используют английский, в первом предложении, используется слово «bass (fish) », как в предыдущем смысле выше, так и во втором предложении., слово «бас (инструмент) » используется, как в последнем смысле, приведенном ниже. Разработка алгоритмов доказательств для воспроизведения этой способности человека часто может быть сложной сложной системой, о чем также неявная двусмысленность между «бас (звук) » и «бас (инструмент). ".

История

WSD была впервые сформулирована как отдельная вычислительная задача заре машинного перевода в 1940-х годах, что сделало ее одной из старейших проблем компьютерной лингвистики. Уоррен. Ранние исследователи хорошо понимали важность и сложность WSD. Фактически, Бар-Гиллель (1960) использовал приведенный выше пример, чтобы доказать, что Уивер в своем знаменитом меморандуме 1949 года впервые представил проблему в контексте вычислений. что WSD не может быть решена с помощью «электронного компьютера» из-за необходимости в целом моделировать все мировые знания.

В 1970-х годах WSD была подзадачей системной семантической интерпретации, разработанной в области искусственного интеллекта, начиная с семантики предпочтений Уилкса. Однако, поскольку системы WSD в основном основывались на правилах и кодировались вручную, они были склонны к узким местам в получении знаний.

К 1980-м годам стали доступн. ы крупномасштабные лексические ресурсы, такие как Oxford Advanced Learner's Dictionary of Current English (OALD): ручное кодирование было заменено знаниями, автоматически извлеченными из этих ресурсов, но устранение неоднозначности по-прежнему основывалось на знаниях или словарях.

В 1990-х годах статистическая революция охватила вычислительную лингвистику, и WSD превратилась в парадигму проблемы, к которой можно было применить методы контролируемого машинного обучения.

В 2000-х годах контролируемые методы достижимости плато в точности, поэтому внимание переключилось на более грубые ощущения, адаптацию предметной области, полу-контролируемые и неконтролируемые системы на основе корпуса, комбинации различных методов и возвращение системы, основанные на знаниях, с помощью методов на основе графов. Тем не менее, контролируемые системы продолжают работать лучше всего.

Трудности

Различия между словарями

Одна проблема с устранением неоднозначности смысла слова - это определение, что такое чувства. По крайней мере, некоторые значения приведенному выше слову «бас». В других случаях, однако, различные смыслы через другое соединение (одно значение метафорическим или метонимическим расширением), и в таких случаях, слов на смыслы становится намного более сложным. трудно. Различные словари и тезаурусы обеспечат различное деление слов на значения. Одно из решений, которое использовали некоторые исследователи, - это выбрать конкретный словарь и просто использовать его набор смыслов. Однако в целом результаты исследований с использованием широких различий в чувствах были намного лучше, чем результаты исследований с использованием узких. Однако, учитывая отсутствие полноценной крупнозернистой системы чувств, большинство исследователей продолжают работать над мелкозернистой WSD.

Большинство исследований в области WSD выполняется с использованием WordNet в качестве справочного материала для английского языка. WordNet - это вычислительный лексикон, который кодирует понятия как наборы синонимов (например, понятие автомобиля кодируется как {автомобиль, авто, автомобиль, машина, автомобиль}). Другие ресурсы, использованные для устранения неоднозначности, включая Тезаурус Роджера и Википедию. Совсем недавно для многоязычного WSD использовался BabelNet, многоязычный энциклопедический словарь.

Теги части речи

В любом реальном тесте тегирование части-речи и смысловая маркировка очень связаны с другом, используемым созданием ограничения. И вопрос о том, должны ли эти задачи быть вместе или разделены, все еще не решены единогласно, но в последнее время ученые склонны проверять эти вещи по отдельности (например, в соревнованиях Senseval / SemEval части речи в качестве входных для текста для устранения неоднозначности).

Поучительно сравнить проблему неоднозначности смысла слова с проблемой тегирования части речи. Оба включают устранение неоднозначности или пометку слов, будь то чувства или части речи. Однако, используются для одного слова, не работают хорошо для другого, в основном потому, что часть речи слова в первую очередь определяется непосредственно соседними от одного до трех слов, как смысл слова может быть более удаленными словами.. Уровень для алгоритмов тегирования части речи в настоящее время намного выше, чем для WSD, при этом точность современного уровня техники составляет около 95% или лучше, по сравнению с точностью менее 75% в устранении неоднозначности слов с обучение с учителем. Эти цифры типичны для английского языка и могут сильно отличаться от данных для других языков.

Дисперсия между судьями

Другая проблема - Дисперсия между судьями дисперсия. Системы WSD обычно тестируются путем сравнения результатов выполнения задачи с результатами человека. Однако, в то время как связать части речи с текстом относительно легко, научить людей помечать чувства гораздо сложнее. Несмотря на то, что пользователи могут запоминать все случайные части речи, которые могут принимать, люди не могут запоминать все смыслы, которые может принимать слово. Более того, люди не согласны с поставленной задачей - приведите список смыслов и предложений, и люди не всегда соответствуются, какое слово принадлежит в каком смысле.

человеческая деятельность служит стандартом, это верхняя граница производительности компьютера. Однако эффективность человека намного лучше при крупнозернистых, чем мелкозернистых различий, так что это снова является причиной того, что исследования крупнозернистых различий были проверены в недавней оценке WSD.

Прагматика

Некоторые исследователи ИИ, такие как Дуглас Ленат, утверждают, что нельзя разбирать значения слов без здравого смысла. онтология. Этот лингвистический вопрос называется прагматикой. Например, сравнивая эти два предложения:

«Джилл и Мэри - матери». - (каждый независимо друг от друга мать).
«Джилл и Мэри - сестры». - (они сестры друг друга).

Чтобы правильно определить смысл слов, нужно знать факты здравого смысла. Более того, иногда требуется здравый смысл для устранения неоднозначности таких слов, как местоимения, в случае наличия в тексте анафор или катафор.

Смысловая инвентаризация и зависимость алгоритмов от задач

Смысловая инвентаризация, не зависящая от задачи, не является последовательной концепцией: каждая задача требует своего собственного разделения значений слова на смыслы, относящиеся к задаче. Например, двусмысленность «мышь » (животное или устройство) не актуальна для англо-французского машинного перевода, но актуальна в поиске информации. Обратное верно для слова «река», которое требует выбора во французском языке (fleuve «впадает в море» или rivière «впадает в реку»).

Кроме того, для разных приложений могут потребоваться совершенно разные алгоритмы. В машинном переводе проблема заключается в выборе целевого слова. Здесь «смыслы» - это слова на целевом языке, которые часто соответствуют различным значениям в исходном языке («банк» может переводиться с французского «банк», то есть «финансовый банк» или «рив»), то есть есть, «край реки »). При поиске информации инвентаризация смысла не обязательно требуется, потому что достаточно знать, что используется в одном и том же смысле в запросе и в извлеченном документе; какой это смысл, неважно.

Дискретность чувств

Наконец, само понятие "слово смысл " скользкий и неоднозначный. Большинство людей могут согласиться в различных на уровне крупнозернистого омографа (например, ручка как пишущий инструмент или корпус), но опускаются на один уровень до мелкозернистого многозначность, и возникает разногласия. Например, в Senseval-2, в котором использовались тонкие смысловые люди разные, аннотаторы-соглашались только в 85% случаев появления слов. Значение в принципе бесконечно вариативно и зависит от контекста. Его нелегко разделить на отдельные или отдельные подзначения. Лексикографы часто обнаруживают в корпусах нечеткие и частично совпадающие значения слов, а также стандартные или общепринятые значения, расширяемые, модулируемые и используемые пораз разнообразными способами. Искусство лексикографии состоит в том, чтобы делать обобщения от корпуса до определенных, которые создают и объясняют диапазон значений, создавая впечатление, что имеют слова хорошего семантического поведения. Совсем не ясно, применимы ли эти же различия значений в вычислительных приложениях, поскольку решения лексикографов обычно основываются на других соображениях. В 2009 году задача под названием лексическая замена была предложена как возможное решение проблемы дискретности смысла. Задача состоит в предоставлении замены для слова в контексте, сохраняющей значение исходного слова (раннее, могут быть выбраны из полного лексикона целевого языка, таким образом проходитьолевая дискретность).

Подходы и методы

Как и во всей обработки естественного языка, есть два основных подхода к WSD - и.

Глубинные подходы предполагают доступ к обширной совокупности мировых знаний. Такие знания, как «вы можете ловить рыбу, но не ловить низкочастотные звуки» и «песни содержат низкочастотные звуки как части, но не виды рыб», используемые для определения, в каком смысле «окунь». используется. Эти подходы не очень успешны на практике, как используется в машиночитаемом формате за пределами очень ограниченных областей. Однако, если бы такие знания действительно существовали, то глубокие подходы были намного точнее, чем поверхностные. В компьютерной лингвистике существует давняя традиция опробовать такие подходы с точки зрения закодированных знаний, а в некоторых случаях трудно четко сказать, является ли задействованное знание лингвистическим или мировым. Первая попытка была предпринята Маргарет Мастерман и ее коллегами в Англии в 1950-х годах. Эта попытка была использована в данных перфокарточной версии Тезауруса Роджера и его пронумерованные «главы» в индикаторе тем и искала повторы в тексте, используя в качестве заданного алгоритма пересечения. Он не был очень успешным, но имел прочные связи с более поздними работами, особенно с оптимизацией тезауруса методом машинного обучения Яровским в 1990-х годах.

Поверхностные подходы не пытаются понять текст. Они просто рассматривают окружающие слова, используя информацию, как «если у окуня есть слова море или рыбалка поблизости, это, вероятно, в смысле рыбы; если рядом с окунем есть слова музыка или песня, это, вероятно, в музыкальном смысле ». Эти правила могут быть автоматически выведены компьютером с использованием обучающего словаря, помеченных их смыслами. Этот подход, хотя теоретически не так эффективен, как глубокие подходы, на практике превосходные результаты из-за ограниченных знаний компьютера о мире. Однако его можно сбить с толку такими предложениями, как «Собаки лают на дерево», которые содержат слово «кора» рядом с деревом и собаками.

Существуют четыре стандартных подхода к WSD:

Словарь - и методы, основанные на первых знаниях: они основаны в очереди на словарях, тезаурусах и лексических базах знаний, без использования каких-либо доказательства корпуса.
Полу-контролируемые или минимально контролируемые методы : они используют вторичный источник знаний, такой как небольшой аннотированный корпус, в исходном процессе или выровненный по словам двуязычный корпус.
Контролируемые методы : они используют аннотированные смысловые корпуса для обучения.
Неконтролируемые методы : они избегают (почти) полностью внешней информации и работают непосредственно из необработанных неаннотированных корпусов. Эти методы также известны под названием . Смысла слов.

. Практически все эти подходы обычно работают, как они должны быть устранены в корпусе, и статистически анализируя эти n окружающих слов. Для обучения и устранения неоднозначности используются два неглубоких подхода: Наивные байесовские классификаторы и деревья решений. В недавнем исследовании методы на основе ядра, такие как вспомогательные векторные машины, показали превосходную производительность в контролируемом обучении. Подходы, основанные на графах, также привлекли большое внимание исследовательского сообщества и в настоящее время достигают показателей, близких к современным.

Словарные методы и методы, основанные на знаниях

Алгоритм Леска - это основанный на словарях метод. Он основан на гипотезе о том, что слова, используемые вместе в тексте, связаны друг с другом и что эту связь можно наблюдать в определениях слов и их значений. Два (или более) слова устраняются путем нахождения пары словарных смыслов с наибольшим перекрытием слов в их словарных определениях. Например, при устранении неоднозначности слов в слове «сосновая шишка» определения соответствующих смыслов включают слова вечнозеленое растение и дерево (по крайней мере, в одном словаре). Подобный подход ищет кратчайший путь между двумя словами: второе слово итеративно ищется среди определений каждого семантического варианта первого слова, затем среди определений каждого семантического варианта каждого слова в предыдущих определениях и так далее. Наконец, первое слово устраняется путем выбора семантического варианта, который минимизирует расстояние от первого до второго слова.

Альтернативой использованию определений является рассмотрение общего смысла родства и вычисление семантического сходства каждой пары значений слов на основе заданного лексическая база знаний, например WordNet. Графические методы, напоминающие исследования распространения активации первых дней исследований ИИ, применялись с некоторым успехом. Было показано, что более сложные подходы на основе графов работают почти так же хорошо, как контролируемые методы, или даже превосходят их в определенных областях. Недавно сообщалось, что простые меры связности графа, такие как степень, выполняют WSD на уровне современного уровня техники при наличии достаточно богатой лексической базы знаний. Кроме того, было показано, что автоматическая передача знаний в форме семантических отношений из Википедии в WordNet способствует развитию простых методов, основанных на знаниях, позволяя им конкурировать с лучшими контролируемыми системами и даже превосходить их. в настройках, зависящих от предметной области.

Использование предпочтений выбора (или) также полезно, например, зная, что обычно готовят еду, можно устранить неоднозначность слова «бас» в слове «Я готовлю басы» (т. е., это не музыкальный инструмент).

контролируемые методы

контролируемые методы основаны на предположении, что контекст сам по себе может предоставить достаточно свидетельств для устранения неоднозначности слов (отсюда здравыйсмысл и рассуждение считаются ненужными). Вероятно, каждый алгоритм машинного обучения был применен к WSD, включая связанные методы, такие как выбор функций и ансамблевое обучение. Машины опорных векторов и обучение на основе памяти оказались наиболее успешными подходами на сегодняшний день, вероятно, потому, что они могут справиться с высокой размерностью пространственных функций. Однако у этих контролируемых методов новое узкое место в получении знаний, созданных на основе огромного количества корпусов с ручными сенсорными метками, создается трудоемко и дорого.

Полу-контролируемые методы

Из-за отсутствия обучающих данных алгоритмы устранения неоднозначности словесного смысла использовать полу-контролируемое обучение, которое позволяет использовать как помеченные, так и немаркированные данные. Алгоритм Яровского был ранним примером такого алгоритма. Он использует свойства человеческих языков «Одно значение на словосочетание» и «Одно значение на словосочетание» для устранения неоднозначности слов. По наблюдениям, слова имеют тенденцию проявлять только один смысл в большей части данного дискурса и в данном словосочетании.

Подход начальной загрузки начинается с небольшого количества каждого слова: вручную помеченные обучающие примеры или небольшое количество верных правил принятия решений (например, «игра» в контексте «бас» почти всегда означает музыкальный инструмент). Начальные значения используются для обучения начального классификатора с использованием любого контролируемого метода. Затем этот классификатор используется в непомеченной части для извлечения большего обучающего набора, который включен только наиболее надежные классификации. Процесс повторяется, каждый новый классификатор обучается на последовательно увеличивающемся учебном корпусе, пока не будет израсходован весь корпус или пока не будет достигнуто заданное максимальное количество итераций.

Другие полу-контролируемые методы используют большие количества нетегированных корпусов для предоставления информации совместной работы, дополняющей помеченные корпуса. Эти методы могут помочь в адаптации контролируемых моделей к различным областям.

Кроме того, неоднозначное слово на одном языке часто переводится в разные слова на другом языке в зависимости от значения слова. Выровненные по словам двуязычные корпуса использовались для вывода частично межъязыковых смыслов различий, своего рода контролируемой системы.

Неконтролируемые методы

Неконтролируемое обучение - самая большая проблема для исследователей WSD. Основное предположение состоит в том, что существуют смыслы, которые могут быть вызваны из текста с помощью кластеризации в поисках слов с использованием некоторой меры сходства контекста, задача, называемая индукция смысла слова или различение. Затем новые вхождения слова можно классифицировать по ближайшим индуцированным группам / смыслам. Производительность ниже, чем у других методов, но сравнение способнены, индуцированные чувства, используемые в известном указанном слове значений. Если отображение на набор значений словаря нежелательно (включая энтропии и чистоты), может быть выполнено. В качестве альтернативы, методы индукции смысла слова могут быть протестированы и сравнены в приложении. Например, было показано, что индукция смысла улучшает кластеризацию результатов веб-поиска за счет повышения качества кластеров результатов и степени диверсификации списков результатов. Есть надежда, что обучение без учителя преодолеет узкое место приобретения знаний, потому что оно не зависит от ручных усилий.

Представление слов с учетом их контекста через плотные конструкции фиксированного размера (в словложения ) стало одним из самых фундаментальных блоков в нескольких системах НЛП. Несмотря на то, что большинство методов использует векторные изображения, которые можно использовать для улучшения WSD. В дополнение к методам встраивания слов лексические базы данных (например, WordNet, ConceptNet, BabelNet ) также могут помочь неконтролируемым системам отображать слова и их значения как словари. Некоторые методы, сочетающие лексические базы данных и наиболее подходящую для использования AutoExtend и подходящую смысловой аннотации (MSSA). В AutoExtend они предоставят метод, который разделяет входное представление объекта на его свойства, такие как слова и их значения слов. AutoExtend использует графа для сопоставления слов (например, текста) и объектов, не являющихся словами (например, synsets в WordNet ), как узлы, а отношения между узлами как ребер. Отношения (ребра) в AutoExtend могут выражать сложение или сходство между его узлами. Первый отражает интуицию, лежащую в основе расчета с ущербом, а второй определяет сходство между двумя узлами. В MSSA неконтролируемая система устранения неоднозначности использует контекстное контекстное меню для выбора наиболее подходящего смысла слова с помощью созданной модели встраивания слов и WordNet. Для каждого контекстного окна MSSA вычисляет центроид определения смысла каждого слова путем усреднения векторов его слов в Глоссы WordNet (т. Е. Краткий определяющий глянец и один или несколько примеров использования) с использованием использования обученного слова модель вложений. Эти центроиды позже используются для выбора смысла наиболее близкими соседями целевого слова с его ближайшими последователями (т. Е. Словами-предшественниками и последователями). После того, как все слова аннотированы и устранены неоднозначности, их можно использовать в обучающем корпусе в любой стандартной технике встраивания словосочетаний. В своей улучшенной версии MSSA может использовать вложения смысла слова для итеративного повторения процесса устранения неоднозначности.

Другие подходы

Другие подходы могут отличаться по своим методам:

Устранение неоднозначности на основе операционной семантики логики по умолчанию.
Устранение неоднозначности на основе предметной области;
Идентификация доминирующих смыслов слов;
WSD с использованием кросс- языковых свидетельств.
Решение WSD в независимом от языка NLU Джона Болла, объединяющее теорию патома [1] и RRG (Role and Reference Grammar)
Вывод типа в грамматиках на основе ограничений

Другие языки

Хинди : Отсутствие лексические ресурсы на хинди препятствовали работе контролируемых моделей WSD, в то время как неконтролируемые модели страдают из-за обширной морфологии. Возможное решение этой проблемы - создание модели WSD с помощью параллельных корпусов. Создание хинди WordNet проложило путь для нескольких контролируемых методов, как было доказано, более высокой точности в устранении неоднозначности существительных.

Местные препятствия и краткое содержание

Узкое место получения знаний - возможно, главное препятствие на пути решения проблемы WSD. Неконтролируемые методы представлены на знания о смыслах слов, которые очень редко сформулированы в словарях и лексических базах данных. Контролируемые методы в решающей степени зависят от наличия вручную аннотированных примеров для каждого смысла, требование, которое может быть выполнено только для нескольких слов в тестировании, как это сделано в Senseval упражнений.

Одно из самых многообещающих тенденций в исследовании WSD - это использование самого большого корпуса, когда-либо доступного, World Wide Web, для автоматического получения лексической информации. WSD традиционно понимает как технология разработки промежуточного языка, которая может улучшить такие приложения, как поиск информации (IR). Однако в этом случае верно и обратное: поисковые системы реализуют простые и надежные методы IR, которые могут успешно добывать в Интернете информацию для использования в WSD. Историческая нехватка обучающих данных спровоцировала появление новых алгоритмов и методов, как описано в Автоматическое получение корпусов с тегами смысла.

Внешние источники <знания247>
Знания - фундаментальный компонент WSD. Источники предоставляют данные, которые необходимы для связи смыслов со словами. Они могут анализироваться от корпусов текстов, без надписей или аннотированных смыслами слов, до машиночитаемых словрей, тезаурусов, глоссариев, онтологий и т. Д. Можно классифицировать следующим образом:

Структурированные:
Машинные- читаемые словари (MRD)
Онтологии
Тезаурусы
Неструктурированные:
Ресурсы для совместного размещения
Другие ресурсы (например, списки частотности слов, списки стоп-слов и т. Д.)
Корпуса : необработанные корпуса и корпуса с сенсорными комментариями

Оценка

Сравнение и оценка различных систем WSD ужаснительны из-за различных наборов тестов, наборов чувств и т. д. и ресурсы знаний приняты. До организации оценочных систем оценивания на внутренних, часто небольших, наборах данных. Чтобы проверить свой алгоритм, разработчики должны тратить время на аннотирование всех в поисках слов. И сравнение методов даже в одном и том же корпусе недопустимо, если есть разные смысловые инвентаризации.

Для определения общих наборов данных и оценки были организованы общественные оценочные кампании. Senseval (теперь переименованный в SemEval ) - это международный конкурс по устранению неоднозначности, который проводится каждые три года с 1998 года: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) и его преемник, SemEval (2007). Целью конкурса является организация различных лекций, подготовка и ручное аннотирование корпуса для тестовых систем, выполнение сравнительной оценки систем WSD в нескольких случаях, включая полнословный и лексический образец WSD для разных языков, а в последнее время, новые задачи, такие как обозначение семантических ролей, лексическая замена и т. д. Системы, представленные для оценки на эти соревнования, обычно объединяют различные методы и часто сочетаются контролируемые и основанные на знаниях методы (особенно для избегая плохой работы из-за отсутствия обучающих примеров).

В последние годы выбор задач оценки WSD увеличился, и критерий оценки WSD резко изменился в зависимости от варианта задачи оценки WSD. Ниже перечислено разнообразие задач WSD:

Выбор дизайна задачи

По мере развития технологий задачи устранения неоднозначности слов (WSD) становятся все более разнообразными в разных направлениях исследований и для большего количества языков:

Классические одноязычные оценочные задачи WSD используют WordNet в инвентарного анализа и в степени основаны на контролируемой / полууправляемой классификации с аннотированными корпусами вручную:
- Классический английский WSD использует Princeton WordNet, поскольку он обеспечивает инвентаризацию, входные данные первичной классификации обычно основаны на корпусе SemCor.
- Классический WSD для других языков использует свои соответствующие WordNet в качестве реестров смысла и корпусов с комментариями, помеченными на соответствующих языках. Часто исследователи также обращаются к корпусу SemCor и выравнивают битексты с английским, поскольку его исходным языком
Межъязыковая задача оценки WSD также сосредоточена на WSD на 2 или более языках одновременно. В отличие от многоязычных задач WSD, вместо предоставления вручную смысловых примеров для каждого смысла многозначного существительного, смысловой перечень строится на основе параллельных корпусов, например Europarl corpus.
Многоязычные оценочные задания WSD были сосредоточены на WSD на 2 или более языках одновременно, с использованием соответствующих WordNets в качестве смысловой инвентаризации или BabelNet в качестве многоязычной смысловой инвентаризации. Он возник на основе оценочных задач Translation WSD, которые выполнялись в Senseval-2. Популярным подходом является выполнение одноязычного WSD с последующим отображением смыслов исходного языка в соответствующие переводы целевых слов.
Задача наведения смысла слов и устранения неоднозначности - это комбинированная оценка задачи, при которой сначала индуцируется инвентаризация смысла из фиксированного обучающего набора данных, состоящего из многозначных слов и предложения, в котором они встречаются, затем WSD выполняется на другом наборе данных тестирования.

Программное обеспечение

Babelfy, унифицированная современная система для многоязычного устранения неоднозначности в словах и связывания сущностей
BabelNet API, Java API для многоязычного устранения неоднозначности в словах на основе знаний на 6 различных языках с использованием семантической сети BabelNet
WordNet :: SenseRelate, проект, который включает бесплатные системы с открытым исходным кодом для устранения неоднозначности смысла слов и устранения неоднозначности лексического образца
UKB: Graph Base WSD, набор программ для выполнения устранения неоднозначности в словах на основе графов и лексическое сходство / relatedness с использованием уже существующей базы лексических знаний
pyWSD, python, реализации технологий Word Sense Disambiguation (WSD)

См. также

Портал лингвистики

примечания

цитируемые работы

Agirre, E.; Lopez de Lacalle, A.; Сороа, А. (2009). «WSD, основанный на знаниях, в определенных доменах: более эффективный, чем общий контролируемый WSD» (PDF). Proc. из IJCAI. CS1 maint: ref = harv (ссылка )
Агирре, Э.; М. Стивенсон. 2006. Источники знаний для WSD. В Устранение неоднозначности в словах: алгоритмы и приложения, E. Agirre и P. Edmonds, Eds. Springer, New York, NY.
Bar-Hillel, Y. (1964). Язык и информация. Reading, MA: Addison-Wesley. CS1 maint: ref = harv (ссылка )
Buitelaar, P.; B. Magnini, C. Strapparava и P. Vossen. 2006. WSD для конкретных доменов. Устранение неоднозначности в словесном смысле: алгоритмы и приложения, Э. Агирре и П. Эдмондс, Eds. Springer, New York, NY.
Chan, YS; HT Ng. 2005. Расширение масштабов устранения неоднозначности слов с помощью параллельных текстов. In Proceedings of the 20th National Conference on Artificial Intelligence (AAAI, Pittsburgh, PA).
Эдмондс, П. 2000. Разработка задания для SENSEVAL-2. Техническое примечание. Университет Брайтона, Брайтон. Великобритания
Феллбаум, Кристиан (1997 "Анализ рукописного задания". Материалы семинара ANLP-97 по разметке текста с помощью лексической семантики: Why, Wh у, а как? Вашингтон, округ Колумбия, США. CS1 maint: ref = harv (ссылка )
Gliozzo, A.; B. Magnini and C. Strapparava. 2004. Неконтролируемая оценка релевантности предметной области для устранения неоднозначности смысла слов. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP, Barcelona, Spain).
Ide, N.; T. Erjavec, D. Tufis. 2002. Смысловая дискриминация с параллельные корпуса. In Proceedings of ACL Workshop on Word Sense Disambiguation: Recent Successes and Future Directions (Philadelphia, PA).
Kilgarriff, A. 1997. Я не верю в смысл слов. Comput. Human. 31 (2), pp. 91–113.
Kilgarriff, A.; G. Grefenstette. 2003. Введение в специальный выпуск в Интернете как корпус. Computational Linguistics 29 (3), pp. 333–347
Килгаррифф, Адам; Джозеф Розенцвейг, English Senseval: Report and Results, май – июнь, 2000 г., Брайтонский университет
Lapata, M.; and F. Keller. 2007. Информационно-поисковый подход к смысловому рангу Инж. In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL, Rochester, NY).
Ленат, Д. «Компьютеры против здравого смысла. «. Проверено 10 декабря 2008 г. (GoogleTachTalks на YouTube)
Lenat, D.; Р. В. Гуха. 1989. Построение больших систем, основанных на знаниях, Эддисон-Уэсли
Леск; М. 1986. Автоматическое устранение неоднозначности с использованием машиночитаемых словарей: Как отличить сосновую шишку от рожка мороженого. В Proc. SIGDOC-86: 5-я Международная конференция по системной документации, Торонто, Канада.
Литковски, К. С. 2005. Вычислительные лексиконы и словари. В Энциклопедии языка и лингвистики (2-е изд.), К. Р. Браун, под ред. Elsevier Publishers, Оксфорд, Великобритания
Магнини, Б. Г. Кавалья. 2000. Интеграция кодов предметных полей в WordNet. В материалах 2-й конференции по языковым ресурсам и оценке (LREC, Афины, Греция).
McCarthy, D.; Р. Кёлинг, Дж. Уидс, Дж. Кэрролл. 2007. Неконтролируемое приобретение преобладающих значений слов. Компьютерная лингвистика 33 (4): 553–590.
McCarthy, D.; Р. Навильи. 2009. The English Lexical Substitution Task, Language Resources and Evaluation, 43 (2), Springer.
Mihalcea, R. 2007. Использование Википедии для автоматического устранения неоднозначности слов. В Proc. Североамериканского отделения Ассоциации компьютерной лингвистики (NAACL 2007), Рочестер, апрель 2007 г.
Mohammad, S; Г. Херст. 2006. Определение преобладания смысла слов с использованием тезауруса. В материалах 11-й конференции Европейского отделения Ассоциации компьютерной лингвистики (EACL, Тренто, Италия).
Navigli, R. 2006. Значимая кластеризация смыслов помогает повысить эффективность устранения неоднозначности слов. Proc. 44-го ежегодного собрания Ассоциации компьютерной лингвистики совместно с 21-й Международной конференцией по компьютерной лингвистике (COLING-ACL 2006), Сидней, Австралия.
Navigli, R.; А. Ди Марко. Кластеризация и диверсификация результатов веб-поиска с помощью Word Sense Induction на основе графиков. Компьютерная лингвистика, 39 (3), MIT Press, 2013, стр. 709–754.
Navigli, R.; Г. Крисафулли. Использование словесных чувств для улучшения кластеризации результатов веб-поиска. Proc. конференции 2010 г. по эмпирическим методам обработки естественного языка (EMNLP 2010), MIT Stata Center, Массачусетс, США.
Navigli, R.; М. Лапата. Экспериментальное исследование связности графов для неконтролируемого устранения неоднозначности смысла слов. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32 (4), IEEE Press, 2010.
Navigli, R.; К. Литковски, О. Харгрейвс. 2007. SemEval-2007 Задание 07: Общее задание на английском языке со всеми словами. Proc. семинара Semeval-2007 (SemEval ) на 45-м ежегодном собрании Ассоциации компьютерной лингвистики (ACL 2007), Прага, Чешская Республика.
Navigli, R.; P. Веларди. 2005. Структурные семантические взаимосвязи: основанный на знаниях подход к устранению смысловой неоднозначности. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 27 (7).
Palmer, M.; О. Бабко-Малая и Х. Т. Данг. 2004. Различная степень детализации для разных приложений. В материалах 2-го семинара по масштабируемым системам понимания естественного языка в HLT / NAACL (Бостон, Массачусетс).
Ponzetto, S.P.; Р. Навильи. Богатый знаниями Word Sense Disambiguation, конкурирующий с контролируемыми системами. В Proc. 48-го Annual Meeting of the Association for Computational Linguistics (ACL), 2010.
Pradhan, S.; E. Loper, D. Dligach, M. Palmer. 2007. SemEval-2007 Task 17: English lexical sample, SRL and all words. Proc. of Semeval-2007 Workshop (SEMEVAL), in the 45th Annual Meeting of the Association for Computational Linguistics (ACL 2007), Prague, Czech Republic.
Schütze, H. 1998. Automatic word sense discrimination. Computational Linguistics, 24(1): 97–123.
Snow, R.; S. Prakash, D. Jurafsky, A. Y. Ng. 2007. Learning to Merge Word Senses, Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL).
Snyder, B.; M. Palmer. 2004. The English all-words task. In Proc. of the 3rd International Workshop on the Evaluation of Systems for the Semantic Analysis of Text (Senseval-3), Barcelona, Spain.
Weaver, Warren (1949). "Translation" (PDF). In Locke, W.N.; Booth, A.D. (eds.). Machine Translation of Languages: Fourteen Essays. Cambridge, MA: MIT Press.CS1 maint: ref=harv (link )
Wilks, Y.; B. Slator, L. Guthrie. 1996. Electric Words: dictionaries, computers and meanings. Cambridge, MA: MIT Press.
Yarowsky, D. Word-sense disambiguation using statistical models of Roget's categories trained on large corpora. In Proc. of the 14th conference on Computational linguistics (COLING), 1992.
Yarowsky, D. 1995. Unsupervised word sense disambiguation rivaling supervised methods. In Proc. of the 33rd Annual Meeting of the Association for Computational Linguistics.

External links and suggested reading

Look up disambiguation in Wiktionary, the free dictionary.

Computational Linguistics Special Issue on Word Sense Disambiguation (1998)
Evaluation Exercises for Word Sense Disambiguation The de facto standard benchmarks for WSD systems.
Roberto Navigli. Word Sense Disambiguation: A Survey, ACM Computing Surveys, 41(2), 2 009, pp. 1–69. An up-to-date state of the art of the field.
Word Sense Disambiguation as defined in Scholarpedia
Word Sense Disambiguation: The State of the Art (PDF) A comprehensive overview By Prof. Nancy Ide Jean Véronis (1998).
Word Sense Disambiguation Tutorial, by Rada Mihalcea and Ted Pedersen (2005).
Well, well, well... Word Sense Disambiguation with Google n-Grams, by Craig Trim (2013).
Word Sense Disambiguation: Algorithms and Applications, edited by Eneko Agirre and Philip Edmonds (2006), Springer. Covers the entire field with chapters contributed by leading researchers. www.wsdbook.org site of the book
Bar-Hillel, Yehoshua. 1964. Language and Information. New York: Addison-Wesley.
Edmonds, Philip Adam Kilgarriff. 2002. Introduction to the special issue on evaluating word sense disambiguation systems. Journal of Natural Language Engineering, 8(4):279-291.
Edmonds, Philip. 2005. Lexical disambiguation. The Elsevier Encyclopedia of Language and Linguistics, 2nd Ed., ed. by Keith Brown, 607-23. Oxford: Elsevier.
Ide, Nancy Jean Véronis. 1998. Word sense disambiguation: The state of the art. Computational Linguistics, 24(1):1-40.
Jurafsky, Daniel James H. Martin. 2000. Speech and Language Processing. New Jersey, USA: Prentice Hall.
Litkowski, K. C. 2005. Computational lexicons and dictionaries. In Encyclopaedia of Language and Linguistics (2nd ed.), K. R. Brown, Ed. Elsevier Publishers, Oxford, U.K., 753–761.
Manning, Christopher D. Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press. Foundations of Statistical Natural Language Processing
Mihalcea, Rada. 2007. Word sense disambiguation. Encyclopedia of Machine Learning. Springer-Verlag.
Resnik, Philip and David Yarowsky. 2000. Distinguishing systems and distinguishing senses: New evaluation methods for word sense disambiguation, Natural Language Engineering, 5(2):113-133. [2]
Yarowsky, David. 2001. Word sense disambiguation. Handbook of Natural Language Processing, ed. by Dale et al., 629-654. New York: Marcel Dekker.