Coreference

редактировать
Два или более выражений в тексте с одним и тем же референтом

В лингвистике, кореференция, иногда обозначаемая как со-ссылка, возникает, когда два или более выражения в тексте относятся к одному и тому же человеку или предмету; у них одинаковый референт, например Билл сказал, что придет; имя собственное Билл и местоимение он относятся к одному и тому же человеку, а именно к Биллу. Coreference - это основная концепция, лежащая в основе явлений привязки в области синтаксиса. Теория связывания исследует синтаксические отношения, существующие между коререференциальными выражениями в предложениях и текстах. Когда два выражения являются кореференциальными, одно обычно представляет собой полную форму (антецедент ), а другое - сокращенную форму (проформа или анафора). Лингвисты используют индексы, чтобы показать кореферентность, как в случае с индексом i в примере Билл i сказал, что он i придет. Два выражения с одной и той же ссылкой коиндексированы, следовательно, в этом примере Билл и он коиндексированы, что указывает на то, что их следует интерпретировать как коререференциальные.

Содержание

  • 1 Типы
  • 2 По сравнению с привязанными переменными
  • 3 Разрешение Coreference
  • 4 См. Также
  • 5 Примечания
  • 6 Ссылки

Типы

При изучении кореферентность, можно сделать множество различий, например анафора, катафора, расщепленные антецеденты, сопоставление именных фраз и т. Д. При работе с проформами (местоимениями, пословицами, про-прилагательные и т. Д.) Различают анафору и катафору. Когда проформа следует за выражением, к которому она относится, присутствует анафора (проформа - это анафора), а когда она предшествует выражению, к которому она относится, присутствует катафора (проформа - это катафора). Эти понятия проиллюстрированы следующим образом:

Анафора
а. Музыка iбыла настолько громкой, что itiнельзя было наслаждаться. - анафора, которую следует за выражением, на которое она ссылается (ее антецедент).
b. Наши соседи iне любят музыку. Если они iразозлятся, скоро появятся копы. - Анафора, которую они следует за выражением, к которому она относится (ее антецедент).
Катафора
a. Если они iзлятся на музыку, соседи iвызовут полицию. - Катафора они предшествует выражению, к которому она относится (его постцедент).
b. Несмотря на ее iтрудности, Вильма iпришла к пониманию сути дела. - Катафора ее предшествует выражению, к которому она относится (его постцедент)
Разделить антецеденты
a. Кэрол iвелела Бобу iприсутствовать на вечеринке. Они iприбыли вместе. - Анафора, которую они разделяют, относится как к Кэрол, так и к Бобу.
b. Когда Кэрол iпомогает Бобу iи Боб iпомогает Кэрол i,, они iмогут выполнить любую задачу. - анафора, у них есть разделенная антецедент, относящаяся как к Кэрол, так и к Бобу.
Coreferring существительных фраз
a. Руководитель проекта iотказывается помочь. Этот придурок iдумает только о себе. - Coreferring существительных фраз, при этом вторая именная фраза является предикатом по сравнению с первой.
b. Некоторые из наших коллег 1будут поддерживать. Такие люди 1заслужат нашу благодарность. - Coreferring именных фраз, при этом вторая именная фраза является предикатом по сравнению с первой.

В отличие от связанных переменных

Семантики и логики иногда проводят различие между кореферентностью и тем, что известно как связанная переменная. Экземпляр связанной переменной может выглядеть как кореферент, но с технической точки зрения можно утверждать, что на самом деле это не так. Связанные переменные возникают, когда антецедентом проформы является неопределенное количественное выражение, например

a. Каждый ученик iполучил свою iоценку. - Местоимение his является примером связанной переменной
b. Ни один ученик iне был расстроен своей iоценкой. - Местоимение his является примером связанной переменной

Количественные выражения, например, каждый студент и ни один студент, с технической точки зрения, не являются ссылочными. Предметы, которые каждый ученик и ни один ученик грамматически уникальны, но они не выделяют единичных референтов в мире дискурса. Таким образом, поскольку антецеденты притяжательного прилагательного his не являются референциальными, нельзя также сказать, что his является референциальным. Вместо этого говорят, что это переменная, связанная со своим антецедентом. Его ссылка варьируется в зависимости от того, о каком из учеников в мире дискурса думают. Если Джек, Джон и Джерри являются тремя учениками в мире дискурса, то значение его слов варьируется в зависимости от того, находится ли в центре внимания Джек, Джон или Джерри. Существование связанных переменных, возможно, более очевидно на следующем примере:

c. Только Джеку iнравится его iоценка. - Местоимение его может быть связанной переменной.

Это предложение неоднозначно. Это может означать, что Джеку нравится его оценка, но всем остальным не нравится оценка Джека, или, что более вероятно, это означает, что Джеку нравится его оценка, но Джону не нравится его (Джона) оценка, а Джерри не нравится его (Джерри) оценка. Второе, более естественное чтение - это чтение связанной переменной. Хотя различие между кореферентными и связанными переменными может быть реальным, коиндексация может быть истолкована как согласование обоих. То есть, когда два или более выражения коиндексированы, это указывает, что одно имеет дело с кореферентностью или связанной переменной.

Разрешение кореферентности

В компьютерной лингвистике разрешение кореферентности является хорошо изученной проблемой в дискурсе. Чтобы получить правильную интерпретацию текста или даже оценить относительную важность различных упомянутых предметов, местоимения и другие ссылающиеся выражения должны быть связаны с нужными людьми. Алгоритмы, предназначенные для разрешения кореференций, обычно сначала ищут ближайшего предыдущего человека, совместимого с ссылающимся выражением. Например, она может привязаться к предыдущему выражению, например, женщина или Анна, но не к Биллу. Такие местоимения, как он, имеют гораздо более строгие ограничения. Как и во многих лингвистических задачах, существует компромисс между точностью и напоминанием, расчет которого может варьироваться, поскольку не существует единого алгоритма для измерения качества цепочек кореферентных ссылок. Кластерные метрики качества, обычно используемые для оценки алгоритмов разрешения кореферентности, - это индекс Рэнда, скорректированный индекс Рэнда или различные методы на основе взаимной информации.

Классическая проблема разрешения кореферентности в английском языке - это местоимение it, которое имеет множество применений. Он может относиться во многом так же, как он и она, за исключением того, что обычно относится к неодушевленным объектам (правила на самом деле более сложные: животные могут быть любыми из них, он или она; корабли традиционно - она; ураганы обычно это, несмотря на гендерные имена). Он также может относиться к абстракциям, а не к существам, например Ему платили минимальную зарплату, но, похоже, он не возражал. Наконец, у него также есть плеонастические употребления, которые не относятся ни к чему конкретному:

a. идет дождь.
б. Это действительно позор.
c. Чтобы добиться успеха, нужно много работать.
d. Иногда самые громкие, имеют наибольшее влияние.

Плеонастические использования не считаются ссылочными и, следовательно, не являются частью кореферентности.

Подходы к разрешению кореферентности можно широко разделить в алгоритмы пар упоминаний, ранжирования упоминаний или сущностей. Алгоритмы пар упоминаний включают бинарные решения, если пара из двух заданных упоминаний принадлежит одному и тому же объекту. Ограничения для всей сущности, такие как пол, не учитываются, что приводит к распространению ошибки. Например, местоимения он или она могут иметь высокую вероятность кореферентности с учителем, но не могут быть кореферентны друг другу. Алгоритмы ранжирования упоминаний расширяют эту идею, но вместо этого предусматривают, что одно упоминание может быть сопряжено только с одним (предыдущим) упоминанием. В результате каждому предыдущему упоминанию должна быть присвоена оценка, а упоминание с наивысшей оценкой (или отсутствие упоминания) должно быть привязано. Наконец, в методах на основе сущностей упоминания связаны на основе информации всей цепочки кореференции, а не отдельных упоминаний. Представление цепочки переменной ширины является более сложным и затратным с точки зрения вычислений, чем методы, основанные на упоминаниях, что приводит к тому, что эти алгоритмы в основном основаны на архитектурах нейронных сетей.

См. Также

Примечания

Список литературы

  • Кристалл, Д. 1997. Словарь лингвистики и фонетики. 4-е издание. Кембридж, Массачусетс: издательство Blackwell Publishing.
  • Джурафски, Д. и Х. Мартин, 2000. Речевая и языковая обработка: Введение в обработку естественного языка, компьютерную лингвистику и распознавание речи. Нью-Дели, Индия: Pearson Education.
  • Портнер, П. 2005. Что такое семантика?: Основы формальной семантики. Малден, Массачусетс: Blackwell Publishing.
  • Рэдфорд, A. 2004. Английский синтаксис: введение. Кембридж, Великобритания: Издательство Кембриджского университета.
  • Ифань, Л., П. Мусилек, М. Реформат, и Л. Вярд-Скотт, 2009 г. Идентификация плеонастического языка с использованием сети. Journal of Artificial Intelligence Research 34, 339–389.
Последняя правка сделана 2021-05-15 12:23:14
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте