В лингвистике, кореференция, иногда обозначаемая как со-ссылка, возникает, когда два или более выражения в тексте относятся к одному и тому же человеку или предмету; у них одинаковый референт, например Билл сказал, что придет; имя собственное Билл и местоимение он относятся к одному и тому же человеку, а именно к Биллу. Coreference - это основная концепция, лежащая в основе явлений привязки в области синтаксиса. Теория связывания исследует синтаксические отношения, существующие между коререференциальными выражениями в предложениях и текстах. Когда два выражения являются кореференциальными, одно обычно представляет собой полную форму (антецедент ), а другое - сокращенную форму (проформа или анафора). Лингвисты используют индексы, чтобы показать кореферентность, как в случае с индексом i в примере Билл i сказал, что он i придет. Два выражения с одной и той же ссылкой коиндексированы, следовательно, в этом примере Билл и он коиндексированы, что указывает на то, что их следует интерпретировать как коререференциальные.
При изучении кореферентность, можно сделать множество различий, например анафора, катафора, расщепленные антецеденты, сопоставление именных фраз и т. Д. При работе с проформами (местоимениями, пословицами, про-прилагательные и т. Д.) Различают анафору и катафору. Когда проформа следует за выражением, к которому она относится, присутствует анафора (проформа - это анафора), а когда она предшествует выражению, к которому она относится, присутствует катафора (проформа - это катафора). Эти понятия проиллюстрированы следующим образом:
Семантики и логики иногда проводят различие между кореферентностью и тем, что известно как связанная переменная. Экземпляр связанной переменной может выглядеть как кореферент, но с технической точки зрения можно утверждать, что на самом деле это не так. Связанные переменные возникают, когда антецедентом проформы является неопределенное количественное выражение, например
Количественные выражения, например, каждый студент и ни один студент, с технической точки зрения, не являются ссылочными. Предметы, которые каждый ученик и ни один ученик грамматически уникальны, но они не выделяют единичных референтов в мире дискурса. Таким образом, поскольку антецеденты притяжательного прилагательного his не являются референциальными, нельзя также сказать, что his является референциальным. Вместо этого говорят, что это переменная, связанная со своим антецедентом. Его ссылка варьируется в зависимости от того, о каком из учеников в мире дискурса думают. Если Джек, Джон и Джерри являются тремя учениками в мире дискурса, то значение его слов варьируется в зависимости от того, находится ли в центре внимания Джек, Джон или Джерри. Существование связанных переменных, возможно, более очевидно на следующем примере:
Это предложение неоднозначно. Это может означать, что Джеку нравится его оценка, но всем остальным не нравится оценка Джека, или, что более вероятно, это означает, что Джеку нравится его оценка, но Джону не нравится его (Джона) оценка, а Джерри не нравится его (Джерри) оценка. Второе, более естественное чтение - это чтение связанной переменной. Хотя различие между кореферентными и связанными переменными может быть реальным, коиндексация может быть истолкована как согласование обоих. То есть, когда два или более выражения коиндексированы, это указывает, что одно имеет дело с кореферентностью или связанной переменной.
В компьютерной лингвистике разрешение кореферентности является хорошо изученной проблемой в дискурсе. Чтобы получить правильную интерпретацию текста или даже оценить относительную важность различных упомянутых предметов, местоимения и другие ссылающиеся выражения должны быть связаны с нужными людьми. Алгоритмы, предназначенные для разрешения кореференций, обычно сначала ищут ближайшего предыдущего человека, совместимого с ссылающимся выражением. Например, она может привязаться к предыдущему выражению, например, женщина или Анна, но не к Биллу. Такие местоимения, как он, имеют гораздо более строгие ограничения. Как и во многих лингвистических задачах, существует компромисс между точностью и напоминанием, расчет которого может варьироваться, поскольку не существует единого алгоритма для измерения качества цепочек кореферентных ссылок. Кластерные метрики качества, обычно используемые для оценки алгоритмов разрешения кореферентности, - это индекс Рэнда, скорректированный индекс Рэнда или различные методы на основе взаимной информации.
Классическая проблема разрешения кореферентности в английском языке - это местоимение it, которое имеет множество применений. Он может относиться во многом так же, как он и она, за исключением того, что обычно относится к неодушевленным объектам (правила на самом деле более сложные: животные могут быть любыми из них, он или она; корабли традиционно - она; ураганы обычно это, несмотря на гендерные имена). Он также может относиться к абстракциям, а не к существам, например Ему платили минимальную зарплату, но, похоже, он не возражал. Наконец, у него также есть плеонастические употребления, которые не относятся ни к чему конкретному:
Плеонастические использования не считаются ссылочными и, следовательно, не являются частью кореферентности.
Подходы к разрешению кореферентности можно широко разделить в алгоритмы пар упоминаний, ранжирования упоминаний или сущностей. Алгоритмы пар упоминаний включают бинарные решения, если пара из двух заданных упоминаний принадлежит одному и тому же объекту. Ограничения для всей сущности, такие как пол, не учитываются, что приводит к распространению ошибки. Например, местоимения он или она могут иметь высокую вероятность кореферентности с учителем, но не могут быть кореферентны друг другу. Алгоритмы ранжирования упоминаний расширяют эту идею, но вместо этого предусматривают, что одно упоминание может быть сопряжено только с одним (предыдущим) упоминанием. В результате каждому предыдущему упоминанию должна быть присвоена оценка, а упоминание с наивысшей оценкой (или отсутствие упоминания) должно быть привязано. Наконец, в методах на основе сущностей упоминания связаны на основе информации всей цепочки кореференции, а не отдельных упоминаний. Представление цепочки переменной ширины является более сложным и затратным с точки зрения вычислений, чем методы, основанные на упоминаниях, что приводит к тому, что эти алгоритмы в основном основаны на архитектурах нейронных сетей.