Перефразирование (компьютерная лингвистика)

редактировать
Эта статья про автоматическую генерацию и распознавание пересказов. Для использования в других целях, см Парафраз (значения).

Перефразирование или перефразирование в компьютерной лингвистике - это задача обработки естественного языка, заключающаяся в обнаружении и генерации перефразирования. Применения перефразирования разнообразны, включая поиск информации, ответы на вопросы, обобщение текста и обнаружение плагиата. Перефразирование также полезно при оценке машинного перевода, а также при семантическом анализе и создании новых образцов для расширения существующих корпусов.

СОДЕРЖАНИЕ

  • 1 Генерация парафраза
    • 1.1 Множественное выравнивание последовательностей
    • 1.2 Машинный перевод на основе фраз
    • 1.3 Долговременная кратковременная память
  • 2 Распознавание перефразирования
    • 2.1 Рекурсивные автоэнкодеры
    • 2.2 Пропускные векторы
  • 3 Оценка
  • 4 См. Также
  • 5 ссылки
  • 6 Внешние ссылки

Генерация парафраза

Множественное выравнивание последовательностей

Барзилай и Ли предложили метод перефразирования с использованием одноязычных параллельных корпусов, а именно новостных статей, освещающих одно и то же событие в один и тот же день. Обучение состоит из использования многопоследовательного выравнивания для генерации перефразирования на уровне предложения из неаннотированного корпуса. Это делается

  • обнаружение повторяющихся закономерностей в каждом отдельном корпусе, т. е. « X (раненых / раненых) Y человек, Z серьезно», где X, Y, Z - переменные
  • при нахождении пар между такими образцами представляют собой пересказы, например: « X (раненые / раненые) Y человек, Z серьезно» и « Y были (ранены / ранены) X, среди них Z были в тяжелом состоянии».

Это достигается путем первой кластеризации похожих предложений вместе с использованием n-граммового перекрытия. Повторяющиеся шаблоны обнаруживаются в кластерах с помощью выравнивания нескольких последовательностей. Затем положение аргументных слов определяется путем нахождения областей высокой изменчивости внутри каждого кластера, например, между словами, которые используются более чем в 50% предложений кластера. Затем пары между образцами находят путем сравнения одинаковых переменных слов в разных корпусах. Наконец, можно сгенерировать новые пересказы, выбрав соответствующий кластер для исходного предложения, а затем подставив аргумент исходного предложения в любое количество шаблонов в кластере.

Машинный перевод на основе фраз

Перефразирование также может быть произведено с помощью фразового перевода, предложенного Баннардом и Каллисон-Берч. Основная идея состоит в выравнивании фраз на основном языке для создания возможных перефразирований на языке оригинала. Например, фраза «под контролем» в предложении на английском языке совпадает с фразой «unter kontrolle» в ее немецком аналоге. Фраза «unter kontrolle» затем встречается в другом предложении на немецком языке с выровненной английской фразой «in check», перефразируя «под контролем».

Распределение вероятностей можно смоделировать как вероятностная фраза - это перефразирование, что эквивалентно суммированию по всем возможностям перевода фразы на основной язык. Кроме того, предложение добавляется до добавления контекста к пересказу. Таким образом, оптимальный пересказ можно смоделировать как: Pr ( е 2 | е 1 ) {\ Displaystyle \ Pr (е_ {2} | е_ {1})} е 2 {\ displaystyle e_ {2}} е 1 {\ displaystyle e_ {1}} Pr ( е 2 | ж ) Pr ( ж | е 1 ) {\ Displaystyle \ Pr (е_ {2} | е) \ Pr (е | е_ {1})} ж {\ displaystyle f} е 1 {\ displaystyle e_ {1}} е 2 ^ {\ displaystyle {\ hat {е_ {2}}}}

е 2 ^ знак равно аргумент Максимум е 2 е 1 Pr ( е 2 | е 1 , S ) знак равно аргумент Максимум е 2 е 1 ж Pr ( е 2 | ж , S ) Pr ( ж | е 1 , S ) {\ displaystyle {\ hat {e_ {2}}} = {\ text {arg}} \ max _ {e_ {2} \ neq e_ {1}} \ Pr (e_ {2} | e_ {1}, S) = {\ text {arg}} \ max _ {e_ {2} \ neq e_ {1}} \ sum _ {f} \ Pr (e_ {2} | f, S) \ Pr (f | e_ {1 }, S)}

Pr ( е 2 | ж ) {\ Displaystyle \ Pr (е_ {2} | е)}и могут быть аппроксимированы, просто взяв их частоты. Добавление в качестве предшествующего моделируется путем вычисления вероятности образования когда заменяется на. Pr ( ж | е 1 ) {\ Displaystyle \ Pr (е | е_ {1})} S {\ displaystyle S} S {\ displaystyle S} е 1 {\ displaystyle e_ {1}} е 2 {\ displaystyle e_ {2}}

Долговременная кратковременная память

Были успехи в использовании моделей долгой краткосрочной памяти (LSTM) для генерации перефразирований. Короче говоря, модель состоит из компонента кодера и декодера, которые реализованы с использованием вариаций сложенного остаточного LSTM. Во- первых, кодирование LSTM принимает один горячий кодирование всех слов в предложении в качестве входных данных и производит окончательный скрытый вектор, который можно рассматривать как представление входного предложения. Затем LSTM декодирования принимает скрытый вектор в качестве входных данных и генерирует новое предложение, заканчивающееся маркером конца предложения. Кодер и декодер обучены брать фразу и воспроизводить быстрое распределение соответствующего пересказа путем минимизации недоумения с помощью простого стохастического градиентного спуска. Новые пересказы генерируются путем ввода новой фразы в кодировщик и передачи вывода в декодер.

Распознавание парафраза

Рекурсивные автоэнкодеры

Распознавание парафраз было предпринято Socher et al с использованием рекурсивных автоэнкодеров. Основная идея состоит в том, чтобы создать векторное представление предложения вместе с его компонентами рекурсивно с использованием автоэнкодера. Векторные представления перефразирований должны иметь аналогичные векторные представления; они обрабатываются, а затем вводятся в нейронную сеть для классификации.

Для предложения со словами автокодировщик предназначен для приема 2- мерных вложений слов в качестве входных данных и создания -мерного вектора в качестве выходных данных. Один и тот же автоэнкодер применяется к каждой паре слов для создания векторов. Затем автоэнкодер рекурсивно применяется с новыми векторами в качестве входных данных до тех пор, пока не будет получен единственный вектор. При нечетном количестве входов первый вектор перенаправляется на следующий уровень рекурсии. Затем автоэнкодер обучается воспроизводить каждый вектор в полном дереве рекурсии, включая начальные вложения слов. W {\ displaystyle W} м {\ displaystyle m} п {\ displaystyle n} п {\ displaystyle n} S {\ displaystyle S} м / 2 {\ Displaystyle \ lfloor м / 2 \ rfloor}

Учитывая два предложения и длину 4 и 3 соответственно, автокодировщики будут создавать 7 и 5 векторных представлений, включая начальные вложения слов. Евклидово расстояния затем берется между каждой комбинацией векторов и для получения матрицы подобия. затем подвергается динамическому мини- пулингу для создания матрицы фиксированного размера. Поскольку все потенциальные предложения неодинаковы по размеру, он разбивается на примерно равные части. Затем выходной сигнал нормализуется до среднего 0 и стандартного отклонения 1 и подается на полностью связанный слой с выходом softmax. Динамическое объединение в модель softmax обучается с использованием пар известных парафраз. W 1 {\ displaystyle W_ {1}} W 2 {\ displaystyle W_ {2}} W 1 {\ displaystyle W_ {1}} W 2 {\ displaystyle W_ {2}} S р 7 × 5 {\ Displaystyle S \ in \ mathbb {R} ^ {7 \ times 5}} S {\ displaystyle S} п п × п п {\ displaystyle n_ {p} \ times n_ {p}} S {\ displaystyle S} S {\ displaystyle S} п п {\ displaystyle n_ {p}}

Пропускные векторы

Векторы пропуска мыслей - это попытка создать векторное представление семантического значения предложения аналогично модели пропуска грамматики. Векторы пропуска мыслей создаются с помощью модели пропуска мыслей, которая состоит из трех ключевых компонентов, кодировщика и двух декодеров. Учитывая корпус документов, модель пропуска мыслей обучается принимать предложение в качестве входных данных и кодировать его в вектор пропуска мыслей. Вектор пропуска мыслей используется в качестве входных данных для обоих декодеров, один из которых пытается воспроизвести предыдущее предложение, а другой - следующее предложение целиком. Кодер и декодер могут быть реализованы с использованием рекурсивной нейронной сети (RNN) или LSTM.

Поскольку пересказы несут одно и то же семантическое значение друг в друге, они должны иметь одинаковые векторы пропуска мыслей. Таким образом, простая логистическая регрессия может быть обучена с хорошей производительностью с абсолютной разницей и покомпонентным произведением двух векторов пропуска мыслей в качестве входных данных.

Оценка

Есть несколько методов, которые можно использовать для оценки перефразирования. Поскольку распознавание перефразирования может быть представлено как проблема классификации, большинство стандартных показателей оценки, таких как точность, оценка f1 или кривая ROC, работают относительно хорошо. Однако есть трудности с вычислением f1-score из-за проблем с составлением полного списка перефразирований для данной фразы, а также того факта, что хорошие пересказы зависят от контекста. Метрика, предназначенная для решения этих проблем, - ParaMetric. ParaMetric нацелен на вычисление точности и запоминания автоматической системы перефразирования путем сравнения автоматического выравнивания перефразирования с выравниванием аналогичных фраз вручную. Поскольку ParaMetric просто оценивает качество выравнивания фраз, его можно использовать для оценки систем генерации перефразирования, а также при условии, что выравнивание фраз используется как часть процесса генерации. Отмеченным недостатком ParaMetric является большой и исчерпывающий набор ручных корректировок, которые необходимо сначала создать, прежде чем можно будет произвести оценку.

Оценка генерации перефразирования имеет те же трудности, что и оценка машинного перевода. Часто качество пересказа зависит от его контекста, от того, используется ли он в качестве резюме и от того, как он создается, среди других факторов. Кроме того, хороший пересказ обычно лексически не похож на исходную фразу. Самый простой метод, используемый для оценки генерации перефразирования, - это использование людей-судей. К сожалению, оценка через человеческих судей обычно занимает много времени. Автоматизированные подходы к оценке оказываются сложной задачей, поскольку по сути это такая же сложная проблема, как распознавание перефразирования. Первоначально использовавшийся для оценки машинных переводов, дублер двуязычной оценки ( BLEU ) также успешно использовался для оценки моделей генерации перефразирования. Однако перефразирование часто имеет несколько лексически различных, но одинаково действенных решений, что вредит BLEU и другим аналогичным метрикам оценки.

Метрики, специально разработанные для оценки генерации перефразирования, включают перефразирование в изменении n-граммы (PINC) и метрику оценки перефразирования (PEM) вместе с вышеупомянутым ParaMetric. PINC разработан для использования вместе с BLEU и помогает скрыть его недостатки. Поскольку BLEU испытывает трудности с измерением лексического несходства, PINC - это измерение отсутствия n-граммового перекрытия между исходным предложением и потенциальным перефразированием. По сути, это расстояние Жаккара между предложениями, исключая n-граммы, которые появляются в исходном предложении для поддержания некоторой семантической эквивалентности. PEM, с другой стороны, пытается оценить «адекватность, беглость и лексическое несхожесть» перефразирований, возвращая эвристику с одним значением, вычисленную с использованием N-грамм перекрытия в сводном языке. Однако большой недостаток PEM заключается в том, что его необходимо обучать с использованием больших параллельных корпусов в домене, а также людей-судей. Другими словами, это равносильно обучению системы распознавания перефразирования, чтобы оценить систему генерации пересказа.

Набор данных Quora Question Pairs, содержащий сотни тысяч повторяющихся вопросов, стал обычным набором данных для оценки детекторов перефразирования. Все самые эффективные модели для обнаружения перефразирования за последние три года использовали архитектуру Transformer, и все они полагались на большое количество предварительных тренировок с более общими данными перед точной настройкой с помощью пар вопросов.

Смотрите также

использованная литература

внешние ссылки

  • Microsoft Research Paraphrase Corpus - набор данных, состоящий из 5800 пар предложений, извлеченных из новостных статей, с аннотациями, чтобы отметить, фиксирует ли пара семантическую эквивалентность.
  • База данных перефразирования (PPDB) - база данных с возможностью поиска, содержащая миллионы перефразирований на 16 различных языках.
Последняя правка сделана 2023-03-21 05:50:40
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте