Оценка машинного перевода

редактировать

Были использованы различные методы оценки для машинного перевода . В этой статье основное внимание уделяется оценке результатов машинного перевода, а не оценке производительности или удобства использования.

Содержание

1 Круговой перевод
2 Оценка персонала
- 2.1 Консультативный комитет по автоматической обработке языков (ALPAC)
- 2.2 Агентство перспективных исследовательских проектов (ARPA)
3 Автоматическая оценка
- 3.1 BLEU
- 3.2 NIST
- 3.3 Частота ошибок по словам
- 3.4 METEOR
- 3.5 LEPOR
4 См. Также
5 Примечания
6 Ссылки
7 Дополнительная литература
8 Программное обеспечение для автоматизированной оценки

Перевод туда и обратно

Обычный способ для непрофессионалов оценить качество машинного перевода - это выполнить перевод с исходного языка на целевой язык и обратно на исходный язык с помощью того же механизма. Хотя интуитивно это может показаться хорошим методом оценки, было показано, что перевод туда и обратно является «плохим показателем качества». Причина, по которой это такой плохой предсказатель качества, достаточно интуитивна. При двустороннем переводе тестируется не одна система, а две системы: языковая пара движка для перевода на целевой язык и языковая пара, переводящая обратно с целевого языка.

Рассмотрим следующие примеры двустороннего перевода, выполненного с английского на итальянский и португальский из Somers (2005):

Оригинал текст	Выберите эту ссылку, чтобы перейти на нашу домашнюю страницу.
Переведено	Выбор этого коллеги для защиты домашней страницы.
Переведено назад	Выбирает это соединение для просмотра нашей домашней страницы.

Исходный текст	Tit for tat
Переведено	Melharuco para o tat
Переведено назад	Tit for tat

В первом примере где текст переведен на итальянский, а затем обратно на английский - английский текст значительно искажен, но итальянский можно использовать для перевода. Во втором примере текст, переведенный обратно на английский, идеален, но перевод на португальский не имеет смысла; Программа подумала, что «синица» была ссылкой на синица (птица), которая была предназначена для «тат», слова, которое она не понимала.

Хотя двусторонний перевод может быть полезен для создания «излишка удовольствия», методология недостаточна для серьезного изучения качества машинного перевода.

Оценка человека

В этом разделе рассматриваются два крупномасштабных оценочных исследования, которые оказали значительное влияние на сферу деятельности - исследование ALPAC 1966 г. и исследование ARPA.

Консультативный комитет по автоматической обработке языков (ALPAC)

Одной из составных частей отчета ALPAC было исследование, в котором сравнивались различные уровни человеческого перевода с результатами машинного перевода с использованием людей в качестве судей. Судьи-люди были специально обучены для этой цели. В оценочном исследовании сравнивали систему машинного перевода, переводящую с русский на английский, с переводчиками-людьми по двум переменным.

Изучаемыми переменными были «разборчивость» и «верность». Разборчивость была мерой того, насколько «понятным» было предложение, и оценивалась по шкале от 1 до 9. Верность была мерой того, сколько информации сохранилось в переведенном предложении по сравнению с оригиналом, и измерялась по шкале от 0 до 9. Каждая точка на шкале была связана с текстовым описанием. Например, оценка 3 по шкале разборчивости была описана как «В целом неразборчиво; это имеет тенденцию восприниматься как бессмыслица, но после значительного размышления и изучения можно, по крайней мере, выдвинуть гипотезу, которую подразумевает предложение».>Разборчивость измерялась без ссылки на оригинал, а верность - косвенно. Было представлено переведенное предложение, и после его прочтения и усвоения содержания было представлено исходное предложение. Судьям было предложено оценить исходный приговор по информативности. Итак, чем информативнее исходное предложение, тем ниже качество перевода.

Исследование показало, что переменные сильно коррелировали, когда человеческое суждение усреднялось по каждому предложению. Различие между оценщиками было небольшим, но исследователи рекомендовали использовать как минимум трех или четырех оценщиков. Методология оценки позволила легко отделить переводы, выполненные людьми, от переводов, выполняемых машинами.

В исследовании сделан вывод, что «можно сделать высоконадежные оценки качества человеческих и машинных переводов».

Агентство перспективных исследовательских проектов (ARPA)

В рамках Программа Human Language Technologies Programme Агентство перспективных исследовательских проектов (ARPA) разработала методологию оценки систем машинного перевода и продолжает проводить оценки на основе этой методологии. Программа оценки была начата в 1991 году и продолжается по сей день. Подробности программы можно найти в White et al. (1994) и Белый (1995).

Программа оценки включала тестирование нескольких систем на основе различных теоретических подходов; статистические, основанные на правилах и с участием человека. Ряд методов оценки результатов этих систем был протестирован в 1992 году, и самые последние подходящие методы были отобраны для включения в программы на последующие годы. Методы были; оценка понимания, оценка группой качества и оценка, основанная на адекватности и беглости.

Оценка понимания направлена на прямое сравнение систем, основанных на результатах тестов на понимание прочитанного с множественным выбором, как в Church et al. (1993). Выбранные тексты представляли собой набор статей на английском языке на тему финансовых новостей. Эти статьи были переведены профессиональными переводчиками на несколько языковых пар, а затем переведены обратно на английский язык с помощью систем машинного перевода. Было решено, что этого недостаточно для отдельного метода сравнения систем, и поэтому от него отказались из-за проблем с изменением значения в процессе перевода с английского языка.

Идея экспертной оценки качества заключалась в том, чтобы представить переводы группе экспертов, носителей английского языка, которые были профессиональными переводчиками, и заставить их оценить их. Оценки проводились на основе метрики, смоделированной на основе стандартной метрики правительства США, используемой для оценки переводов, выполняемых человеком. Это было хорошо с той точки зрения, что метрика была «внешне мотивированной», поскольку она не была специально разработана для машинного перевода. Однако групповую оценку качества было очень сложно организовать с точки зрения логистики, так как для этого требовалось собрать несколько экспертов в одном месте на неделю или более, и, кроме того, для достижения консенсуса. От этого метода тоже отказались.

Наряду с модифицированной формой оценки понимания (переименованной в оценку информативности), наиболее популярным методом было получение оценок от одноязычных судей для сегментов документа. Судьям был представлен сегмент, и их попросили оценить его по двум переменным: адекватность и беглость. Адекватность - это оценка того, сколько информации передается между оригиналом и переводом, а беглость - это оценка того, насколько хорошо английский. Было обнаружено, что этот метод охватывает соответствующие части оценки группой качества, но в то же время его проще использовать, поскольку он не требует экспертной оценки.

Системы измерения, основанные на адекватности и беглости, наряду с информативностью, теперь являются стандартной методологией для программы оценки ARPA.

Автоматическая оценка

В контексте этой статьи метрика - это измерение. Метрика, которая оценивает вывод машинного перевода, представляет качество вывода. Качество перевода по своей сути субъективно, объективного или измеримого «хорошего» нет. Следовательно, любая метрика должна назначать оценки качества, чтобы они коррелировали с человеческим мнением о качестве. То есть метрика должна высоко оценивать переводы, которые люди высоко оценивают, и давать низкие оценки тем людям, которые дают низкие оценки. Человеческое суждение является эталоном для оценки автоматических показателей, поскольку люди являются конечными пользователями любых результатов перевода.

Мерой оценки показателей является корреляция с человеческим суждением. Обычно это делается на двух уровнях, на уровне предложения, где баллы рассчитываются по метрике для набора переведенных предложений, а затем соотносятся с человеческим суждением для тех же предложений. И на уровне корпуса, где оценки по предложениям агрегируются как для человеческих суждений, так и для метрических суждений, и эти агрегированные оценки затем коррелируются. Цифры корреляции на уровне предложения сообщаются редко, хотя Banerjee et al. (2005) приводят цифры корреляции, которые показывают, что, по крайней мере, для их метрики, корреляция на уровне предложений значительно хуже, чем корреляция на уровне корпуса.

Хотя широко об этом не сообщается, было отмечено, что жанр или домен текста влияет на корреляцию, полученную при использовании показателей. Кафлин (2003) сообщает, что сравнение текста-кандидата с переводом одной ссылки не оказывает отрицательного влияния на корреляцию показателей при работе с текстом ограниченной области.

Даже если метрика хорошо коррелирует с человеческим мнением в одном исследовании по одному корпусу, эта успешная корреляция не может быть перенесена на другой корпус. Хорошая производительность метрики для разных типов текста или доменов важна для повторного использования метрики. Метрика, которая работает только для текста в определенном домене, полезна, но менее полезна, чем метрика, которая работает во многих доменах, потому что создание новой метрики для каждой новой оценки или домена нежелательно.

Еще одним важным фактором полезности метрики оценки является наличие хорошей корреляции даже при работе с небольшими объемами данных, то есть предложениями-кандидатами и справочными переводами. Туриан и др. (2003) отмечают, что «любая мера оценки МП менее надежна при более коротких переводах», и показывают, что увеличение объема данных повышает надежность показателя. Однако они добавляют, что «... надежность более коротких текстов, таких как одно предложение или даже одна фраза, очень желательна, потому что надежная мера оценки MT может значительно ускорить исследовательский анализ данных».

Banerjee et al.. (2005) выделяют пять атрибутов, которыми должна обладать хорошая автоматическая метрика; корреляция, чувствительность, последовательность, надежность и универсальность. Любая хорошая метрика должна сильно коррелировать с человеческим суждением, она должна быть последовательной, давая аналогичные результаты той же системе машинного перевода для аналогичного текста. Он должен быть чувствительным к различиям между системами машинного перевода и надежным в том смысле, что системы машинного обучения, набравшие одинаковую оценку, должны работать одинаково. Наконец, метрика должна быть общей, то есть она должна работать с разными текстовыми доменами, в широком диапазоне сценариев и задач MT.

Цель этого подраздела - дать обзор современного состояния автоматических показателей для оценки машинного перевода.

BLEU

BLEU был одним из первых показателей сообщить о высокой корреляции с человеческими оценками качества. В настоящее время метрика является одной из самых популярных в данной области. Основная идея этой метрики заключается в том, что «чем ближе машинный перевод к профессиональному человеческому переводу, тем он лучше». Метрика подсчитывает баллы для отдельных сегментов, обычно предложений, а затем усредняет эти баллы по всему корпусу для получения окончательной оценки. Было показано, что это сильно коррелирует с человеческими суждениями о качестве на уровне корпуса.

BLEU использует модифицированную форму точности для сравнения перевода кандидата с несколькими ссылочными переводами. Показатель изменяет простую точность, поскольку известно, что системы машинного перевода генерируют больше слов, чем содержится в справочном тексте. Ни одна другая метрика машинного перевода пока не может значительно превзойти BLEU в отношении корреляции с человеческим мнением по языковым парам.

NIST

Метрика NIST основана на метрике BLEU, но с некоторыми переделками. Где BLEU просто вычисляет точность n-грамм, добавляя равный вес каждому из них, NIST также вычисляет, насколько информативным является конкретный n-грамм. То есть, когда найден правильный n-грамм, чем реже встречается n-грамм, тем больший вес ему придается. Например, если биграмма "на" правильно совпадает, она получает меньший вес, чем правильное сопоставление биграммы "интересные вычисления", так как это менее вероятно. NIST также отличается от BLEU расчетом штрафа за краткость, поскольку небольшие вариации длины перевода не так сильно влияют на общую оценку.

Коэффициент ошибок в словах

Коэффициент ошибок в словах (WER) - это показатель, основанный на расстоянии Левенштейна, где расстояние Левенштейна работает на уровне символа, WER работает на уровень слова. Первоначально он использовался для измерения производительности систем распознавания речи, но также используется для оценки машинного перевода. Показатель основан на подсчете количества слов, которые различаются между частью машинно-переведенного текста и справочным переводом.

Связанный показатель - это независимая от позиции частота ошибок слова (PER), которая позволяет переупорядочивать слова и последовательности слов между переведенным текстом и справочным переводом.

METEOR

Метрика METEOR предназначена для устранения некоторых недостатков, присущих метрике BLEU. Показатель основан на взвешенном гармоническом среднем точности униграммы и вызове униграммы. Метрика была разработана после исследования Лави (2004) значимости отзыва в оценочных показателях. Их исследование показало, что показатели, основанные на воспоминаниях, неизменно обеспечивают более высокую корреляцию, чем показатели, основанные только на точности, ср. BLEU и NIST.

METEOR также включает некоторые другие функции, которые не встречаются в других показателях, например сопоставление синонимии, где вместо сопоставления только по точной словоформе метрика также сопоставляется по синонимам. Например, слово «хорошо» в справочной визуализации и «хорошо» в переводе считается совпадением. Метрика также включает в себя стеммер, который лемматизирует слова и совпадения в лемматизированных формах. Реализация метрики является модульной, поскольку алгоритмы сопоставления слов реализуются в виде модулей, а новые модули, реализующие различные стратегии сопоставления, могут быть легко добавлены.

LEPOR

Новая метрика оценки MT LEPOR была предложена как комбинация множества факторов оценки, включая существующие (точность, отзыв) и модифицированные (штраф за длину предложения и слово на основе n-граммов). заказ штрафа). Эксперименты были протестированы на восьми языковых парах из ACL-WMT2011, включая английский-другой (испанский, французский, немецкий и чешский) и обратное, и показали, что LEPOR дает более высокую корреляцию на системном уровне с человеческими суждениями, чем несколько существующих показателей, таких как BLEU, Meteor-1.3, TER, AMBER и MP4IBM1. В статье представлена расширенная версия метрики LEPOR, hLEPOR. hLEPOR использует среднее гармоническое для комбинирования подфакторов разработанной метрики. Кроме того, они разрабатывают набор параметров для настройки весов субфакторов в соответствии с различными языковыми парами. Результаты общих задач ACL-WMT13 Metrics показывают, что hLEPOR дает наивысший балл корреляции Пирсона с человеческим суждением о языковой паре английский-русский в дополнение к наивысшему среднему баллу по пяти языковым парам (английский-немецкий, французский, Испанский, чешский, русский). Подробные результаты задачи WMT13 Metrics Task представлены в документе.

Существуют некоторые исследования по оценке машинного перевода, в которых люди более подробно рассказывают о том, какие методы оценки используются людьми и как они работают, например разборчивость, точность, беглость, адекватность, понимание и информативность и т. д. Для автоматических оценок также были сделаны некоторые четкие классификации, такие как методы лексического сходства, применение лингвистических характеристик и подполя этих двух аспектов. Например, для лексического сходства он содержит расстояние редактирования, точность, отзыв и порядок слов; Что касается языкового признака, он делится на синтаксический признак и семантический признак соответственно.

См. Также

Примечания

Ссылки

Дополнительная литература

Архив машинного перевода: Тема Индекс: Публикации после 2000 г. (см. Подзаголовок «Оценка»)
Архив машинного перевода: Предметный указатель: Публикации до 2000 г. (см. Подзаголовок «Оценка»)
Оценка машинного перевода: Обзор: Публикации до 2015 г.

Программное обеспечение для автоматизированной оценки