BLEU

редактировать

Алгоритм оценки качества машинно-переведенного текста

BLEU (дублер оценки двуязычных ) представляет собой алгоритм оценки качества текста, который был переведен машиной с одного естественного языка на другой. Под качеством понимается соответствие результатов работы машины и человека: «чем ближе машинный перевод к профессиональному человеческому переводу, тем он лучше» - это центральная идея BLEU. BLEU был одним из первых показателей, заявивших о высокой корреляции с человеческими оценками качества, и остается одним из самых популярных автоматизированных и недорогих показателей.

Баллы рассчитываются для отдельных переведенных сегментов - обычно предложений - путем сравнения их с набором качественных справочных переводов. Эти оценки затем усредняются по всему корпусу, чтобы оценить общее качество перевода. Разборчивость или грамматическая правильность не учитываются.

Вывод BLEU всегда представляет собой число от 0 до 1. Это значение указывает, насколько похож текст-кандидат на справочные тексты, причем значения, близкие к 1, представляют собой более похожие тексты. Некоторые переводы, выполненные человеком, получат 1 балл, поскольку это будет означать, что кандидат идентичен одному из эталонных переводов. По этой причине нет необходимости получать оценку 1. Поскольку существует больше возможностей для сопоставления, добавление дополнительных переводов ссылок увеличит оценку BLEU.

Алгоритм

BLEU использует измененный форма точности для сравнения перевода кандидата с несколькими переводами справочника. Этот показатель изменяет простую точность, поскольку известно, что системы машинного перевода генерируют больше слов, чем в справочном тексте. Это проиллюстрировано в следующем примере от Papineni et al. (2002),

Пример плохого машинного перевода с высокой точностью
Кандидат		the	the	the
Ссылка 1		cat	is	on		мат
Ссылка 2	здесь	is	a	cat	on	the	mat

Из семи слов в переводе-кандидате все они появляются в ссылочных переводах. Таким образом, тексту-кандидату дается точность униграммы,

P = mwt = 7 7 = 1 {\ displaystyle P = {\ frac {m} {w_ {t}}} = {\ frac {7} {7} } = 1}

P = \ frac {m} {w_ {t}} = \ frac {7} {7} = 1

где $m {\ displaystyle ~ m}$ $~ m$ - количество слов из кандидата, найденных в справочнике, а $wt {\ displaystyle ~ w_ {t }}$ $~ w_ {t}$ - общее количество слов в кандидате. Это наивысший балл, несмотря на то, что в приведенном выше переводе кандидата мало что осталось от любой из ссылок.

Модификация, которую делает BLEU, довольно проста. Для каждого слова в переводе-кандидате алгоритм берет максимальное общее количество, $m m a x {\ displaystyle ~ m_ {max}}$ $~ m_ {max}$ , в любом из справочных переводов. В приведенном выше примере слово «the» дважды встречается в ссылке 1 и один раз в ссылке 2. Таким образом, $mmax = 2 {\ displaystyle ~ m_ {max} = 2}$ $~ m_ {max} = 2$ .

Для перевода кандидата счетчик $mw {\ displaystyle m_ {w}}$ $m_ {w}$ каждого слова обрезается до максимального значения $mmax {\ displaystyle m_ {max}}$ $m_ {max}$ для этого слова. В этом случае "the" имеет $mw = 7 {\ displaystyle ~ m_ {w} = 7}$ $~ m_ {w} = 7$ и $mmax = 2 {\ displaystyle ~ m_ {max} = 2}$ $~ m_ {max} = 2$ , таким образом $mw {\ displaystyle ~ m_ {w}}$ $~ m_ {w}$ обрезается до 2. Эти отсеченные значения $mw {\ displaystyle ~ m_ {w}}$ Затем $~ m_ {w}$ суммируются по всем отдельным словам кандидата. Затем эта сумма делится на общее количество униграмм в переводе кандидата. В приведенном выше примере модифицированная оценка точности униграммы будет:

P = 2 7 {\ displaystyle P = {\ frac {2} {7}}}

P = \ frac {2} {7}

Однако на практике, используя отдельные слова в качестве единицы измерения сравнения не оптимально. Вместо этого BLEU вычисляет ту же модифицированную метрику точности с использованием н-граммов. Было обнаружено, что длина, которая имеет «наибольшую корреляцию с одноязычными человеческими суждениями», составляет четыре. Установлено, что баллы униграммы учитывают адекватность перевода, сколько информации сохраняется. Более длинные баллы в n-граммах определяют беглость перевода или то, насколько он читается как «хороший английский».

Сравнение показателей для кандидата «кот»
Модель	Набор граммов	Оценка
Униграмма	«the», «the», "кошка"	$1 + 1 + 1 3 = 1 {\ displaystyle {\ frac {1 + 1 + 1} {3}} = 1}$ ${\ displaystyle {\ frac {1 + 1 + 1} {3}} = 1}$
Сгруппированная униграмма	"the" * 2, "кот" * 1	$1 + 1 2 + 1 = 2 3 {\ displaystyle {\ frac {1 + 1} {2 + 1}} = {\ frac {2} {3}}}$ ${\ displaystyle {\ frac {1 + 1} {2 + 1}} = {\ frac {2} {3}}}$
Биграмма	"тот", "кот"	$0 + 1 2 = 1 2 {\ displaystyle {\ frac {0 + 1} {2}} = {\ frac {1} {2 }}}$ ${\ displaystyle {\ frac {0 + 1} {2}} = {\ frac {1} {2}}}$

Одна проблема с оценками BLEU состоит в том, что они склонны отдавать предпочтение коротким переводам, которые могут давать очень высокие оценки точности, даже с использованием модифицированной точности. Примером возможного перевода для тех же ссылок, что и выше, может быть:

кот

В этом примере измененная точность униграммы будет,

P = 1 2 + 1 2 = 2 2 {\ displaystyle P = {\ frac {1} {2}} + {\ frac {1} {2}} = {\ frac {2} {2}}}

P = \ frac {1} {2} + \ frac {1} {2} = \ frac {2} {2}

как слово "the" и слово "кошка" появляются по одному разу каждый в кандидате, а общее количество слов равно двум. Измененная точность биграммы будет $1/1 {\ displaystyle 1/1}$ $1/1$ , поскольку биграмма «кошка» появляется один раз в кандидате. Было отмечено, что точность обычно сочетается с отзывом, чтобы преодолеть эту проблему, так как отзыв униграммы в этом примере будет $3/6 {\ displaystyle 3/6}$ ${\ displaystyle 3/6}$ или $2/7 {\ displaystyle 2/7}$ $2/7$ . Проблема в том, что, поскольку существует несколько переводов справочников, плохой перевод может легко иметь завышенный отзыв, например перевод, который состоит из всех слов в каждой из ссылок.

Чтобы получить оценку для всего corpus модифицированные оценки точности для сегментов объединяются с использованием среднего геометрического, умноженного на штраф за краткость, чтобы очень короткие кандидаты не получили слишком высокие оценки. Пусть r - общая длина корпуса ссылок, а c - общая длина корпуса переводов. Если $c ≤ r {\ displaystyle c \ leq r}$ $c \ leq r$ , применяется штраф за краткость, определяемый как $e (1 - r / c) {\ displaystyle e ^ {(1- r / c)}}$ $e ^ {(1-r / c) }$ . (В случае нескольких ссылочных предложений r берется как сумма длин предложений, длина которых наиболее близка к длинам предложений-кандидатов. Однако в версии метрики, используемой NIST оценок до 2009 года, вместо этого использовалось кратчайшее ссылочное предложение.)

iBLEU - это интерактивная версия BLEU, которая позволяет пользователю визуально проверять оценки BLEU, полученные при переводе кандидатов. Он также позволяет сравнивать две разные системы визуально и в интерактивном режиме, что полезно для разработки системы.

Производительность

BLEU, как часто сообщалось, хорошо коррелирует с человеческим мнением и остается эталоном для оценка любой новой метрики оценки. Однако был высказан ряд критических замечаний. Было отмечено, что хотя в принципе BLEU может оценивать переводы любого языка, он не может в его нынешней форме работать с языками, в которых отсутствуют границы слов.

Утверждалось, что, хотя BLEU имеет значительные преимущества, не является гарантией того, что повышение балла BLEU является показателем улучшения качества перевода. Существует внутренняя системная проблема с любой метрикой, основанная на сравнении с одним или несколькими справочными переводами: в реальной жизни предложения могут быть переведены разными способами, иногда без дублирования. Таким образом, метод сравнения того, насколько компьютерный перевод отличается от нескольких переводов, выполненных человеком, является ошибочным. HyTER - еще одна автоматизированная метрика машинного перевода, которая сравнивается с очень многими переводами справочной грамматики, созданной переводчиками-людьми; недостатком является то, что человеческие усилия, затраченные на правильное определение комбинаторно многих способов передать смысл перевода на практике, означают, что HyTER также является лишь приближением.

См. Также

Примечания

Ссылки

Библиография