Europarl Corpus

редактировать

Europarl Corpus - это корпус (набор документов), который состоит из заседаний Европейского парламента с 1996 года по настоящее время. В своем первом выпуске в 2001 году он охватывал одиннадцать официальных языков Европейского Союза (датский, голландский, английский, финский, французский, немецкий, греческий, итальянский, португальский, испанский и шведский). С политическим расширением ЕС официальные языки десяти новых стран-членов были добавлены к корпусу данных. Последний выпуск (2012 г.) содержал до 60 миллионов слов на каждый язык, при этом новые добавленные языки были представлены немного недостаточно, поскольку данные по ним доступны только с 2007 г. Эта последняя версия включает 21 европейский язык: романский (французский, итальянский, испанский, португальский, румынский), германский (английский, голландский, немецкий, датский, шведский), славянский (болгарский, чешский, польский, словацкий, словенский), финно-угорский. (Финский, венгерский, эстонский), балтийский (латышский, литовский) и греческий.

Данные, составляющие корпус, были взяты с веб-сайта Европейского парламента и затем подготовлены для лингвистические исследования. После разделения предложений и токенизации предложения были выровнены между языками с помощью алгоритма, разработанного Gale Church (1993).

Корпус был скомпилирован и расширена группой исследователей под руководством Филиппа Кёна из Эдинбургского университета. Первоначально он был разработан для исследовательских целей в статистическом машинном переводе (SMT). Однако, начиная с первого выпуска, он использовался для множества других исследовательских целей, включая, например, устранение неоднозначности слов. EUROPARL также доступен для поиска через систему управления корпусом Sketch Engine.

Содержание

1 Europarl Corpus и статистический машинный перевод
- 1.1 Оценка качества
- 1.2 Обратный перевод
2 Примечания и ссылки
3 Внешние ссылки

Корпус Europarl и статистический машинный перевод

В своей статье «Европарл: Параллельный корпус для статистического машинного перевода» Коэн резюмирует, насколько корпус Europarl полезен для исследований в области SMT. Он использует корпус для разработки систем SMT, переводящих каждый язык на каждый из десяти других языков корпуса, что составляет 110 систем. Это позволяет Koehn создавать системы SMT для необычных языковых пар, которые заранее не рассматривались разработчиками SMT, например для финско-итальянского.

Оценка качества

Корпус Europarl может использоваться не только для разработки систем SMT, но и для их оценки. Измеряя результаты работы систем по сравнению с исходными данными корпуса для целевого языка, можно оценить адекватность перевода. Коэн использует метрику BLEU Папинени и др. (2002) для этого, который подсчитывает совпадения двух сравниваемых версий - вывода SMT и данных корпуса - и вычисляет балл на этой основе. Чем больше похожи две версии, тем выше оценка и, следовательно, качество перевода. Результаты показывают, что некоторые системы SMT работают лучше, чем другие, например, испано-французский (40,2) по сравнению с голландско-финским (10,3). Коэн утверждает, что причина этого в том, что родственные языки легче переводить друг на друга, чем те, которые не переводятся.

Обратный перевод

Кроме того, Коэн использует системы SMT и данные корпуса Europarl выяснить, является ли обратный перевод подходящим методом для оценки систем машинного перевода. Для каждого языка, кроме английского, он сравнивает баллы BLEU за перевод этого языка с английского и на английский (например, английский>испанский, испанский>английский) с баллами, которые могут быть получены путем сопоставления исходных английских данных с полученными результатами. переводом с английского на каждый язык и обратным переводом на английский (например, английский>испанский>английский). Результаты показывают, что оценки за обратный перевод намного выше, чем за однонаправленный перевод, и, что более важно, они вообще не коррелируют с оценками за однонаправленный перевод. Например, однонаправленные оценки для английского <>греческого (27,2 и 23,2) ниже, чем для английского <>португальского (30,1 и 27,2). Тем не менее, оценка обратного перевода 56,5 для греческого языка выше, чем для португальского, который составляет 53,6. Коэн объясняет это тем, что ошибки, допущенные в процессе перевода, можно просто исправить обратным переводом, что приведет к высокому совпадению ввода и вывода. Однако это не позволяет делать никаких выводов о качестве текста на фактическом целевом языке. Поэтому Кон не считает обратный перевод адекватным методом оценки систем машинного перевода.

Примечания и ссылки

Внешние ссылки

Домашняя страница Europarl
Europarl (v3 + v7) можно загрузить с сайта Opus corpora в формате TMX / Moses.
Корпус Europarl в Sketch Engine - часть речи версии 7, помеченная инструментом TreeTagger