Параллельный текст

редактировать
Розеттский камень, стела с выгравированными же указом в обоих древних египетских сценариев, а также древнегреческий. Его открытие стало ключом к расшифровке древнеегипетского языка.

Параллельный текст представляет собой текст, размещенный рядом с его переводом или переводом. Параллельное выравнивание текста - это идентификация соответствующих предложений в обеих половинах параллельного текста. Леб Классическая библиотека и санскрит библиотека Clay два примера двуязычных серии текстов. Справочные Библии могут содержать исходные языки и перевод или несколько переводов сами по себе для облегчения сравнения и изучения; В « Гексапле» Оригена (по-гречески «шестикратный») шесть версий Ветхого Завета помещены рядом. Известным примером является Розеттский камень, открытие которого позволило начать расшифровку древнеегипетского языка.

Большие собрания параллельных текстов называются параллельными корпусами (см. Корпус текстов ). Выравнивание параллельных корпусов на уровне предложений является предпосылкой для многих областей лингвистических исследований. Во время перевода предложения могут быть разделены, объединены, удалены, вставлены или переупорядочены переводчиком. Это делает выравнивание нетривиальной задачей.

СОДЕРЖАНИЕ

  • 1 Типы параллельных корпусов
  • 2 Шум в корпусе
  • 3 Bitext
    • 3.1 Битексты и память переводов
  • 4 См. Также
  • 5 ссылки
  • 6 Внешние ссылки
    • 6.1 Параллельные корпуса
    • 6.2 Документация
    • 6.3 Инструменты для центровки

Типы параллельных корпусов

Параллельные корпуса можно разделить на четыре основные категории:

  • Параллельный корпус содержит переводы одного и того же документа на двух или более языках, выровненной по крайней мере, на уровне предложения. Они, как правило, встречаются реже, чем менее сопоставимые корпуса.
  • Шумный параллельный корпус содержит двуязычные предложения, которые не идеально ровные или имеют плохое качество переводов. Тем не менее, большая часть его содержания - это двуязычные переводы определенного документа.
  • Сравнимой корпус построен из не вынесения приговора выровнена и непереведенных двуязычных документов, а документы темы выровнено.
  • Квази-сравнимый корпус включает в себя очень разнородные и непараллельные двуязычные документы, которые могут или не могут быть выровнены темами.

Шум в корпусе

Большие корпуса, используемые в качестве обучающих наборов для алгоритмов машинного перевода, обычно извлекаются из больших массивов аналогичных источников, таких как базы данных новостных статей, написанных на первом и втором языках и описывающих похожие события.

Однако извлеченные фрагменты могут быть шумными, и в каждый корпус могут быть вставлены дополнительные элементы. Методы извлечения могут различать двуязычные элементы, представленные в корпусах, и одноязычные элементы, представленные только в одном корпусе, для извлечения более четких параллельных фрагментов двуязычных элементов. Сопоставимые корпуса используются для непосредственного получения знаний для целей перевода. Однако трудно получить высококачественные параллельные данные, особенно для языков с ограниченными ресурсами.

Bitext

Основная статья: Выравнивание слов Bitext

В области переводоведения битекст - это объединенный документ, состоящий из версий данного текста на исходном и целевом языках.

Битексты создаются программным обеспечением, называемым инструментом выравнивания, или инструментом битекста, который автоматически выравнивает исходную и переведенную версии одного и того же текста. Инструмент обычно сопоставляет эти два текста предложение за предложением. Коллекция битекстов называется базой данных битекстов или двуязычным корпусом, и к ней можно обращаться с помощью инструмента поиска.

Битексты и память переводов

Основная статья: Память переводов

Битексты имеют некоторое сходство с памятью переводов. Наиболее существенное отличие состоит в том, что память переводов теряет исходный контекст, а битекст сохраняет исходный порядок предложений. При этом некоторые реализации памяти переводов, такие как Translation Memory eXchange (TMX), стандартный формат XML для обмена памятью переводов между программами компьютерного перевода (CAT), позволяют сохранить исходный порядок предложений.

Битексты предназначены для работы с переводчиком- человеком, а не для машины. Таким образом, небольшие ошибки выравнивания или незначительные несоответствия, которые могут вызвать сбой памяти переводов, не имеют значения.

В своей оригинальной статье 1988 года Харрис также утверждал, что бит-текст показывает, как переводчики удерживают исходный и целевой текст вместе в своей умственной рабочей памяти по мере продвижения. Однако эта гипотеза не получила подтверждения.

Онлайн-битексты и память переводов также могут называться онлайн двуязычные согласования. Некоторые из них доступны в общедоступном Интернете, в том числе Linguée, Reverso и Tradooit.

Смотрите также

Рекомендации

Внешние ссылки

Параллельные корпуса

Документация

Инструменты для выравнивания

  1. ^ Ральф Штайнбергер Ральф; Бруно Пуликен; Анна Видигер; Камелия Игнат; Томаж Ерявец; Дэн Туфиш; Даниэль Варга (2006). JRC-Acquis: многоязычный выровненный параллельный корпус с более чем 20 языками. Труды 5-й Международной конференции по языковым ресурсам и оценке (LREC'2006). Генуя, Италия, 24-26 мая 2006.
Последняя правка сделана 2023-03-29 06:43:28
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте