Параллельный текст представляет собой текст, размещенный рядом с его переводом или переводом. Параллельное выравнивание текста - это идентификация соответствующих предложений в обеих половинах параллельного текста. Леб Классическая библиотека и санскрит библиотека Clay два примера двуязычных серии текстов. Справочные Библии могут содержать исходные языки и перевод или несколько переводов сами по себе для облегчения сравнения и изучения; В « Гексапле» Оригена (по-гречески «шестикратный») шесть версий Ветхого Завета помещены рядом. Известным примером является Розеттский камень, открытие которого позволило начать расшифровку древнеегипетского языка.
Большие собрания параллельных текстов называются параллельными корпусами (см. Корпус текстов ). Выравнивание параллельных корпусов на уровне предложений является предпосылкой для многих областей лингвистических исследований. Во время перевода предложения могут быть разделены, объединены, удалены, вставлены или переупорядочены переводчиком. Это делает выравнивание нетривиальной задачей.
Параллельные корпуса можно разделить на четыре основные категории:
Большие корпуса, используемые в качестве обучающих наборов для алгоритмов машинного перевода, обычно извлекаются из больших массивов аналогичных источников, таких как базы данных новостных статей, написанных на первом и втором языках и описывающих похожие события.
Однако извлеченные фрагменты могут быть шумными, и в каждый корпус могут быть вставлены дополнительные элементы. Методы извлечения могут различать двуязычные элементы, представленные в корпусах, и одноязычные элементы, представленные только в одном корпусе, для извлечения более четких параллельных фрагментов двуязычных элементов. Сопоставимые корпуса используются для непосредственного получения знаний для целей перевода. Однако трудно получить высококачественные параллельные данные, особенно для языков с ограниченными ресурсами.
В области переводоведения битекст - это объединенный документ, состоящий из версий данного текста на исходном и целевом языках.
Битексты создаются программным обеспечением, называемым инструментом выравнивания, или инструментом битекста, который автоматически выравнивает исходную и переведенную версии одного и того же текста. Инструмент обычно сопоставляет эти два текста предложение за предложением. Коллекция битекстов называется базой данных битекстов или двуязычным корпусом, и к ней можно обращаться с помощью инструмента поиска.
Битексты имеют некоторое сходство с памятью переводов. Наиболее существенное отличие состоит в том, что память переводов теряет исходный контекст, а битекст сохраняет исходный порядок предложений. При этом некоторые реализации памяти переводов, такие как Translation Memory eXchange (TMX), стандартный формат XML для обмена памятью переводов между программами компьютерного перевода (CAT), позволяют сохранить исходный порядок предложений.
Битексты предназначены для работы с переводчиком- человеком, а не для машины. Таким образом, небольшие ошибки выравнивания или незначительные несоответствия, которые могут вызвать сбой памяти переводов, не имеют значения.
В своей оригинальной статье 1988 года Харрис также утверждал, что бит-текст показывает, как переводчики удерживают исходный и целевой текст вместе в своей умственной рабочей памяти по мере продвижения. Однако эта гипотеза не получила подтверждения.
Онлайн-битексты и память переводов также могут называться онлайн двуязычные согласования. Некоторые из них доступны в общедоступном Интернете, в том числе Linguée, Reverso и Tradooit.