Apertium

редактировать
Apertium
Apertium logo.svg
Apertium-tolk, простой настольный пользовательский интерфейс для Apertium, который переводится как пользователь вводит Apertium-tolk, простой настольный пользовательский интерфейс для Apertium, который переводится как пользовательский ввод
Стабильный выпуск 3.6.1 / 24 октября 2019 г.; 11 месяцев назад (24.10.2019)
Репозиторий github.com / apertium
Написано наC ++
Операционная система POSIX-совместимая и Windows NT (ограниченная поддержка)
Доступно на35 языках, см. ниже
Тип Машинный перевод на основе правил
Лицензия Стандартная общественная лицензия GNU
Веб-сайтwww.apertium.org

Apertium - это free/open-source машина на основе правил перевод платформа. Это бесплатное программное обеспечение, выпущенное в соответствии с условиями Стандартной общественной лицензии GNU.

Содержание
  • 1 Обзор
  • 2 История
  • 3 Методология перевода
  • 4 Языковые пары
  • 5 См. Также
  • 6 Примечания
    • 6.1 Ссылки
  • 7 Внешние ссылки
    • 7.1 Услуги и программное обеспечение для конечных пользователей
      • 7.1.1 Веб-сайты онлайн-перевода
      • 7.1.2 Автономные приложения
Обзор

Apertium - это система с мелким переносом машинного перевода, которая использует преобразователи конечного состояния для всех своих лексических преобразований, и скрытые марковские модели для тегирования части речи или устранения неоднозначности категории слова. Тегеры грамматики ограничений также используются для некоторых языковых пар (например, бретонский - французский ).

Существующие системы машинного перевода, доступные в настоящее время, в основном коммерческие или используют проприетарные технологии, что затрудняет их адаптацию к новым условиям использования; кроме того, они используют разные технологии в языковых парах, что очень затрудняет, например, их интеграцию в единый многоязычный система управления контентом.

Apertium использует не зависящую от языка спецификацию, чтобы упростить участие в Apertium, повысить эффективность разработки и увеличить общий рост проекта.

В настоящее время, Apertium выпустил 40 стабильных языковых пар, обеспечивающих быстрый перевод с разумно понятными результатами (ошибки легко исправляются). Являясь проектом с открытым исходным кодом, Apertium предоставляет потенциальным разработчикам инструменты для создания собственной языковой пары и содействия проект.

История

Apertium возник как одна из машин машинного перевода в проекте, который финансировался испанским правительством и разработан исследовательской группой Transducens в Universitat d'Alacant. Первоначально он был разработан для перевода между тесно связанными языками, хотя недавно он был расширен для обработки более расходящихся языковых пар. Чтобы создать новую систему машинного перевода, достаточно разработать лингвистические данные (словари, правила) в четко определенных форматах XML.

Языковые данные, разработанные для него (в сотрудничестве с Universidade de Vigo, Universitat Politècnica de Catalunya и Universitat Pompeu Fabra ) в настоящее время поддержка (в стабильной версии) арабский, арагонский, астурийский, баскский, белорусский, Бретон, болгарский, каталонский, крымскотатарский, датский, английский, эсперанто, французский, галисийский, хинди, исландский, индонезийский, итальянский, казах, македонский, малазийский, мальтийский, северносаамский, норвежский (букмол и нюнорск ), окситанский, польский, португальский, румынский, русский, сардинский, сербохорватский, силезский, словенский, испанский, шведский, татарский, украинский, ур du и валлийский языки. Полный список доступен ниже. Несколько компаний также участвуют в разработке Apertium, в том числе, и.

Проект принимал участие в редакциях Google Summer of Code 2009, 2010, 2011, 2012, 2013 и 2014 годов, а также в редакциях 2010, 2011, 2012, 2013, 2014, 2015, Выпуски 2016 и 2017 годов Google Code-In.

Методология перевода
Конвейер системы машинного перевода Apertium

Это общий пошаговый обзор того, как работает Apertium.

На диаграмме показаны шаги, предпринимаемые Apertium для перевода текста исходного языка (текста, который мы хотим перевести) в текст целевого языка (переведенный текст).

  1. Исходный язык текст передается в Apertium для перевода.
  2. Деформаттер удаляет разметку форматирования (HTML, RTF и т. Д.), Которая должна оставаться на месте, но не переводиться.
  3. Морфологический анализатор сегментирует текст (расширяет исключения, выделяет заданные фразы и т. Д.) И ищет сегменты в языковых словарях, затем возвращает базовую форму и теги для всех совпадений. В парах, включающих агглютинативную морфологию, включая ряд тюркских языков, используется Хельсинкский Конечный преобразователь (HFST). В противном случае используется специфическая для Apertium технология, называемая lttoolbox.
  4. Морфологическое устранение неоднозначности (морфологический анализатор и морфологическое устранение неоднозначности вместе образуют часть речевого теггера ) разрешают неоднозначные сегменты ( т. е. когда существует более одного совпадения) путем выбора одного совпадения. Apertium работает над установкой большего количества фреймворков Constraint Grammar для своих языковых пар, что позволит наложить более тонкие ограничения, чем это было бы возможно в противном случае. Apertium использует Visual Interactive Syntax Learning Constraint Grammar Parser.
  5. Лексическая передача ищет однозначные базовые слова исходного языка, чтобы найти их эквиваленты на целевом языке (т. Е. Отображение исходного языка на целевой язык ). Для лексической передачи Apertium использует формат словаря на основе XML, называемый bidix.
  6. Лексический выбор выбирает между альтернативными переводами, когда слово исходного текста имеет альтернативные значения. Apertium использует специальную технологию на основе XML, apertium-lex-tools, для выполнения лексического выбора.
  7. Структурный перенос (т.е. это формат XML, который позволяет запись сложных структурных правил переноса) может состоять из одноэтапного переноса или трехэтапного модуля переноса. Он отмечает грамматические различия между исходным языком и целевым языком (например, пол или согласование чисел ), создавая для этого последовательность блоков, содержащих маркеры. Затем он переупорядочивает или изменяет фрагменты, чтобы произвести грамматический перевод на целевой язык. Это также делается с помощью lttoolbox.
  8. Морфологический генератор использует теги для доставки правильного целевого языка поверхностной формы. Морфологический генератор - это морфологический преобразователь, как и морфологический анализатор. Морфологический преобразователь и анализирует, и генерирует формы.
  9. Пост-генератор вносит любые необходимые орфографические изменения из-за контакта слов (например, elisions ).
  10. преобразователь заменяет разметка форматирования (HTML, RTF и т. д.), которая была удалена деформатором на первом этапе.
  11. Apertium предоставляет перевод целевой язык.
Языковые пары

Список стабильных на данный момент языковых пар, наведите указатель мыши на коды языков, чтобы увидеть языки, которые они представляют.

afaranasteubrbgcadanleneofrglhinisiditkazmkmsmtsmenbnnocptroschbsslvessvтатurdcy
африкаанс нетнетнетнетнетНетНетНетДа (⇄)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНет
Арабский НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (←)НетНетНетНетНетНетНетНетНетНетНетНетНетНет
Арагонский НетНетНетНетНетНетДа (⇄)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)НетНетНетНет
Астурийский НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)НетНетНетНет
Баскский язык НетНетНетНетНетНетНетНетНетДа (→)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (→)НетНетНетНет
Бретонский НетНетНетНетНетНетНетНетНетНетНетДа (→)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНет
Болгарский НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНет
Каталонский НетНетДа (⇄)НетНетНетНетНетНетДа (⇄)Да (→)Да s (⇄)НетНетНетНетДа (←)НетНетНетНетНетНетНетДа (⇄)Да (⇄)НетДа (→)НетНетДа ( ⇄)НетНетНетНет
Датский НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)Да ( ⇄)НетНетНетНетНетНетНетДа (←)НетНетНет
Голландский Да (⇄)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНет
Английский НетНетНетНетДа (←)НетНетДа (⇄)НетНетДа (⇄)НетДа (⇄)НетДа (←)НетНетНетДа (←)НетНетНетНетНетНетНетНетНетДа (←)НетДа (⇄)НетНетНетДа (←)
Эсперанто НетНетНетНетНетНетНетДа (←)НетНетДа (⇄)Да (←)НетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (←)НетНетНетНетНетНетНетНет
Французский НетНетНетНетНетДа (←)НетДа (⇄)НетНетНетДа (→)НетНетНетНетНетНетНетНетНетНетНетНетДа (→)НетНетНетНетНетНетДа (⇄)НетНетНет
Галисийский НетНетНетНетНетНетНетНетНетНетДа (⇄)НетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)НетНетНетНетДа (⇄)НетНетНетНет
Хинди НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)Нет
Исландский НетНетНетНетНетНетНетНетНетНетДа (→)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)НетНетНет
индонезийский НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНет
Итальянский НетНетНетНетНетНетНетДа (→)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (→)НетНетНетНетНетНетНет
Казах НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)НетНет
Македонский НетНетНетНетНетНетДа (⇄)НетНетНетДа (→)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (←)НетНетНетНетНетНет
Малазийский НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНет
Мальтийский НетДа (→)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНет
Северные саамы НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (→)НетНетНетНетНетНетНетНетНетНетНетНет
Норвежский (букмол )НетНетНетНетНетНетНетНетДа (⇄)НетНетНетНетНетНетНетНетНетНетНетНетНетДа (←)Да (⇄)НетНетНетНетНетНетНетНетНетНетНет
Норвежский (нюнорск )нетнетнетнетнетнетНетНетДа (⇄)НетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)НетНетНетНетНетНетНетНетНетНетНет
Окситан НетНетНетНетНетНетНетДа (⇄)НетНетНетНетДа (←)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)НетНетНетНет
Португальский НетНетНетНетНетНетНетДа (⇄)НетНетНетНетНетДа (⇄)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)НетНетНетНет
Румынский НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (←)НетНетНетНет
Сардинский НетНетНетНетНетНетНетДа (←)НетНетНетНетНетНетНетНетНетДа (←)НетН oНетНетНетНетНетНетНетНетНетНетНетНетНетНетНет
сербохорватский НетНетНетНетНетНетНетНетНетНетДа (→)НетНетНетНетНетНетНетНетДа ( →)НетНетНетНетНетНетНетНетНетДа (⇄)НетНетНетНетНет
Словенский НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)НетНетНетНетНет
Испанский НетНетДа (⇄)Да (⇄)Да (←)НетНетДа (⇄)НетНетДа (⇄)Да (→)Да (⇄)Да (⇄)НетНетНетНетНетНетНетНетНетНетНетДа (⇄)Да (⇄)Да (←)НетНетНетНетНетНетНет
Испанский НетНетНетНетНетНетНетНетДа (→)НетНетНетНетНетНетДа (⇄)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНет
Татарский НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНет
Урду НетНетНетНетНетНетНетНетНетНетНетНетНетНетДа (⇄)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНет
Валлийский НетНетНетНетНетНетНетНетНетНетДа (→)НетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНетНет
См. Также
  • Портал бесплатного программного обеспечения с открытым исходным кодом
Примечания

Ссылки

  • Corbí-Bellot, M. et al. (2005) «Механизм машинного перевода с открытым исходным кодом для романских языков Испании» в Proceedings of the European Association for Machine Translation, 10th Annual Conference, Budapest 2005, pp. 79–86
  • Armentano -Oller, C. et al. (2006) «Португальско-испанский машинный перевод с открытым исходным кодом» в конспектах лекций по информатике 3960 [Вычислительная обработка португальского языка, Труды 7-го Международного семинара по вычислительной обработке письменного и разговорного португальского языка, PROPOR 2006], стр. 50– 59.
  • Forcada, ML et al. (2010) «Документация платформы поверхностного машинного перевода с открытым исходным кодом Apertium» в Departament de Llenguatges i Sistemes Informatics, Университет Алаканта.
  • Forcada, M. L. et al. (2011) «Apertium: бесплатная платформа с открытым исходным кодом для машинного перевода на основе правил». в "doi : 10.1007 / s10590-011-9090-0
Внешние ссылки

Услуги и программное обеспечение для конечных пользователей

(Все услуги основаны на движке Apertium)

Веб-сайты онлайн-переводов

Офлайн-приложения

Последняя правка сделана 2021-06-11 20:19:00
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте