Google Translate

редактировать

Служба многоязычного нейронного машинного перевода

Google Translate
Google Translate logo.svg
Снимок экрана of Google Translate.png Домашняя страница Google Translate
Тип сайтаНейронная машина перевод
Доступен на109 языках, см. ниже
ВладелецGoogle
URLперевод.google.com
КоммерческийДа
РегистрацияНеобязательно
Пользователи Ежедневно более 500 миллионов человек
Запущен28 апреля 2006 г.; 14 лет назад (28-04-2006) (как статистический машинный перевод ). 15 ноября 2016 г.; 3 года назад (15.11.2016) (as нейронный машинный перевод )
Текущий статусАктивный

Google Translate - это бесплатный многоязычный нейронный машинный перевод сервис, разработанный Google для перевода текста и веб-сайтов с одного языка на другой. Он предлагает интерфейс веб-сайта, мобильное приложение для Android и iOS, а также интерфейс прикладного программирования, который помогает разработчикам создавать расширения браузера и программные приложения. По состоянию на октябрь 2020 года, Google Переводчик поддерживает 109 языков на разных уровнях, и по состоянию на апрель 2016 года общее количество пользователей превысило 500 миллионов, ежедневно переводится более 100 миллиардов слов.

Запущен в апреле 2006 года как статистический машинный перевод для сбора лингвистических данных использовались документы и стенограммы Организации Объединенных Наций и Европейского парламента. Вместо прямого перевода языков он сначала переводит текст на английский, а затем piv соответствует целевому языку в большинстве языковых комбинаций, которые он помещает в свою сетку, за некоторыми исключениями, включая каталонско-испанский. Во время перевода он ищет шаблоны в миллионах документов, чтобы помочь решить, какие слова выбрать и как расположить их на целевом языке. Его точность, которая неоднократно подвергалась критике и высмеиванию, по оценкам, сильно различается в зависимости от языка. В ноябре 2016 года Google объявил, что Google Translate перейдет на механизм нейронного машинного перевода - Google Neural Machine Translation (GNMT), который переводит «целые предложения за раз, а не только по частям. Он использует этот более широкий контекст, чтобы помочь ему найти наиболее подходящий перевод, который затем перестраивает и корректирует, чтобы он больше походил на человека, говорящего с правильной грамматикой ". Первоначально включенный только для нескольких языков в 2016 году, GNMT используется на всех 109 языках в списке Google Translate по состоянию на октябрь 2020 года, за исключением языковой пары между английским и латинским.

Содержание
  • 1 История
  • 2 Функции
  • 3 Функции
    • 3.1 Интеграция с браузером
    • 3.2 Мобильное приложение
    • 3.3 API
    • 3.4 Google Assistant
  • 4 Поддерживаемые языки
    • 4.1 Языки в разработке
    • 4.2 Не реализованные языки
  • 5 Методология перевода
    • 5.1 Сообщество Google Translate
    • 5.2 Статистический машинный перевод
    • 5.3 Нейронный машинный перевод Google
  • 6 Точность
  • 7 Ограничения
  • 8 Открыто- лицензии на исходный код и компоненты
  • 9 Обзоры
    • 9.1 Ошибки и странности перевода
  • 10 Использование суда
  • 11 См. также
  • 12 Ссылки
  • 13 Внешние ссылки
История

Google Translate - это дополнительная служба перевода, разработанная Google в апреле 2006 года. Она переводит различные формы текстов и мультимедиа, такие как слова, фразы и веб-страницы.

Изначально Google Translate был выпущен как служба статистического машинного перевода. Перевод необходимого текста на английский перед переводом на выбранный язык был обязательным шагом, который необходимо было предпринять. Поскольку SMT использует для перевода текста предиктивные алгоритмы, грамматическая точность невысока. Однако изначально Google не нанимал экспертов для устранения этого ограничения из-за постоянно меняющегося характера языка.

В январе 2010 года Google представила приложение для Android и версию для iOS в феврале 2011 года, которые будут служить портативным персональным компьютером. переводчик. По состоянию на февраль 2010 года он был интегрирован в браузеры, такие как Chrome, и мог произносить текст, автоматически распознавать слова на картинке и обнаруживать незнакомый текст и языки.

В мае 2014 года Google приобрел Word Объектив для улучшения качества визуального и голосового перевода. Он может сканировать текст или изображение с помощью своего устройства и мгновенно переводить их. Более того, система автоматически определяет иностранные языки и переводит речь, не требуя от людей нажимать кнопку микрофона всякий раз, когда требуется перевод речи.

В ноябре 2016 года Google перешла на метод перевода в систему под названием нейронный машинный перевод. Он использует методы глубокого обучения для одновременного перевода целых предложений, которые, по оценке, были более точными между английским и французским, немецким, испанским и китайским языками. Исследователи Google не предоставили результатов измерений для GNMT с английского на другие языки, с других языков на английский или между языковыми парами, которые не включают английский. По состоянию на 2018 год он переводит более 100 миллиардов слов в день.

Функции

Google Translate может переводить несколько форм текста и мультимедиа, включая текст, речь и текст в неподвижных или движущихся изображений. В частности, его функции включают:

  • Перевод письменных слов: функция, которая переводит письменные слова или текст на иностранный язык.
  • Перевод веб-сайтов: функция, которая переводит всю веб-страницу на выбранные языки
  • Перевод документов: функция, которая переводит загруженный пользователями документ на выбранные языки. Документы должны быть в формате:.doc,.docx,.odf,.pdf,.ppt,.pptx,.ps,.rtf,.txt,.xls,.xlsx.
  • Перевод речи: функция, которая мгновенно переводит разговорный язык на выбранный иностранный язык.
  • Перевод мобильного приложения: в 2018 году Google Translate представил свою новую функцию под названием «Tap to Translate», которая сделала мгновенный перевод доступным в любом приложении без выход или переключение.
  • Перевод изображения: функция, которая идентифицирует текст на изображении, сделанном пользователями, и мгновенно переводит текст на экране с помощью изображений.
  • Рукописный перевод: функция, которая переводит язык которые написаны от руки на экране телефона или нарисованы на виртуальной клавиатуре без поддержки клавиатуры.

Для большинства своих функций Google Translate обеспечивает произношение, словарь и прослушивание перевода. Кроме того, Google Translate представил собственное приложение Translate, поэтому перевод доступен с мобильного телефона в автономном режиме.

Функции

Google Translate обеспечивает приближения на разных языках для различных форм текста и мультимедиа, включая текст, речь, веб-сайты или отображаемый текст в неподвижных или живых видеоизображениях. Для некоторых языков Google Translate может синтезировать речь из текста, и в определенных парах можно выделить определенные соответствующие слова и фразы между исходным и целевым текстом. Иногда результаты отображаются со словарной информацией под окном перевода, но это не словарь, и было показано, что он изобретает переводы на все языки для слов, которые не распознает. Если выбран параметр «Определить язык», текст на неизвестном языке может быть идентифицирован автоматически. В веб-интерфейсе пользователи могут предлагать альтернативные переводы, например, технических терминов, или исправлять ошибки. Эти предложения могут быть включены в будущие обновления процесса перевода. Если пользователь вводит URL в исходный текст, Google Translate создаст гиперссылку на машинный перевод веб-сайта. Пользователи могут сохранять предложения по переводу в «разговорнике» для дальнейшего использования. Для некоторых языков текст можно вводить с помощью экранной клавиатуры, с помощью распознавания рукописного ввода или распознавания речи. Можно ввести поисковые запросы на исходном языке, которые сначала переводятся на язык назначения, что позволяет просматривать и интерпретировать результаты с выбранного языка назначения на исходном языке.

Тексты, написанные на греческом, деванагари, кириллице и арабском шрифтах, могут быть транслитерированы автоматически из фонетических эквивалентов написанных в латинском алфавите. Версия Google Translate для браузера предоставляет возможность фонетического чтения для преобразования с японского на английский. Такой же вариант недоступен в платной версии API.

Акцент английского языка, который используется для преобразования текста в речь в Google Translate для каждой страны: Британский (Полученное произношение) (женщина) Обычный американец (женщина) Обычный австралиец (женщина) Индийский (женский) Нет службы перевода Google

Многие из наиболее популярных языков имеют звуковую функцию преобразования текста в речь, которая позволяет читать текст на этом языке с точностью до несколько десятков слов или около того. В случае плюрицентрических языков акцент зависит от региона: для английского, в Северной и Южной Америке, в большей части Азиатско-Тихоокеанского региона и Западная Азия, в звуке используется женский общий американский акцент, тогда как в Европе, Гонконге, Малайзии, Сингапур, Гайана и все другие части мира, используется женский британский (Полученное произношение ) акцент, кроме для особого общего австралийского акцента, используемого в Австралии, Новой Зеландии и острове Норфолк, и индийском английском акцент, используемый в Индии ; для испанского в Северной и Южной Америке используется латиноамериканский акцент, в то время как в других частях света используется кастильский акцент используется; для португальского акцент Сан-Паулу используется во всем мире, за исключением Португалии, где используется родной акцент ; для французского используется квебекский акцент в Канаде, в то время как в других частях мира используется стандартный европейский акцент ; для бенгальского используется мужской бангладешский акцент, за исключением Индии, где вместо него используется специальный женский индийский бенгальский акцент. Некоторые менее распространенные языки используют для своей речи синтезатор с открытым исходным кодом eSpeak ; издает робкий, неловкий голос, который может быть трудно понять.

Интеграция с браузером

Google Translate доступен в некоторых веб-браузерах в качестве дополнительного загружаемого расширения, которое может запускать механизм перевода, что позволяет нажмите команду доступа к службе перевода. В феврале 2010 года Google Translate был по умолчанию интегрирован в браузер Google Chrome для дополнительного автоматического перевода веб-страниц.

Мобильное приложение

Google Translate
Google Translate logo.svg
Скриншот A screenshot of the iOS app of Google Translate, showing an English translation of "Coffee" to Simplified Chinese "咖啡" or "Kāfēi" Скриншот приложения Google Translate для iOS, показывая английский перевод слова «Кофе» на упрощенный китайский «咖啡» или «Kāfēi»
Разработчик (и) Google
Первоначальный выпуск1 января, 2010; 10 лет назад (01.01.2010) (для Android). 8 февраля 2011 г.; 9 лет назад (08.02.2011) (для iOS)
Стабильный выпуск (ы) [±]
Android6.5.0.RC04.292618770 / январь 31, 2020; 8 месяцев назад (2020-01-31)
iOS6.3.0 / 3 октября 2019 г.; 12 месяцев назад (2019-10-03)
Платформа
  • Android 5.0 и более поздние версии
  • iOS 11 и более поздние версии
Размер 20.74 МБ (Android). 70,9 МБ (iOS)
Доступно на109 языках, см. ниже
Тип Статистический и нейронный машинный перевод
Веб-сайтm.translate.google.com

Приложение Google Translate для Android и iOS поддерживает 109 языков и может предлагать переводы на 37 языков с помощью фотографий, 32 с помощью голоса в «режиме разговора» и 27 с помощью видеоизображений в реальном времени в «режиме дополненной реальности».

Приложение для Android было выпущено в январе 2010 года, а HTML5 веб-приложение было выпущено для пользователей iOS в августе 2008 года, а 8 февраля 2011 года было выпущено собственное приложение.

Приложение поддерживает 109 языков и голосовой ввод для 45 языков. Он доступен для устройств под управлением Android 2.1 и более поздних версий и может быть загружен с помощью поиска «Google Translate» в Google Play.

Текущее приложение Google Translate совместимо с iPhone, iPad. и iPod Touch обновлены до iOS 7.0+. Он принимает голосовой ввод на 15 языках и позволяет переводить слово или фразу на один из более чем 50 языков. Переводы можно произносить вслух на 23 разных языках.

В версии Android от января 2011 года экспериментировали с «Режимом разговора», который позволяет пользователям свободно общаться с находящимся поблизости человеком на другом языке. Первоначально ограниченная английским и испанским языками, эта функция получила поддержку 12 новых языков, все еще тестируемых в октябре следующего года.

Функция «Camera input» позволяет пользователям делать снимки документа, вывески и т. Д. Google Translate распознает текст на изображении с помощью технологии оптического распознавания символов (OCR) и выдает перевод. Вход камеры доступен не для всех языков.

В январе 2015 года приложения получили возможность предлагать перевод физических знаков в реальном времени с помощью камеры устройства в результате приобретения Google приложения Word Lens. Первоначальный запуск в январе поддерживал только семь языков, но июльское обновление добавило поддержку 20 новых языков с выпуском новой реализации, которая использует сверточные нейронные сети, а также повысила скорость и качество переводов в режиме разговора. (дополненная реальность ). Впоследствии эта функция была переименована в Instant Camera. Технология, лежащая в основе Instant Camera, сочетает в себе обработку изображений и оптическое распознавание символов, а затем пытается создать кросс-языковые эквиваленты, используя стандартные оценки Google Translate для текста, как он воспринимается.

11 мая 2016 года Google представил Tap to Переводчик Google Translate для Android. После выделения текста в приложении на иностранном языке, Переводчик появится внутри приложения и предложит перевод.

API

26 мая 2011 года Google объявил, что Google Translate API для разработчиков программного обеспечения устарел и прекратит работу. На странице Translate API была указана причина как «существенное экономическое бремя, вызванное обширными злоупотреблениями» с датой окончания, установленной на 1 декабря 2011 года. В ответ на давление общественности Google объявил в июне 2011 года, что API будет по-прежнему доступен в качестве платного service.

Поскольку API использовался на множестве сторонних веб-сайтов и приложений, первоначальное решение об отказе от него привело некоторых разработчиков к критике Google и сомнению в целесообразности использования API Google в своих продуктах.

Google Assistant

Google Translate также обеспечивает переводы для Google Assistant и устройств, на которых работает Google Assistant, таких как Google Home и Pixel Buds.

Поддерживаемые языки

Следующие 109 языков поддерживаются Google Translate по состоянию на октябрь 2020 года.

  1. африкаанс
  2. албанский
  3. амхарский
  4. арабский
  5. армянский
  6. азербайджанский
  7. Баскский
  8. белорусский
  9. бенгальский
  10. боснийский
  11. болгарский
  12. бирманский
  13. каталонский
  14. кебуанский
  15. чева
  16. чи nese (Упрощенный )
  17. китайский (Традиционный )
  18. корсиканский
  19. хорватский
  20. чешский
  21. датский
  22. голландский
  23. английский
  24. эсперанто
  25. эстонский
  26. филиппинский
  27. финский
  28. французский
  29. галисийский
  30. грузинский
  31. немецкий
  32. греческий
  33. гуджаратский
  34. гаитянский креольский
  35. хауса
  36. гавайский
  37. Иврит
  38. Хинди
  39. Хмонг
  40. Венгерский
  41. Исландский
  42. Игбо
  43. Индонезийский
  44. Ирландский
  45. Итальянский
  46. Японский
  47. Яванский
  48. Каннада
  49. Казахский
  50. кхмерский
  51. киньяруанда
  52. корейский
  53. курдский (курманджи )
  54. кыргызский
  55. лаосский
  56. латинский
  57. латышский
  58. литовский
  59. люксембургский
  60. Македонский
  61. малагасийский
  62. малайский
  63. малаялам
  64. мальтийский
  65. маори
  66. маратхи
  67. монгольский
  68. непальский
  69. норвежский (букмол )
  70. одия
  71. пушту
  72. персидский
  73. польский
  74. португальский
  75. пенджаби (гурмукхи )
  76. румынский
  77. русский
  78. самоанский
  79. шотландский гэльский
  80. сербский
  81. шона
  82. синдхи
  83. сингальский
  84. словацкий
  85. словенский
  86. сомалийский
  87. сото
  88. испанский
  89. сунданский
  90. суахили
  91. Шведский
  92. таджик
  93. тамильский
  94. татарский
  95. телугу
  96. тайский
  97. турецкий
  98. туркменский
  99. украинский
  100. урду
  101. уйгурский
  102. узбекский
  103. вьетнамский
  104. валлийский
  105. западнофризский
  106. коса
  107. идиш
  108. йоруба
  109. зулусский
история
  1. 1-й этап
    1. английский и обратно французский
    2. Английский на Немецкий
    3. Английский на Испанский
  2. 2-й этап
    1. Английский на и от Португальский
  3. 3-й этап
    1. С английского на Итальянский
  4. 4-й этап
    1. Английский на и с Китайский (упрощенный)
    2. Английский на и с Японский
    3. Английский на и с Корейский
  5. 5-й этап (запущен 28 апреля 2006 г.)
    1. Английский на арабский
  6. 6-й этап (запущен 16 декабря 2006 г.)
    1. Английский на и обратно Русский
  7. 7-й этап (запущен 9 февраля 2007 г.)
    1. Английский на Китайский (традиционный) и обратно
    2. Китайский (с упрощенного на традиционный и обратно)
  8. 8-й этап ( все 25 языковых пар используют систему машинного перевода Google m) (запущен 22 октября 2007 г.)
    1. Английский в и из Голландский
    2. Английский в и из Греческий
  9. 9-й этап
    1. Английский в и из Хинди
  10. 10-й этап (на этом этапе перевод может выполняться между любыми двумя языками, используя английский в качестве промежуточного шага, если необходимо) (запущен 8 мая 2008 г.)
    1. Болгарский
    2. Хорватский
    3. Чешский
    4. датский
    5. финский
    6. норвежский (букмол )
    7. польский
    8. румынский
    9. шведский
  11. 11-й этап (запущен 25 сентября 2008 г.)
    1. каталонский
    2. филиппинский
    3. иврит
    4. индонезийский
    5. латышский
    6. литовский
    7. сербский
    8. словацкий
    9. словенский
    10. украинский
    11. вьетнамский
  12. 12-й этап (запущен 30 января, г. 2009)
    1. албанский
    2. эстонский
    3. галисийский
    4. венгерский
    5. мальтийский
    6. тайский
    7. турецкий
  13. 13-й этап (запущен 19 июня 2009 г.)
    1. персидский
  14. 14-й stage (запущен 24 августа 2009 г.)
    1. африкаанс
    2. белорусский
    3. исландский
    4. ирландский
    5. македонский
    6. малайский
    7. суахили
    8. валлийский
    9. идиш
  15. 15-й этап ( запустил Novem 19 сен 2009 г.)
    1. Бета-этап завершен. Теперь пользователи могут выбрать вариант латинизации для белорусского, болгарского, китайского, греческого, хинди, японского, корейского, русского, тайского и украинского языков. Для переводов с арабского, хинди и персидского пользователь может ввести латинскую транслитерацию текста, и текст будет транслитерирован в собственный сценарий для этих языков по мере того, как пользователь печатает. Теперь текст может быть прочитан программой преобразования текста в речь на английском, французском, немецком и итальянском языках.
  16. 16-й этап (запущен 30 января 2010 г.)
    1. гаитянский креольский
  17. 17-й этап (запущен в апреле 2010 г.)
    1. Запущена речевая программа на хинди и испанском.
  18. 18-й этап (запущена 5 мая 2010 г.)
    1. Речевая программа запущена на африкаанс, албанском, каталонском, китайском ( Китайский), хорватский, чешский, датский, голландский, финский, греческий, венгерский, исландский, индонезийский, латышский, македонский, норвежский, польский, португальский, румынский, русский, сербский, словацкий, суахили, шведский, турецкий, вьетнамский и валлийский (на основе на eSpeak )
  19. 19-й этап (запущен 13 мая 2010 г.)
    1. армянский
    2. азербайджанский
    3. баскский
    4. грузинский
    5. урду
  20. 20-й этап (запущен в июне 2010 г.)
    1. Обеспечивает латинизацию для арабского языка.
  21. 21-й этап (запущен в сентябре 2010 г.)
    1. Разрешает фонетический ввод для арабского, греческого, хинди, персидского, русского, сербского и урду.
    2. Латинский
  22. 22-й stage (запущен в декабре 2010 г.)
    1. R Удалена оманизация арабского языка.
    2. Добавлена ​​проверка орфографии.
    3. Для некоторых языков Google заменил синтезаторы текста в речь с голоса робота eSpeak на естественные голосовые технологии носителей языка, разработанные SVOX (китайский, чешский, датский, голландский, финский, греческий, венгерский, норвежский, польский, португальский, русский, шведский, турецкий), а также старые версии французского, немецкого, итальянского и испанского языков; В латыни используется тот же синтезатор, что и в итальянском.
    4. Речевая программа запущена на арабском, японском и корейском языках.
  23. 23-й этап (запущен в январе 2011 г.)
    1. Выбор разных переводов для слова.
  24. 24-й этап (запущен в июне 2011 г.)
    1. 5 новых индийских языков (в альфа-канале) и транслитерированный метод ввода:
    2. бенгальский
    3. гуджарати
    4. каннада
    5. тамильский
    6. телугу
  25. 25-й этап (запущен в июле 2011 г.)
    1. Введен рейтинг перевода.
  26. 26-й этап (запущен в январе 2012 г.)
    1. Голландский синтезатор мужского голоса заменен на женский.
    2. Elena by SVOX заменил словацкий eSpeak.
    3. Добавлена ​​транслитерация идиша.
  27. 27-й этап (запущен в феврале 2012 г.)
    1. Запущена речевая программа на тайском языке.
    2. Эсперанто
  28. 28-й этап ( запущен в сентябре 2012 г.)
    1. Лаосский
  29. 29-й этап (запущен в октябре 2012 г.)
    1. ДобавленаТранслитерация лаосского языка. (статус альфа)
  30. 30-й этап (запущен в октябрь 2012 г.)
    1. Запущена новая речевая программа на английском языке.
  31. 31-й этап (запущена в ноябре 2012 г.)
    1. Новая речевая программа на французском и немецком языках, Итальянский, латинский и испанский.
  32. 32-й этап (запущен в марте 2013 г.)
    1. Добавлен разговорник.
  33. 33-й этап (запущен в апреле 2013 г.)
    1. кхмерский
  34. 34-й этап (запущен в мае 2013 г.)
    1. боснийский
    2. кебуанский
    3. хмонг
    4. яванский
    5. маратхи
  35. 35-й этап (запущен в мае 2013 г.)
    1. 16 дополнительных языков можно использовать при вводе с камеры: болгарский, каталанский, Хорватский, датский, эстонский, финский, венгерский, индонезийский, исландский, латышский, литовский, норвежский, румынский, словацкий, словенский и шведский.
  36. 36-й этап (запущен в декабре 2013 г.)
    1. Hausa
    2. Igbo
    3. Маори
    4. Монгол
    5. Непальский
    6. Пенджаби (Гурмукхи )
    7. Сомали
    8. Йоруба
    9. Зулу
  37. 37-й этап (запущен в июне 2014 г.)
    1. Определение добавлено слов.
  38. 38-й этап (запущен в декабре 2014 г.)
    1. бирманский
    2. чева
    3. казах
    4. M алагасы
    5. малаялам
    6. сингальский
    7. сото
    8. сунданский
    9. таджикский
    10. узбекский
  39. 39-й этап (запущен в Октябрь 2015 г.)
    1. Восстановлена ​​транслитерация арабского языка.
  40. 40-й этап (запущен в ноябре 2015 г.)
    1. Aurebesh
  41. 41-й этап (запущен в феврале 2016 г.)
    1. Aurebesh удален.
    2. Речевая программа запущена на бенгальском языке.
    3. амхарский
    4. корсик
    5. гавайский
    6. курдский (курманджи )
    7. киргизский
    8. люксембургский
    9. пушту
    10. самоанский
    11. шотландский гэльский
    12. шона
    13. синдхи
    14. западно-фризский
    15. Xhosa
  42. 42-й этап (запущен в сентябре 2016 г.)
    1. Запущена речевая программа на украинском языке.
  43. 43-й этап (запущена в декабре 2016 г.)
    1. Речевая программа запущена на кхмерском и сингальском языках.
  44. 44-й этап (запущен в июне 2018 г.)
    1. Речевая программа запущена на бирманском, малаялам, маратхи и телугу.
  45. 45-й этап (запущена в сентябре 2019 г.)
    1. Речевая программа запущена в Гуджарати, Каннада, и урду.
  46. 46-й этап (запущен в феврале 2020 г.)
    1. киньяруанда
    2. Одиа
    3. татарский
    4. туркменский
    5. уйгурский

языки в разработке

Эти языки еще не поддерживаются Google Translate, но доступны в сообществе переводчиков.

  1. афарский
  2. арагонский
  3. ассамский
  4. Бходжпури
  5. Бодо
  6. Бретон
  7. Кантонский
  8. Чеченский
  9. Чероки
  10. Чаттисгархи
  11. Читонга
  12. Читтагонский
  13. Дхолуо
  14. Дивехи
  15. Догри
  16. Дьюла
  17. Дзонгка
  18. Эдо
  19. Эфик
  20. Эсан
  21. Фон
  22. Гархвали
  23. Гуарани
  24. Харьянви
  25. Инуктитут
  26. Камба
  27. Кикую
  28. Курдский (Сорани )
  29. Лингала
  30. Люба
  31. Магахи
  32. Манипури
  33. Марвари
  34. Минангкабау
  35. Черногорский
  36. Моси
  37. Нигерийский пиджин
  38. Северный саам
  39. Северный сото
  40. окситанский
  41. Оромо
  42. Пампанга
  43. ретороманский
  44. Садри
  45. жемайтийский
  46. Серрано
  47. Сетсвана
  48. сицилийский
  49. южный ндебеле
  50. Сурджапури
  51. Суахили (Конго )
  52. Тамазигт
  53. Тигринья
  54. Чилуба
  55. Тибетский
  56. Чивенда
  57. Вархади-Нагпури
  58. Волоф
  59. Сицонга

Неосуществленные языки

Языки, на которых были короткое время доступны для людей, чтобы добавить переводы, но по причин ам они были удалены.

  1. Луо
Методология перевода

В апреле 2006 года Google Translate запустил механизм статистического машинного перевода.

Google Translate не применяет грамматических правил, поскольку его алгоритмы основаны на статистическом анализе или анализе шаблонов, а не на традиционном анализе, основанном на правилах. Первоначальный создатель системы, Франц Йозеф Оч, подверг критике основанных на правилах алгоритмов в пользу статистических подходов. Оригинальные версии Google Translate основывались на методе, называемом статистический машинный перевод, и, в частности, на исследовании Оча, который выиграл конкурс DARPA на скорость машинного перевода в 2003 году. Защитл группу машинного перевода Google до тех пор, пока не ушел в компанию Human Longevity, Inc. в июле 2014 года.

Google Переводчик не переводит с одного языка на другой (L1 → L2). Вместо этого он часто переводится на английский, а затем на язык сначала (L1 → EN → L2). Однако, поскольку английский, как и все человеческие языки, неоднозначен и зависит от контекста, это может вызвать ошибки перевода. Например, перевод vous с французского на русский дает vous → you → ты OR Bы / вы . Если бы Google использовал недвусмысленный искусственный язык в качестве посредника, это было бы vous → you → Bы / вы OR tu → thou → ты . Такой суффикс слов устраняет неоднозначность их значения. Следовательно, публикация на английском языке с использованием недвусмысленных слов, предоставления контекста, использования таких выражений, как «вы все», часто дает лучший одношаговый перевод.

Следующие языки не имеют прямого перевода Google на английский или с английского. Эти языки переводятся через промежуточный язык (который в системе использует английский язык, но используется более широко) в дополнение к английскому:

По словам Оча, прочная основа для разработки пригодной для использования системы статистического машинного перевода для новой пары языков с нуля будет состоять из двуязычного текстовый корпус (или параллельный сборник ), кроме более 150-200 миллионов слов, и два одноязычных корпуса, каждый из которых содержит более миллиарда слов. Статистические модели из этих данных используются для перевода между этими языками.

Для получения огромного количества лингвистических данных Google использовал документы и стенограммы Организации Объединенных Наций и Европейского парламента. Обычно публикует документы на всех ООН официальных языков, в результате чего получился очень большой корпус из шести языков.

<2777>Когда Google Translate создает предложение по переводу, он ищет шаблоны в сотнях миллионов документов, чтобы помочь выбрать лучший перевод. Обнаруживая закономерности в документах, которые уже были переведены людьми-переводчиками, Google Translate делает обоснованные предположения (AI) о том, каким должен быть соответствующий перевод.

До октября 2007 г. для других языков чем арабский, китайский и русский, Google Translate был основан на SYSTRAN, программном движке, который до сих пор используется другими онлайн-переводчиками. такие услуги, как Бабель Фиш (ныне несуществующие). С октября 2007 года в Google Translate использовалась собственная собственная технология, основанная на статистическом машинном переводе, прежде чем перейти на нейронный машинный перевод.

Сообщество Переводчика Google

Google предлагает краудсорсинг для добровольцев, которые могут стать частью его «Сообщества переводчиков», призванного помочь повысить точность Переводчика Google. В августе 2016 года для пользователей Android было выпущено приложение Google Crowdsource, в котором были задачи перевода. Есть три способ внести свой вклад. Сначала Google покажет фразу, которую нужно переведенной в переведенную версию. Во-вторых, Google покажет предложенный перевод, чтобы пользователь согласился, не согласился или пропустил. В-третьих, пользователи могут предлагать переводы фраз, которые, по их мнению, могут улучшить результаты Google. Тесты на 44 показывают, что функция «предложить редактирование» улучшит улучшение в 40% случаев за четыре года, в то время как анализ по всем направлениям показывает, что процедуры коллективной обработки Google часто блокируют ошибочные переводы.

Статистический машинный перевод

Хотя Google развернула новую систему, называемую нейронным машинным переводом, для более качественного перевода, есть языки, которые по-прежнему используют метод перевода, называемый статистическим машинным переводом. Это основанный на правилах метод перевода, который использует алгоритмы прогнозирования, чтобы угадать способы перевода текстов на иностранные языки. Он направлен на перевод целых фраз, а не отдельных слов. Кроме того, он также анализирует двуязычные текстовые корпуса для создания статистической модели, которая переводит тексты с одного языка на другой.

Google Neural Machine Translation

В сентябре 2016 года исследовательская группа Google во главе с программным инженером Гарольд Гилкрист объявил о разработке системы нейронного машинного перевода Google (GNMT) для повышениялости и точности Google Translate а в объявил, что Google Translate перейдет на GNMT.

В системе нейронного машинного перевода Google Translate используется большая конечная точка искусственная нейронная сеть, которая выполняет глубокое обучение, в частности, долговременная кратковременная память, сети. GNMT улучшает качество перевода по сравнению с SMT в некоторых случаях, поскольку в нем используется метод машинного перевода на основе примеров (EBMT), при которой система «учится на миллионах примеров». По словам исследователей Google, он переводит «целые предложения за раз, а не просто по частям. Он использует этот более широкий контекст, чтобы помочь ему найти наиболее подходящий перевод, который использует этот более подходящий перевод, чтобы он был похож на человека, с которым разговаривает. правильная грамматика ». «Предлагаемая GNMT» архитектура «системного обучения» была реализована на более чем ста языках, поддерживаемых Google Translate. Что касается сквозной структуры, Google заявляет, но не демонстрирует для большинства языков, что «система со временем учится создавать более качественные и естественные переводы». Сеть GNMT пытается межъязыковой машинный перевод, который кодирует «семантику предложения, а не просто запоминание двухфразовых переводов», и система не изобрела свой собственный универсальный язык, а использует «общность» найдено между многими языками ". Впервые GNMT поддерживает восемь языков: английский и китайский, французский, немецкий, японский, корейский, португальский, испанский и турецкий. В марте 2017 года он был включен для хинди, русского и вьетнамского языков, а в апреле последовали бенгальский, гуджарати, индонезийский, каннада, малаялам, маратхи, пенджаби, тамильский и телугу.

Точность

Google Переводчик не так надежен, как человеческий перевод. Когда текст хорошо структурирован, написан с использованием формального языка, с простыми предложениями, относящимися к формальным темам, для которых достаточно обучающих данных, он часто производит преобразования, аналогичные человеческим переводам между английским и рядом языков с высокими ресурсами. Точность для этих языков снижается, когда применяется меньше этих условий, например, когда увеличивается длина предложения или в тексте используется знакомый или литературный язык. Для многих других языков по сравнению с английским он может создавать суть текста в тех формальных обстоятельствах. Человеческая оценка с английского на все 102 языка показывает, что основная идея текста передается более 50% времени на 35 языках. Для 67 языков минимально понятный результат не достигается в 50% и более случаев. В нескольких исследованиях проводилась оценка китайского, французского, немецкого и испанского на английский, но систематической человеческой оценки с большинства языков Google Translate на английский не проводилось. Спекулятивные оценки языка к языку, экстраполированные на основе измерений с английского на другой, показывают, что Google Translate дает результаты перевода, которые передают суть текста с одного языка на другой более чем в половине случаев примерно в 1% языковых пар, где ни один язык - английский.

При использовании в качестве словаря для перевода отдельных слов Google Translate очень неточен, поскольку он должен угадывать между многозначными словами. Среди 100 лучших слов английского языка, которые составляют более 50% всего письменного английского языка, среднее слово имеет более 15 смыслов, что делает вероятность правильного перевода примерно 15: 1, если каждое значение соответствует другому. слово на целевом языке. Самые распространенные английские слова имеют как минимум два смысла, что дает 50/50 шансов в вероятном случае, что целевой язык использует разные слова для этих разных значений. Шансы аналогичны для других языков на английский. Google Translate делает статистические предположения, которые повышают вероятность наиболее частого смысла слова, в результате чего точный перевод будет невозможен в случаях, которые не соответствуют большинству или множественности корпуса. Точность предсказаний для одного слова не измерялась ни для одного языка. Поскольку почти все пары неанглоязычных языков переходят на английский, шансы на получение точных переводов отдельных слов с одного неанглийского языка на другой можно оценить, умножив количество смыслов исходного языка на количество чувств каждого из них. термины есть на английском языке. Когда в словаре Google Translate нет слова, он формирует результат как часть своего алгоритма.

Ограничения

Google Translate, как и другие инструменты автоматического перевода, имеет свои ограничения. Сервис ограничивает количество абзацев и диапазон технических терминов, которые могут быть переведены, и, хотя он может помочь читателю понять общее содержание текста на иностранном языке, он не всегда обеспечивает точный перевод и в большинстве случаев имеет тенденцию повторяться. дословно то же слово, которое предполагается перевести. Грамматически, например, Google Translate пытается различить несовершенные и совершенные аспекты в романских языках, поэтому привычные и постоянные действия в прошлом часто становятся отдельными историческими событиями. Несмотря на кажущуюся педантичность, это часто может приводить к неверным результатам (например, для носителей французского и испанского языков), чего бы избежал переводчик-человек. Знание д сослагательного наклонения практически не существует. Более того, часто выбирается формальное второе лицо независимо от контекста или принятого использования. Его справочные материалы на английском языке содержат только формы «вы», ему трудно перевести язык с вариантами «вы все» или формальными вариантами «вы».

Из-за различий между языками в инвестициях, исследованиях и масштабах цифровых ресурсов точность Google Translate сильно различается для разных языков. Некоторые инструменты дают лучшие результаты, чем другие. Большинство языков Африки, Азии и Тихого океана, как правило, имеют низкие оценки по сравнению с оценками многих хорошо финансируемых европейских языков, причем африкаанс и китайский являются исключительными высокими показателями на их континентах. В Переводчик Google не включены языки народов Австралии или Америки. Более высокие баллы по европейскому языку можно частично отнести к Europarl Corpus, кладу документов из Европейского парламента, которые были профессионально переведены в соответствии с мандатом Европейского Союза на 21 язык. Анализ 2010 года показал, что перевод с французского на английский является относительно точным, а анализ 2011 и 2012 года показал, что перевод с французского на английский также является относительно точным. Однако, если исходный текст короче, машинный перевод на основе выполняется часто выполняется лучше; этот эффект особенно очевиден при переводе с китайского на английский. Хотя можно отправлять правки переводов, в частности, на китайском языке нельзя редактировать предложения целиком. Вместо этого необходимо иногда редактировать произвольные наборы символов, что приводит к неправильным изменениям. Хороший пример - русско-английский. Раньше можно было сделать черновик с помощью Google Translate, а затем использовать словарь и здравый смысл, чтобы исправить многочисленные ошибки. По состоянию на начало 2018 года Перевести достаточно точен, чтобы сделать русскую Википедию доступной для тех, кто умеет читать по-английски. Качество Translate можно проверить, добавив его в качестве ссылочного расширения для Chrome или Firefox и применив к левым языковымкам в любой статье Википедии. Его можно использовать как словарь, набирая слова. Можно перевести из книги с помощью сканера и OCR, такого как Google Диск, но это занимает около пяти минут на странице.

В функциях перевода письменных слов существует ограничение на слово, которое может быть переведено за один раз. Следовательно, длинный текст должен быть переведен в форму документа и переведен с помощью функции Document Translate.

Более того, как и все программы машинного перевода, Google Translate борется с многозначностью (множественность значений слова могут иметь) и многословные выражения (термины, значения которых не могут иметь быть поняты или переведены путем анализа составляющих их отдельных словарных единиц). Слово на иностранном языке может иметь два разных значения на языке перевода. Это может привести к неправильному переводу.

Кроме того, грамматические ошибки остаются ограничением точности Google Translate.

Лицензии и компоненты с открытым исходным кодом
ЯзыкWordNet Лицензия
АлбанскийAlbanetCC-BY 3.0 / GPL 3
арабскийарабский WordnetCC-BY-SA 3
каталонскийМногоязычный центральный репозиторийCC-BY-3.0
КитайскийКитайский WordnetWordnet
ДатскийDannetWordnet
английскийPrinceton WordnetWordnet
финскийFinnWordnetWordnet
французскийWOLF (WOrdnet Libre du Français)CeCILL-C
ГалисийскийМногоязычный центральный репозиторийCC-BY-3.0
ИвритИврит WordnetWordnet
ХиндиIIT Bombay WordnetIndo Wordnet
индонезийскийWordnet BahasaMIT
итальянскийMultiWordnetCC-BY -3.0
японскийяпонский WordnetWord net
яванскийяванский WordnetWordnet
малайскийWordnet BahasaMIT
норвежскийнорвежский WordnetWordnet
ПерсидскийПерсидский WordnetБесплатно
ПольскийplWordnetWordnet
ПортугальскийOpenWN-PTCC-BY-SA-3.0
ИспанскийМногоязычный центральный репозиторийCC-BY-3.0
ТайскийТайский WordnetWordnet
Обзоры

Вскоре после запуска службы перевода в первый раз Google выиграл международный конкурс для английского на арабский и английский на китайский. машинный перевод.

Ошибки и странности перевода

Google Translate использует для перевода сопоставление сопоставление, переведенный текст часто может явно бессмысленные и очевидные ошибки, иногда заменяя общие термины на похожие, но неэквивалентные общие термины в другой язык или инвертирование значения предложения. Новые веб-сайты, такие как Плохой переводчик и группа переводчиков использовали эту службу для создания юмористического текста, переводя туда и обратно между перемещениями, как в детской игре телефон.

. Монти Пайтон «Самая смешная шутка в мире » на английском языке, служба возвращает сообщение «[FATAL ERROR]».

Использование суда

В 2017 году Google Translate использовался во время судебного заседания, когда должностные лица магистратского суда Тиссайд не смогли заказать переводчика для китайского ответчика.

См. Также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-22 14:04:02
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте