История машинного перевода

редактировать

Машинный перевод - это подполе компьютерной лингвистики, которое исследует использование программного обеспечения переводить текст или речь с одного естественного языка на другой.

В 1950-х годах машинный перевод стал реальностью в исследованиях, хотя ссылки на эту тему можно найти уже в 17 веке. Джорджтаунский эксперимент, который включал в себя успешный полностью автоматический перевод более шестидесяти русских предложений на английский в 1954 году, был одним из первых записанных проектов. Исследователи Джорджтаунского эксперимента подтвердили свою веру в то, что машинный перевод будет решенной проблемой в течение трех-пяти лет. Вскоре после этого в Советском Союзе были проведены аналогичные эксперименты. Следовательно, успех эксперимента положил начало эре значительного финансирования исследований машинного перевода в Соединенных Штатах. Достигнутый прогресс был намного медленнее, чем ожидалось; В 1966 году в отчете ALPAC было обнаружено, что десять лет исследований не оправдали ожиданий эксперимента в Джорджтауне и привели к резкому сокращению финансирования.

Интерес вырос к статистическим моделям машинного перевода, которые стали более распространенными, а также менее дорогими в 1980-х годах по мере увеличения доступной вычислительной мощности.

Хотя не существует автономной системы «полностью автоматического высококачественного перевода неограниченного текста», сейчас доступно множество программ, способных обеспечить полезный вывод в строгих ограничениях. Некоторые из этих программ доступны в Интернете, например, Google Translate и система SYSTRAN, которая используется для BabelFish от AltaVista (с 9 мая 2008 г. теперь это Yahoo's Babelfish).

Содержание

1 Начало
2 Ранние годы
3 1960-е, отчет ALPAC и семидесятые
4 1980-е и начало 1990-х
5 2000-е годы
6 См. Также
7 Примечания
8 Ссылки
9 Дополнительная литература

Начало

Истоки машинного перевода восходят к работе Аль-Кинди, арабский криптограф 9 века, разработавший методы системного языкового перевода, включая криптоанализ, частотный анализ и вероятность и статистики, которые используются в современном машинном переводе. Идея машинного перевода появилась позже в 17 веке. В 1629 году Рене Декарт предложил универсальный язык с эквивалентными идеями на разных языках, разделяющих один символ.

В середине 1930-х годов Жорж подал заявку на первые патенты на «машины перевода». Artsrouni, для автоматического двуязычного словаря с использованием бумажной ленты. Русский Петр Троянский представил более подробное предложение, которое включало как двуязычный словарь, так и метод работы с грамматическими ролями между языками, основанный на грамматической системе эсперанто. Эта система была разделена на три этапа: первый этап состоял из редактора-носителя языка исходного текста, который систематизировал слова в их логические формы и выполнял синтаксические функции; на втором этапе машина должна «перевести» эти формы на целевой язык; и на третьем этапе для нормализации этого вывода требовался редактор с родным языком на целевом языке. Предложение Троянского оставалось неизвестным до конца 1950-х годов, когда компьютеры были широко известны и широко использовались.

Первые годы

Первый набор предложений по машинному переводу на базе компьютера был представлен в 1949 году Уорреном Уивером, исследователем из Фонда Рокфеллера, «Перевод меморандума ». Эти предложения были основаны на теории информации, успехах взлома кода во время Второй мировой войны и теориях об универсальных принципах, лежащих в основе естественного языка.

Через несколько лет после того, как Уивер представил свои предложения, во многих университетах США начались серьезные исследования. 7 января 1954 года в Нью-Йорке в головном офисе IBM был проведен эксперимент Джорджтаун-IBM. Это была первая публичная демонстрация системы машинного перевода. Демонстрация широко освещалась в газетах и вызвала общественный интерес. Однако сама система была не более чем «игрушечной» системой. В нем было всего 250 слов и 49 тщательно отобранных русских предложений были переведены на английский язык - в основном в области химии. Тем не менее, он поддержал идею о неизбежности машинного перевода и стимулировал финансирование исследований не только в США, но и во всем мире.

Ранние системы использовали большие двуязычные словари и правила, составленные вручную для фиксации порядка слов в окончательный результат, который в то время считался слишком ограничивающим для лингвистических разработок. Например, генеративная лингвистика и трансформационная грамматика были использованы для улучшения качества переводов. В этот период были установлены операционные системы. ВВС США использовали систему, произведенную IBM и Вашингтонским университетом, а Комиссия по атомной энергии и Евратом в Италии использовалась система, разработанная Джорджтаунским университетом. Несмотря на то, что качество продукции было плохим, оно удовлетворяло многим потребностям клиентов, особенно в плане скорости.

В конце 1950-х годов Иегошуа Бар-Гиллеля попросили Правительство США изучит машинный перевод, чтобы оценить возможность полностью автоматического машинного перевода высокого качества. Бар-Гиллель описал проблему семантической двусмысленности или двойного значения, как показано в следующем предложении:

Маленький Джон искал свою коробку с игрушками. Наконец он нашел это. Коробка была в ручке.

Слово «перо» может иметь два значения: первое - то, что используется для письма чернилами; второе значение - какой-то контейнер. Для человека смысл очевиден, но Бар-Гиллель утверждал, что без «универсальной энциклопедии» машина никогда не сможет справиться с этой проблемой. В то время этот тип семантической неоднозначности можно было решить только путем написания исходных текстов для машинного перевода на контролируемом языке, который использует словарь, в котором каждое слово имеет ровно одно значение.

1960-е годы, отчет ALPAC и семидесятые годы

Исследования 1960-х годов как в Советском Союзе, так и в США были сосредоточены в основном на русско-английской языковой паре. Объектами перевода были в основном научно-технические документы, например статьи из научных журналов. Сделанных черновых переводов было достаточно, чтобы получить общее представление о статьях. Если в статье обсуждалась тема, которая считается конфиденциальной, ее отправляли переводчику-человеку для полного перевода; в противном случае его выбросили.

Большой удар по исследованиям машинного перевода был нанесен в 1966 году с публикацией отчета ALPAC. Отчет был заказан правительством США и предоставлен ALPAC, Консультативным комитетом по автоматической обработке языков, группой из семи ученых, созванной правительством США в 1964 году. Правительство США было обеспокоено отсутствием достигнут прогресс, несмотря на значительные расходы. В отчете сделан вывод о том, что машинный перевод был более дорогим, менее точным и медленным, чем перевод, выполняемый человеком, и что, несмотря на затраты, машинный перевод вряд ли в ближайшем будущем достигнет качества переводчика-человека.

В отчете, однако, рекомендуется разработать инструменты для помощи переводчикам - например, автоматические словари - и продолжить поддержку некоторых исследований в области компьютерной лингвистики.

Публикация отчета оказала глубокое влияние на исследования машинного перевода в США и, в меньшей степени, Советском Союзе и Великобритании. Исследования, по крайней мере, в США, были почти полностью заброшены на более чем десятилетие. Однако в Канаде, Франции и Германии исследования продолжались. В США основным исключением были основатели Systran (Питер Тома ) и Logos (Бернард Скотт), которые основали свои компании в 1968 и 1970 годах соответственно и служили Министерству обороны США.. В 1970 году система Systran была установлена для ВВС США, а затем Комиссией Европейских сообществ в 1976 году. METEO Система, разработанная в Университете Монреаля, была установлена в Канаде в 1977 году для перевода прогнозов погоды с английского на французский и переводила около 80 000 слов в день или 30 миллионов слов в год, пока не появилась. была заменена системой конкурента 30 сентября 2001 года.

В то время как исследования в 1960-х годах были сосредоточены на ограниченных языковых парах и вводе, спрос в 1970-х годах был на недорогие системы, которые могли бы переводить ряд технических и коммерческих документов. Этот спрос был вызван ростом глобализации и спросом на переводы в Канаде, Европе и Японии.

1980-е и начало 1990-х годов

К 1980-м годам оба увеличилось разнообразие и количество установленных систем машинного перевода. Использовался ряд систем, основанных на технологии мэйнфреймов, таких как Systran, Logos, Ariane-G5 и Metal.

As a В результате повышения доступности микрокомпьютеров появился рынок систем машинного перевода более низкого уровня. Этим воспользовались многие компании в Европе, Японии и США. Системы также были выведены на рынок в Китае, Восточной Европе, Корее и Советском Союзе.

В 1980-е годы в сфере машиностроения была большая активность, особенно в Японии. Выпустив компьютер пятого поколения, Япония намеревалась опередить своих конкурентов в области компьютерного оборудования и программного обеспечения, и одним из проектов, в котором оказались вовлечены многие крупные японские производители электроники, было создание программного обеспечения для перевода на английский язык и с английского языка (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki).

Исследования 1980-х годов обычно основывались на переводе с помощью различных промежуточных лингвистических представлений, включая морфологический, синтаксический и семантический анализ.

В конце 1980-х годов произошел значительный всплеск ряда новых методов машинного перевода. Одна система была разработана в IBM и основана на статистических методах. Макото Нагао и его группа использовали методы, основанные на большом количестве примеров перевода, метод, который теперь называется машинным переводом на основе примеров. Определяющей чертой обоих этих подходов было пренебрежение синтаксическими и семантическими правилами и использование вместо них манипуляций с большими текстами корпусами.

В течение 1990-х годов, чему способствовали успехи в распознавании речи и синтез речи, исследования в области речевого перевода начались с разработки немецкого проекта Verbmobil.

Система Forward Area Language Converter (FALCon), технология машинного перевода, разработанная Армейской исследовательской лабораторией, была применена в 1997 году для перевода документов для солдат в Боснии.

Значительный рост использования машинного перевода произошел в результате появления более дешевых и более мощных компьютеров. Это было в начале 1990-х, когда в машинном переводе начался переход от больших мэйнфреймов к персональным компьютерам и рабочим станциям. Две компании, которые какое-то время лидировали на рынке ПК, - это Globalink и MicroTac, после чего слияние двух компаний (в декабре 1994 г.) оказалось в интересах обеих компаний. Примерно в это же время Intergraph и Systran также начали предлагать версии для ПК. В Интернете также стали доступны такие сайты, как AltaVista Babel Fish (с использованием технологии Systran) и Google Language Tools (также изначально с использованием исключительно технологии Systran).

2000-е годы

За последние несколько лет в области машинного перевода произошли серьезные изменения. В настоящее время проводится большое количество исследований по статистическому машинному переводу и машинному переводу на основе примеров. В области перевода речи исследования были сосредоточены на переходе от систем с ограничением по предметной области к системам с неограниченным доменом. В различных исследовательских проектах в Европе (например, TC-STAR) и в США (STR-DUST и US-DARPA-GALE) были разработаны решения для автоматического перевода парламентских выступлений и новостей. В этих сценариях область содержания больше не ограничивается какой-либо определенной областью, а, скорее, речи, которые необходимо перевести, охватывают множество тем. Совсем недавно французско-немецкий проект Quaero исследует возможность использования машинного перевода для многоязычного Интернета. Проект направлен на перевод не только веб-страниц, но также видео и аудиофайлов в Интернете.

Сегодня лишь несколько компаний используют статистический машинный перевод в коммерческих целях, например Omniscien Technologies (ранее Asia Online), SDL / Language Weaver (продает продукты и услуги перевода), Google (использует собственную статистическую систему машинного перевода для некоторых языковых комбинаций в языковых инструментах Google), Microsoft (использует свою собственную статистическую систему машинного перевода для перевода статей из базы знаний) и Ta with you (предлагает решение для машинного перевода, адаптированное к предметной области, на основе статистического машинного перевода с некоторыми лингвистическими знаниями). Возродился интерес к гибридизации, когда исследователи объединяют синтаксические и морфологические (т. Е. Лингвистические) знания в статистические системы, а также объединяют статистику с существующими системами, основанными на правилах.

См. Также

Примечания

Ссылки

Hutchins, J. (2005). «Вехи в машинном переводе - №6: Бар-Гиллель и невозможность FAHQT]» (PDF).
Ван Слайп, Жорж (1983). Лучший перевод для лучшего общения. Париж: Pergamon Press. ISBN 9780080305349.

Дополнительная литература

Хатчинс, У. Джон (1986). Машинный перевод: прошлое, настоящее, будущее. Серия Эллис Хорвуд в компьютерах и их приложениях. Чичестер: Эллис Хорвуд. ISBN 0470203137.