Вычислительная лингвистика - это междисциплинарная область, связанная с компьютерным моделированием естественный язык, а также изучение соответствующих вычислительных подходов к лингвистическим вопросам. В целом компьютерная лингвистика опирается на лингвистику, информатику, искусственный интеллект, математику, логику, философия, когнитивная наука, когнитивная психология, психолингвистика, антропология и неврология, среди другие.
Традиционно компьютерная лингвистика возникла как область искусственного интеллекта, выполняемая компьютерными учеными, которые специализировались на применении компьютеров для обработки естественных язык. С образованием Association for Computational Linguistics (ACL) и учреждением серии независимых конференций, эта область консолидировалась в 1970-х и 1980-х годах. Термин «компьютерная лингвистика» в настоящее время (2020 г.) считается почти синонимом обработки естественного языка (НЛП) и (технологии человеческого) языка. В этих терминах больше внимания уделяется аспектам практического применения, чем теоретическим исследованиям, и с 2000-х годов они в значительной степени заменили термин «компьютерная лингвистика» в сообществе НЛП.
Компьютерная лингвистика имеет как теоретические, так и прикладные компоненты. Теоретическая компьютерная лингвистика занимается вопросами теоретической лингвистики и когнитивной науки. Прикладная компьютерная лингвистика фокусируется на практических результатах моделирования использования человеческого языка. Теоретическая компьютерная лингвистика включает разработку формальных теорий грамматики (синтаксический анализ ) и семантики, часто основанных на формальной логике и символической (основанной на знаниях ) подходит. В прикладной компьютерной лингвистике преобладает машинное обучение, традиционно использующее статистические методы, с середины 2010-х годов - нейронные сети : Socher et al. (2012) был одним из первых руководств по глубокому обучению на ACL 2012 и встретил как интерес, так и (в то время) скептицизм большинства участников. До тех пор нейронное обучение в основном отвергалось из-за отсутствия статистической интерпретируемости. До 2015 года глубокое обучение превратилось в основную основу НЛП.
Ассоциация компьютерной лингвистики определяет компьютерную лингвистику как:
... научное изучение языка с вычислительной точки зрения. Компьютерные лингвисты заинтересованы в предоставлении вычислительных моделей различных видов языковых явлений.
Вычислительная лингвистика часто относится к области искусственного интеллекта, но присутствовала до появления искусственного интеллекта. Вычислительная лингвистика зародилась в 1950-х годах в Соединенных Штатах, когда в США были предприняты попытки использовать компьютеры для автоматического перевода текстов с иностранных языков, особенно из российских научных журналов, на английский. Поскольку компьютеры могут производить арифметические (систематические) вычисления намного быстрее и точнее, чем люди, считалось, что это лишь короткий вопрос времени, прежде чем они смогут начать обрабатывать язык. Вычислительные и количественные методы также исторически используются при попытках реконструкции более ранних форм современных языков и подгруппы современных языков в языковые семьи. Ранние методы, такие как лексикостатистика и глоттохронология, оказались преждевременными и неточными. Однако недавние междисциплинарные исследования, в которых заимствованы концепции из биологических исследований, особенно картирование генов, доказали, что они дают более сложные аналитические инструменты и более надежные результаты.
Когда машинный перевод (также известный как механический перевод) не сразу давал точные переводы, автоматическая обработка человеческих языков была признана гораздо более сложной, чем предполагалось изначально. Вычислительная лингвистика родилась как название новой области исследований, посвященной разработке алгоритмов и программного обеспечения для интеллектуальной обработки языковых данных. Сам термин «компьютерная лингвистика» впервые был придуман Дэвидом Хейсом, одним из основателей Ассоциации компьютерной лингвистики (ACL) и Международного комитета по компьютерной лингвистике (ICCL).
Чтобы перевести один язык на другой, было замечено, что нужно понимать грамматику обоих языков, включая обе морфологию ( грамматика словоформ) и синтаксис (грамматика структуры предложения). Чтобы понять синтаксис, нужно было также понимать семантику и лексикон (или «словарь»), и даже что-то из прагматики использования языка. Таким образом, то, что начиналось как попытка перевода между языками, превратилось в целую дисциплину, посвященную пониманию того, как представлять и обрабатывать естественные языки с помощью компьютеров.
В настоящее время исследования в области компьютерной лингвистики проводятся на факультетах компьютерной лингвистики. лаборатории компьютерной лингвистики, кафедры информатики и кафедры лингвистики. Некоторые исследования в области компьютерной лингвистики направлены на создание рабочих систем обработки речи или текста, в то время как другие нацелены на создание системы, позволяющей взаимодействие человека и машины. Программы, предназначенные для человеко-машинного общения, называются диалоговыми агентами.
Так же, как компьютерная лингвистика может выполняться экспертами в самых разных областях и через широкий спектр отделов, так же могут Области исследований охватывают широкий круг тем. В следующих разделах обсуждается некоторая литература, доступная во всей области, разбитая на четыре основные области дискурса: лингвистика развития, структурная лингвистика, лингвистическое производство и лингвистическое понимание.
Язык - это когнитивный навык, который развивается на протяжении всей жизни человека. Этот процесс развития был исследован с использованием нескольких методов, и вычислительный подход является одним из них. Развитие человеческого языка действительно имеет некоторые ограничения, которые затрудняют применение вычислительного метода для его понимания. Например, во время овладения языком человеческие дети в основном получают только положительные доказательства. Это означает, что во время языкового развития человека предоставляется единственное доказательство того, что является правильной формой, и нет доказательств того, что является неправильным. Этой информации недостаточно для простой процедуры проверки гипотез для такой сложной информации, как язык, и поэтому она обеспечивает определенные границы для вычислительного подхода к моделированию развития и усвоения языка у человека.
Были предприняты попытки смоделировать процесс развития овладения языком у детей с вычислительной точки зрения, что привело к созданию как статистических грамматик, так и коннекционистских моделей. Работа в этой области также была предложена как метод объяснения эволюции языка на протяжении истории. Используя модели, было показано, что языки можно изучать с помощью комбинации простых входных данных, которые вводятся постепенно, по мере того, как ребенок развивает лучшую память и большую продолжительность внимания. Одновременно это выдвигалось как причина длительного периода развития человеческих детей. Оба вывода были сделаны из-за силы искусственной нейронной сети, которую создал проект.
Способность младенцев к развитию речи также была смоделирована с помощью роботов для проверки лингвистических теорий. Модель, позволяющая учиться наравне с детьми, была создана на основе модели аффорданса, в которой были созданы сопоставления между действиями, восприятием и эффектами и связаны с произнесенными словами. Что особенно важно, эти роботы смогли получить действующие преобразования слова в значение без необходимости грамматической структуры, что значительно упростило процесс обучения и пролило свет на информацию, которая способствует нынешнему пониманию языкового развития. Важно отметить, что эту информацию можно было проверить только эмпирически с использованием вычислительного подхода.
Поскольку наше понимание языкового развития человека в течение жизни постоянно улучшается с помощью нейронных сетей и обучающих роботизированных систем, также важно помнить, что языки сами изменяются и развиваются. через время. Вычислительные подходы к пониманию этого явления открыли очень интересную информацию. Используя уравнение Прайса и динамику Pólya urn, исследователи создали систему, которая не только предсказывает будущую лингвистическую эволюцию, но и дает представление об эволюционной истории современных языков. Это моделирование с помощью компьютерной лингвистики достигло того, что в противном случае было бы невозможно.
Совершенно очевидно, что понимание лингвистического развития у людей, а также на протяжении всего эволюционного периода было фантастически улучшено благодаря достижениям компьютерной лингвистики. Способность моделировать и модифицировать системы по своему желанию дает науке этический метод проверки гипотез, которые в противном случае были бы трудноразрешимыми.
Для создания лучших вычислительных моделей языка понимание структуры языка имеет решающее значение. С этой целью английский язык был тщательно изучен с использованием вычислительных подходов, чтобы лучше понять, как язык работает на структурном уровне. Одним из наиболее важных аспектов изучения лингвистической структуры является наличие больших лингвистических корпусов или образцов. Это предоставляет компьютерным лингвистам необработанные данные, необходимые для запуска их моделей и лучшего понимания базовых структур, присутствующих в огромном количестве данных, содержащихся на любом отдельном языке. Один из наиболее цитируемых английских лингвистических корпусов - Penn Treebank. Этот корпус, заимствованный из самых разных источников, таких как компьютерные руководства IBM и расшифровки телефонных разговоров, содержит более 4,5 миллионов слов американского английского. Этот корпус был в основном аннотирован с использованием тегов части речи и синтаксических скобок и дал существенные эмпирические наблюдения, связанные со структурой языка.
Также были разработаны теоретические подходы к структуре языков. Эти работы позволяют компьютерной лингвистике иметь основу для выработки гипотез, которые будут способствовать пониманию языка множеством способов. В одном из оригинальных теоретических тезисов об усвоении грамматики и структуры языка предлагалось два типа моделей. В этих моделях усвоенные правила или паттерны усиливаются с частотой их встреч. Работа также поставила вопрос перед компьютерными лингвистами, на который они должны были ответить: как младенец выучивает специфическую и ненормальную грамматику (нормальная форма Хомского ), не изучая чрезмерно обобщенную версию и не застревая? Подобные теоретические усилия задают направление исследованиям на ранних этапах существования области исследования и имеют решающее значение для развития этой области.
Структурная информация о языках позволяет обнаруживать и реализовывать распознавание сходства между парами текстовых высказываний. Например, недавно было доказано, что на основе структурной информации, присутствующей в паттернах человеческого дискурса, концептуальные графики повторения могут использоваться для моделирования и визуализации тенденций в данных и создания надежных мер сходства между естественными текстовыми высказываниями.. Этот метод является мощным инструментом для дальнейшего исследования структуры человеческого дискурса. Без вычислительного подхода к этому вопросу чрезвычайно сложная информация, содержащаяся в данных дискурса, осталась бы недоступной для ученых.
Информация о структурных данных языка доступна для английского, а также для других языков, таких как японский. С помощью вычислительных методов были проанализированы японские корпуса предложений, и была обнаружена закономерность логарифмической нормальности в зависимости от длины предложения. Хотя точная причина этой логнормальности остается неизвестной, компьютерная лингвистика предназначена для обнаружения именно такой информации. Эта информация может привести к дальнейшим важным открытиям, касающимся основной структуры японского языка, и может иметь любое количество эффектов на понимание японского языка как языка. Вычислительная лингвистика позволяет очень быстро пополнять базу научных знаний, не оставляя места для сомнений.
В последние дни структурные данные языков доступны для нескольких языков мира, кроме английского языка. Работа в области компьютерной лингвистики продолжается над языком синдхи, поскольку структура, грамматика и область применения языка синдхи отличается от других языков мира. Модели компьютерной лингвистики для английского языка не подходят для языка синдхи. Исходя из этого, работа компьютерной лингвистики над языком синдхи была начата должным образом с разработки методов, алгоритмов, лингвистических инструментов (https://sindhinlp.com/ ), моделей машинного обучения и моделей глубокого обучения с 2016 года, чтобы сосредоточить внимание и решать лингвистические проблемы языка синдхи. Эта работа может привести к дальнейшим важным открытиям, касающимся основной структуры синдхи, и может иметь любое количество эффектов на понимание синдхи как языка.
Без вычислительного подхода к структуре лингвистических данных большая часть информации, доступной сейчас, все равно была бы скрыта под огромным объемом данных на любом отдельном языке. Вычислительная лингвистика позволяет ученым надежно и эффективно анализировать огромные объемы данных, создавая возможность для открытий, которых нет в большинстве других подходов.
Производство языка столь же сложно как с точки зрения предоставляемой информации, так и с необходимыми навыками, которые должен иметь свободный продюсер. Другими словами, понимание - это только половина проблемы коммуникации. Другая половина - это то, как система производит язык, и компьютерная лингвистика сделала интересные открытия в этой области.
Алан Тьюринг: компьютерный ученый и одноименный разработчик теста Тьюринга как метода измерения интеллекта машины.В теперь известной статье, опубликованной в 1950 году Алан Тьюринг предложили возможность того, что машины однажды смогут «думать». В качестве мысленного эксперимента, который может определить концепцию мышления в машинах, он предложил «имитационный тест», в котором человеческий субъект ведет два текстовых разговора, один с другим человеком, а другой с машиной. пытается ответить как человек. Тьюринг предполагает, что если субъект не может отличить человека от машины, можно сделать вывод, что машина способна мыслить. Сегодня этот тест известен как тест Тьюринга и остается влиятельной идеей в области искусственного интеллекта.
Джозеф Вайценбаум : бывший профессор Массачусетского технологического института и ученый-компьютерщик, разработавший ELIZA, примитивную компьютерную программу, использующую обработку естественного языка.Один из самых ранних и наиболее известных примеров Компьютерная программа, разработанная для естественного общения с людьми, - это программа ELIZA, разработанная Джозефом Вайценбаумом в Массачусетском технологическом институте в 1966 году. Программа имитировала Роджерианца психотерапевт при ответе на письменные утверждения и вопросы, заданные пользователем. Казалось, он способен понимать, что ему говорят, и разумно реагировать, но на самом деле он просто следовал процедуре сопоставления с образцом, которая полагалась только на понимание нескольких ключевых слов в каждом предложении. Его ответы были получены путем объединения неизвестных частей предложения вокруг правильно переведенных версий известных слов. Например, во фразе «Кажется, ты меня ненавидишь» ELIZA понимает «ты» и «меня», что соответствует общему шаблону «ты [несколько слов] меня», позволяя ELIZA обновлять слова «ты» и «я». на «Я» и «ты» и отвечая: «Почему ты думаешь, что я тебя ненавижу?». В этом примере ELIZA не понимает слова «ненависть», но это не требуется для логической реакции в контексте этого типа психотерапии.
Некоторые проекты все еще пытаются решить проблему, которая была начата компьютерная лингвистика как область прежде всего. Однако методы стали более совершенными, и, следовательно, результаты, полученные компьютерными лингвистами, стали более информативными. Чтобы улучшить компьютерный перевод, было проведено сравнение нескольких моделей, в том числе скрытых марковских моделей, методов сглаживания и конкретных усовершенствований тех, которые применяются к переводу глаголов. Было обнаружено, что модель, обеспечивающая наиболее естественные переводы слов немецкий и французский, представляла собой усовершенствованную модель согласования с зависимостью первого порядка и моделью фертильности. Они также предоставляют эффективные алгоритмы обучения для представленных моделей, которые могут дать другим ученым возможность улучшить свои результаты. Этот тип работы специфичен для компьютерной лингвистики и имеет приложения, которые могут значительно улучшить понимание того, как язык создается и воспринимается компьютерами.
Также была проделана работа по созданию компьютеров более естественным образом. Используя лингвистический ввод от людей, были созданы алгоритмы, которые могут изменять стиль производства системы на основе такого фактора, как лингвистический ввод от человека, или более абстрактных факторов, таких как вежливость или любое из пяти основных параметров личности. В этой работе используется вычислительный подход с помощью моделей оценки параметров, чтобы классифицировать широкий спектр языковых стилей, которые мы видим у разных людей, и упростить его для компьютера, чтобы он работал таким же образом, обеспечивая взаимодействие человека с компьютером намного естественнее.
Многие из самых ранних и простейших моделей взаимодействия человека с компьютером, такие как ELIZA, например, включают текстовый ввод от пользователя для генерации ответа от пользователя. компьютер. С помощью этого метода слова, вводимые пользователем, заставляют компьютер распознавать определенные шаблоны и отвечать соответствующим образом с помощью процесса, известного как определение ключевых слов.
Последние технологии позволили разместить больше упор на речевые интерактивные системы. Эти системы, такие как Siri в операционной системе iOS, работают по той же технологии распознавания шаблонов, что и текстовые системы, но в первой из них осуществляется ввод данных пользователем. через распознавание речи. Эта ветвь лингвистики включает в себя обработку речи пользователя в виде звуковых волн и интерпретацию акустики и языковых паттернов, чтобы компьютер распознал ввод.
Большая часть внимания современная компьютерная лингвистика на понимании. С распространением Интернета и обилием легкодоступного письменного человеческого языка, способность создать программу, способную понимать человеческий язык, будет иметь множество широких и захватывающих возможностей, включая улучшенные поисковые системы, автоматическое обслуживание клиентов, и онлайн-образование.
Ранняя работа по пониманию включала применение байесовской статистики к задаче оптического распознавания символов, как проиллюстрировали Бледсо и Брауинг в 1959 году, в которых большой словарь возможных букв был создан путем «обучения» на примерах букв, а затем Вероятность того, что любой из этих усвоенных примеров соответствует новому входу, была объединена для принятия окончательного решения. Другие попытки применить байесовскую статистику к языковому анализу включали работу Мостеллера и Уоллеса (1963), в которой анализ слов, использованных в Записках федералиста, был использован для попытки определить их авторство (заключая, что Мэдисон больше всего вероятно, является автором большинства статей).
В 1971 году Терри Виноград разработал ранний механизм обработки естественного языка, способный интерпретировать естественно написанные команды в рамках простых правил, управляемых Окружающая среда. Программа синтаксического анализа основного языка в этом проекте называлась SHRDLU, которая могла вести отчасти естественный диалог с пользователем, давая ему команды, но только в рамках игрушечной среды, разработанной для этой задачи. Эта среда состояла из блоков разной формы и цвета, и SHRDLU был способен интерпретировать такие команды, как «Найдите блок, который выше, чем тот, который вы держите, и поместите его в коробку». и задавать такие вопросы, как «Я не понимаю, о какой пирамиде вы имеете в виду». в ответ на ввод пользователя. Хотя этот вид обработки естественного языка впечатляет, он оказался намного более сложным за пределами ограниченной области игрушечной среды. Точно так же проект, разработанный NASA called, был разработан, чтобы дать ответы на естественно написанные вопросы о геологическом анализе лунных горных пород, возвращенные миссиями Apollo. Проблемы такого рода называются ответом на вопрос.
Первоначальные попытки понять разговорный язык были основаны на работе, проделанной в 1960-х и 1970-х годах по моделированию сигналов, когда неизвестный сигнал анализируется для поиска закономерностей и прогнозирования на основе по его истории. Первоначальный и в некоторой степени успешный подход к применению этого вида моделирования сигналов к языку был достигнут с использованием скрытых марковских моделей, подробно описанных Рабинером в 1989 году. Этот подход пытается определить вероятности для произвольного числа моделей, которые могут быть использованы при генерации речь, а также моделирование вероятностей для различных слов, сгенерированных из каждой из этих возможных моделей. Аналогичные подходы использовались в ранних попытках распознавания речи, начиная с конца 70-х годов в IBM с использованием пар вероятностей слово / часть речи.
В последнее время такие статистические подходы стали применяться к более сложные задачи, такие как определение темы с использованием оценки байесовского параметра для определения вероятностей темы в текстовых документах.
Прикладная компьютерная лингвистика в значительной степени эквивалентна обработке естественного языка, см. там. Примеры приложений для конечных пользователей включают программное обеспечение для распознавания речи, такое как функция Apple Siri, инструменты проверки орфографии, программы синтеза речи, которые часто используются для демонстрации произношения или помощи инвалидам, а также программы и веб-сайты машинного перевода, такие как Google Translate.
Вычислительная лингвистика также может быть полезна в ситуациях, связанных с социальными сетями и Интернетом, например, для предоставления фильтров контента в чатах или при поиске на веб-сайтах, для группировки и организация контента с помощью анализа социальных сетей, поиска документов и кластеризации. Например, если человек ищет «красный, большой четырехколесный автомобиль», чтобы найти изображения красного грузовика, поисковая машина все равно найдет нужную информацию, сопоставив такие слова, как «четырехколесный» с «автомобилем».
Вычислительные подходы также важны для поддержки лингвистических исследований, например, в корпусной лингвистике или исторической лингвистике. Что касается изучения изменений во времени, вычислительные методы могут способствовать моделированию и идентификации языковых семей (см. Далее количественная сравнительная лингвистика или филогенетика ), а также моделированию изменений звука и значения.
Вычислительная лингвистика может быть разделена на основные области в соответствии с различными критериями, включая:
О задачах, решаемых прикладной компьютерной лингвистикой, см. статью Обработка естественного языка. Сюда входят классические проблемы, такие как разработка POS-taggers (тегеров части речи), синтаксических анализаторов для естественных языков или таких задач, как машинный перевод (MT), подраздел компьютерной лингвистики, занимающийся компьютерным переводом между языками. Будучи одним из самых ранних и сложных приложений компьютерной лингвистики, машинный перевод опирается на множество подполей, как теоретических, так и прикладных аспектов. Традиционно автоматический языковой перевод считался печально известной отраслью компьютерной лингвистики.
Области исследований, изучаемые теоретической компьютерной лингвистикой, включают:
Традиционно применение компьютеров для решения исследовательских задач в других отраслях лингвистики описывалось как задачи компьютерной лингвистики. Среди других аспектов это включает
Тема компьютерной лингвистики неоднократно влияла на популярную культуру:
В Викиверситете есть учебные ресурсы по компьютерной лингвистике |
На Викискладе есть материалы, связанные с компьютерной лингвистикой. |