Корпус лингвистики

редактировать
Раздел лингвистики, изучающий язык на примерах, содержащихся в реальных текстах

Корпусная лингвистика - это изучение языка, как выражено в корпусе (образцы) текста "реального мира". Корпусная лингвистика предполагает, что надежный языковой анализ более осуществим с корпусами, собранными в полевых условиях, в их естественном контексте («реалиях») и с минимальным экспериментальным вмешательством.

В области корпусной лингвистики существуют различные взгляды на ценность аннотации корпуса. Эти взгляды варьируются от Джона МакХарди Синклера, который выступает за минимальную аннотацию, чтобы тексты говорили сами за себя, до команды Survey of English Usage (Университетский колледж, Лондон ), которые выступают за аннотацию как на возможность лучшего языкового понимания посредством тщательной записи.

Метод текстового корпуса - это пищеварительный подход, который выводит набор абстрактных правил, управляющих естественным языком из текстов на этом языке, и исследует, как этот язык соотносится с другими языками. Изначально создаваемые вручную, теперь корпуса автоматически извлекаются из исходных текстов.

В дополнение к лингвистическим исследованиям, собранные корпуса использовались для составления словарей (начиная с The American Heritage Dictionary of the English Language в 1969 году) и грамматических справочников, например, Комплексная грамматика английского языка, опубликованная в 1985 году.

Содержание
  • 1 История
    • 1.1 Корпуса английского языка
    • 1,2 Многоязычные корпуса
    • 1.3 Корпуса древних языков
    • 1.4 Корпуса из определенных полей
  • 2 Методы
  • 3 См. Также
  • 4 Примечания и ссылки
  • 5 Дополнительная литература
    • 5.1 Книги
    • 5.2 Серия книг
    • 5.3 Журналы
  • 6 Внешние ссылки
История

Некоторые из самых ранних попыток грамматического описания были основаны, по крайней мере частично, на корпусах особого религиозного или культурного значения. Например, в литературе о пратишакхье описаны звуковые паттерны санскрита, найденные в Ведах, и грамматика Панини классический санскрит был основан, по крайней мере частично, на анализе того же самого корпуса. Точно так же первые грамматики арабского языка уделяли особое внимание языку Корана. Согласно западноевропейской традиции, ученые подготовили согласования, позволяющие детально изучить язык Библии и других канонических текстов.

Английский корпус

Вехой в современной корпусной лингвистике стала публикация Генри Кучера и У. Нельсон Фрэнсис из «Вычислительного анализа современного американского английского языка» в 1967 году, работа, основанная на анализе Браун Корпуса, тщательно подобранной подборки современного американского английского языка, в общей сложности около миллиона слов, взятых из широкий выбор источников. Кучера и Фрэнсис подвергли ее множеству компьютерных анализов, на основании которых они составили богатый и разнообразный труд, сочетающий элементы лингвистики, преподавания языков, психологии, статистики и социологии. Следующей ключевой публикацией была книга Рэндольфа Квирка «На пути к описанию использования английского языка» (1960), в которой он представил The Survey of English Usage.

Вскоре после этого бостонское издательство Houghton -Миффлин обратился к Кучере с просьбой предоставить трехстрочную базу цитирования из миллиона слов для своего нового Словарь американского наследия, первого словаря, составленного с использованием лингвистики корпуса. AHD предпринял новаторский шаг, объединив предписывающие элементы (как следует использовать язык) с описательной информацией (как она используется на самом деле).

Другие издатели последовали его примеру. COBUILD словарь для одноязычных учащихся британского издательства Collins, предназначенный для пользователей, изучающих английский как иностранный, был составлен с использованием Bank of English. Survey of English Usage Corpus был использован при разработке одной из самых важных основанных на Корпусе грамматик - Комплексной грамматики английского языка (Quirk et al. 1985).

The Brown Corpus также породил ряд корпусов с аналогичной структурой: LOB Corpus (1960-е годы британский английский ), Kolhapur (Indian English ), Wellington (новозеландский английский ), Australian Corpus of English (австралийский английский ), the Frown Corpus (начало 1990-х американский английский ) и Корпус FLOB (британский английский 1990-х годов). Другие корпуса представляют множество языков, разновидностей и форм и включают Международный корпус английского языка и Британский национальный корпус, собрание из 100 миллионов слов разнообразных устных и письменных текстов, создан в 1990-х годах консорциумом издателей, университетов (Оксфорд и Ланкастер ) и Британской библиотеки. Что касается современного американского английского языка, то работа над Американским национальным корпусом застопорилась, но более 400 миллионов слов Корпус современного американского английского (с 1990 г. по настоящее время) теперь доступны через веб-интерфейс.

Первый компьютеризированный корпус транскрибированной разговорной речи был создан в 1971 году Монреальским французским проектом и содержал один миллион слов, которые вдохновили Шана Поплак на создание гораздо большего корпуса разговорного французского языка в Оттаве. - Область корпуса.

Многоязычный корпус

В 1990-х годах многие из первых заметных успехов статистических методов в НЛП произошли в области машинного перевода, особенно благодаря работать в IBM Research. Эти системы могли использовать преимущества существующих многоязычных текстовых корпусов, которые были разработаны Парламентом Канады и Европейским Союзом в результате принятия законов, требующих перевод всех правительственных заседаний на все официальные языки соответствующих систем правления.

Корпуса древних языков

Помимо этих корпусов живых языков, компьютеризированные корпуса также были составлены из коллекций текстов на древних языках. Примером может служить база данных Andersen -Forbes еврейской Библии, разработанная с 1970-х годов, в которой каждое предложение анализируется с использованием графиков, представляющих до семи уровней синтаксиса, и каждый сегмент помечен семью полями информации. Quranic Arabic Corpus - это аннотированный корпус для классического арабского языка Корана. Это недавний проект с несколькими уровнями аннотации, включая морфологическую сегментацию, тегирование части речи и синтаксический анализ с использованием грамматики зависимостей.

Корпуса из определенных полей

Помимо чисто лингвистического исследования, исследователи начали применять корпусную лингвистику к другим академическим и профессиональным областям, таким как возникающая суб-дисциплина права и корпусная лингвистика, которая стремится понимать юридические тексты с использованием корпусных данных и инструментов.

Методы

Корпоративная лингвистика создала ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001) впервые представили то, что они назвали перспективой 3А: аннотации, абстракция и анализ.

  • Аннотация состоит в применении схемы к текстам. Аннотации могут включать в себя структурную разметку, тегирование части речи, синтаксический анализ и множество других представлений.
  • Абстракция состоит из перевода (сопоставления) терминов в схеме на термины в теоретическом мотивированная модель или набор данных. Абстракция обычно включает поиск, управляемый лингвистами, но может включать, например, изучение правил для парсеров.
  • Анализ состоит из статистического исследования, обработки и обобщения набора данных. Анализ может включать статистические оценки, оптимизацию баз правил или методы обнаружения знаний.

Большинство лексических корпусов сегодня помечены тегами части речи (POS-тегами). Однако даже корпусные лингвисты, работающие с «неаннотированным простым текстом», неизбежно применяют какой-либо метод для выделения основных терминов. В таких ситуациях аннотация и абстракция объединяются в лексическом поиске.

Преимущество публикации аннотированного корпуса состоит в том, что другие пользователи могут затем проводить эксперименты с корпусом (через менеджеров корпуса ). Лингвисты с другими интересами и взглядами, отличными от интересов авторов, могут использовать эту работу. Обмениваясь данными, лингвисты корпуса могут рассматривать корпус как место лингвистических дебатов и дальнейшего изучения.

См. Также
  • значок Портал лингвистики
Примечания и ссылки
Дополнительная литература

Книги

  • Бибер, Д., Конрад, С., Реппен Р. Корпусная лингвистика, исследование структуры и использования языка, Кембридж: Cambridge UP, 1998. ISBN 0-521-49957-7
  • Маккарти, Д., Сэмпсон Г. Лингвистика корпуса: чтения в расширяющейся дисциплине, Continuum, 2005. ISBN 0-8264-8803-X
  • Facchinet ti, R. Теоретическое описание и практическое применение лингвистических корпусов. Верона: QuiEdit, 2007 ISBN 978-88-89480-37-3
  • Факкинетти, Р. (ред.) Corpus Linguistics 25 лет спустя. Нью-Йорк / Амстердам: Родопи, 2007 ISBN 978-90-420-2195-2
  • Факкинетти Р. и Риссанен М. (ред.) Исследования на основе Корпуса Диахронический английский. Берн: Питер Ланг, 2006 ISBN 3-03910-851-4
  • Лендерс, У. Компьютерная лексикография и корпусная лингвистика до прибл. 1970/1980, в: Gouws, R.H., Heid, U., Schweickard, W., Wiegand, H.E. (ред.) Словари - Международная энциклопедия лексикографии. Дополнительный том: Последние разработки с упором на электронную и вычислительную лексикографию. Берлин: Де Грюйтер Мутон, 2013 ISBN 978-3112146651
  • Fuß, Eric et al. (Ред.): Grammar and Corpora 2016, Heidelberg: Heidelberg University Publishing, 2018. doi : 10.17885 / heiup.361.509 (цифровой открытый доступ ).

Серия книг

Серия книг в этой области включает:

Журналы

Существует несколько международных рецензируемых журналов, посвященных корпусной лингвистике, например:

Внешние ссылки
На Викискладе есть материалы, связанные с лингвистикой корпуса.
Последняя правка сделана 2021-05-15 13:06:12
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте