Корпус лингвистики

редактировать

Раздел лингвистики, изучающий язык на примерах, содержащихся в реальных текстах

Корпусная лингвистика - это изучение языка, как выражено в корпусе (образцы) текста "реального мира". Корпусная лингвистика предполагает, что надежный языковой анализ более осуществим с корпусами, собранными в полевых условиях, в их естественном контексте («реалиях») и с минимальным экспериментальным вмешательством.

В области корпусной лингвистики существуют различные взгляды на ценность аннотации корпуса. Эти взгляды варьируются от Джона МакХарди Синклера, который выступает за минимальную аннотацию, чтобы тексты говорили сами за себя, до команды Survey of English Usage (Университетский колледж, Лондон ), которые выступают за аннотацию как на возможность лучшего языкового понимания посредством тщательной записи.

Метод текстового корпуса - это пищеварительный подход, который выводит набор абстрактных правил, управляющих естественным языком из текстов на этом языке, и исследует, как этот язык соотносится с другими языками. Изначально создаваемые вручную, теперь корпуса автоматически извлекаются из исходных текстов.

В дополнение к лингвистическим исследованиям, собранные корпуса использовались для составления словарей (начиная с The American Heritage Dictionary of the English Language в 1969 году) и грамматических справочников, например, Комплексная грамматика английского языка, опубликованная в 1985 году.

Содержание

1 История
- 1.1 Корпуса английского языка
- 1,2 Многоязычные корпуса
- 1.3 Корпуса древних языков
- 1.4 Корпуса из определенных полей
2 Методы
3 См. Также
4 Примечания и ссылки
5 Дополнительная литература
- 5.1 Книги
- 5.2 Серия книг
- 5.3 Журналы
6 Внешние ссылки

История

Некоторые из самых ранних попыток грамматического описания были основаны, по крайней мере частично, на корпусах особого религиозного или культурного значения. Например, в литературе о пратишакхье описаны звуковые паттерны санскрита, найденные в Ведах, и грамматика Панини классический санскрит был основан, по крайней мере частично, на анализе того же самого корпуса. Точно так же первые грамматики арабского языка уделяли особое внимание языку Корана. Согласно западноевропейской традиции, ученые подготовили согласования, позволяющие детально изучить язык Библии и других канонических текстов.

Английский корпус

Вехой в современной корпусной лингвистике стала публикация Генри Кучера и У. Нельсон Фрэнсис из «Вычислительного анализа современного американского английского языка» в 1967 году, работа, основанная на анализе Браун Корпуса, тщательно подобранной подборки современного американского английского языка, в общей сложности около миллиона слов, взятых из широкий выбор источников. Кучера и Фрэнсис подвергли ее множеству компьютерных анализов, на основании которых они составили богатый и разнообразный труд, сочетающий элементы лингвистики, преподавания языков, психологии, статистики и социологии. Следующей ключевой публикацией была книга Рэндольфа Квирка «На пути к описанию использования английского языка» (1960), в которой он представил The Survey of English Usage.

Вскоре после этого бостонское издательство Houghton -Миффлин обратился к Кучере с просьбой предоставить трехстрочную базу цитирования из миллиона слов для своего нового Словарь американского наследия, первого словаря, составленного с использованием лингвистики корпуса. AHD предпринял новаторский шаг, объединив предписывающие элементы (как следует использовать язык) с описательной информацией (как она используется на самом деле).

Другие издатели последовали его примеру. COBUILD словарь для одноязычных учащихся британского издательства Collins, предназначенный для пользователей, изучающих английский как иностранный, был составлен с использованием Bank of English. Survey of English Usage Corpus был использован при разработке одной из самых важных основанных на Корпусе грамматик - Комплексной грамматики английского языка (Quirk et al. 1985).

The Brown Corpus также породил ряд корпусов с аналогичной структурой: LOB Corpus (1960-е годы британский английский ), Kolhapur (Indian English ), Wellington (новозеландский английский ), Australian Corpus of English (австралийский английский ), the Frown Corpus (начало 1990-х американский английский ) и Корпус FLOB (британский английский 1990-х годов). Другие корпуса представляют множество языков, разновидностей и форм и включают Международный корпус английского языка и Британский национальный корпус, собрание из 100 миллионов слов разнообразных устных и письменных текстов, создан в 1990-х годах консорциумом издателей, университетов (Оксфорд и Ланкастер ) и Британской библиотеки. Что касается современного американского английского языка, то работа над Американским национальным корпусом застопорилась, но более 400 миллионов слов Корпус современного американского английского (с 1990 г. по настоящее время) теперь доступны через веб-интерфейс.

Первый компьютеризированный корпус транскрибированной разговорной речи был создан в 1971 году Монреальским французским проектом и содержал один миллион слов, которые вдохновили Шана Поплак на создание гораздо большего корпуса разговорного французского языка в Оттаве. - Область корпуса.

Многоязычный корпус

В 1990-х годах многие из первых заметных успехов статистических методов в НЛП произошли в области машинного перевода, особенно благодаря работать в IBM Research. Эти системы могли использовать преимущества существующих многоязычных текстовых корпусов, которые были разработаны Парламентом Канады и Европейским Союзом в результате принятия законов, требующих перевод всех правительственных заседаний на все официальные языки соответствующих систем правления.

Корпуса древних языков

Помимо этих корпусов живых языков, компьютеризированные корпуса также были составлены из коллекций текстов на древних языках. Примером может служить база данных Andersen -Forbes еврейской Библии, разработанная с 1970-х годов, в которой каждое предложение анализируется с использованием графиков, представляющих до семи уровней синтаксиса, и каждый сегмент помечен семью полями информации. Quranic Arabic Corpus - это аннотированный корпус для классического арабского языка Корана. Это недавний проект с несколькими уровнями аннотации, включая морфологическую сегментацию, тегирование части речи и синтаксический анализ с использованием грамматики зависимостей.

Корпуса из определенных полей

Помимо чисто лингвистического исследования, исследователи начали применять корпусную лингвистику к другим академическим и профессиональным областям, таким как возникающая суб-дисциплина права и корпусная лингвистика, которая стремится понимать юридические тексты с использованием корпусных данных и инструментов.

Методы

Корпоративная лингвистика создала ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001) впервые представили то, что они назвали перспективой 3А: аннотации, абстракция и анализ.

Аннотация состоит в применении схемы к текстам. Аннотации могут включать в себя структурную разметку, тегирование части речи, синтаксический анализ и множество других представлений.
Абстракция состоит из перевода (сопоставления) терминов в схеме на термины в теоретическом мотивированная модель или набор данных. Абстракция обычно включает поиск, управляемый лингвистами, но может включать, например, изучение правил для парсеров.
Анализ состоит из статистического исследования, обработки и обобщения набора данных. Анализ может включать статистические оценки, оптимизацию баз правил или методы обнаружения знаний.

Большинство лексических корпусов сегодня помечены тегами части речи (POS-тегами). Однако даже корпусные лингвисты, работающие с «неаннотированным простым текстом», неизбежно применяют какой-либо метод для выделения основных терминов. В таких ситуациях аннотация и абстракция объединяются в лексическом поиске.

Преимущество публикации аннотированного корпуса состоит в том, что другие пользователи могут затем проводить эксперименты с корпусом (через менеджеров корпуса ). Лингвисты с другими интересами и взглядами, отличными от интересов авторов, могут использовать эту работу. Обмениваясь данными, лингвисты корпуса могут рассматривать корпус как место лингвистических дебатов и дальнейшего изучения.

См. Также

Портал лингвистики

Примечания и ссылки

Дополнительная литература

Книги

Бибер, Д., Конрад, С., Реппен Р. Корпусная лингвистика, исследование структуры и использования языка, Кембридж: Cambridge UP, 1998. ISBN 0-521-49957-7
Маккарти, Д., Сэмпсон Г. Лингвистика корпуса: чтения в расширяющейся дисциплине, Continuum, 2005. ISBN 0-8264-8803-X
Facchinet ti, R. Теоретическое описание и практическое применение лингвистических корпусов. Верона: QuiEdit, 2007 ISBN 978-88-89480-37-3
Факкинетти, Р. (ред.) Corpus Linguistics 25 лет спустя. Нью-Йорк / Амстердам: Родопи, 2007 ISBN 978-90-420-2195-2
Факкинетти Р. и Риссанен М. (ред.) Исследования на основе Корпуса Диахронический английский. Берн: Питер Ланг, 2006 ISBN 3-03910-851-4
Лендерс, У. Компьютерная лексикография и корпусная лингвистика до прибл. 1970/1980, в: Gouws, R.H., Heid, U., Schweickard, W., Wiegand, H.E. (ред.) Словари - Международная энциклопедия лексикографии. Дополнительный том: Последние разработки с упором на электронную и вычислительную лексикографию. Берлин: Де Грюйтер Мутон, 2013 ISBN 978-3112146651
Fuß, Eric et al. (Ред.): Grammar and Corpora 2016, Heidelberg: Heidelberg University Publishing, 2018. doi : 10.17885 / heiup.361.509 (цифровой открытый доступ ).

Серия книг

Серия книг в этой области включает:

Журналы

Существует несколько международных рецензируемых журналов, посвященных корпусной лингвистике, например:

Corpora
Corpus Linguistics and Linguistic Theory
ICAME Journal
International Journal of Corpus Linguistics
Language Resources and Evaluation Journal при поддержке European Language Resources Association
Research in Corpus Linguistics при поддержке Испанской ассоциации корпусной лингвистики ( AELINCO)

Внешние ссылки

На Викискладе есть материалы, связанные с лингвистикой корпуса.

Закладки для лингвистов на основе корпуса - очень хорошо опасный сайт с категоризированными и аннотированными ссылками на языковые корпуса, программное обеспечение, ссылки и т. д.
список обсуждений корпусов
бесплатный веб-корпус (100–400 млн слов каждый): американский (COCA, COHA), Британский (BNC), TIME, испанский, португальский
обзорный сайт Мануэля Барбера
Список литературы Пшемека Кашубски
AskOxford.com состав и использование Oxford Corpus
DMCBC.com
Datum Multilanguage Corpora На основе китайского бесплатного образца загрузки
Сообщество Corpus4u китайский онлайн-форум по корпусной лингвистике
Страница корпуса лингвистики Макиннери и Уилсона
Корпусная лингвистика со списком рассылки R
Исследования и разработки Подразделение по изучению английского языка
Исследование использования английского языка
Центр корпусной лингвистики при Университете Бирмингема
Инструменты для корпусной лингвистики (аннотированный список)
Шлюз к корпусной лингвистике в Интернете : аннотированное руководство к корпусу ресурсов в Интернете
Биомедицинский корпус
Лингвистические данные Консорциум, крупный дистрибьютор корпорации
Penn Parsed Corpora of Historical English
Corsis : (ранее Tenka Text) с открытым исходным кодом (GPL ) инструмент анализа корпуса, написанный на C #
ICECUP и Fuzzy Tree Fragments
Дискуссионная группа интеллектуальный анализ текста
Дискуссионное сообщество Google+ по корпусной лингвистике для изучения и преподавания языков
Корпоративная конференция по лингвистике MAG 2017: Вы можете найти некоторую информацию и события, связанные с Метадискурсом между жанрами, посетив веб-сайт MAG 2017.
Корпус политических выступлений, общедоступный с выступлениями из США, Гонконга, Тайвань и Китай, предоставлено Библиотекой Гонконгского баптистского университета
LIVAC Synchronous Corpus