Brown Corpus

редактировать
Набор данных американского английского в 1961 году

Стандартный корпус современного американского английского Университета Брауна (или просто Brown Corpus ) - это электронная коллекция текстовых образцов o f Американский английский, первый крупный структурированный корпус различных жанров. Этот корпус впервые установил планку для научного изучения частоты и распределения категорий слов в повседневном использовании языка. Составлено Генри Кучера и У. Нельсон Фрэнсис в Брауновском университете в Род-Айленде, это общий языковой корпус, содержащий 500 образцов английского языка, в общей сложности около миллиона слов, составленный из работ, опубликованных в США. Штаты в 1961 году.

Содержание
  • 1 История
  • 2 Пример распределения
  • 3 Используемые теги части речи
  • 4 См. Также
  • 5 Ссылки
  • 6 Внешние ссылки
История

В 1967 году Кучера и Фрэнсис опубликовали свою классическую работу «Вычислительный анализ современного американского английского языка», в которой были представлены основные статистические данные о том, что сегодня известно просто как Коричневый корпус.

Коричневый корпус. представлял собой тщательно подобранную подборку современного американского английского языка, насчитывающую около миллиона слов, взятых из самых разных источников. Кучера и Фрэнсис подвергли ее множеству компьютерных анализов, на основе которых они составили богатый и разнообразный труд, сочетающий элементы лингвистики, психологии, статистики и социологии. Он очень широко использовался в компьютерной лингвистике и в течение многих лет был одним из наиболее цитируемых ресурсов в этой области.

Вскоре после публикации первого лексикостатистического анализ, Бостон издатель Houghton-Mifflin обратился к Кучере с просьбой предоставить трехстрочную базу цитирования из миллиона слов для своего нового Словаря американского наследия. Этот новаторский словарь, впервые появившийся в 1969 году, был первым словарем, составленным с использованием корпусной лингвистики для определения частоты слов и другой информации.

В первоначальном Коричневом Корпусе были только сами слова плюс идентификатор местоположения для каждого. В течение следующих нескольких лет были применены теги части речи. Программа создания тегов Greene and Rubin (см. Раздел тегов речи ) значительно помогла в этом, но высокий уровень ошибок означал, что требовалась обширная ручная корректура.

Маркированный Коричневый Корпус использовал выборку из примерно 80 частей речи, а также специальные индикаторы для сложных форм, сокращений, иностранных слов и некоторых других явлений и сформировал модель для многих более поздних корпусов, таких как Lancaster-Oslo-Bergen Corpus (британский английский с начала 1990-х) и Freiburg-Brown Corpus американского английского языка (FROWN) (американский английский с начала 1990-х). Добавление тегов к корпусу позволило провести более сложный статистический анализ, такой как работа, запрограммированная Эндрю Маки и описанная в книгах по грамматике английского языка.

Один интересный результат заключается в том, что даже для довольно больших выборок отображение слов в порядке убывания частота появления показывает гиперболу : частота n-го наиболее часто встречающегося слова примерно пропорциональна 1 / n. Таким образом, «the» составляет почти 7% Brown Corpus, «к» и «из» - более чем еще по 3% каждое; в то время как около половины всего словарного запаса, составляющего около 50 000 слов, составляют hapax legomen : слова, которые встречаются в корпусе только один раз. Эта простая зависимость ранга от частоты была отмечена для необычайного разнообразия явлений Джорджем Кингсли Зипфом (например, см. Его Психобиология языка) и известна как закон Ципфа.

Хотя Brown Corpus был пионером в области корпусной лингвистики, к настоящему времени типичные корпуса (такие как Corpus of Contemporary American English, British National Corpus или International Corpus of English ), как правило, намного больше, порядка 100 миллионов слов.

Распределение семплов

Корпус состоит из 500 семплов, распределенных по 15 жанрам, примерно пропорционально количеству, опубликованному в 1961 году в каждом из этих жанров. Все отобранные работы были опубликованы в 1961 году; насколько можно было определить, они были впервые опубликованы тогда и были написаны носителями американского английского языка.

Каждая выборка начинается со случайной границы предложения в статье или другой выбранной единице и продолжается до границы первого предложения после 2000 слов. В очень немногих случаях неправильный подсчет приводил к тому, что образцы составляли чуть менее 2000 слов.

Исходные данные вводились только на машинах с вводом верхнего регистра keypunch ; заглавные буквы были обозначены предшествующей звездочкой, и различные специальные элементы, такие как формулы, также имели специальные коды.

Первоначально (1961 г.) корпус содержал 1014312 слов, взятых из 15 категорий текстов:

  • A. ПРЕССА: Репортаж (44 текста)
    • Политика
    • Спорт
    • Общество
    • Спот Новости
    • Финансы
    • Культурные
  • Б. ПРЕССА: От редакции (27 текстов)
    • Institutional Daily
    • Личный
    • Письма в редакцию
  • C. ПРЕССА: Обзоры (17 текстов)
    • театр
    • книги
    • музыка
    • танец
  • Д. РЕЛИГИЯ (17 текстов)
    • Книги
    • Периодические издания
    • Тракты
  • Э. НАВЫКИ И ХОББИ (36 текстов)
    • Книги
    • Периодические издания
  • F. ПОПУЛЯРНЫЕ ЗНАНИЯ (48 текстов)
    • Книги
    • Периодические издания
  • G. КОЛОКОЛЬЧИКИ - Биография, Воспоминания и др. (75 текстов)
    • Книги
    • Периодические издания
  • Х. РАЗНОЕ: Правительство и внутренние органы США (30 текстов)
    • Правительственные документы
    • Отчеты Фонда
    • Отчеты по отрасли
    • Каталог колледжей
    • Промышленность Домовой орган
  • Дж. ИЗУЧЕН (80 текстов)
    • Естественные науки
    • Медицина
    • Математика
    • Социальные и поведенческие науки
    • Политология, право, образование
    • Гуманитарные науки
    • Технологии и инженерия
  • К. ФИКЦИЯ: Общие (29 текстов)
    • Романы
    • Рассказы
  • Л. Художественная литература: Мистика и детективы (24 текста)
    • Романы
    • Рассказы
  • М. ФИКЦИЯ: Наука (6 текстов)
    • Романы
    • Рассказы
  • Н. ИСКУССТВО: Приключения и вестерн (29 текстов)
    • Романы
    • Рассказы
  • стр. ФИКЦИЯ: Романс и история любви (29 текстов)
    • Романы
    • Рассказы
  • Р. ЮМОР (9 текстов)
    • Романы
    • Очерки и т. Д.
Используемые теги части речи
ТегОпределение
.предложение (.; ? *)
(левая скобка
)правая скобка
*нет, n't
--тире
,запятая
:двоеточие
ABLпредварительный квалификатор (вполне, скорее)
ABNпре-квантификатор (половина, все)
ABXпре-квантификатор (оба)
APпост-определитель (много, несколько, следующий)
ATстатья (a, the, no)
BEbe
BEDбыла
BEDZбыла
BEGбыла
BEMam
BENбыл
BERар, статья
BBBявляется
CCкоординационным соединением (и, или)
CDкардинальное число (один, два, 2 и т. д.)
CSподчиненное соединение (если, хотя)
DOdo
DODdid
DOZвыполняет
DTопределитель / квантификатор единственного числа (это, то)
DTIопределитель / квантор единственного или множественного числа (некоторые, любые)
DTSопределитель множественного числа (эти, те)
DTXопределитель / двойное соединение (либо)
EXэкзистенциальное там
FWиностранное слово (hy перед обычным тегом)
HLслово в заголовке (переносится после обычного тега)
HVимеет
HVDимеет (прошедшее время)
HVGимеет
HVNимело (причастие прошедшего времени)
HVZимеет
INпредлог
JJприлагательное
JJRсравнительное прилагательное
JJSприлагательное в семантической превосходной степени (главный, верхний)
JJTморфологически превосходное прилагательное (наибольшее)
MDмодальное вспомогательное (может, должно, будет)
NCпроцитированное слово (через дефис после обычного tag)
NNединственное или неисчисляемое существительное
NN$притяжательное существительное единственного числа
NNSсуществительное множественного числа
NNS$притяжательное множественное число существительное
NPимя собственное или часть именной фразы
NP$притяжательное имя собственное
NPSсуществительное множественное число
NPS$притяжательное множественное число собственное существительное
NRнаречие существительное (дом, сегодня, запад)
NRSмножественное число наречий существительное
ODпорядковое числительное (первое, второе)
PNименное местоимение (все, ничего)
PN $притяжательное именное местоимение
P P $притяжательное личное местоимение (мое, наше)
PP$$второе (номинальное) притяжательное местоимение (мое, наше)
PPLединственное число возвратное / интенсивное личное местоимение (я)
PPLSрефлексивное / интенсивное личное местоимение множественного числа (мы)
PPOобъективное личное местоимение (я, он, он, они)
PPS3-й. местоимение именительного падежа единственного числа (he, she, it, one)
PPSSдругое именительное падежное местоимение (I, we, they, you)
QLквалификатор (очень, справедливо)
QLPпост-квалификатор (действительно, достаточно)
RBнаречие
RBRсравнительное наречие
RBTпревосходное наречие
RNименное наречие (здесь, тогда, в помещении)
RPнаречие / частица (about, off, up)
TLслово, встречающееся в заголовке (через дефис после обычного тега)
TOмаркер инфинитива на
UHмеждометие, восклицательный знак
VBглагол, основная форма
VBDглагол, прошедшее время
VBGглагол, причастие настоящего / герундий
VBNглагол, причастие прошедшего времени
VBPглагол, не 3-е лицо, единственное число, настоящее
VBZглагол, 3-е. настоящее
WDTwh- определитель (что, какой)
WP$притяжательное wh- местоимение (чье)
WPOцель wh - местоимение (who, which, that)
WPSименительный падеж wh- местоимение (who, which, that)
WQLwh- квалификатор (как)
WRBwh- наречие (как, где, когда)

Обратите внимание, что некоторые версии помеченного корпуса Brown содержат комбинированные теги. Например, слово «хочу» помечено как VB + TO, поскольку это сокращенная форма двух слов: want / VB и to / TO. Также некоторые теги могут быть инвертированы, например, «не» будет помечено как «BER *», где * означает отрицание. Кроме того, теги могут иметь перенос: тег -HL переносится к обычным тегам слов в заголовках. Тег -TL переносится через дефис к обычным тегам слов в заголовках. Перенос -NC означает выделенное слово. Иногда тег имеет префикс FW-, что означает иностранное слово.

См. Также
  • LOB Corpus, корпус британского английского языка, основанный на тех же параметрах, что и Brown Corpus
  • British National Corpus
Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-13 14:08:51
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте