Совместное размещение

редактировать

Частое появление слов рядом друг с другом

В корпусной лингвистике a словосочетание - это последовательность слов или терминов, которые встречаются чаще, чем можно было бы ожидать случайно. В фразеологии, словосочетание является подтипом фраземы. Примером фразеологического словосочетания, предложенного Майклом Холлидеем, является выражение «крепкий чай». Хотя то же значение может быть передано примерно эквивалентным крепким чаем, англоговорящие люди считают это выражение чрезмерным и неудобным. И наоборот, соответствующее выражение в технологии - мощный компьютер - предпочтительнее сильного компьютера. Фразеологические словосочетания не следует путать с идиомами, где значение идиомы вытекает из соглашения, заменяющего что-то еще, в то время как словосочетание - это простая популярная композиция.

Существует около шести основных типов словосочетаний: прилагательное + существительное, существительное + существительное (например, собирательные существительные ), глагол + существительное, наречие + прилагательное, глаголы + предложная фраза (фразовые глаголы ) и глагол + наречие.

Извлечение словосочетания - это вычислительный метод, который находит словосочетания в документе или корпусе с использованием различных элементов компьютерной лингвистики, напоминающих интеллектуальный анализ данных.

Содержание

1 Расширенное определение
2 В словарях
3 Статистически значимое словосочетание
4 См. Также
5 Ссылки
6 Внешние ссылки

Расширенное определение

Словосочетания - это частично или полностью фиксированные выражения, которые устанавливаются посредством повторное контекстно-зависимое использование. Такие термины, как «кристально чистый», «менеджмент среднего звена», «нуклеарная семья» и «косметическая хирургия» являются примерами совмещенных пар слов.

Словосочетания могут находиться в синтаксическом отношении (например, глагол – объект : «сделать» и «решение»), лексическом отношении ( например, антонимия ), или они не могут быть лингвистически определенными отношениями. Знание словосочетаний жизненно важно для грамотного использования языка: грамматически правильное предложение будет казаться неудобным, если будут нарушены коллокационные предпочтения. Это делает коллокацию интересной областью для обучения языку.

Лингвисты корпуса определяют ключевое слово в контексте (KWIC ) и определяют слова, непосредственно окружающие их. Это дает представление о том, как используются слова.

Обработка сочетаний включает в себя ряд параметров, наиболее важным из которых является мера ассоциации, которая оценивает, является ли совпадение чисто случайным или статистически значимым.. Из-за неслучайной природы языка большинство словосочетаний классифицируются как значимые, а оценки ассоциации просто используются для ранжирования результатов. Обычно используемые меры ассоциации включают взаимную информацию, t-баллы и логарифмическое правдоподобие.

Вместо того, чтобы выбирать одно определение, Gledhill предлагает, чтобы коллокация включала как минимум три различных перспективы: (i) совместное появление, статистическое представление, которое рассматривает словосочетание как повторяющееся появление в тексте узла и его словосочетаний, (ii) построение, которое рассматривает словосочетание как корреляцию между лексемой и лексико-грамматическим паттерн, или как отношение между основанием и его коллокативными партнерами и (iii) выражение, прагматический взгляд на словосочетание как на условную единицу выражения, независимо от формы. Эти разные точки зрения контрастируют с обычным способом представления словосочетания во фразеологизмах. Традиционно говоря, словосочетание объясняется в терминах всех трех точек зрения сразу, в континууме:

«Свободное сочетание» ↔ «Связанное словосочетание» ↔ «Замороженная идиома»

В словарях

В 1933 г. Во втором промежуточном отчете Гарольда Палмера об английских словосочетаниях подчеркивается важность словосочетания как ключа к созданию естественно звучащего языка для всех, кто изучает иностранный язык. Таким образом, с 1940-х годов информация о повторяющихся словосочетаниях стала стандартной функцией словарей одноязычных учащихся. По мере того, как эти словари становились «менее словесными и более фразовыми», больше внимания уделялось коллокации. Эта тенденция поддерживалась с начала 21 века доступностью больших текстовых корпусов и интеллектуального программного обеспечения для запросов к корпусам, что позволило обеспечить более систематический учет коллокаций в словари. Используя эти инструменты, словари, такие как Macmillan English Dictionary и Longman Dictionary of Contemporary English, включали блоки или панели со списками часто встречающихся словосочетаний.

Также есть количество специализированных словарей, посвященных описанию часто встречающихся словосочетаний в языке. К ним относятся (для испанского) Redes: Diccionario combinatorio del español contemporaneo (2004), (для французского) Le Robert: Dictionnaire des combinaisons de mots (2007) и (для английского) Словарь избранных словосочетаний LTP (1997) и Macmillan Словарь словосочетаний (2010).

Статистически значимое словосочетание

t-критерий Стьюдента может использоваться для определения того, является ли наличие словосочетания в корпусе статистически значимым. Для биграммы $w 1 w 2 {\ displaystyle w_ {1} w_ {2}}$ ${\ displaystyle w_ {1} w_ {2}}$ , пусть $P (w 1) = # w 1 N { \ displaystyle P (w_ {1}) = {\ frac {\ #w_ {1}} {N}}}$ ${\ displaystyle P (w_ {1}) = {\ frac {\ #w_ {1}} {N}}}$ - безусловная вероятность появления $w 1 {\ displaystyle w_ {1 }}$ $w_ {1}$ в корпусе размером $N {\ displaystyle N}$ $N$ , и пусть $P (w 2) = # w 2 N {\ displaystyle P (w_ {2}) = {\ frac {\ #w_ {2}} {N}}}$ ${\ displaystyle P (w_ {2}) = {\ frac {\ #w_ {2}} {N}}}$ - безусловная вероятность появления $w 2 {\ displaystyle w_ {2}}$ $w_ {2}$ в корпусе. Тогда t-оценка для биграммы $w 1 w 2 {\ displaystyle w_ {1} w_ {2}}$ ${\ displaystyle w_ {1} w_ {2}}$ рассчитывается как:

$t = x ¯ - μ s 2 N, {\ displaystyle t = {\ frac {{\ bar {x}} - \ mu} {\ sqrt {\ frac {s ^ {2}} {N}}}},}$ ${\ displaystyle t = {\ frac {{\ bar {x}} - \ mu} {\ sqrt {\ frac {s ^ {2}} {N}}}},}$

где $x ¯ = # wiwj N {\ displaystyle {\ bar {x}} = {\ frac {\ #w_ {i} w_ {j}} {N}}}$ ${\ displaystyle {\ bar {x}} = {\ frac {\ #w_ {i} w_ {j}} { N}}}$ - выборочное среднее для появления $w 1 w 2 {\ displaystyle w_ {1} w_ {2}}$ ${\ displaystyle w_ {1} w_ {2}}$ , $# w 1 w 2 {\ displaystyle \ #w_ {1} w_ {2}}$ ${\ displaystyle \ #w_ {1} w_ {2}}$ - количество появления $w 1 w 2 {\ displaystyle w_ {1} w_ {2}}$ ${\ displaystyle w_ {1} w_ {2}}$ , $μ = P (wi) P (wj) {\ displaystyle \ mu = P (w_ {i}) P (w_ {j})}$ ${\ отображает tyle \ mu = P (w_ {i}) P (w_ {j})}$ - вероятность $w 1 w 2 {\ displaystyle w_ {1} w_ {2}}$ ${\ displaystyle w_ {1} w_ {2}}$ при нулевой гипотезе, что $w 1 {\ displaystyle w_ {1}}$ $w_ {1}$ и $w 2 {\ displaystyle w_ {2}}$ $w_ {2}$ появляются в тексте независимо, а $s 2 = x ¯ (1 - x ¯) ≈ x ¯ {\ displaystyle s ^ {2} = {\ bar {x}} (1 - {\ bar {x}}) \ приблизительно {\ bar {x}}}$ ${\ displaystyle s ^ {2} = {\ bar {x}} (1 - {\ bar {x}}) \ приблизительно {\ bar {x}}}$ - выборочная дисперсия. С большим $N {\ displaystyle N}$ $N$ t-тест эквивалентен z-test.

См. Также

Linguistics portal

Ссылки

Внешние ссылки

Найдите словосочетание в Wiktionary, бесплатном словаре.

Словарь словосочетаний Ozdic
Маленькая система, хранящая испанские словосочетания (Игорь А. Большаков и Сабино Миранда -Хименес)
Морфологическая характеристика словосочетаний и семантических отношений в испанском (Сабино Миранда-Хименес и Игорь А. Большаков)
Пример словосочетаний для слова «Хирургия»