Биграмма

редактировать

A биграмма или биграмма - это последовательность двух смежных элементов из строки из токенов, которые обычно представляют собой буквы, слоги, или слова. Биграмма - это n-грамм для n = 2. Частотное распределение каждой биграммы в строке обычно используется для простого статистического анализа текста во многих приложениях, включая вычислительную лингвистику, криптографию, распознавание речи и т. Д.

Неаккуратные биграммы или пропускающие биграммы - это пары слов, которые допускают пропуски (возможно, избегая соединяющих слов или позволяя некоторое моделирование зависимостей, как в грамматике зависимостей ).

Биграммы заглавных слов - это биграммы с пробелами с явной зависимостью.

Содержание
  • 1 Подробности
  • 2 Приложения
  • 3 Частота биграмм на английском языке
  • 4 См. Также
  • 5 Ссылки
Подробности

Биграммы помогают определить условные вероятность токена с учетом предыдущего токена, когда применяется соотношение условной вероятности :

P (W n | W n - 1) = P (W n - 1, W n) P (W n - 1) {\ Displaystyle P (W_ {n} | W_ {n-1}) = {P (W_ {n-1}, W_ {n}) \ над P (W_ {n-1}) }}P (W_ {n} | W _ {{n-1}}) = {P (W _ {{n-1}}, W_ {n}) \ над P (W _ {{n-1}})}

То есть вероятность P () {\ displaystyle P ()}P()токена W n {\ displaystyle W_ {n}}W_{n}с учетом предыдущего токена W n - 1 {\ displaystyle W_ {n-1}}W_{{n-1}}равно вероятности их биграммы или одновременному появлению двух токенов P (W n - 1, W n) {\ displaystyle P (W_ {n-1}, W_ {n})}P (W _ {{n-1}}, W_ {n }) , деленное на вероятность предыдущего токена.

Приложения

Биграммы используются в наиболее успешных языковых моделях для распознавания речи. Они являются частным случаем N-грамм..

Частотные атаки биграмм могут использоваться в криптографии для решения криптограмм. См. частотный анализ.

Частота биграмм - один из подходов к статистической идентификации языка.

Некоторые действия в логологии или развлекательной лингвистике включают биграммы. К ним относятся попытки найти английские слова, начинающиеся со всех возможных биграмм, или слова, содержащие последовательность повторяющихся биграмм, например, logogogue.

Частота биграмм в английском языке

Частота наиболее распространенных буквенные биграммы в маленьком корпусе английского языка:

th 1,52 en 0,55 ng 0,18 he 1,28 ed 0,53 0,16 дюймов 0,94 до 0,52 al 0,09 er 0,94 it 0,50 de 0,09 an 0,82 ou 0,50 se 0,08 re 0,68 ea 0,47 le 0,08 nd 0,63 hi 0,46 sa 0,06 при 0,59 - 0,46 si 0,05 на 0,57 или 0,43 ar 0,04 nt 0,56 ti 0,34 ve 0,04 га 0,56 as 0,33 ra 0,04 es 0,56 te 0,27 ld 0,02 st 0,55 и 0,19 ur 0,02

Завершено Доступны частоты биграмм для большего корпуса.

См. также
Литература
  1. ^Коллинза, Майкл Джон (1996-06-24). «Новый статистический синтаксический анализатор на основе лексических зависимостей биграмм». Материалы 34-го ежегодного собрания Ассоциации компьютерной лингвистики -. Ассоциация компьютерной лингвистики. С. 184–191. arXiv : cmp-lg / 9605012. doi : 10.3115 / 981863.981888. Проверено 9 октября 2018 г.
  2. ^Cohen, Philip M. (1975). «Начальные биграммы». Word Ways. 8 (2). Проверено 11 сентября 2016 г.
  3. ^Корбин, Кайл (1989). «Двойные, тройные и четверные биграммы». Word Ways. 22 (3). Проверено 11 сентября 2016 г.
  4. ^Проект Cornell Math Explorer - Замещающие шифры
  5. ^Джонс, Майкл Н; Д. Дж. К. Мьюхорт (август 2004 г.). «Подсчет частоты букв и биграмм с учетом регистра в больших английских корпусах». Методы, приборы и компьютеры исследования поведения. 36 (3): 388–396. doi : 10.3758 / bf03195586. ISSN 0743-3808. PMID 15641428.
  6. ^«Частота написания букв на английском языке: пересмотр Майзнера или ETAOIN SRHLDCU». norvig.com. Проверено 28 октября 2019 г.
Последняя правка сделана 2021-05-12 05:17:57
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте