A биграмма или биграмма - это последовательность двух смежных элементов из строки из токенов, которые обычно представляют собой буквы, слоги, или слова. Биграмма - это n-грамм для n = 2. Частотное распределение каждой биграммы в строке обычно используется для простого статистического анализа текста во многих приложениях, включая вычислительную лингвистику, криптографию, распознавание речи и т. Д.
Неаккуратные биграммы или пропускающие биграммы - это пары слов, которые допускают пропуски (возможно, избегая соединяющих слов или позволяя некоторое моделирование зависимостей, как в грамматике зависимостей ).
Биграммы заглавных слов - это биграммы с пробелами с явной зависимостью.
Биграммы помогают определить условные вероятность токена с учетом предыдущего токена, когда применяется соотношение условной вероятности :
То есть вероятность токена с учетом предыдущего токена равно вероятности их биграммы или одновременному появлению двух токенов , деленное на вероятность предыдущего токена.
Биграммы используются в наиболее успешных языковых моделях для распознавания речи. Они являются частным случаем N-грамм..
Частотные атаки биграмм могут использоваться в криптографии для решения криптограмм. См. частотный анализ.
Частота биграмм - один из подходов к статистической идентификации языка.
Некоторые действия в логологии или развлекательной лингвистике включают биграммы. К ним относятся попытки найти английские слова, начинающиеся со всех возможных биграмм, или слова, содержащие последовательность повторяющихся биграмм, например, logogogue.
Частота наиболее распространенных буквенные биграммы в маленьком корпусе английского языка:
th 1,52 en 0,55 ng 0,18 he 1,28 ed 0,53 0,16 дюймов 0,94 до 0,52 al 0,09 er 0,94 it 0,50 de 0,09 an 0,82 ou 0,50 se 0,08 re 0,68 ea 0,47 le 0,08 nd 0,63 hi 0,46 sa 0,06 при 0,59 - 0,46 si 0,05 на 0,57 или 0,43 ar 0,04 nt 0,56 ti 0,34 ve 0,04 га 0,56 as 0,33 ra 0,04 es 0,56 te 0,27 ld 0,02 st 0,55 и 0,19 ur 0,02
Завершено Доступны частоты биграмм для большего корпуса.