Триграмма

редактировать
Частный случай n-грамм, где n равно 3

Триграммы являются частным случаем n-граммы, где n равно 3. Они часто используются в n. языковая обработка для выполнения статистического анализа текстов и в криптографии для контроля и использования шифров и кодов.

Частота

Контекст очень важен, различные рейтинги и процентные соотношения в анализе легко выводятся на основе выборки разных размеров, разных авторов; или разные типы документов: поэзия, научная фантастика, техническая документация; и уровни письма: сказки для детей и взрослых, военные приказы и рецепты.

Типичный криптоаналитический частотный анализ обнаруживает, что 16 наиболее распространенных триграмм на уровне символов в английском языке:

RankTrigramЧастота. (другой источник)
11,81%
2и0,73%
3, чем0,33%
4энт0,42%
5ing0,72%
6ion0,42%
7tio0,31%
8для0,34%
9nde
10имеет
11nce
12edt
13tis
14oft0,22%
15sth0,21%
16men

Поскольку в зашифрованных сообщениях, отправляемых телеграфом, часто отсутствуют знаки препинания и пробелы, криптографические частотный анализ таких сообщений включает триграммы, которые пересекают границы слов. Это приводит к тому, что триграммы, такие как «edt», часто встречаются, даже если они никогда не встречаются ни в одном слове этих сообщений.

Примеры

Предложение «быстрая рыжая лиса перепрыгивает через ленивую коричневую собаку» имеет следующие триграммы на уровне слов:

быстрая красная быстрая рыжая лисица рыжая лиса прыгает лиса перепрыгивает перепрыгивает через ленивого ленивого коричневого ленивого коричневого пса

И триграмма на уровне слов "быстрый рыжий" имеет следующие триграммы уровня символа (где нижнее подчеркивание "_" обозначает пробел) :

he_ e_q _qui uic ick ck_ k_r _re red

Ссылки

Последняя правка сделана 2021-06-11 11:30:29
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте