Триграммы являются частным случаем n-граммы, где n равно 3. Они часто используются в n. языковая обработка для выполнения статистического анализа текстов и в криптографии для контроля и использования шифров и кодов.
Контекст очень важен, различные рейтинги и процентные соотношения в анализе легко выводятся на основе выборки разных размеров, разных авторов; или разные типы документов: поэзия, научная фантастика, техническая документация; и уровни письма: сказки для детей и взрослых, военные приказы и рецепты.
Типичный криптоаналитический частотный анализ обнаруживает, что 16 наиболее распространенных триграмм на уровне символов в английском языке:
Rank | Trigram | Частота. (другой источник) |
---|---|---|
1 | 1,81% | |
2 | и | 0,73% |
3 | , чем | 0,33% |
4 | энт | 0,42% |
5 | ing | 0,72% |
6 | ion | 0,42% |
7 | tio | 0,31% |
8 | для | 0,34% |
9 | nde | |
10 | имеет | |
11 | nce | |
12 | edt | |
13 | tis | |
14 | oft | 0,22% |
15 | sth | 0,21% |
16 | men |
Поскольку в зашифрованных сообщениях, отправляемых телеграфом, часто отсутствуют знаки препинания и пробелы, криптографические частотный анализ таких сообщений включает триграммы, которые пересекают границы слов. Это приводит к тому, что триграммы, такие как «edt», часто встречаются, даже если они никогда не встречаются ни в одном слове этих сообщений.
Предложение «быстрая рыжая лиса перепрыгивает через ленивую коричневую собаку» имеет следующие триграммы на уровне слов:
быстрая красная быстрая рыжая лисица рыжая лиса прыгает лиса перепрыгивает перепрыгивает через ленивого ленивого коричневого ленивого коричневого пса
И триграмма на уровне слов "быстрый рыжий" имеет следующие триграммы уровня символа (где нижнее подчеркивание "_" обозначает пробел) :
he_ e_q _qui uic ick ck_ k_r _re red