Trigram - Trigram

Trigramy jsou zvláštním případem n -gramu , kde n je 3. Často se používají při zpracování přirozeného jazyka pro provádění statistické analýzy textů a v kryptografii pro ovládání a používání šifer a kódů .

Frekvence

Kontext je velmi důležitý. Různé žebříčky a procenta analýzy lze snadno odvodit z různých velikostí vzorků, od různých autorů; nebo různé typy dokumentů: poezie, sci-fi, technologická dokumentace; a úrovně psaní: příběhy pro děti versus dospělí, vojenské rozkazy a recepty.

Typická kryptanalytická frekvenční analýza zjistila, že 16 nejběžnějších trigramů na úrovni znaků v angličtině je:

Hodnost Trigram Frekvence
(jiný zdroj)
1 the 1,81%
2 a 0,73%
3 tha 0,33%
4 ent 0,42%
5 ing 0,72%
6 ion 0,42%
7 tio 0,31%
8 pro 0,34%
9 nde
10
11 nce
12 edt
13 tis
14 často 0,22%
15 sth 0,21%
16 muži

Protože šifrované zprávy odesílané telegrafem často vynechávají interpunkci a mezery, analýza kryptografické frekvence těchto zpráv obsahuje trigramy, které překračují hranice slov. To způsobuje, že se často objevují trigramy, jako je „edt“, přestože se to v žádném slově těchto zpráv nemusí nikdy vyskytnout.

Příklady

Věta „rychlá červená liška přeskočí líného hnědého psa“ má následující trigramy na úrovni slov:

the quick red
quick red fox
red fox jumps
fox jumps over
jumps over the
over the lazy
the lazy brown
lazy brown dog

A trigram na úrovni slov „rychlá červená“ má následující trigramy na úrovni znaků (kde podtržítko „_“ označuje mezeru):

the
he_
e_q
_qu
qui
uic
ick
ck_
k_r
_re
red

Reference