Trigram - Trigram
Trigramy jsou zvláštním případem n -gramu , kde n je 3. Často se používají při zpracování přirozeného jazyka pro provádění statistické analýzy textů a v kryptografii pro ovládání a používání šifer a kódů .
Frekvence
Kontext je velmi důležitý. Různé žebříčky a procenta analýzy lze snadno odvodit z různých velikostí vzorků, od různých autorů; nebo různé typy dokumentů: poezie, sci-fi, technologická dokumentace; a úrovně psaní: příběhy pro děti versus dospělí, vojenské rozkazy a recepty.
Typická kryptanalytická frekvenční analýza zjistila, že 16 nejběžnějších trigramů na úrovni znaků v angličtině je:
Hodnost | Trigram | Frekvence (jiný zdroj) |
---|---|---|
1 | the | 1,81% |
2 | a | 0,73% |
3 | tha | 0,33% |
4 | ent | 0,42% |
5 | ing | 0,72% |
6 | ion | 0,42% |
7 | tio | 0,31% |
8 | pro | 0,34% |
9 | nde | |
10 | má | |
11 | nce | |
12 | edt | |
13 | tis | |
14 | často | 0,22% |
15 | sth | 0,21% |
16 | muži |
Protože šifrované zprávy odesílané telegrafem často vynechávají interpunkci a mezery, analýza kryptografické frekvence těchto zpráv obsahuje trigramy, které překračují hranice slov. To způsobuje, že se často objevují trigramy, jako je „edt“, přestože se to v žádném slově těchto zpráv nemusí nikdy vyskytnout.
Příklady
Věta „rychlá červená liška přeskočí líného hnědého psa“ má následující trigramy na úrovni slov:
the quick red quick red fox red fox jumps fox jumps over jumps over the over the lazy the lazy brown lazy brown dog
A trigram na úrovni slov „rychlá červená“ má následující trigramy na úrovni znaků (kde podtržítko „_“ označuje mezeru):
the he_ e_q _qu qui uic ick ck_ k_r _re red