Bigram - Bigram

Bigram nebo digram je sekvence dvou sousedních prvků ze řetězec o žetony , které jsou typicky dopisy, slabiky, nebo slova. Bigram je n -gram pro n = 2. Distribuce frekvencí každého bigramu v řetězci se běžně používá pro jednoduchou statistickou analýzu textu v mnoha aplikacích, včetně výpočetní lingvistiky, kryptografie, rozpoznávání řeči atd.

Gappy bigrams nebo skipping bigrams jsou slovní páry, které umožňují mezery (možná vyhnout se spojování slov nebo povolit nějakou simulaci závislostí, jako v gramatice závislostí ).

Bigrams v hlavě jsou mezery bigrams s výslovným vztahem závislosti.

Detaily

Bigrams pomáhají poskytnout podmíněnou pravděpodobnost tokenu vzhledem k předchozímu tokenu, když se použije vztah podmíněné pravděpodobnosti :

${\ displaystyle P (W_ {n} | W_ {n-1}) = {P (W_ {n-1}, W_ {n}) \ přes P (W_ {n-1})}}$

To znamená, že pravděpodobnost tokenu vzhledem k předchozímu tokenu se rovná pravděpodobnosti jejich bigramu nebo společného výskytu těchto dvou tokenů , děleno pravděpodobností předchozího tokenu. ${\ displaystyle P ()}$ ${\ displaystyle W_ {n}}$ ${\ displaystyle W_ {n-1}}$ ${\ displaystyle P (W_ {n-1}, W_ {n})}$

Aplikace

Bigramy se používají v nejúspěšnějších jazykových modelech pro rozpoznávání řeči . Jedná se o speciální případ N-gramu .

Frekvenční útoky Bigram lze v kryptografii použít k řešení kryptogramů . Viz frekvenční analýza .

Frekvence Bigramu je jedním z přístupů ke statistické identifikaci jazyka .

Některé činnosti v logologii nebo rekreační lingvistice zahrnují bigramy. Patří mezi ně pokusy najít anglická slova začínající každým možným bigramem nebo slova obsahující řetězec opakovaných bigramů, například logogogue .

Frekvence Bigram v anglickém jazyce

Frekvence nejběžnějších písmen bigramů v malém anglickém korpusu je:

th 1.52       en 0.55       ng 0.18
he 1.28       ed 0.53       of 0.16
in 0.94       to 0.52       al 0.09
er 0.94       it 0.50       de 0.09
an 0.82       ou 0.50       se 0.08
re 0.68       ea 0.47       le 0.08
nd 0.63       hi 0.46       sa 0.06
at 0.59       is 0.46       si 0.05
on 0.57       or 0.43       ar 0.04
nt 0.56       ti 0.34       ve 0.04
ha 0.56       as 0.33       ra 0.04
es 0.56       te 0.27       ld 0.02
st 0.55       et 0.19       ur 0.02

K dispozici jsou kompletní frekvence bigramu pro větší korpus.

Viz také

Reference

^ Collins, Michael John (1996-06-24). "Nový statistický analyzátor založený na lexikálních závislostech bigram" . Sborník z 34. výročního zasedání o Sdružení pro počítačovou lingvistiku - . Sdružení pro výpočetní lingvistiku. 184–191. arXiv : cmp-lg / 9605012 . doi : 10,3 115/981863,981888 . S2CID 12615602 . Citováno 2018-10-09 .
^ Cohen, Philip M. (1975). "Počáteční Bigrams" . Word Ways . 8 odst. 2 . Citováno 11. září 2016 .
^ Corbin, Kyle (1989). "Double, Triple a Quadruple Bigrams" . Word Ways . 22 odst . Citováno 11. září 2016 .
^ Cornell Math Explorer's Project - šifry nahrazení
^ Jones, Michael N; DJK Mewhort (srpen 2004). "Počítá se velká a malá písmena a frekvence bigramu z velkých anglických korpusů" . Metody, přístroje a počítače pro výzkum chování . 36 (3): 388–396. doi : 10,3758 / bf03195586 . ISSN 0743-3808 . PMID 15641428 .
^ „Počty anglických frekvencí písmen: Mayzner Revisited nebo ETAOIN SRHLDCU“ . norvig.com . Citováno 2019-10-28 .

[1] Collins, Michael John (1996-06-24). "Nový statistický analyzátor založený na lexikálních závislostech bigram" . Sborník z 34. výročního zasedání o Sdružení pro počítačovou lingvistiku - . Sdružení pro výpočetní lingvistiku. 184–191. arXiv : cmp-lg / 9605012 . doi : 10,3 115/981863,981888 . S2CID 12615602 . Citováno 2018-10-09 .

[2] Cohen, Philip M. (1975). "Počáteční Bigrams" . Word Ways . 8 odst. 2 . Citováno 11. září 2016 .

[3] Corbin, Kyle (1989). "Double, Triple a Quadruple Bigrams" . Word Ways . 22 odst . Citováno 11. září 2016 .

[4] Cornell Math Explorer's Project - šifry nahrazení

[5] Jones, Michael N; DJK Mewhort (srpen 2004). "Počítá se velká a malá písmena a frekvence bigramu z velkých anglických korpusů" . Metody, přístroje a počítače pro výzkum chování . 36 (3): 388–396. doi : 10,3758 / bf03195586 . ISSN 0743-3808 . PMID 15641428 .

[6] „Počty anglických frekvencí písmen: Mayzner Revisited nebo ETAOIN SRHLDCU“ . norvig.com . Citováno 2019-10-28 .

Languages

In other projects