Google Ngram Viewer - Google Ngram Viewer

Google Ngram Viewer nebo Books Ngram Prohlížeč Google je online vyhledávač , který mapuje frekvence jakýkoli soubor vyhledávacích řetězců s použitím roční počet z n-gramů nalézt ve zdrojích tištěných mezi 1500 a 2019 v Google ‚s textové korpusy v angličtině, čínštině (zjednodušeně), francouzsky, německy, hebrejsky, italsky, rusky nebo španělsky. Existuje také několik specializovaných anglických korpusů, jako je americká angličtina, britská angličtina a anglická fikce.

Program dokáže vyhledat slovo nebo frázi , včetně překlepů nebo blábolů . N-gramy jsou spárovány s textem ve vybraném korpusu, volitelně s použitím pravopisu rozlišujícího malá a velká písmena (který porovnává přesné použití velkých písmen), a pokud jsou nalezeny ve 40 a více knihách, jsou pak zobrazeny jako graf.

Prohlížeč Google Ngram podporuje vyhledávání částí řeči a zástupných znaků . Rutinně se používá ve výzkumu.

Dějiny

Program byl vyvinut Jonem Orwantem a Willem Brockmanem a vydán v polovině prosince 2010. Byl inspirován prototypem nazvaným „Bookworm“, který vytvořili Jean-Baptiste Michel a Erez Aiden z Harvardské kulturní observatoře a Yuan Shen z MIT a Steven Pinker .

Prohlížeč Ngram byl původně založen na vydání Ngram Corpus Google Books z roku 2009. Od července 2020 program podporuje korpusy 2009, 2012 a 2019.

Provoz a omezení

Čárky oddělují hledané výrazy zadané uživatelem a označují každé samostatné slovo nebo frázi, kterou je třeba najít. Ngram Viewer vrátí vykreslený spojnicový graf během několika sekund po stisknutí klávesy Enter nebo tlačítka „Hledat“ na obrazovce.

Jako úpravu pro více knih, které byly vydány během několika let, jsou data normalizována jako relativní podle počtu knih vydaných v každém roce.

Z důvodu omezení velikosti databáze Ngram jsou v databázi indexovány pouze shody nalezené alespoň ve 40 knihách; jinak by databáze nemohla uložit všechny možné kombinace.

Hledané výrazy obvykle nemohou končit interpunkcí, ačkoli lze prohledávat samostatnou tečku (tečku). Také koncový otazník (jako v „Proč?“) Způsobí druhé hledání otazníku samostatně.

Vynechání teček ve zkratkách umožní formu shody, například použití „R M S“ k vyhledání „RMS“ versus „RMS“.

Korpusy

Korpusy slouží k vyhledávání jsou složeny z TOTAL_COUNTS, 1 g, 2-gramů, 3-gramů, 4-gramů a 5 gramů soubory pro každý jazyk. Formát souboru každého ze souborů jsou data oddělená tabulátory . Každý řádek má následující formát:

  • soubor total_counts
    rok TAB match_count TAB page_count TAB volume_count NEWLINE
  • Soubor ngram verze 1 (vygenerován v červenci 2009)
    ngram TAB rok TAB match_count TAB page_count TAB volume_count NEWLINE
  • Soubor ngram verze 2 (vygenerovaný v červenci 2012)
    ngram TAB rok TAB match_count TAB volume_count NEWLINE

Prohlížeč Google Ngram používá k vykreslení grafu match_count.

Například slovo „Wikipedia“ ze souboru verze 2 anglického 1 gramu je uloženo následovně:

ngram rok match_count volume_count
Wikipedie 1904 1 1
Wikipedie 1912 11 1
Wikipedie 1924 1 1
Wikipedie 1925 11 1
Wikipedie 1929 11 1
Wikipedie 1943 11 1
Wikipedie 1946 11 1
Wikipedie 1947 11 1
Wikipedie 1949 11 1
Wikipedie 1951 11 1
Wikipedie 1953 22 2
Wikipedie 1955 11 1
Wikipedie 1958 1 1
Wikipedie 1961 22 2
Wikipedie 1964 22 2
Wikipedie 1965 11 1
Wikipedie 1966 15 2
Wikipedie 1969 33 3
Wikipedie 1970 129 4
Wikipedie 1971 44 4
Wikipedie 1972 22 2
Wikipedie 1973 1 1
Wikipedie 1974 2 1
Wikipedie 1975 33 3
Wikipedie 1976 11 1
Wikipedie 1977 13 3
Wikipedie 1978 11 1
Wikipedie 1979 112 12
Wikipedie 1980 13 4
Wikipedie 1982 11 1
Wikipedie 1983 3 2
Wikipedie 1984 48 3
Wikipedie 1985 37 3
Wikipedie 1986 6 4
Wikipedie 1987 13 2
Wikipedie 1988 14 3
Wikipedie 1990 12 2
Wikipedie 1991 8 5
Wikipedie 1992 1 1
Wikipedie 1993 1 1
Wikipedie 1994 23 3
Wikipedie 1995 4 1
Wikipedie 1996 23 3
Wikipedie 1997 6 1
Wikipedie 1998 32 10
Wikipedie 1999 39 11
Wikipedie 2000 43 12
Wikipedie 2001 59 14
Wikipedie 2002 105 19
Wikipedie 2003 149 53
Wikipedie 2004 803 285
Wikipedie 2005 2964 911
Wikipedie 2006 9818 2655
Wikipedie 2007 20017 5400
Wikipedie 2008 33722 6825

Graf vykreslený prohlížečem Google Ngram Viewer pomocí výše uvedených údajů je zde:

Kritika

Soubor dat byl kritizován kvůli spoléhání se na nepřesné OCR , nadbytku vědecké literatury a za zahrnutí velkého počtu nesprávně datovaných a kategorizovaných textů. Kvůli těmto chybám a protože je nekontrolovaný pro zaujatost (jako je rostoucí množství vědecké literatury, která způsobuje, že ostatní termíny se zdají klesat na popularitě), je riskantní použít tento korpus ke studiu jazyka nebo testování teorií. Protože datový soubor neobsahuje metadata , nemusí odrážet obecné jazykové nebo kulturní změny a může takový účinek pouze naznačovat.

Byly navrženy pokyny pro provádění výzkumu s daty z Google Ngram, které řeší mnoho výše diskutovaných problémů.

Problémy s OCR

Optické rozpoznávání znaků neboli OCR není vždy spolehlivé a některé znaky nemusí být naskenovány správně. Zejména systémové chyby, jako je záměna „s“ a „f“ v textech před 19. stoletím (kvůli použití dlouhých s, která měla podobný vzhled jako „f“), mohou způsobit systémovou předpojatost. Ačkoli Google Ngram Viewer tvrdí, že výsledky jsou spolehlivé od roku 1800, špatná OCR a nedostatečné údaje znamenají, že frekvence udávané pro jazyky, jako je čínština, mohou být přesné až od roku 1970, přičemž dřívější části korpusu nevykazují pro běžné výrazy vůbec žádné výsledky a údaje za několik let obsahující více než 50% hluku.

Viz také

Reference

Bibliografie

externí odkazy