Distribuční sémantika - Distributional semantics
Distribuční sémantika je oblast výzkumu, která vyvíjí a studuje teorie a metody pro kvantifikaci a kategorizaci sémantických podobností mezi lingvistickými položkami na základě jejich distribučních vlastností ve velkých vzorcích jazykových dat. Základní myšlenku distribuční sémantiky lze shrnout do takzvané distribuční hypotézy: lingvistické položky s podobnou distribucí mají podobný význam.
Distribuční hypotéza
Distribuční hypotéza v lingvistice je odvozen od sémantické teorie o použití jazyka, tj slova, která se používají a vyskytují se ve stejném kontextu mají tendenci za cíl podobný význam.
Základní myšlenku, že „slovo je charakterizováno společností, kterou drží“, propagoval Firth v 50. letech minulého století.
Distribuční hypotéza je základem pro statistickou sémantiku . Ačkoli distribuční hypotéza vznikla v lingvistice, nyní se jí dostává pozornosti v kognitivní vědě, zejména pokud jde o kontext používání slov.
V posledních letech poskytuje distribuční hypotéza základ pro teorii generalizace založené na podobnosti při učení jazyků: myšlenka, že děti mohou přijít na to, jak používat slova, se kterými se dříve setkaly jen zřídka, zobecněním jejich použití z distribucí podobných slov. .
Distribuční hypotéza naznačuje, že čím sémantičtěji jsou si dvě slova podobná, tím více si budou distribučně podobná, a tím více se budou vyskytovat v podobných jazykových kontextech.
Zda tento návrh platí, či nikoli, má významné důsledky jak pro problém nedostatku dat ve výpočetním modelování, tak pro otázku, jak jsou děti schopny naučit se jazyk tak rychle s relativně chudým vstupem (toto je také známé jako problém chudoby podnět ).
Distribuční sémantické modelování ve vektorových prostorech
Distribuční sémantika upřednostňuje použití lineární algebry jako výpočetního nástroje a reprezentačního rámce. Základním přístupem je shromažďovat distribuční informace ve vysokodimenzionálních vektorech a definovat distribuční/sémantickou podobnost z hlediska podobnosti vektorů. Různé druhy podobností lze extrahovat v závislosti na tom, jaký typ distribučních informací se používá ke shromažďování vektorů: aktuální podobnosti lze extrahovat naplněním vektorů informacemi, ve kterých oblastech textu se jazykové položky vyskytují; paradigmatické podobnosti lze extrahovat naplněním vektorů informacemi, se kterými dalšími lingvistickými položkami se položky vyskytují současně. Všimněte si, že druhý typ vektorů lze také použít k extrakci syntagmatických podobností při pohledu na jednotlivé vektorové složky.
Základní myšlenku korelace mezi distribuční a sémantickou podobností lze operacionalizovat mnoha různými způsoby. Existuje široká škála výpočetních modelů implementujících distribuční sémantiku, včetně latentní sémantické analýzy (LSA), hyperprostorového analogového jazyka (HAL), modelů založených na syntaxi nebo závislosti, náhodného indexování , sémantického skládání a různých variant tematického modelu .
Distribuční sémantické modely se liší především s ohledem na následující parametry:
- Typ kontextu (oblasti textu vs. jazykové položky)
- Kontextové okno (velikost, rozšíření atd.)
- Frekvenční vážení (např. Entropie , bodové vzájemné informace atd.)
- Redukce dimenzí (např. Náhodné indexování , rozklad singulárních hodnot atd.)
- Míra podobnosti (např. Kosinová podobnost , Minkowského vzdálenost atd.)
Distribuční sémantické modely, které jako kontext používají lingvistické položky, byly také označovány jako slovní prostor nebo vektorové prostorové modely .
Kromě lexikální sémantiky
Zatímco distribuční sémantika byla typicky aplikována na lexikální položky-slova a víceslovné termíny-se značným úspěchem, v neposlední řadě díky její použitelnosti jako vstupní vrstvy pro neurálně inspirované modely hlubokého učení, lexikální sémantika, tj. Význam slov, bude pouze nesou část sémantiky celé výpovědi. Význam klauzule, např. „Tygři milují králíky“. , lze pochopit jen částečně při zkoumání významu tří lexikálních položek, ze kterých se skládá. Distribuční sémantiku lze přímo rozšířit tak, aby zahrnovala větší lingvistické položky, jako jsou konstrukce, s položkami bez instancí a bez nich, ale některé základní předpoklady modelu je třeba poněkud upravit. Konstrukční gramatika a její formulace lexikálně-syntaktického kontinua nabízí jeden přístup pro zahrnutí propracovanějších konstrukcí do distribučního sémantického modelu a některé experimenty byly implementovány pomocí přístupu Random Indexing.
Kompoziční distribuční sémantické modely rozšiřují distribuční sémantické modely o explicitní sémantické funkce, které pomocí syntakticky založených pravidel kombinují sémantiku zúčastněných lexikálních jednotek do kompozičního modelu k charakterizaci sémantiky celých frází nebo vět. Tuto práci původně navrhli Stephen Clark , Bob Coecke a Mehrnoosh Sadrzadeh z Oxfordské univerzity ve svém článku z roku 2008 „Kompoziční distribuční model významu“. Byly prozkoumány různé přístupy ke kompozici - včetně neurálních modelů - a jsou předmětem diskuse na zavedených workshopech, jako je SemEval .
Aplikace
Distribuční sémantické modely byly úspěšně použity na následující úkoly:
- zjištění sémantické podobnosti mezi slovy a víceslovnými výrazy;
- shlukování slov na základě sémantické podobnosti;
- automatické vytváření tezaurů a dvojjazyčných slovníků;
- disambiguace smyslu slova ;
- rozšíření požadavků na vyhledávání pomocí synonym a asociací;
- definování tématu dokumentu;
- shlukování dokumentů pro získávání informací ;
- dolování dat a rozpoznávání pojmenovaných entit ;
- vytváření sémantických map různých předmětových domén;
- parafrázování ;
- analýza sentimentu ;
- modelování výběrových preferencí slov.
Software
Viz také
- Koncepční prostor
- Společný výskyt
- Distribučně -relační databáze
- Gensim
- Fráze
- Náhodné indexování
- Vkládání vět
- Statistická sémantika
- Word2vec
- Vkládání slov
Lidé
- Scott Deerwester
- Susan Dumais
- JR Firth
- George Furnas
- Zellig Harris
- Richard Hirschman
- Thomas Landauer
- Magnus Sahlgren
- Hinrich Schütze
Reference
Zdroje
- Harris, Z. (1954). „Distribuční struktura“. Slovo . 10 (23): 146–162. doi : 10,1080/00437956.1954.11659520 .
- Firth, JR (1957). "Synopse lingvistické teorie 1930-1955". Studie lingvistické analýzy : 1–32.Přetištěno ve FR Palmer, ed. (1968). Vybrané příspěvky JR Firth 1952-1959 . Londýn: Longman.
- Sahlgren, Magnus (2008). „Distribuční hypotéza“ (PDF) . Rivista di Linguistica . 20 (1): 33–53.
- McDonald, S .; Ramscar, M. (2001). „Testování distribuční hypotézy: Vliv kontextu na úsudky sémantické podobnosti“. Sborník příspěvků z 23. výroční konference společnosti kognitivní vědy . s. 611–616. CiteSeerX 10.1.1.104.7535 .
- Gleitman, Lila R. (2002). „Slovesa hejna peří dohromady II“. Dědictví Zelliga Harrise . Aktuální problémy lingvistické teorie. 1 . s. 209–229. doi : 10,1075/cilt.228.17gle . ISBN 978-90-272-4736-0.
- Yarlett, D. (2008). Jazykové vzdělávání prostřednictvím generalizace založené na podobnosti (PDF) (disertační práce). Stanfordská Univerzita. Archivováno z originálu (PDF) dne 2014-04-19 . Citováno 2012-07-12 .
- Rieger, Burghard B. (1991). O distribuovaných reprezentacích ve slovní sémantice (PDF) (sestava). ICSI Berkeley 12-1991. CiteSeerX 10.1.1.37.7976 .
- Deerwester, Scott; Dumais, Susan T .; Furnas, George W .; Landauer, Thomas K .; Harshman, Richard (1990). „Indexování latentní sémantickou analýzou“ (PDF) . Journal of the American Society for Information Science . 41 (6): 391–407. CiteSeerX 10.1.1.33.2447 . doi : 10,1002/(SICI) 1097-4571 (199009) 41: 6 <391 :: AID-ASI1> 3,0.CO; 2-9 . Archivováno z originálu (PDF) dne 17. července 2012.
- Padó, Sebastian; Lapata, Mirella (2007). „Závislostní konstrukce sémantických prostorových modelů“. Výpočetní lingvistika . 33 (2): 161–199. doi : 10,1162/coli.2007.33.2.161 . S2CID 7747235 .
- Schütze, Hinrich (1993). „Word Space“. Pokroky v systémech zpracování neurálních informací 5 . s. 895–902. CiteSeerX 10.1.1.41.8856 .
- Sahlgren, Magnus (2006). Word-Space Model (PDF) (disertační práce). Stockholmská univerzita.
- Thomas Landauer; Susan T. Dumaisová. „Řešení Platónova problému: Teorie latentní sémantické analýzy získávání, indukce a reprezentace znalostí“ . Citováno 2007-07-02 .
- Kevin Lund; Curt Burgess; Ruth Ann Atchley (1995). Sémantické a asociativní primování ve vysoce dimenzionálním sémantickém prostoru . Sborník kognitivní vědy. s. 660–665.
- Kevin Lund; Curt Burgess (1996). „Produkce vysoce dimenzionálních sémantických prostorů z lexikálního společného výskytu“ . Metody, nástroje a počítače pro výzkum chování . 28 (2): 203–208. doi : 10,3758/bf03204766 .