Distribuční sémantika - Distributional semantics

Distribuční sémantika je oblast výzkumu, která vyvíjí a studuje teorie a metody pro kvantifikaci a kategorizaci sémantických podobností mezi lingvistickými položkami na základě jejich distribučních vlastností ve velkých vzorcích jazykových dat. Základní myšlenku distribuční sémantiky lze shrnout do takzvané distribuční hypotézy: lingvistické položky s podobnou distribucí mají podobný význam.

Distribuční hypotéza

Distribuční hypotéza v lingvistice je odvozen od sémantické teorie o použití jazyka, tj slova, která se používají a vyskytují se ve stejném kontextu mají tendenci za cíl podobný význam.

Základní myšlenku, že „slovo je charakterizováno společností, kterou drží“, propagoval Firth v 50. letech minulého století.

Distribuční hypotéza je základem pro statistickou sémantiku . Ačkoli distribuční hypotéza vznikla v lingvistice, nyní se jí dostává pozornosti v kognitivní vědě, zejména pokud jde o kontext používání slov.

V posledních letech poskytuje distribuční hypotéza základ pro teorii generalizace založené na podobnosti při učení jazyků: myšlenka, že děti mohou přijít na to, jak používat slova, se kterými se dříve setkaly jen zřídka, zobecněním jejich použití z distribucí podobných slov. .

Distribuční hypotéza naznačuje, že čím sémantičtěji jsou si dvě slova podobná, tím více si budou distribučně podobná, a tím více se budou vyskytovat v podobných jazykových kontextech.

Zda tento návrh platí, či nikoli, má významné důsledky jak pro problém nedostatku dat ve výpočetním modelování, tak pro otázku, jak jsou děti schopny naučit se jazyk tak rychle s relativně chudým vstupem (toto je také známé jako problém chudoby podnět ).

Distribuční sémantické modelování ve vektorových prostorech

Distribuční sémantika upřednostňuje použití lineární algebry jako výpočetního nástroje a reprezentačního rámce. Základním přístupem je shromažďovat distribuční informace ve vysokodimenzionálních vektorech a definovat distribuční/sémantickou podobnost z hlediska podobnosti vektorů. Různé druhy podobností lze extrahovat v závislosti na tom, jaký typ distribučních informací se používá ke shromažďování vektorů: aktuální podobnosti lze extrahovat naplněním vektorů informacemi, ve kterých oblastech textu se jazykové položky vyskytují; paradigmatické podobnosti lze extrahovat naplněním vektorů informacemi, se kterými dalšími lingvistickými položkami se položky vyskytují současně. Všimněte si, že druhý typ vektorů lze také použít k extrakci syntagmatických podobností při pohledu na jednotlivé vektorové složky.

Základní myšlenku korelace mezi distribuční a sémantickou podobností lze operacionalizovat mnoha různými způsoby. Existuje široká škála výpočetních modelů implementujících distribuční sémantiku, včetně latentní sémantické analýzy (LSA), hyperprostorového analogového jazyka (HAL), modelů založených na syntaxi nebo závislosti, náhodného indexování , sémantického skládání a různých variant tematického modelu .

Distribuční sémantické modely se liší především s ohledem na následující parametry:

Distribuční sémantické modely, které jako kontext používají lingvistické položky, byly také označovány jako slovní prostor nebo vektorové prostorové modely .

Kromě lexikální sémantiky

Zatímco distribuční sémantika byla typicky aplikována na lexikální položky-slova a víceslovné termíny-se značným úspěchem, v neposlední řadě díky její použitelnosti jako vstupní vrstvy pro neurálně inspirované modely hlubokého učení, lexikální sémantika, tj. Význam slov, bude pouze nesou část sémantiky celé výpovědi. Význam klauzule, např. „Tygři milují králíky“. , lze pochopit jen částečně při zkoumání významu tří lexikálních položek, ze kterých se skládá. Distribuční sémantiku lze přímo rozšířit tak, aby zahrnovala větší lingvistické položky, jako jsou konstrukce, s položkami bez instancí a bez nich, ale některé základní předpoklady modelu je třeba poněkud upravit. Konstrukční gramatika a její formulace lexikálně-syntaktického kontinua nabízí jeden přístup pro zahrnutí propracovanějších konstrukcí do distribučního sémantického modelu a některé experimenty byly implementovány pomocí přístupu Random Indexing.

Kompoziční distribuční sémantické modely rozšiřují distribuční sémantické modely o explicitní sémantické funkce, které pomocí syntakticky založených pravidel kombinují sémantiku zúčastněných lexikálních jednotek do kompozičního modelu k charakterizaci sémantiky celých frází nebo vět. Tuto práci původně navrhli Stephen Clark , Bob Coecke a Mehrnoosh Sadrzadeh z Oxfordské univerzity ve svém článku z roku 2008 „Kompoziční distribuční model významu“. Byly prozkoumány různé přístupy ke kompozici - včetně neurálních modelů - a jsou předmětem diskuse na zavedených workshopech, jako je SemEval .

Aplikace

Distribuční sémantické modely byly úspěšně použity na následující úkoly:

Software

Viz také

Lidé

Reference

Zdroje

externí odkazy