Značení části řeči- Part-of-speech tagging

V korpusové lingvistiky , částečně z řeč značkování ( POS značkování nebo PoS značkování nebo POST ), nazývané také gramatické značkování je proces značkování slova v textu (corpus) jako odpovídající určité části řeči , založený na obou jeho definice a jeho kontext . Zjednodušená forma se běžně učí děti školního věku při identifikaci slov jako podstatná jména , slovesa , přídavná jména , příslovce atd.

Po ručním provádění značkování POS se nyní provádí v kontextu výpočetní lingvistiky pomocí algoritmů, které spojují diskrétní termíny a skryté části řeči pomocí sady popisných značek. Algoritmy značkování POS spadají do dvou odlišných skupin: na základě pravidel a stochastické. E. Brill's tagger , jeden z prvních a nejpoužívanějších anglických POS-taggerů, využívá algoritmy založené na pravidlech.

Zásada

Označování části řeči je těžší než pouhý seznam slov a jejich částí řeči, protože některá slova mohou představovat více než jednu část řeči v různých časech a protože některé části řeči jsou složité nebo nevyslovené. Není to vzácné-v přirozených jazycích (na rozdíl od mnoha umělých jazyků ) je velké procento tvarů slov nejednoznačné. Například i „psi“, kteří jsou obvykle považováni pouze za podstatné jméno v množném čísle, mohou být také sloveso:

Námořník psí poklop.

Správné gramatické značení bude odrážet, že „psi“ se zde používají jako sloveso, nikoli jako běžnější podstatné jméno v množném čísle. Gramatický kontext je jedním ze způsobů, jak to určit; sémantickou analýzu lze také použít k odvození, že „námořník“ a „líhnutí“ implikují „psy“ jako 1) v námořním kontextu a 2) akci aplikovanou na objekt „poklop“ (v tomto kontextu je „psi“ námořní termín znamenající „bezpečně připevnit (vodotěsné dveře)“).

Sady tagů

Školy běžně vyučují, že v angličtině je 9 částí řeči : podstatné jméno , sloveso , článek , přídavné jméno , předložka , zájmeno , příslovce , spojka a citoslovce . Kategorií a podkategorií je však zjevně mnohem více. U podstatných jmen lze rozlišovat tvary množné, přivlastňovací a singulární. V mnoha jazycích jsou slova také označována pro „ případ “ (role jako předmět, předmět atd.), Gramatický rod atd.; zatímco slovesa jsou označena pro čas , aspekt a další věci. V některých značkovacích systémech získají různé skloňování stejného kořenového slova různé části řeči, což má za následek velké množství tagů. Například NN pro společná podstatná jména v jednotném čísle, NNS pro společná podstatná jména v množném čísle, NP pro vlastní podstatná jména v jednotném čísle (viz značky POS používané v hnědém korpusu). Jiné systémy značkování používají menší počet značek a ignorují jemné rozdíly nebo je modelují jako funkce, které jsou do jisté míry nezávislé na části řeči.

Při označování části řeči počítačem je typické rozlišit 50 až 150 samostatných částí řeči pro angličtinu. Práce na stochastických metodách značkování Koine Greek (DeRose 1990) použila více než 1 000 částí řeči a zjistila, že přibližně tolik slov bylo v tomto jazyce nejednoznačných jako v angličtině. Morfosyntaktický deskriptor v případě morfologicky bohatých jazyků se běžně vyjadřuje pomocí velmi krátkých mnemotechnických pomůcek , například Ncmsan pro Kategorie = Podstatné jméno, Typ = běžné, Pohlaví = mužské, Číslo = singulární, Případ = akuzativ, Animovat = ne.

Nejpopulárnější „sadou značek“ pro značkování POS pro americkou angličtinu je pravděpodobně sada značek Penn vyvinutá v projektu Penn Treebank. Je do značné míry podobný dřívějším sadám značek Brown Corpus a LOB Corpus, i když mnohem menší. V Evropě vidí sady značek podle pokynů Eagles široké využití a zahrnují verze pro více jazyků.

Práce s označováním POS byla provedena v různých jazycích a sada použitých značek POS se v jednotlivých jazycích velmi liší. Značky jsou obvykle navrženy tak, aby zahrnovaly zjevné morfologické odlišnosti, ačkoli to vede k nesrovnalostem, jako je označení případu zájmen, ale nikoli podstatných jmen v angličtině, a mnohem větší rozdíly mezi jazyky. Sady značek pro silně skloňované jazyky, jako je řečtina a latina, mohou být velmi velké; označování slov v aglutinačních jazycích, jako jsou inuitské jazyky, může být prakticky nemožné. Na druhé straně Petrov a kol. navrhli „univerzální“ sadu značek s 12 kategoriemi (například žádné podtypy podstatných jmen, sloves, interpunkce atd.). Zda je upřednostňována velmi malá sada velmi širokých značek nebo mnohem větší sada přesnějších, závisí na konkrétním účelu. Automatické značkování je jednodušší u menších sad značek.

Dějiny

Hnědý korpus

Výzkum značkování části řeči byl úzce svázán s korpusovou lingvistikou . První hlavní korpus angličtiny pro počítačovou analýzu byl Brown Corpus vyvinut na Brownově univerzitě ze strany Henry Kučera a W. Nelson Francis , v polovině-1960. Skládá se z asi 1 000 000 slov běžícího anglického prozaického textu, tvoří ho 500 ukázek z náhodně vybraných publikací. Každý vzorek obsahuje 2 000 nebo více slov (končící na konci první věty po 2 000 slovech, takže korpus obsahuje pouze úplné věty).

Brown Corpus byl pečlivě „označen“ s part-of-speech markerů po mnoho let. První přiblížení bylo provedeno programem Greena a Rubina, který sestával z obrovského ručně vyrobeného seznamu kategorií, které by se vůbec mohly vyskytovat společně. Například se může vyskytovat podstatné jméno článek pak, ale sloveso pak potom (pravděpodobně) nemůže. Program dostal asi 70% správnosti. Jeho výsledky byly opakovaně ručně kontrolovány a opravovány a později uživatelé zasílali chyby, takže na konci 70. let bylo značkování téměř dokonalé (což v některých případech umožňovalo nesouhlas ani s lidskými mluvčími).

Tento korpus byl použit pro nespočet studií o frekvenci slov a části řeči a inspiroval vývoj podobných „tagovaných“ korpusů v mnoha dalších jazycích. Statistiky odvozené jejich analýzou vytvořily základ pro většinu pozdějších systémů označování částí řeči, jako jsou CLAWS (lingvistika) a VOLSUNGA . Do této doby (2005) však byla nahrazena většími korpusy, jako je 100 milionů slov British National Corpus , přestože větší korpusy jsou jen zřídka tak důkladně upraveny.

Nějakou dobu bylo označování části řeči považováno za neoddělitelnou součást zpracování přirozeného jazyka , protože existují určité případy, kdy není možné rozhodnout o správné části řeči bez pochopení sémantiky nebo dokonce pragmatiky kontextu. To je extrémně drahé, zejména proto, že analýza vyšších úrovní je mnohem těžší, když je třeba u každého slova zvážit více možností části řeči.

Použití skrytých Markovových modelů

V polovině 80. let minulého století začali evropští vědci při označování korpusu britské angličtiny Lancaster-Oslo-Bergen používat skryté Markovovy modely (HMM) k disambiguaci částí řeči . HMM zahrnují počítání případů (například z Brownova korpusu) a vytváření tabulky pravděpodobností určitých sekvencí. Jakmile například uvidíte článek typu „the“, další slovo bude pravděpodobně podstatné jméno 40%času, přídavné jméno 40%a číslo 20%. Když to program ví, může se rozhodnout, že „plechovka“ v „plechovce“ bude mnohem pravděpodobnější být podstatným jménem než sloveso nebo modální. Stejnou metodu lze samozřejmě využít k získání znalostí o následujících slovech.

Pokročilejší („vyššího řádu“) HMM se učí pravděpodobnosti nejen dvojic, ale trojic nebo dokonce větších sekvencí. Pokud jste například viděli podstatné jméno následované slovesem, další položkou může být velmi pravděpodobně předložka, článek nebo podstatné jméno, ale mnohem méně pravděpodobné je jiné sloveso.

Když se vyskytne několik dvojsmyslných slov dohromady, možnosti se znásobí. Je však snadné vyjmenovat každou kombinaci a každé z nich přiřadit relativní pravděpodobnost, a to tak, že postupně vynásobíte pravděpodobnosti každé volby. Poté je zvolena kombinace s nejvyšší pravděpodobností. Evropská skupina vyvinula CLAWS, program pro značkování, který to přesně udělal a dosáhl přesnosti v rozmezí 93–95%.

Stojí za připomenutí, jak zdůrazňuje Eugene Charniak ve Statistických technikách pro analýzu přirozeného jazyka (1997), že pouhé přiřazení nejběžnější značky ke každému známému slovu a tagu „ správné podstatné jméno “ všem neznámým se přiblíží k 90% přesnosti, protože mnoho slov jsou jednoznačné a mnoho dalších jen zřídka představuje jejich méně obvyklé části řeči.

CLAWS byl průkopníkem v oblasti značkování částí řeči na bázi HMM, ale byl docela drahý, protože vyjmenoval všechny možnosti. Někdy se muselo uchýlit k záložním metodám, když bylo prostě příliš mnoho možností (Brown Corpus obsahuje případ se 17 nejednoznačnými slovy za sebou a existují slova jako „stále“, která mohou představovat až 7 různých částí řeči (DeRose 1990, s. 82)).

HMM jsou základem fungování stochastických taggerů a používají se v různých algoritmech, jedním z nejrozšířenějších je obousměrný inferenční algoritmus.

Metody dynamického programování

V roce 1987 Steven DeRose a Ken Church nezávisle vyvinuli algoritmy dynamického programování k vyřešení stejného problému za mnohem kratší dobu. Jejich metody byly podobné algoritmu Viterbi známému nějakou dobu v jiných oblastech. DeRose použil tabulku párů, zatímco Church použil tabulku trojic a metodu odhadu hodnot pro trojky, které byly v Brown Corpusu vzácné nebo neexistovaly (skutečné měření trojitých pravděpodobností by vyžadovalo mnohem větší korpus). Obě metody dosáhly přesnosti přes 95%. DeRoseova diplomová práce z roku 1990 na Brownově univerzitě zahrnovala analýzy konkrétních typů chyb, pravděpodobností a dalších souvisejících dat a replikovala svou práci pro řečtinu, kde se ukázala podobně účinná.

Tato zjištění byla překvapivě rušivá pro oblast zpracování přirozeného jazyka. Uvedená přesnost byla vyšší než typická přesnost velmi sofistikovaných algoritmů, které integrovaly výběr části řeči s mnoha vyššími úrovněmi lingvistické analýzy: syntaxe, morfologie, sémantiky atd. CLAWS, DeRoseovy a Churchovy metody selhaly v některých známých případech, kdy je vyžadována sémantika, ale ty se ukázaly jako zanedbatelně vzácné. To přesvědčilo mnohé v oboru, že označování části řeči lze užitečně oddělit od ostatních úrovní zpracování; toto zase zjednodušilo teorii a praxi počítačové jazykové analýzy a povzbudilo výzkumné pracovníky, aby našli způsoby, jak oddělit i další části. Markovovy modely jsou nyní standardní metodou pro přiřazení části řeči.

Značkovači bez dohledu

Metody, které již byly diskutovány, zahrnují práci z již existujícího korpusu, aby se zjistily pravděpodobnosti značek. Je však také možné zavést bootstrap pomocí „bez dozoru“ značkování. Techniky značení bez dohledu používají pro svá tréninková data neoznačený korpus a vytvářejí sadu tagů indukcí. To znamená, že pozorují vzorce při používání slov a samy odvozují kategorie mluveného slova. Statistiky například snadno odhalí, že „the“, „a“ a „an“ se vyskytují v podobných kontextech, zatímco „jíst“ se vyskytuje ve velmi odlišných. S dostatečnou iterací se objevují třídy podobnosti slov, které jsou nápadně podobné těm, které by čekali lidští lingvisté; a rozdíly samotné někdy naznačují cenné nové poznatky.

Tyto dvě kategorie lze dále rozdělit na přístupy založené na pravidlech, stochastické a neurální přístupy.

Další taggery a metody

Některé současné hlavní algoritmy pro označování části řeči zahrnují algoritmus Viterbi , Brill tagger , Constraint Grammar a algoritmus Baum-Welch (také známý jako algoritmus dopředu a dozadu). Skrytý Markovův model a viditelné značkovače Markovova modelu lze implementovat pomocí algoritmu Viterbi. Brill tagger založený na pravidlech je neobvyklý v tom, že se naučí sadu vzorců pravidel a poté tyto vzorce použije, než aby optimalizoval statistickou veličinu. Na rozdíl od tagu Brill, kde jsou pravidla řazena postupně, POS a morfologické značkovací nástroje RDRPOSTagger ukládají pravidla ve formě stromu pravidel zvlnění .

Na problém označování POS bylo také použito mnoho metod strojového učení . Byly vyzkoušeny metody jako SVM , klasifikátor maximální entropie , perceptron a nejbližší soused a většina může dosáhnout přesnosti nad 95%.

Přímé srovnání několika metod je uvedeno (s referencemi) na ACL Wiki. Toto srovnání používá značku Penn nastavenou na některých datech Penn Treebank, takže výsledky jsou přímo srovnatelné. Mnoho významných taggerů však není zahrnuto (možná kvůli práci spojené s jejich rekonfigurací pro tento konkrétní datový soubor). Nemělo by se tedy předpokládat, že výsledky zde uvedené jsou nejlepší, kterých lze s daným přístupem dosáhnout; dokonce ani tím nejlepším, které byly dosaženy s daným přístupem.

V roce 2014 dokument referující pomocí metody regularizace struktury pro označování části řeči, dosahující 97,36% na standardní datové sadě referenčních hodnot.

Problémy

Přestože existuje široká shoda v základních kategoriích, několik okrajových případů ztěžuje vyrovnání se s jedinou „správnou“ sadou tagů, a to i v určitém jazyce, jako je (řekněme) angličtina. Například je těžké říci, zda je „oheň“ přídavné jméno nebo podstatné jméno

 the big green fire truck

Druhým důležitým příkladem je rozlišení použití/zmínky , jako v následujícím příkladu, kde „modrá“ může být nahrazena slovem z jakéhokoli POS (sada značek Brown Corpus v takových případech připojí příponu „-NC“):

 the word "blue" has 4 letters.

Slova v jiném jazyce než v jazyce „hlavního“ textu jsou běžně označována jako „cizí“. V Brown Corpus je tato značka (-FW) použita navíc ke značce pro roli, kterou v kontextu hraje cizí slovo; některá jiná tělesa pouze označují takový případ jako „cizí“, což je o něco snazší, ale mnohem méně užitečné pro pozdější syntaktickou analýzu.

Existuje také mnoho případů, kdy kategorie POS a „slova“ nemapují jedna k jedné, například:

 as far as
 David's
 gonna
 don't
 vice versa
 first-cut
 cannot
 pre- and post-secondary
 look (a word) up

V posledním příkladu kombinace „vzhled“ a „nahoru“ fungují jako jedna slovní jednotka , a to navzdory možnosti, že mezi nimi přicházejí další slova. Některé sady tagů (například Penn) rozdělují spojovníky, kontrakce a přivlastňovací znaky na oddělené tokeny, čímž se vyhýbají některým, ale zdaleka všem takovým problémům.

Mnoho sad značek považuje slova jako „být“, „mít“ a „dělat“ za kategorie samostatně (jako v Brown Corpus), zatímco některé je považují za prostá slovesa (například LOB Corpus a Penn Treebank ). Protože tato konkrétní slova mají více tvarů než jiná anglická slovesa, která se vyskytují v docela odlišných gramatických kontextech, chápat je pouze jako „slovesa“ znamená, že POS tagger má mnohem méně informací, které by mohl pokračovat. Například tagger založený na HMM by se naučil pouze celkovou pravděpodobnost toho, jak se „slovesa“ vyskytují poblíž jiných částí řeči, než aby se učil odlišné pravděpodobnosti společného výskytu pro „dělat“, „mít“, „být“ a jiná slovesa . Tato anglická slova mají zcela odlišná rozdělení: nelze pouze nahradit jiná slovesa na stejných místech, kde se vyskytují. Se zřetelnými značkami může HMM často předpovídat správnou značku s jemnějším zrnem, než aby byla stejně spokojená s jakýmkoli „slovesem“ v jakémkoli slotu.

Někteří tvrdili, že tato výhoda je diskutabilní, protože program může pouze kontrolovat pravopis: „toto‚ sloveso ‘je‚ dělat ‘kvůli pravopisu“. To však u chybných hláskování selže, i když je HMM často mohou přesně označit.

Viz také

Reference

  1. ^ "POS tagy" . Sketch Engine . Lexikální výpočetní technika. 2018-03-27 . Citováno 2018-04-06 .
  2. ^ Univerzální POS tagy
  3. ^ Petrov, Slav; Das, Dipanjan; McDonald, Ryan (11. dubna 2011). „A Universal Tag-of-Speech Tagset“. arXiv : 1104,2086 [ cs.CL ].
  4. ^ Eugene Charniak
  5. ^ CLL POS-tagger
  6. ^ DeRose, Steven J. 1988. „Rozdělení gramatických kategorií statistickou optimalizací.“ Výpočetní lingvistika 14 (1): 31–39. [1]
  7. ^ Kenneth Ward Church (1988). „Stochastický program dílů a syntaktický analyzátor podstatných jmen pro neomezený text“ . ANLC '88: Proceedings of the Second Conference on Applied Natural Language Processing. Association for Computational Linguistics Stroudsburg, PA : 136. doi : 10.3115/974235.974260 .
  8. ^ POS značkování (nejmodernější)
  9. ^ Xu Sun (2014). Regularizace struktury pro strukturovanou předpověď (PDF) . Neural Information Processing Systems (NIPS). s. 2402–2410 . Citováno 2021-08-20 .
  • Charniak, Eugene. 1997. „ Statistické techniky pro analýzu přirozeného jazyka “. AI Magazine 18 (4): 33–44.
  • Hans van Halteren, Jakub Zavrel, Walter Daelemans . 2001. Zlepšení přesnosti v NLP kombinací systémů strojového učení. Výpočetní lingvistika . 27 (2): 199–229. PDF
  • DeRose, Steven J. 1990. „Stochastické metody pro řešení nejednoznačnosti gramatických kategorií v infikovaných a neinfikovaných jazycích.“ Ph.D. Disertační práce. Providence, RI: Brown University Department of Cognitive and Linguistic Sciences. Elektronická edice dostupná na [2]
  • DQ Nguyen, DQ Nguyen, DD Pham a SB Pham (2016). „Robustní přístup k učení založený na transformaci využívající pravidla pro zvrácení dolů pro označování části řeči.“ AI Communications , sv. 29, č. 3, strany 409-422. [.pdf ]