Rozpoznávání pojmenovaných entit - Named-entity recognition

Rozpoznávání pojmenovaný-entity ( NER ) (také známý jako (jmenován) identifikaci osoby , subjektu Chunking a extrakce entity ) je dílčí úkol z extrakce informací , které se snaží najít a klasifikovat pojmenované entity uvedené v nestrukturovaný text do předem definovaných kategorií, jako jsou osoby jména, organizace, místa, lékařské kódy , časové výrazy, veličiny, peněžní hodnoty, procenta atd.

Většina výzkumů systémů NER/NEE byla strukturována tak, že přebírají anotovaný blok textu, jako je tento:

V roce 2006 Jim koupil 300 akcií společnosti Acme Corp.

A vytvoření komentovaného bloku textu, který zvýrazní názvy entit:

[Jim] Osoba koupila 300 akcií [Acme Corp.] Organizace v [2006] Time .

V tomto příkladu bylo zjištěno a klasifikováno jméno osoby skládající se z jednoho tokenu, dvou tokenového názvu společnosti a dočasného výrazu.

Nejmodernější systémy NER pro angličtinu produkují výkon téměř lidský. Například nejlepší systém vstupující do MUC-7 zaznamenal 93,39% F-opatření, zatímco lidské anotátory dosáhly skóre 97,60% a 96,95%.

Platformy pro rozpoznávání pojmenovaných entit

Mezi významné platformy NER patří:

  • GATE podporuje NER v mnoha jazycích a doménách hned po vybalení, použitelné prostřednictvím grafického rozhraní a Java API.
  • OpenNLP zahrnuje rozpoznávání pojmenovaných entit na základě pravidel a statistik.
  • SpaCy nabízí rychlý statistický NER a také vizualizér pojmenovaných entit s otevřeným zdrojovým kódem.

Definice problému

Ve výrazu pojmenovaná entita slovo pojmenované omezuje úlohu na ty entity, pro které jeden nebo více řetězců, jako jsou slova nebo fráze, znamená (spravedlivě) konzistentně nějakého referenta. To úzce souvisí s rigidními označeními , jak je definoval Kripke , ačkoli v praxi se NER zabývá mnoha jmény a referenty, které nejsou filozoficky „rigidní“. Například automobilová společnost vytvořená Henrym Fordem v roce 1903 může být označována jako Ford nebo Ford Motor Company , ačkoli „Ford“ může odkazovat také na mnoho dalších entit (viz Ford ). Tuhá označení zahrnují vlastní jména i termíny pro určité biologické druhy a látky, ale vylučují zájmena (například „to“; viz rozlišení koreference ), popisy, které vybírají referenta podle jeho vlastností (viz také De dicto a de re ), a názvy druhů věcí na rozdíl od jednotlivců (například „Banka“).

Úplné rozpoznávání pojmenovaných entit je často rozděleno, koncepčně a možná i v implementacích, na dva odlišné problémy: detekce jmen a klasifikace jmen podle typu entity, na kterou odkazují (např. Osoba, organizace nebo umístění). První fáze je obvykle zjednodušena na problém segmentace: názvy jsou definovány jako souvislé rozpětí tokenů bez vnoření, takže „Bank of America“ je jediné jméno, bez ohledu na skutečnost, že uvnitř tohoto názvu je podřetězec „America“ je samo jméno. Tento problém segmentace je formálně podobný blokování . Druhá fáze vyžaduje výběr ontologie, podle které se mají organizovat kategorie věcí.

Časové výrazy a některé číselné výrazy (např. Peníze, procenta atd.) Lze také považovat za pojmenované entity v kontextu úkolu NER. Zatímco některé instance těchto typů jsou dobrým příkladem rigidních označení (např. Rok 2001), existuje také mnoho neplatných (např. V „červnu“ mám prázdniny). V prvním případě se rok 2001 vztahuje k 2001. roku gregoriánského kalendáře . Ve druhém případě se měsíc červen může vztahovat na měsíc neurčeného roku ( minulý červen , příští červen , každý červen atd.). Lze argumentovat, že definice pojmenované entity je v takových případech z praktických důvodů uvolněna. Definice pojmu pojmenovaná entita proto není přísná a často musí být vysvětlena v kontextu, ve kterém je použita.

V literatuře byly navrženy určité hierarchie pojmenovaných typů entit. Kategorie BBN , navržené v roce 2002, se používají k odpovídání na otázky a skládají se z 29 typů a 64 podtypů. Rozšířená hierarchie Sekine, navržená v roce 2002, se skládá z 200 podtypů. Více nedávno, v roce 2011, Ritter používal hierarchii založenou na běžných typech entit Freebase v průkopnických experimentech na NER nad textem na sociálních médiích .

Formální hodnocení

Aby bylo možné vyhodnotit kvalitu výstupu systému NER, bylo definováno několik opatření. Obvyklým opatřením se říká přesnost, odvolání a skóre F1 . Několik problémů však zůstává v tom, jak tyto hodnoty vypočítat.

Tato statistická opatření fungují přiměřeně dobře pro zjevné případy přesného nalezení nebo chybějící skutečné entity; a za nalezení jiné než entity. NER však může selhat mnoha jinými způsoby, z nichž mnohé jsou pravděpodobně „částečně správné“, a neměly by být považovány za úplný úspěch nebo neúspěch. Například identifikace skutečné entity, ale:

  • s menším počtem tokenů, než je požadováno (například chybí poslední token „John Smith, MD“)
  • s více žetony, než je požadováno (například včetně prvního slova „The University of MD“)
  • rozdělení sousedních entit odlišně (například považování „Smith, Jones Robinson“ za 2 vs. 3 entity)
  • přiřazení zcela špatného typu (například volání osobního jména organizace)
  • přiřazení příbuzného, ​​ale nepřesného typu (například „látka“ vs. „droga“ nebo „škola“ vs. „organizace“)
  • správně identifikovat entitu, když uživatel chtěl entitu menšího nebo většího rozsahu (například identifikaci „Jamese Madisona“ jako osobního jména, když je součástí „Univerzity Jamese Madisona“). Některé systémy NER ukládají omezení, že entity se nikdy nesmí překrývat nebo vnořovat, což znamená, že v některých případech je třeba provádět libovolná nebo specifická rozhodnutí.

Jedna příliš jednoduchá metoda měření přesnosti je pouze spočítat, jaká část všech tokenů v textu byla správně nebo nesprávně identifikována jako součást odkazů na entity (nebo jako entity správného typu). To trpí přinejmenším dvěma problémy: zaprvé, drtivá většina tokenů v textu v reálném světě není součástí názvů entit, takže základní přesnost (vždy předpovídá „není entita“) je extravagantně vysoká, obvykle> 90%; a za druhé, nesprávná předpověď celého rozsahu názvu entity není řádně penalizována (nalezení pouze osobního křestního jména, když následuje jeho příjmení, může být hodnoceno jako ½ přesnost).

Na akademických konferencích, jako je CoNLL, byla varianta skóre F1 definována následovně:

  • Přesnost je počet předpokládaných rozpětí názvů entit, které se přesně shodují s rozpětími v hodnotících datech zlatého standardu . Tj., Když je [ Osoba Hans] [ Osoba Blick] předpovězena, ale [ Osoba Hans Blick] byla požadována, přesnost pro predikované jméno je nulová. Přesnost se pak zprůměruje ze všech předpokládaných názvů entit.
  • Připomeňme si podobně počet jmen ve zlatém standardu, která se v předpovědích objevují přesně na stejném místě.
  • Skóre F1 je harmonickým průměrem těchto dvou.

Z výše uvedené definice vyplývá, že jakákoli predikce, která zmešká jeden token, obsahuje falešný token nebo má špatnou třídu, je těžkou chybou a nepřispívá pozitivně ani k přesnosti, ani k vyvolání. O tomto opatření lze tedy říci, že je pesimistické: může se stát, že mnoho „chyb“ je téměř opravitelných a může být pro daný účel adekvátních. Jeden systém může například vždy vynechat názvy jako „paní“. nebo „Ph.D.“, ale je třeba je přirovnat k systému nebo datům základní pravdy, které očekávají zahrnutí titulů. V takovém případě je každý takový název považován za chybu. Kvůli takovým problémům je důležité ve skutečnosti prozkoumat druhy chyb a rozhodnout, jak důležité jsou s ohledem na něčí cíle a požadavky.

Byly navrženy modely hodnocení založené na shodě mezi jednotlivými tokeny. Takovým modelům může být poskytnut částečný kredit za překrývající se zápasy (například pomocí kritéria Průsečík nad Unií ). Umožňují jemnější hodnocení a srovnání extrakčních systémů.

Přístupy

Byly vytvořeny systémy NER, které používají techniky založené na lingvistické gramatice a statistické modely, jako je strojové učení . Ručně vyrobené gramatické systémy obvykle získávají lepší přesnost, ale za cenu nižší vybavenosti a měsíců práce zkušených výpočetních lingvistů . Statistické systémy NER obvykle vyžadují velké množství ručně anotovaných tréninkových dat. Byly navrženy polozkontrolované přístupy, aby se část úsilí o anotaci vyhnula.

K provedení strojově naučeného NER bylo použito mnoho různých typů klasifikátorů, přičemž typickou volbou je podmíněná náhodná pole .

Problémové domény

V roce 2001 výzkum ukázal, že i nejmodernější systémy NER byly křehké, což znamená, že systémy NER vyvinuté pro jednu doménu obvykle v jiných doménách nefungovaly dobře. Značné úsilí je věnováno vyladění systémů NER tak, aby dobře fungovaly v nové doméně; to platí jak pro pravidla, tak pro trénovatelné statistické systémy.

Raná práce v systémech NER v 90. letech byla zaměřena především na extrakci z novinářských článků. Poté se pozornost zaměřila na zpracování vojenských depeší a hlášení. Pozdější fáze hodnocení automatické extrakce obsahu (ACE) zahrnovaly také několik typů neformálních stylů textu, jako jsou webové protokoly a textové přepisy z konverzačních konverzací po telefonické řeči. Asi od roku 1998 existuje velký zájem o identifikaci entit v komunitách molekulární biologie , bioinformatiky a lékařského zpracování přirozeného jazyka . Nejběžnější entitou zájmu v této oblasti byly názvy genů a genové produkty. V souvislosti se soutěží CHEMDNER byl také značný zájem o uznávání chemických entit a léčiv, kterého se zúčastnilo 27 týmů.

Aktuální výzvy a výzkum

Navzdory vysokým číslům F1 hlášeným v datové sadě MUC-7 není problém rozpoznávání pojmenovaných entit zdaleka vyřešen. Hlavní úsilí je zaměřeno na snížení práce s anotacemi využitím semi-supervizovaného učení , robustního výkonu napříč doménami a škálování na typy jemnozrnných entit. V posledních letech se mnoho projektů zaměřilo na crowdsourcing , což je slibné řešení pro získání vysoce kvalitních agregovaných lidských úsudků pro přístupy strojového učení pod dohledem a částečně pod dohledem. Dalším náročným úkolem je navrhnout modely, které se budou zabývat jazykově složitými kontexty, jako jsou Twitter a vyhledávací dotazy.

Někteří výzkumníci provedli srovnání výkonu NER z různých statistických modelů, jako jsou HMM ( skrytý Markovův model ), ME ( maximální entropie ) a CRF ( podmíněná náhodná pole ) a sady funkcí. A někteří vědci nedávno navrhli model učení na základě grafů na bázi semi-supervizoru pro jazykově specifické úkoly NER.

Nedávno vznikající úkol identifikovat „důležité výrazy“ v textu a propojit je s Wikipedií lze považovat za příklad extrémně jemného rozpoznávání pojmenovaných entit, kde typy představují skutečné stránky Wikipedie popisující (potenciálně nejednoznačné) pojmy . Níže je uveden příklad výstupu systému Wikifikace:

<ENTITY url="https://en.wikipedia.org/wiki/Michael_I._Jordan"> Michael Jordan </ENTITY> is a professor at <ENTITY url="https://en.wikipedia.org/wiki/University_of_California,_Berkeley"> Berkeley </ENTITY>

Další oblastí, která zaznamenala pokrok, ale zůstává náročná, je aplikace NER na Twitter a další mikroblogy.

Viz také

Reference